JP2005284664A

JP2005284664A - データ分析プログラムおよびデータ分析方法

Info

Publication number: JP2005284664A
Application number: JP2004096893A
Authority: JP
Inventors: Haruhiko Kondo; 晴彦近藤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2004-03-29
Filing date: 2004-03-29
Publication date: 2005-10-13

Abstract

【課題】分析担当者に負担をかけることなく、分析にとって有効な代表値を項目として適切かつ自動的に設定することができ、これにより常に適正な分析結果を得ることができる信頼性にすぐれたデータ分析プログラムおよびデータ分析方法を提供する。
【解決手段】分析対象データセットにおける各データのそれぞれの項目の中に時系列データが含まれていれば、その各時系列データを一定時間ごとの複数のブロックに分け、その分けた各ブロックのうち互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出し、その検出した類似度のうち低い類似度のブロック群を抽出し、その抽出したブロック群における各ブロックの特徴的なパターンを捕らえそのパターンに対応する値を分析用の代表値として求め、その求めた代表値を元の時系列データに置き換える。
【選択図】図１

Description

この発明は、それぞれが複数の項目から成る多数のデータを分析することにより、各項目の相互間における特徴的なパターンまたはルールを抽出するデータ分析プログラムおよびデータ分析方法に関する。

それぞれが複数の項目から成る多数のデータを分析することにより、各項目の相互間における特徴的なパターンまたはルールを抽出するデータ分析プログラム（データマイニングプログラムともいう）が知られている。

いわゆるデータマイニングとは、統計・ＡＩ（人工知能）・機械学習などの各種手法を用いて、膨大な量のデータから特徴的なパターンまたはルールなどの有益な情報をソフトウェアの処理によって抽出する処理である。具体的な代表例として、統計処理では相関分析・重回帰分析・判別分析、ＡＩではニューラルネットワーク学習による要因の重要度分析、機械学習ではｘ二乗値・情報のエントロピー・情報の純度などの各種指標に基づく分類分析などの処理が挙げられる。

このようなデータ分析プログラムを用いることにより、例えば、製造された多数の製品の中に不良品が存在する場合に、その不良の原因を特定することができる。そして、特定した原因を解消することにより、製品の歩留まりを良くすることが可能となる。

データ分析プログラムの分析対象となる分析対象データセットは、例えば製造工程で製造された製品の製品番号ごとに１つのデータを割当てたもので、その各データは、製造年月日、製造時間、製造号機番号、環境温度、環境湿度、圧力制御値、…、不良などの複数の項目から成っている。この各項目のうち、製造年月日、製造時間、製造号機番号、環境温度、環境湿度、圧力制御値、…をパラメータ項目（あるいは説明変数）といい、不良のことをターゲット項目（あるいは目的変数）と称している。このうち、パラメータ項目である環境温度、環境湿度、圧力制御値、…については、製造ラインに設置されている多数のセンサによって検知される。

パラメータ項目の１つである圧力制御値として、時間経過に伴って値が変化する波形状の時系列データが使用されることある。この時系列データは、そのままでは分析することが困難である。このため、圧力制御値の何らかの代表値（例えば最大値や平均値など）を分析担当者が多数のグラフを見比べて試行錯誤的に決定していた。

ただし、そのような試行錯誤的な決定では、分析担当者にかかる負担が大きく、しかも分析にとって有効な代表値を適切に把握できないことが多い。このような情況のもとでは、適正な分析結果を得ることができない。

この発明は、上記の事情を考慮したもので、分析担当者に負担をかけることなく、分析にとって有効な代表値を項目として適切かつ自動的に設定することができ、これにより常に適正な分析結果を得ることができる信頼性にすぐれたデータ分析プログラムおよびデータ分析方法を提供することを目的としている。

請求項１に係る発明のデータ分析プログラムは、コンピュータに、それぞれが複数の項目から成る多数のデータを分析することにより、上記各項目の相互間における特徴的なパターンまたはルールを抽出する手順、を実行させる手段を有し、その抽出する手順は、上記分析に際し、上記各データのそれぞれの項目の中に時系列データが含まれている場合に、その各時系列データを一定時間ごとの複数のブロックに分ける手順と、この分けた各ブロックのうち、互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出する手順と、この検出した類似度のうち、低い類似度のブロック群を抽出する手順と、この抽出したブロック群における各ブロックの特徴的なパターンを捕らえそのパターンに対応する値を上記分析用の代表値として求める手順と、この求めた代表値を元の時系列データに置き換える手順と、を有する。

請求項２に係る発明のデータ分析方法は、それぞれが複数の項目から成る多数のデータを分析することにより、上記各項目の相互間における特徴的なパターンまたはルールを抽出するステップを備え、その抽出ステップは、上記分析に際し、上記各データのそれぞれの項目の中に時系列データが含まれている場合に、その各時系列データを一定時間ごとの複数のブロックに分けるステップと、この分けた各ブロックのうち、互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出するステップと、この検出した類似度のうち、低い類似度のブロック群を抽出するステップと、この抽出したブロック群における各ブロックの特徴的な値を分析用の代表値として求めるステップと、この求めた代表値を元の時系列データに置き換えるステップと、を有する。

この発明によれば、分析担当者に負担をかけることなく、分析にとって有効な代表値を項目として適切かつ自動的に設定することができる。これにより、常に適正な分析結果を得ることができる信頼性にすぐれたデータ分析プログラムおよびデータ分析方法を提供できる。

以下、この発明の一実施形態について図面を参照しながら説明する。

図１はこの発明に係るデータ分析システムが搭載されたコンピュータを示しており、制御部１を有し、その制御部１に、操作部２、表示部３、プログラムメモリ４、およびデータメモリ５が接続されている。プログラムメモリ４には、当該システムの制御プログラムが記憶されているとともに、本発明のデータ分析プログラムが記憶されている。データメモリ５には、分析対象データセットファイルおよび分析データファイルが記憶される。

上記データ分析プログラムは、当該コンピュータに、それぞれが複数の項目から成る多数のデータを分析することにより、上記各項目の相互間における特徴的なパターンまたはルールを抽出する手順、を実行させる。そして、抽出する手順は、上記分析に際し、上記各データのそれぞれの項目の中に時系列データが含まれている場合に、その各時系列データを一定時間ごとの複数のブロックに分ける手順と、この分けた各ブロックのうち、互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出する手順と、この検出した類似度のうち、低い類似度のブロック群を抽出する手順と、この抽出したブロック群における各ブロックの特徴的なパターンを捕らえそのパターンに対応する値を上記分析用の代表値として求める手順と、この求めた代表値を元の時系列データに置き換える手順と、を有している。

上記分析対象データセットファイルには、図２に示す分析対象データセットが記憶される。この分析対象データセットは、例えば製造工程で製造された製品の製品番号ごとに１つのデータを割当てたもので、その各データは、製造年月日、製造時間、製造号機番号、環境温度、環境湿度、圧力制御値、…、不良などの複数の項目から成っている。この各項目のうち、製造年月日、製造時間、製造号機番号、環境温度、環境湿度、圧力制御値、…をパラメータ項目（あるいは説明変数）といい、不良のことをターゲット項目（あるいは目的変数）と称している。このうち、パラメータ項目である環境温度、環境湿度、圧力制御値、…については、製造ラインに設置されている多数のセンサによって検知される。これらセンサをまとめたのが各種センサユニット６である。ターゲット項目である不良については、“有り”を表わす符号“♯１”が使用され、“無し”を表わす符号“♯０”が使用される。

上記パラメータ項目の１つである圧力制御値は、時事刻々と変化する値をあるサンプリング間隔でディジタル化した波形状の時系列データである。この時系列データは、そのままでは分析することが困難である。

そこで、パラメータ項目として図２のように時系列データ１，２，３，…が含まれている場合、図３のフローチャートに示す処理が実行される。
分析担当者は、操作部２の操作により、時系列データの項目が含まれていることを指定する（ステップ１０１のＹＥＳ）。この指定により、時系列データ１，２，３，…が一定時間ｔ１ごとの複数のブロックに分けられる（ステップ１０２）。すなわち、図４に示すように、時系列データ１が一定時間ｔ１ごとに第１ブロック、第２ブロック、第３ブロックと分けられ、時系列データ２，３についても一定時間ｔ１ごとに第１ブロック、第２ブロック、第３ブロックと分けられる。そして、全ての時系列データの第１ブロック（互いに同じ時間帯）におけるデータパターンの類似度が検出される。

この類似度の検出は、具体的には、各第１ブロックが２つずつ総当りで実施される。その総当りの各検出結果の合計値あるいは平均値が、各第１ブロックの最終的な類似度として検出される。同様に、全ての時系列データの第２ブロックにおけるデータパターンの類似度が検出されるとともに、全ての時系列データの第３ブロックにおけるデータパターンの類似度が検出される。

図４の例では、第１ブロック群のデータパターンは互いにほぼ同じで類似度が高く、第３ブロック群のデータパターンも互いにほぼ同じで類似度が高い。第２ブロック群のデータパターンについては、時系列データ１の第２ブロックのみに急な立ち上がり波形があるため、類似度は低い。

こうして検出された類似度のうち、低い類似度の第２ブロック群が抽出される（ステップ１０４）。そして、抽出された第２ブロック群における各ブロックの特徴的なパターンが捕らえられ、そのパターンに対応する値が分析にとって有効な代表値（分析用の代表値）として求められる（ステップ１０５）。すなわち、図５に示すように、時系列データ１の第２ブロックにおける急な立ち上がり波形が特徴的なパターンとして捕らえられ、そのパターンに対応する値である“立ち上がりまでの時間ｔａ（第１の代表値）”および“ピーク値Ｐａ（第２の代表値）”が特徴的な代表値として求められる。求められた代表値は、図６に示すように各時系列データに対応付ける形で、データメモリ５に記憶される。そして、図７に示すように、求められた代表値が、データメモリ５内の分析対象データセットにおける元の時系列データ１，２，…に置き換えられる（ステップ１０６）。

置換え後、分析対象データセットが実際に分析される（ステップ１０７）。この分析により、分析対象データセットの各データから、各項目の相互間における特徴的なパターンまたはルールが抽出される。そして、この分析結果が表示部３で表示されるとともにデータメモリ５の分析データファイルに記憶される。

このようなデータ分析を行うことにより、製造された多数の製品の中に不良品が存在する場合に、その不良の原因を特定することができる。そして、特定した原因を解消することにより、製品の歩留まりを良くすることが可能となる。

とくに、分析対象データセットにおける各データのそれぞれの項目の中に時系列データが含まれていれば、その各時系列データを一定時間ごとの複数のブロックに分け、その分けた各ブロックのうち互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出し、その検出した類似度のうち低い類似度のブロック群を抽出し、その抽出したブロック群における各ブロックの特徴的なパターンを捕らえそのパターンに対応する値を分析にとって有効な代表値として求め、その求めた代表値を元の時系列データに置き換えることにより、項目の中に時系列データが含まれている場合でも、分析担当者に負担をかけることなく、分析にとって有効な代表値を項目として適切かつ自動的に設定することができる。これにより、常に適正な分析結果を得ることができ、データ分析プログラムとしての信頼性が大幅に向上する。

なお、この発明は上記実施形態に限定されるものではなく、要旨を変えない範囲で種々変形実施可能である。

この発明の一実施形態に係るデータ分析システムが搭載されたコンピュータの構成を示すブロック図。同実施形態における分析対象データセットのフォーマットを示す図。同実施形態の作用を説明するためのフローチャート。同実施形態における各ブロック群のデータパターンの類似度を求める手法を説明するための図。同実施形態において抽出されたブロック群における各ブロックの特徴的な値を示す図。同実施形態において求められた代表値の記憶フォーマットを示す図。同実施形態において求められた代表値が分析対象データセットの元の時系列データに置き換えられた状態を示す図。

符号の説明

１…制御部、２…操作部、３…表示部、４…プログラムメモリ、５…データメモリ

Claims

コンピュータに、
それぞれが複数の項目から成る多数のデータを分析することにより、前記各項目の相互間における特徴的なパターンまたはルールを抽出する手順、を実行させる手段を有し、
前記抽出する手順は、
前記分析に際し、前記各データのそれぞれの項目の中に時系列データが含まれている場合に、その各時系列データを一定時間ごとの複数のブロックに分ける手順と、
前記分けた各ブロックのうち、互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出する手順と、
前記検出した類似度のうち、低い類似度のブロック群を抽出する手順と、
前記抽出したブロック群における各ブロックの特徴的なパターンを捕らえそのパターンに対応する値を前記分析用の代表値として求める手順と、
前記求めた代表値を元の時系列データに置き換える手順と、
を有することを特徴とするデータ分析プログラム。
それぞれが複数の項目から成る多数のデータを分析することにより、前記各項目の相互間における特徴的なパターンまたはルールを抽出するステップを備え、
前記抽出するステップは、
前記分析に際し、前記各データのそれぞれの項目の中に時系列データが含まれている場合に、その各時系列データを一定時間ごとの複数のブロックに分けるステップと、
前記分けた各ブロックのうち、互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出するステップと、
前記検出した類似度のうち、低い類似度のブロック群を抽出するステップと、
前記抽出したブロック群における各ブロックの特徴的なパターンを捕らえそのパターンに対応する値を前記分析用の代表値として求めるステップと、
前記求めた代表値を元の時系列データに置き換えるステップと、
を有することを特徴とするデータ分析方法。