JP2005284664A - データ分析プログラムおよびデータ分析方法 - Google Patents

データ分析プログラムおよびデータ分析方法 Download PDF

Info

Publication number
JP2005284664A
JP2005284664A JP2004096893A JP2004096893A JP2005284664A JP 2005284664 A JP2005284664 A JP 2005284664A JP 2004096893 A JP2004096893 A JP 2004096893A JP 2004096893 A JP2004096893 A JP 2004096893A JP 2005284664 A JP2005284664 A JP 2005284664A
Authority
JP
Japan
Prior art keywords
data
analysis
time
series data
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004096893A
Other languages
English (en)
Inventor
Haruhiko Kondo
晴彦 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2004096893A priority Critical patent/JP2005284664A/ja
Publication of JP2005284664A publication Critical patent/JP2005284664A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 分析担当者に負担をかけることなく、分析にとって有効な代表値を項目として適切かつ自動的に設定することができ、これにより常に適正な分析結果を得ることができる信頼性にすぐれたデータ分析プログラムおよびデータ分析方法を提供する。
【解決手段】 分析対象データセットにおける各データのそれぞれの項目の中に時系列データが含まれていれば、その各時系列データを一定時間ごとの複数のブロックに分け、その分けた各ブロックのうち互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出し、その検出した類似度のうち低い類似度のブロック群を抽出し、その抽出したブロック群における各ブロックの特徴的なパターンを捕らえそのパターンに対応する値を分析用の代表値として求め、その求めた代表値を元の時系列データに置き換える。
【選択図】 図1

Description

この発明は、それぞれが複数の項目から成る多数のデータを分析することにより、各項目の相互間における特徴的なパターンまたはルールを抽出するデータ分析プログラムおよびデータ分析方法に関する。
それぞれが複数の項目から成る多数のデータを分析することにより、各項目の相互間における特徴的なパターンまたはルールを抽出するデータ分析プログラム(データマイニングプログラムともいう)が知られている。
いわゆるデータマイニングとは、統計・AI(人工知能)・機械学習などの各種手法を用いて、膨大な量のデータから特徴的なパターンまたはルールなどの有益な情報をソフトウェアの処理によって抽出する処理である。具体的な代表例として、統計処理では相関分析・重回帰分析・判別分析、AIではニューラルネットワーク学習による要因の重要度分析、機械学習ではx二乗値・情報のエントロピー・情報の純度などの各種指標に基づく分類分析などの処理が挙げられる。
このようなデータ分析プログラムを用いることにより、例えば、製造された多数の製品の中に不良品が存在する場合に、その不良の原因を特定することができる。そして、特定した原因を解消することにより、製品の歩留まりを良くすることが可能となる。
データ分析プログラムの分析対象となる分析対象データセットは、例えば製造工程で製造された製品の製品番号ごとに1つのデータを割当てたもので、その各データは、製造年月日、製造時間、製造号機番号、環境温度、環境湿度、圧力制御値、…、不良などの複数の項目から成っている。この各項目のうち、製造年月日、製造時間、製造号機番号、環境温度、環境湿度、圧力制御値、…をパラメータ項目(あるいは説明変数)といい、不良のことをターゲット項目(あるいは目的変数)と称している。このうち、パラメータ項目である環境温度、環境湿度、圧力制御値、…については、製造ラインに設置されている多数のセンサによって検知される。
パラメータ項目の1つである圧力制御値として、時間経過に伴って値が変化する波形状の時系列データが使用されることある。この時系列データは、そのままでは分析することが困難である。このため、圧力制御値の何らかの代表値(例えば最大値や平均値など)を分析担当者が多数のグラフを見比べて試行錯誤的に決定していた。
ただし、そのような試行錯誤的な決定では、分析担当者にかかる負担が大きく、しかも分析にとって有効な代表値を適切に把握できないことが多い。このような情況のもとでは、適正な分析結果を得ることができない。
この発明は、上記の事情を考慮したもので、分析担当者に負担をかけることなく、分析にとって有効な代表値を項目として適切かつ自動的に設定することができ、これにより常に適正な分析結果を得ることができる信頼性にすぐれたデータ分析プログラムおよびデータ分析方法を提供することを目的としている。
請求項1に係る発明のデータ分析プログラムは、コンピュータに、それぞれが複数の項目から成る多数のデータを分析することにより、上記各項目の相互間における特徴的なパターンまたはルールを抽出する手順、を実行させる手段を有し、その抽出する手順は、上記分析に際し、上記各データのそれぞれの項目の中に時系列データが含まれている場合に、その各時系列データを一定時間ごとの複数のブロックに分ける手順と、この分けた各ブロックのうち、互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出する手順と、この検出した類似度のうち、低い類似度のブロック群を抽出する手順と、この抽出したブロック群における各ブロックの特徴的なパターンを捕らえそのパターンに対応する値を上記分析用の代表値として求める手順と、この求めた代表値を元の時系列データに置き換える手順と、を有する。
請求項2に係る発明のデータ分析方法は、それぞれが複数の項目から成る多数のデータを分析することにより、上記各項目の相互間における特徴的なパターンまたはルールを抽出するステップを備え、その抽出ステップは、上記分析に際し、上記各データのそれぞれの項目の中に時系列データが含まれている場合に、その各時系列データを一定時間ごとの複数のブロックに分けるステップと、この分けた各ブロックのうち、互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出するステップと、この検出した類似度のうち、低い類似度のブロック群を抽出するステップと、この抽出したブロック群における各ブロックの特徴的な値を分析用の代表値として求めるステップと、この求めた代表値を元の時系列データに置き換えるステップと、を有する。
この発明によれば、分析担当者に負担をかけることなく、分析にとって有効な代表値を項目として適切かつ自動的に設定することができる。これにより、常に適正な分析結果を得ることができる信頼性にすぐれたデータ分析プログラムおよびデータ分析方法を提供できる。
以下、この発明の一実施形態について図面を参照しながら説明する。
図1はこの発明に係るデータ分析システムが搭載されたコンピュータを示しており、制御部1を有し、その制御部1に、操作部2、表示部3、プログラムメモリ4、およびデータメモリ5が接続されている。プログラムメモリ4には、当該システムの制御プログラムが記憶されているとともに、本発明のデータ分析プログラムが記憶されている。データメモリ5には、分析対象データセットファイルおよび分析データファイルが記憶される。
上記データ分析プログラムは、当該コンピュータに、それぞれが複数の項目から成る多数のデータを分析することにより、上記各項目の相互間における特徴的なパターンまたはルールを抽出する手順、を実行させる。そして、抽出する手順は、上記分析に際し、上記各データのそれぞれの項目の中に時系列データが含まれている場合に、その各時系列データを一定時間ごとの複数のブロックに分ける手順と、この分けた各ブロックのうち、互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出する手順と、この検出した類似度のうち、低い類似度のブロック群を抽出する手順と、この抽出したブロック群における各ブロックの特徴的なパターンを捕らえそのパターンに対応する値を上記分析用の代表値として求める手順と、この求めた代表値を元の時系列データに置き換える手順と、を有している。
上記分析対象データセットファイルには、図2に示す分析対象データセットが記憶される。この分析対象データセットは、例えば製造工程で製造された製品の製品番号ごとに1つのデータを割当てたもので、その各データは、製造年月日、製造時間、製造号機番号、環境温度、環境湿度、圧力制御値、…、不良などの複数の項目から成っている。この各項目のうち、製造年月日、製造時間、製造号機番号、環境温度、環境湿度、圧力制御値、…をパラメータ項目(あるいは説明変数)といい、不良のことをターゲット項目(あるいは目的変数)と称している。このうち、パラメータ項目である環境温度、環境湿度、圧力制御値、…については、製造ラインに設置されている多数のセンサによって検知される。これらセンサをまとめたのが各種センサユニット6である。ターゲット項目である不良については、“有り”を表わす符号“♯1”が使用され、“無し”を表わす符号“♯0”が使用される。
上記パラメータ項目の1つである圧力制御値は、時事刻々と変化する値をあるサンプリング間隔でディジタル化した波形状の時系列データである。この時系列データは、そのままでは分析することが困難である。
そこで、パラメータ項目として図2のように時系列データ1,2,3,…が含まれている場合、図3のフローチャートに示す処理が実行される。
分析担当者は、操作部2の操作により、時系列データの項目が含まれていることを指定する(ステップ101のYES)。この指定により、時系列データ1,2,3,…が一定時間t1ごとの複数のブロックに分けられる(ステップ102)。すなわち、図4に示すように、時系列データ1が一定時間t1ごとに第1ブロック、第2ブロック、第3ブロックと分けられ、時系列データ2,3についても一定時間t1ごとに第1ブロック、第2ブロック、第3ブロックと分けられる。そして、全ての時系列データの第1ブロック(互いに同じ時間帯)におけるデータパターンの類似度が検出される。
この類似度の検出は、具体的には、各第1ブロックが2つずつ総当りで実施される。その総当りの各検出結果の合計値あるいは平均値が、各第1ブロックの最終的な類似度として検出される。同様に、全ての時系列データの第2ブロックにおけるデータパターンの類似度が検出されるとともに、全ての時系列データの第3ブロックにおけるデータパターンの類似度が検出される。
図4の例では、第1ブロック群のデータパターンは互いにほぼ同じで類似度が高く、第3ブロック群のデータパターンも互いにほぼ同じで類似度が高い。第2ブロック群のデータパターンについては、時系列データ1の第2ブロックのみに急な立ち上がり波形があるため、類似度は低い。
こうして検出された類似度のうち、低い類似度の第2ブロック群が抽出される(ステップ104)。そして、抽出された第2ブロック群における各ブロックの特徴的なパターンが捕らえられ、そのパターンに対応する値が分析にとって有効な代表値(分析用の代表値)として求められる(ステップ105)。すなわち、図5に示すように、時系列データ1の第2ブロックにおける急な立ち上がり波形が特徴的なパターンとして捕らえられ、そのパターンに対応する値である“立ち上がりまでの時間ta(第1の代表値)”および“ピーク値Pa(第2の代表値)”が特徴的な代表値として求められる。求められた代表値は、図6に示すように各時系列データに対応付ける形で、データメモリ5に記憶される。そして、図7に示すように、求められた代表値が、データメモリ5内の分析対象データセットにおける元の時系列データ1,2,…に置き換えられる(ステップ106)。
置換え後、分析対象データセットが実際に分析される(ステップ107)。この分析により、分析対象データセットの各データから、各項目の相互間における特徴的なパターンまたはルールが抽出される。そして、この分析結果が表示部3で表示されるとともにデータメモリ5の分析データファイルに記憶される。
このようなデータ分析を行うことにより、製造された多数の製品の中に不良品が存在する場合に、その不良の原因を特定することができる。そして、特定した原因を解消することにより、製品の歩留まりを良くすることが可能となる。
とくに、分析対象データセットにおける各データのそれぞれの項目の中に時系列データが含まれていれば、その各時系列データを一定時間ごとの複数のブロックに分け、その分けた各ブロックのうち互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出し、その検出した類似度のうち低い類似度のブロック群を抽出し、その抽出したブロック群における各ブロックの特徴的なパターンを捕らえそのパターンに対応する値を分析にとって有効な代表値として求め、その求めた代表値を元の時系列データに置き換えることにより、項目の中に時系列データが含まれている場合でも、分析担当者に負担をかけることなく、分析にとって有効な代表値を項目として適切かつ自動的に設定することができる。これにより、常に適正な分析結果を得ることができ、データ分析プログラムとしての信頼性が大幅に向上する。
なお、この発明は上記実施形態に限定されるものではなく、要旨を変えない範囲で種々変形実施可能である。
この発明の一実施形態に係るデータ分析システムが搭載されたコンピュータの構成を示すブロック図。 同実施形態における分析対象データセットのフォーマットを示す図。 同実施形態の作用を説明するためのフローチャート。 同実施形態における各ブロック群のデータパターンの類似度を求める手法を説明するための図。 同実施形態において抽出されたブロック群における各ブロックの特徴的な値を示す図。 同実施形態において求められた代表値の記憶フォーマットを示す図。 同実施形態において求められた代表値が分析対象データセットの元の時系列データに置き換えられた状態を示す図。
符号の説明
1…制御部、2…操作部、3…表示部、4…プログラムメモリ、5…データメモリ

Claims (2)

  1. コンピュータに、
    それぞれが複数の項目から成る多数のデータを分析することにより、前記各項目の相互間における特徴的なパターンまたはルールを抽出する手順、を実行させる手段を有し、
    前記抽出する手順は、
    前記分析に際し、前記各データのそれぞれの項目の中に時系列データが含まれている場合に、その各時系列データを一定時間ごとの複数のブロックに分ける手順と、
    前記分けた各ブロックのうち、互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出する手順と、
    前記検出した類似度のうち、低い類似度のブロック群を抽出する手順と、
    前記抽出したブロック群における各ブロックの特徴的なパターンを捕らえそのパターンに対応する値を前記分析用の代表値として求める手順と、
    前記求めた代表値を元の時系列データに置き換える手順と、
    を有することを特徴とするデータ分析プログラム。
  2. それぞれが複数の項目から成る多数のデータを分析することにより、前記各項目の相互間における特徴的なパターンまたはルールを抽出するステップを備え、
    前記抽出するステップは、
    前記分析に際し、前記各データのそれぞれの項目の中に時系列データが含まれている場合に、その各時系列データを一定時間ごとの複数のブロックに分けるステップと、
    前記分けた各ブロックのうち、互いに同じ時間帯のブロックにおけるデータパターンの類似度を検出するステップと、
    前記検出した類似度のうち、低い類似度のブロック群を抽出するステップと、
    前記抽出したブロック群における各ブロックの特徴的なパターンを捕らえそのパターンに対応する値を前記分析用の代表値として求めるステップと、
    前記求めた代表値を元の時系列データに置き換えるステップと、
    を有することを特徴とするデータ分析方法。
JP2004096893A 2004-03-29 2004-03-29 データ分析プログラムおよびデータ分析方法 Pending JP2005284664A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004096893A JP2005284664A (ja) 2004-03-29 2004-03-29 データ分析プログラムおよびデータ分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004096893A JP2005284664A (ja) 2004-03-29 2004-03-29 データ分析プログラムおよびデータ分析方法

Publications (1)

Publication Number Publication Date
JP2005284664A true JP2005284664A (ja) 2005-10-13

Family

ID=35182979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004096893A Pending JP2005284664A (ja) 2004-03-29 2004-03-29 データ分析プログラムおよびデータ分析方法

Country Status (1)

Country Link
JP (1) JP2005284664A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008171090A (ja) * 2007-01-09 2008-07-24 Hitachi Ltd 不良解析装置、不良解析方法および不良解析プログラム
WO2011065428A1 (ja) * 2009-11-25 2011-06-03 シャープ株式会社 不良要因の分析表示方法および不良要因の分析表示装置
JP2012063928A (ja) * 2010-09-15 2012-03-29 Sharp Corp 要因分析方法、要因分析装置、及び記録媒体
CN112270473A (zh) * 2020-10-27 2021-01-26 山东鼎滏软件科技有限公司 用于油气田时序数据的预警方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008171090A (ja) * 2007-01-09 2008-07-24 Hitachi Ltd 不良解析装置、不良解析方法および不良解析プログラム
WO2011065428A1 (ja) * 2009-11-25 2011-06-03 シャープ株式会社 不良要因の分析表示方法および不良要因の分析表示装置
JP2012063928A (ja) * 2010-09-15 2012-03-29 Sharp Corp 要因分析方法、要因分析装置、及び記録媒体
CN112270473A (zh) * 2020-10-27 2021-01-26 山东鼎滏软件科技有限公司 用于油气田时序数据的预警方法及装置

Similar Documents

Publication Publication Date Title
JP5048625B2 (ja) 異常検知方法及びシステム
JP5538597B2 (ja) 異常検知方法及び異常検知システム
Lieber et al. Quality prediction in interlinked manufacturing processes based on supervised & unsupervised machine learning
JP5301310B2 (ja) 異常検知方法及び異常検知システム
EP2905665B1 (en) Information processing apparatus, diagnosis method, and program
JP5498540B2 (ja) 異常検知方法及びシステム
KR20190072652A (ko) 정보 처리 장치 및 정보 처리 방법
EP4160342A1 (en) Abnormal modulation cause identification device, abnormal modulation cause identification method, and abnormal modulation cause identification program
JP7012888B2 (ja) 異常要因推定装置、異常要因推定方法、及びプログラム
KR20200074677A (ko) Plc 제어에 따른 오류 검출 시스템
CN112000081B (zh) 基于多块信息提取和马氏距离的故障监测方法及系统
TW202006488A (zh) 資料處理裝置及資料處理方法
CN115905991A (zh) 一种基于深度学习的时间序列数据多元异常检测方法
CN115698881A (zh) 异常调制原因确定装置、异常调制原因确定方法以及异常调制原因确定程序
US20230229136A1 (en) Abnormal irregularity cause identifying device, abnormal irregularity cause identifying method, and abnormal irregularity cause identifying program
CA3189344A1 (en) Explaining machine learning output in industrial applications
WO2022044175A1 (ja) データ処理装置、データ処理方法およびデータ処理プログラム
KR102366787B1 (ko) 슬라이딩 윈도우 기법을 이용한 제조설비의 실시간 다변량 이상감지 시스템
CN117313015A (zh) 一种基于时序和多变量的时间序列异常检测方法及系统
JP2005284664A (ja) データ分析プログラムおよびデータ分析方法
Chen et al. Big data analytic for multivariate fault detection and classification in semiconductor manufacturing
JP2018132786A (ja) プラント状況情報提示システム及びプラント状況情報提示方法
JP2017130025A (ja) 要因分析装置、方法およびプログラム
JP6798968B2 (ja) ノイズ発生原因推定装置
CN117826771B (zh) 基于ai分析的冷轧机控制系统异常检测方法及系统