JP4446231B2 - 製造データ分析方法及び装置 - Google Patents

製造データ分析方法及び装置 Download PDF

Info

Publication number
JP4446231B2
JP4446231B2 JP2003517801A JP2003517801A JP4446231B2 JP 4446231 B2 JP4446231 B2 JP 4446231B2 JP 2003517801 A JP2003517801 A JP 2003517801A JP 2003517801 A JP2003517801 A JP 2003517801A JP 4446231 B2 JP4446231 B2 JP 4446231B2
Authority
JP
Japan
Prior art keywords
data
analysis
variable
value
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003517801A
Other languages
English (en)
Other versions
JP2005532671A (ja
Inventor
ショウン ビー スミス
ブライアン ピー グリグスビー
ハング ジェイ ファム
トニー エル デイヴィス
マンジュナス エス イェダトーア
ウィリアム アール ザ サード クレメンツ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Applied Materials Inc
Original Assignee
Applied Materials Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/194,920 external-priority patent/US6965895B2/en
Application filed by Applied Materials Inc filed Critical Applied Materials Inc
Publication of JP2005532671A publication Critical patent/JP2005532671A/ja
Application granted granted Critical
Publication of JP4446231B2 publication Critical patent/JP4446231B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • General Factory Administration (AREA)

Description

本発明の1またはそれ以上の実施例は、限定するものではないが、例えば、集積回路(“IC”)製造または組立て工場(以下、“半導体製造工場”または“工場”という)において得られる情報を分析するための方法及び装置に関する。
図1は、従来技術による集積回路(以下、“IC”という)の製造または組立て工場(以下、“半導体製造工場”または“工場”という)内に存在する歩留まり分析ツールインフラストラクチャを示している。図1に示すように、マスクショップ1000はレティクルを生産する。図1に更に示すように、作業進行追跡システム1020(以下、“WIP(ワーク・イン・プログレス)追跡システム1020”という)は、ウェーハまたは基体上にICを製造(及び試験)するために使用される工場内の諸処理ステップを通して進行するウェーハを追跡する。本明細書においては、“ウェーハ”及び“基体”という用語を互換的に使用し、限定するものではないが、例えば、ガラス基体を含む全ての種類の半導体ウェーハ、または基体を意味するものとする。WIP追跡システム1020は、限定するものではないが、例えば、インプラントツール1030、拡散・酸化・堆積ツール1040、化学・機械的平面化ツール1050(以下、“CMPツール1050”という)、レジストコーティングツール1060(限定するものではないが、例えば、フォトレジストをコーティングするためのツール)、ステッパツール1070、現像装置ツール1080、エッチング/洗浄ツール1090、レーザ試験ツール1100、パラメータ試験ツール1110、ウェーハ分類ツール1120、及び最終試験ツール1130を通るウェーハを追跡する。これらのツールは、ICを生産する工場において使用されるツールの殆どを表している。しかしながら、これらは単なる例示に過ぎず、本発明を限定するものではない。
図1に更に示すように、工場はツールレベル測定を入手するための、及び種々のプロセスを自動化するための多くのシステムを含む。例えば、図1に示すように、ツールレベル測定及び自動化システムは、例えば、処理ツール管理(例えば、プロセスレシピ管理)及びツールセンサ測定データ収集及び分析のようなツールレベル測定及び自動化タスクを可能にするためのツールデータベース1210を含む。例えば、限定するものではなく単なる例示に過ぎないが、PCサーバ1230は、プロセスレシピデータを(レシピモジュール1233を通して)ツールへダウンロードし、ツールセンサから(センサモジュール1235から)ツールセンサ測定データを受信し、プロセスレシピデータ及びツールセンサ測定データを例えばツールデータベース1210内へ格納する。
図1に更に示すように、工場は多くのプロセス測定ツールを含んでいる。例えば、欠陥測定ツール1260及び1261、レティクル欠陥測定ツール1265、オーバレイ欠陥測定ツール1267、欠陥見直しツール1270(以下、“DRT1270”という)、限界寸法(クリティカルディメンション)測定ツール1280(以下、“CD測定ツール1280”という)、及び電圧コントラスト測定ツール1290が含まれ、これらのプロセス測定ツールは、プロセス評価ツール1300によって駆動される。
図1に更に示すように、特定用途向け分析ツールが、あるプロセス測定ツールを駆動する。例えば、欠陥管理者ツール1310は欠陥測定ツール1260及び1261が生成したデータを分析し、レティクル分析ツール1320はレティクル欠陥測定ツール1267が生成したデータを分析し、CD分析ツール1340はCD測定ツール1280が生成したデータを分析し、テストウェアツール1350はレーザ試験ツール1100、パラメトリック試験ツール1110、ウェーハ分類ツール1210、及び最終試験ツール1130が生成したデータを分析する。
図1に更に示すように、データベース追跡/相関ツールは、特定用途向け分析ツールの1つまたはそれ以上からのデータを、通信ネットワークを通して入手する。例えば、統計的分析ツール1400は、例えば欠陥管理者ツール1310、CD分析ツール1340、テストウェア1350からデータを入手し、そのデータを関係型(リレーショナル)データベース1410内へ格納する。
最後に、データ抽出データベース1420内に格納されているデータに対して歩留まり管理方法論が適用される。このデータは、通信ネットワークを通してWIP追跡システム1020及びツールデータベース1210から抽出される。
従来技術においては、工場内において使用される歩留まり管理システムが多くの問題を抱えている。図2は、工場内において使用されている従来技術のプロセスを示しており、以下この従来のプロセスをラインの終わり(エンド・オブ・ライン)監視という。ラインの終わり監視は、“終了標識(trailing indicator)”フィードバックループを使用するプロセスである。例えば、図2にボックス2000で示すように、限定するものではないが、例えば、低歩留まり、低品質、及び/またはデバイスの低速のような終了標識が識別される。次いで、ボックス2010において“不良ロット”メトリックス(即ち、終了標識を発生したウェーハロットに関連する測定)がメトリックスの仕様(以下、スペックという)と比較される。もしメトリックスが“スペック外”であればプロセスはボックス2030へ進み、“スペック外”イベントに対する動作が遂行され、“スペック外”状態を補正するためのフィードバックがプロセス制御エンジニアへ供給される。一方、もしメトリックスが“スペック内”にあればプロセスはボックス2020へ進み、障害に対する過去の履歴のプラント知識が分析される。もしこれが既に識別済みの問題であれば、プロセスはボックス2040へ進む。識別済みの問題でなければ(即ち、先行知識が存在しなければ)、プロセスはボックス2050へ進む。ボックス2040において、既に識別済みの問題に関連するロットまたはツールコメントに対する動作が遂行され、先に遂行された動作と同一の型の動作を遂行するためのフィードバックがプロセス制御エンジニアへ供給される。ボックス2050に示すように、ツールまたはデバイス処理履歴データと障害との相関の存否が判断される。もし相関が見出されればプロセスはボックス2060へ進み、もし相関が見出されなければプロセスはボックス2070へ進む。ボックス2060において“不良”ツールまたはデバイス処理が“固定”(フィックス)され、フィードバックがプロセス制御エンジニアへ供給される。ボックス2070において、工場保守ジョブが遂行される。
上述したラインの終わり監視プロセスには、幾つかの問題が付随する。例えば、(a)幾つかの問題によって低歩留まりが発生することが多く、(b)理論的に未確認の事由から屡々“スペック”限界に到達し、(c)過去の製品障害履歴の知識が文書化されないことが多いか、または、たとえ文書化されていてもその文書が広く配布されておらず、(d)データ及びデータアクセスが断片化され、そして(e)相関分析を遂行する前に作業仮説を生成しなければならず、相関の数が極めて多く、相関分析を遂行するために使用される資源が制限されている。
例えば、データフィードバック及び問題固定化の典型的なエンジニアリングプロセスは典型的には次の諸ステップを含む。即ち、(a)問題を定義し(これが出現する典型的な時間は、約1日である)、(b)例えば、歩留まりのパーセンテージ、欠陥のパーセンテージ等のようなキー分析変数を選択し(これが出現する典型的な時間は、約1日である)、(c)選択されたキー分析変数異常についての仮説を形成し(これが出現する典型的な時間は、約1日である)、(d)種々の“ガットフィール”(gut-feel)方法を使用して仮説をランク付けし(これが出現する典型的な時間は、約1日である)、(e)実験戦略及び実験試験計画を開発し(これが出現する典型的な時間は、約1日である)、(f)実験を実施してデータを収集し(これが出現する典型的な時間は、約15日である)、(g)モデルを適合させ(これが出現する典型的な時間は、約1日である)、(h)モデルを診断し(これが出現する典型的な時間は、約1日である)、(i)モデルを解釈し(これが出現する典型的な時間は、約1日である)、(j)確認試験を実施して改善を確認する(これが出現する典型的な時間は、約20日である)か、または改善が見られなければ次の実験を(c)から開始して実施する(典型的には5回の繰り返しを含む)。その結果、1つの問題を固定するための典型的な時間は、約7ヶ月になる。
ラインの幅が縮小され、ICを製造するためにより新しい技術及び材料(例えば、銅金属化、及び新しい低k誘電性フィルム)が使用されるにつれて、欠陥(その処理または誘起した汚染)を減少させることが益々重大になっている。原因を根絶させるための時間が欠陥を解消するためのキーである。これらの問題は、300mmウェーハへ移行することによってより容易ではなくなる。従って、同時に収束する多くのことと共に、歩留まりランピング( ramping )が主要障害になりつつある。
上述した諸問題に加えて、半導体工場は欠陥を監視し、欠陥密度を減少させ続ける努力の一環として、欠陥検出装置及び欠陥データ管理ソフトウェアに大量の資本を投ずるというさらなる問題が発生している。欠陥データ管理ソフトウェアにおける現行従来技術は、以下のデリバラブル(deliverables)の1またはそれ以上の開発を含む。即ち、(a)欠陥傾向(例えば、欠陥の型及びサイズによるパレート(paretos))、(b)ウェーハレベル欠陥対歩留まりチャート、及び(c)型及びサイズによる特別及び手動でのキル比。これらの各デリバラブル毎の主要欠陥は、ユーザが何をプロットすることを望んでいるかという事前知識を彼/彼女が有していなければならないことである。しかしながら、データが大き過ぎるために、ユーザが原因を根絶しようとする確率は低い。更に、たとえ各変数毎にチャートが生成されるとしても、チャートの数が莫大になればユーザがこれらのチャートを1つ1つ分析することは実質的に不可能である。
上述した諸問題に加えて、半導体工場において使用されるデータの殆どは、“間接計測データ”であるという問題が存在する。この文脈における“間接計測”とは間接メトリックスで収集されたデータのことであり、この間接メトリックスは予測可能な方法で工場における製造プロセスに関係付けられているものとする。例えば、IC上に金属ラインをパターン化した後に、限界寸法走査電子顕微鏡(“CD−SEM”)を使用して、所与のセットのウェーハ上の種々の位置における金属ラインの幅を測定することができる。半導体工場内の計測インフラストラクチャに、1つのビジネス値を割当てることができる。これは工場における“不良に向かった”プロセスの進行を停止させるために、計測データ測定を如何に速く活動可能な情報に変えるかに関係している。しかしながら、実際には、間接測定は莫大な潜在的問題を伴い、これらの問題が“活動可能な”工場処理ツールまたは処理ツール処理状態を指定する明白な関係が欠如することが多い。処理ツールセットと半導体工場の殆どの間接測定との間に明白な関係が欠如するために、エンジニアリングスタッフィングインフラストラクチャにかなりの投資を必要とし、また原因となるデータ内の関係を確立するために要する予測不能な時間フレームに起因するかなりの“スクラップ”材料コストがもたらされる。
計測に加えて、ここ数年以内に、ウェーハの処理時間中の半導体ウェーハ処理ツールの動作状態を記録するように設計されたデータ抽出システムを開発するために多額の資本が投入されてきた。現在では時間をベースとするプロセスツールデータが、少なくとも幾つかの工場における処理ツールの幾分かに対して利用可能ではあるが、生産されつつあるICに対する処理ツールの性能を最適化するためにこのデータを使用することは制限されている。これは、処理ツール時間データをどのように表すかと、IC性能データをどのように表すかとの間が切り離されていることが原因である。例えば、ICについてのデータ測定が、ウェーハの所与のバッチ(以下、ロットという)、または所与のウェーハ、またはウェーハ上のICの所与のサブセットに関連付けられることは間違いない。一方、処理ツール時間データからのデータ測定は、ウェーハ処理中の特定時点における処理ツール内の離散した動作状態として表される。例えば、もし処理ツールが孤立した処理チャンバを有していれば、所与のウェーハがその処理チャンバ内に留まる間は各ミリ秒毎にチャンバ圧力が記録される。この例では、任意のウェーハのためのチャンバ圧力データが1000の独自測定のシリーズとして記録される。ICデータメトリックスは単一の離散した測定であるので、このデータフォーマットは所与のICデータメトリックスを有する分析テーブル内に“併合”することはできない。処理ツール時間データを離散したデータメトリックスに“併合”することに伴う困難さから、処理ツール時間データを工場効率を最適化する手段として使用することが制限されるのである。
上述した諸問題に加えて、工場において生成されたデータを格納するための関係型データベースの使用を含む別の問題が存在している。限定するものではないが、例えばオラクル(ORACLE)及びSQLサーバーのような関係型データベースが、データ要素間の定義された、または割当てられた関係を有するデータを編成して引用する必要があることに起因する。使用する場合、これらの関係型データベース技術のユーザ(例えば、プログラマ)は、各データ要素を如何に他のデータ要素に関係付けるかを予め定義するスキーマを供給する。データベースが作成された後、そのデータベースのアプリケーションユーザは予め確立されている関係に基づいてデータベース内に含まれている情報に関する問い合わせを行う。因みに、従来技術の関係型データベースは、これらの関係型データベースを工場で使用する時に問題をもたらす2つの固有の問題を有している。第1の問題は、モデル化されるデータのための特定のスキーマ(即ち、関係及びデータベーステーブル)を作成する前に、ユーザ(例えば、プログラマ)がそのデータを熟知していなければならないことである。このスキーマは、本質的にデータ要素関係をセーフガードする制御を実現する。データをデータベース内に配置するソフトウェア、及びデータベースからデータを検索するためのアプリケーションソフトウェアは、データベース内の何れか2つのデータ要素間のスキーマ関係を使用しなければならない。第2の問題は、小さいデータトランザクション(例えば銀行業務、航空券販売等)を検索する場合は、関係型データベースは優れたTPS定格(即ち、トランザクション処理スペック)を有しているが、特に工場において歩留まりを改善する場合に要求されるデータウェアハウジング、及びデータマインニング(mining)のような決定支援システムを援助するために大量のデータセットを生成する場合には、その動作が不十分なことである。
上述した諸問題に加えて、生産歩留まり問題を定量化するために半導体製造産業において使用される従来技術のデータ分析アルゴリズムの結果としての問題が存在している。これらのアルゴリズムは、線形回帰分析、及び決定樹(decision tree)データマインニング方法の手動適用を含む。これらのアルゴリズムは、次のような2つの基本的問題を抱えている。即ち、(a)所与のデータセット内には殆ど常に1より多くの歩留まりにインパクトを与える問題が存在しているが、これらのアルゴリズムは所与の工場内の分離した1組の歩留まりにインパクトを与える諸問題を定量化するのではなく、“1つの”答えを見出すために最良に使用されている。(b)これらのアルゴリズムは、分析の“ハンドオフ”を完全に自動化することはできない。それは、線形回帰分析は分析に先立って変数カテゴリを手動で準備し、定義する必要があり、また決定樹データマインニングは分析内の目標変数を定義するために、並びに分析自体のための種々のパラメータを定義するために“人間のユーザ”を必要とするからである。
上述した諸問題に加えて、かなり大きいデータセットをデータマインニングすることを原因とする別の問題が存在している。例えば、従来技術によれば、分析されるデータ内の変数のサイズ及び数を減少させるようにデータセットを濾波するために、あるレベルのドメイン知識(即ち、データのストリーム内のどのフィールドが“関心のある”情報を表しているかに関する情報)を使用した後に限って、かなり大きいデータセットをデータマインニングすることが可能である。縮小されたデータセットを生成した後に、それはエキスパートが価値システムを定義(即ち、どれが重要であるかの定義)することによって既知の分析技術/モデルに対してマインニングされ、分析システムを駆動すべき“優良質問”が推測される。この方法を有効なものとするために、典型的にはツールが手動で構成され、結果を最終的に評価する人々によって操作される。データを収集し、データセットをマインニングするのに使用される適切な質問を形成するためには、産業専門知識、正確に言えば、特定のプロセスの知識が必要であるから、通常これらの人々は、評価されつつあるプロセスに責任のある人々と同一の人々である。これらの産業エキスパートに所要のデータマインニング及び相関タスクの責任を持たせることは、彼等の時間の使用が非効率になり、またデータマインニングのプロセスは手動で介入することによって大きく駆動されるから、プロセス毎に得られる結果に矛盾がもたらされるようになる。最終的には、たとえ成功したとしても“利益”の殆どが失われるか、または低下する。例えば、データを手動で処理して分析する時間のかかるプロセスは人時及び装置が高価になり、またもし結果が十分に速く達成されなければ発見された変化を実行するための十分な時間がなくなる。
上述した諸問題に加えて、以下のような別の問題も存在している。歩留まりの向上及び工場効率改善監視努力の重要な部分は、ラインの終わり機能試験データ、インラインパラメトリックデータ、インライン計測データ、及びICを製造するために使用される特定の工場処理ツール間の相関に集中されていた。これらの相関を遂行するには、工場処理ツールデータの全ての列(カラム)と、指定された“データの数値列”との関係(どの処理ツールデータをカテゴリ別属性として事前提示するか)を決定する必要がある。良好な相関とは、その列内のカテゴリの1つを有する処理ツールの特定の列(即ち、カテゴリ別)が、選択された数値列(即ち、従属変数または“DV”と呼ぶ)のための値の望ましくない範囲と相関することと定義されている。このような分析の目的は、望ましくないDVの読みの原因であると推測されるカテゴリ(例えば、工場処理ツール)を識別すること、及び処理ツールは正しく動作していることをエンジニアが確認できるようになる時点まで、それを工場処理の流れから排除することである。半導体工場データベースには莫大な数のツール及び“ツール状”カテゴリ別データが与えられるから、手動スプレッドシート探索技術(“コモナリティスタディ”と呼ばれる)を使用して不良処理ツールを分離することは困難である。この制約にも拘わらず、半導体産業には、不良処理ツールまたはカテゴリ別処理データを検出するための技術が存在している。これは、例えば、ロットコモナリティ分析を遂行することによって行うことができる。しかしながら、この技術は特定のプロセス層の事前知識を必要とし、またもしユーザが障害の本質を十分に理解していなければ、時間を消費しかねない。別の技術は、ニューラルネットワークまたは決定樹のような進歩したデータマインニングアルゴリズムを使用することである。これらの技術は効果的ではあるが、データマインニングには該博なドメイン専門知識が必要であるので、それらをセットアップするのを困難にしている。更に、これらのデータマインニングアルゴリズムは、このような包括的データ分析技術に要求される大量のアルゴリズムオーバヘッドのために低速であることが知られている。上述した分析技術を使用すると、ユーザは、典型的に、不良処理ツールを見出した後にそれを実際に固定するのに費やす努力よりも多くの時間を基本的な、または複雑な分析によって問題を識別する試みに費やすようになる。
最後に、上述した諸問題に加えて、以下のような別の問題も存在している。大きいデータセット内の相関の探索について通常の線形統計量と比較する場合には、ニューラルネットワーク、規則誘導( rule induction )探索、及び決定樹のようなデータマインニングアルゴリズムがより望ましい方法であることが多い。しかしながら、Windows 2000サーバーのような低価格ハードウェアプラットフォーム上で大きいデータセットを分析するためにこれらのアルゴリズムを使用する場合、幾つかの限界がある。これらの限界の中で主たるものは、これらの技術によって要求されるランダムアクセスメモリ及び拡張CPUローディングの使用である。大きい半導体製造データセット(例えば、>40Mバイト)をニューラルネットワーク分析するには数時間以上かかることが多く、Windows 2000オペレーティングシステムの場合、2GバイトRAM限界を突破することさえあり得る。更に、これらの大きいデータセットを規則誘導または決定樹分析するとしても(必ずしも単一WindowsプロセスのためのRAM限界を破ることはないが)、分析を完了させるまでに数時間を必要とし得る。
当分野においては、上述した諸問題の1つまたはそれ以上を解消する要望が存在している。
本発明の1またはそれ以上の実施例は、上述した当分野における要望を有利に満足させる。詳述すれば、本発明の一実施例は、集積回路製造工場(“工場”)において入手した情報をデータマインニングする方法である。本方法は、(a)工場内においてデータを発生するシステム、ツール、及びデータベースの1またはそれ以上を通して工場からデータを収集するか、または工場からデータを収集するステップと、(b)データをフォーマットし、フォーマットされたデータをソースデータベース内に格納するステップと、(c)データマインニングに使用するためのデータの部分を、ユーザ指定の構成ファイルに従って抽出するステップと、(d)データの抽出された部分を、ユーザ指定の構成ファイルに従ってデータマインニングするステップと、(e)データマインニングの結果を結果データベース内に格納するステップと、(f)結果へのアクセスを与えるステップとを含む。
本発明の1またはそれ以上の実施例は、特に、(a)集積回路(“IC”)製造工場(“半導体工場”または“工場”)データフィード(即ち、マルチフォーマットデータファイルストリーミングを確立することによる)(b)限定するものではないが、例えばオラクル(Oracle)ファイルシステムにおいて10,000の測定を索引する(限定するものではないが、例えばハイブリッドデータベースのような10,000の測定を索引する)データベース、(c)分析のための多重データセットの迅速エキスポートを有する決定分析データフィード、(d)“データ価値システム”を使用して問い合わせる自動化された質問を伴う無支援分析自動化、(e)限定するものではないが、例えばニューラルネットワーク、規則誘導、及び多変体統計量のような多重データマインニング技術、(f)調査結果を分類するための複数のフォローオン統計量を有する視覚化ツール、及び(g)迅速展開を与える終端間ウェブ引渡しシステムのためのアプリケーションサービスプロバイダ(“ASP”)の1またはそれ以上を提供することによって歩留まりを向上させることが可能である。本発明のこれらの実施例の1またはそれ以上を使用することによって、典型的なデータフィードバック及び問題固定のためのエンジニアリングプロセスは、典型的に、(a)自動化問題定義(これが出現する典型的な時間は約0日である)、(b)歩留まりのパーセンテージ、欠陥のパーセンテージ等のような全てのキー分析変数の監視(これが出現する典型的な時間は約0日である)、(c)全てのキー分析変数異常に関する仮説の形成(これが出現する典型的な時間は約0日である)、(d)統計的信頼レベルと、可固定性基準を使用しての仮説のランク付け(即ち、(例えば、経験に基づくことができる構成ファイル内に)供給される命令。これは、限定するものではないが、例えばある人口知能のための重み付けを含む仮説を、どのようにスコア付与または定格付けするかを指示する。例えばツールデータのようなカテゴリ別データのための可固定性基準は、例えばプローブデータのような数値データのための可固定性基準とは異なることに注目されたい)(これが出現する典型的な時間は約1日である)、(e)実験戦略及び実験試験計画の開発(これが出現する典型的な時間は約1日である)、(f)実験の遂行とデータの収集(これが出現する典型的な時間は約15日である)、(g)モデルの適合(これが出現する典型的な時間は約1日である)、(h)モデルの診断(これが出現する典型的な時間は約1日である)、(i)モデルの解釈(これが出現する典型的な時間は約1日である)、及び(j)繰り返しを行わずに改善を検証するための試験確認(これが出現する典型的な時間は約20日である)の諸ステップを含むことになろう。その結果、1つの問題を固定するための典型的な時間は、約1.5月である。
図3は、本発明の1またはそれ以上の実施例に従って製造された工場データ分析システム3000と、IC製造プロセスと共に使用するために本発明の1またはそれ以上の実施例にデータマインニングを適用する場合における生のフォーマットされていない入力からデータマインニング結果までのデータの自動化された流れとを示している。本発明の1またはそれ以上の実施例によれば、分析プロセスの各ステップ、及び分析プロセスの1つの相から次の相への流れを自動化することによって、プロセスを手動でデータマインニングし、データマインニングの結果をプロセス改善に変える欠点を大幅に減少または排除することができる。更に、本発明の1またはそれ以上のさらなる実施例によれば、データ分析セットアップのためのユーザまたはクライアントアクセスが提供され、またインターネットウェブブラウザのような一般的に利用可能な既設のインタフェースを介して結果を見ることが可能である。このようなウェブブラウザインタフェースを実現するためには、アプリケーションサービスプロバイダ(“ASP”)システム分配方法(即ち、当分野においては公知のウェブをベースとするデータ転送方法)が好ましい方法である。また、1またはそれ以上の工場サイトからのデータに関してデータ収集及び分析を遂行する1つの工場によって、または各会社毎に1またはそれ以上の工場サイトからのデータに関してデータ収集及び分析を遂行する幾つかの会社によって、図3に示す工場データ分析システムの実施例の1またはそれ以上を使用することができる。更に、1またはそれ以上のこれらの実施例の場合、データが会計管理方法による機密保護によって隔離されている場合には、ユーザまたはクライアントセットアップ及び/またはビューイング結果は、同一会社の異なる部署からの異なるユーザまたはクライアントでも、または異なる会社の異なる部署からの異なるユーザまたはクライアントでもあり得る。
本発明の1またはそれ以上の実施例においては、(a)データは自動的に検索され、処理され、そしてフォーマットされるので、データマインニングツールはそのデータを用いて作業することができ、(b)価値システムが適用され、質問が自動的に生成されるので、データマインニングツールは関連結果を戻し、そして(c)結果が自動的に通知され、遠隔的にアクセス可能であるので、結果に基づく補正動作を迅速に行うことができる。
図3に示すように、ASPデータ転送モジュール3010は、限定するものではないが、例えば、(a)MES(“測定実行システム”)からのロット機器履歴データ、(b)機器インタフェースからのデータ、(c)工場が準備したデータソースからの処理ツールレシピ及び処理ツール試験プログラム、及び(d)限定するものではないが、例えば、プローブ試験データ、E試験(電気試験)データ、欠陥測定データ、遠隔診断データ収集、及び工場が準備したデータソースからの事後処理データのような、工場内の異なる型のデータソースの何れか1つまたは複数からの異なる型のデータを取得するデータ収集プロセスまたはモジュールである。本発明の1またはそれ以上の実施例によれば、ASPデータ転送モジュール3010は、限定するものではないが、例えば、ツール及び/または直接データソースからの生データ出力を格納する顧客データ収集データベース(集中化、またはそれ以外)からの顧客及び/またはツールが指令したフォーマット形状で伝送されるデータを受け入れ、及び/または収集する。更に、このようなデータ受け入れ、または収集はスケジュールをベースとして、またはオンデマンドで行うことができる。また更に、データは暗号化することも、または顧客のイントラネットのような機密保護ネットワークを通してFTPファイルとして(例えば、安全eメールのように)伝送することもできる。本発明の一実施例によれば、ASPデータ転送モジュール3010はPCサーバー上で走るソフトウェアアプリケーションであり、当分野においては公知の多くの方法の何れか1つに従ってC++、パール(Perl)、及びVisual Basicで符号化されている。例えば、一般的に使用可能な典型的なデータは、(a)典型的に約12,000アイテム/ロット(ウェーハのロットとは、典型的にカセット内で処理中に通常一緒に走行する25ウェーハのことをいう)を含むWIP(作業進行)情報(WIP情報は、典型的にはプロセスエンジニアによってアクセスされる)、(b)例えば、典型的には約120,000アイテム/ロットを含む生の処理ツールデータのような機器インタフェース(従来は、典型的に、機器インタフェース情報には誰からもアクセスされなかったことに注目されたい)、(c)典型的に約1,000アイテム/ロットを含むプロセス計測情報(プロセス計測情報は、典型的にはプロセスエンジニアによってアクセスされる)、(d)典型的に約1,000アイテム/ロットを含む欠陥情報(欠陥情報は、典型的には歩留まりエンジニアによってアクセスされる)、(e)典型的に約10,000アイテム/ロットを含むE試験(電気試験)情報(E試験情報は、典型的にはデバイスエンジニアによってアクセスされる)、及び(f)典型的に約2,000アイテム/ロットを含む分類(データログ及びビットマップを有する)情報(分類情報は、典型的には製品エンジニアによってアクセスされる)を含む。これらのデータを、ウェーハ当たり合計約136,000独自測定までロールアップできることは容易に理解されよう。
図3に更に示すように、データ変換モジュール3020は、ASPデータ転送モジュール3010によって受信された生のデータを、当分野においては公知の多くの方法の何れか1つによるキー/列/データを含むデータフォーマットに変換及び/または翻訳し、変換されたデータを自己適応データベース3030内に格納する。データ変換モジュール3020によって遂行されるデータ変換処理は、生データの分類と、限定するものではないが、例えば、工場・試験ロットID変換(例えば、これは鋳物工場に有用である)、ウェーハID変換(例えば、スルース・アンド・スクライブ(Sleuth and Scribe)ID)、及びウェーハ/レティクル/ダイ座標正規化及び変換(限定するものではないが、例えば、座標正規化のためにノッチが使用されているのか、またはウェーハ基準点測定が使用されているのかに依存する)のような併合処理と、限定するものではないが、例えば、E試験データのためのスペック限界、ビン( bin )プローブデータ(例えば、あるラインの終わりプローブ試験の場合、10から100障害モードが存在し得る)、計測データ、及び限定するものではないが、例えば、ロット、ウェーハ、領域、及び層データのような計算されたデータ型のようなデータスペックとを含む。本発明の一実施例によれば、データ変換モジュール3020はPCサーバー上で走るソフトウェアアプリケーションであり、当分野においては公知の多くの方法の何れか1つに従ってオラクル Dynamic PL−SQL及びパールで符号化されている。本発明のこのような実施例の1つによれば、データ変換モジュール3020によって遂行されるデータ変換処理は、生でファイルを“十分にフォーマットされた”産業寛容なファイルに変換する当分野においては公知の多くの方法の何れか1つに従って複数の翻訳プログラムの1つの包括的セットを使用することを含む(即ち、データフォーマットは“一般化”されており、従って、たとえデータを変換できるデータフォーマットがどれ程多く存在していても、僅かに数フォーマットだけが使用される)。本発明の1またはそれ以上の実施例によれば、変換されたファイルは、(低細分性データを高細分性データへ“ロールアップ”するために、その後のプロセスを動作可能にするために)生データ内に存在する“レベル”情報を維持しながら、産業特定の情報は含まない。生データをこのフォーマットにした後に、それを自己適応データベース3030へ供給して格納させる。
本発明の1またはそれ以上の実施例によれば、入力データのための包括的ファイルフォーマットは、ウィジェット(Widget)ID、何処?、何時?、何?、及び値のレベリングスキームを使用することによって定義される。例えば、半導体工場の場合、これらは特に以下のように定義される。即ち、ウィジェトIDは、ロットID、ウェーハID、スロットID、レティクルID、ダイID、及びサブダイx,yデカルト座標の1またはそれ以上によって識別される。何処?は、プロセスの流れ/アセンブリライン製造ステップ、及びサブステップの1またはそれ以上によって識別される。何時?は、測定の日付/時間の1またはそれ以上によって識別される。何?は、測定名“限定するものではないが、例えば、歩留まり”、測定型/カテゴリ、及びウェーハ分類の1またはそれ以上として識別される。値?は、限定するものではないが、例えば、歩留まり51.4%として定義される。このような実施例を使用すれば、どのようなプラントデータも表すことができる。
本発明の1またはそれ以上の実施例によれば、データ変換モジュール3020は、ASPデータ転送モジュール3010によって収集された新しい型のデータを包括的に翻訳する。詳述すれば、データ変換モジュール3020は、例えばデータアクセスのためのハッシュコードを作成することによって、新しいデータを自己適応データベース3030内に格納できるようにするための“オンザフライ”データベース“ハンドシェーク”を作成する。最後に、本発明の一実施例によれば、データは、それが工場分析システム3000に到着するにつれて自己適応データベース3030内に格納される。
本発明の1またはそれ以上の実施例によれば、ASPデータ転送モジュール3010は、SmartSysTMデータベース(SmartSysTMアプリケーションは、Applied Materials, Inc.から入手可能なソフトウェアアプリケーションであり、例えばセンサデータのような工場内の処理ツールからのデータを収集し、分析し、そして格納する)からの処理ツールセンサデータを収集するモジュールを含む。更に、データ変換モジュール3020は、SmartSysTM処理ツールセンサデータを、データマインニングのためのマスターローダーモジュール3050及びマスタービルダーモジュール3060によって準備されるデータセットに変換するモジュールを含む。
本発明の1またはそれ以上の実施例によれば、データ変換アルゴリズムによって、計測データメトリックスと既存の非最適工場(即ち、工場状態)との間に“直接”リンクを確立するために、個々の処理(即ち、工場またはアセンブリライン)ツールからの時間をベースとする(以下、時間ベースという)データの使用が可能である。このデータ変換アルゴリズムの重要な部分は、ウェーハ処理中に処理(工場またはアセンブリライン)ツールにおいて生成された時間ベース動作状態データを、キー集積回路特定統計量に変換する方法である。この統計量は、自動化データマインニング障害検出分析を行うために後述する手法でデータブレインエンジンモジュール3080によって分析される。本発明の1またはそれ以上の実施例によれば、このような時間ベース処理ツールデータを翻訳するために以下のステップが遂行される。
a.包括的時間ベースデータフォーマットのディジタル化の細分性を指定する構成ファイルの作成(後述するユーザインタフェースを使用)、
b.限定するものではないが、例えば、ASCIIデータのような種々のファイルフォーマットからASPデータ転送モジュール3010によって受信された時間ベース処理ツールデータを、構成ファイルを使用して時間ベースデータファイルフォーマットに翻訳する。
以下に、包括的時間ベースデータファイルフォーマットのためのフォーマットの定義の一実施例を示す。有利なことには、これらの実施例によれば、あるファイルを“価値がある”と考えるようにするために、全てのデータフィールドが完全である必要はない。代わりに、後述するように、幾つかのデータフィールドは後に、半導体製造実行システム(MES)ホストと通信する“事後処理”データファイリングルーチンによって集団化することができる。

<BEGINNING OF HEADER>
[ PRODUCTID CODE ]
LOTID CODE ] (italic)
[ PARNET LOTID CODO ]
[ WAFERID CODE ]
[ SLOTID CODE ]
[WIP CODE ]
[ WIP SUB-MODULE ]
[ WIP SUB-MODULE-STEP ]
[ TRACKIN DATE ] (italic)
[ TRACKOUT DATE ] (italic)
[ PROCESS TOOLID ]
[ PROCESS TOOL RECIPE USED ]
<END OF HEADER>
<BEGINNING OF DATA> (italic)
<BEGINNING OF PARAMETER> (italic)
[ PARAMETER ENGLISH NAME ] (italic)
[ PARAMETER NUMBER ] (italic)
[ DATA COLLECTION START TIME ] (italic)
[ DATA COLLECTION END TIME ] (italic)
time increment 1, data value 1 (italic)
time increment 2, data value 2 (italic)
time increment 3, data value 3 (italic)

<END OF PARAMETER> (italic)
<BEGINNING OF PARAMETER> (italic)
[ PARAMETER ENGLISH NAME ] (italic)
[ PARAMETERID NUMBER ] (italic)
[ DATA COLLECTION START TIME ] (italic)
[ DATA COLLECTION END TIME ] (italic)
time increment 1, data value 1 (italic)
time increment 2, data value 2 (italic)
time increment 3, data value 3 (italic)

<END OF PARAMETER> (italic)
<END OF DATA> (italic)
この実施例によれば、イタリックで示されている(italicと表示)アイテムは、ファイル内容をICデータメトリックスと適切に併合可能にするために必要である。
上述したように、本発明の1またはそれ以上の実施例によれば、時間ベースデータ変換のための構成ファイルは、時間ベースデータをウェーハ統計量として表す細分性を指定する。このような実施例によれば、構成ファイルは更に、どの時間ベース生データフォーマットをその特定の構成ファイルによって処理するのかに関する情報、並びに生ファイルのデータアーカイビングに関する1またはそれ以上のオプションを含むことができる。以下は、構成ファイルの一実施例である。
<BEGINNING OF HEADER>

[ FILE EXTENSHIONS APPLICABLE TO THIS CONFG FILE ]
[ RAW DATA ARCHIVE FILE <Y OR N>]
[ CREATE IMAGE ARCHIVE FILES<NUMBER OF FILES / PARAMETER>]
[ IMAGE ARCHIVE FILE RESOLUTION ]

<END OF HEADER>

<BEGINNING OF ANALYSIS HEADER>

[ GLOVAL GRAPH STARTS <ON / OFF>, N SEGMENTS ]
[ XAXIS TIME STARTS <ON / OFF>, N SEGMENTS ]
[ YAXIS PARAMETER STARTS <ON / OFF>, N SEGMENTS ]

<END OF ANALYSIS HEADER>
以下に、上述した構成ファイルパラメータを説明する。
ファイル拡張:構成ファイル内のこのラインは、所与の生の包括的時間ベースデータファイルを所与の構成ファイル内に定義されているパラメータを使用して変換することを指示するファイル拡張及び/または命名規則キーワードをリストしている。
生データアーカイブファイル:構成ファイル内のこのラインは、最初のデータのアーカイブされたコピーを保持すべきか否かを指定する。このオプションを使用することによってファイルは圧縮され、アーカイブディレクトリ構造内に格納される。
イメージアーカイブファイル作成:構成ファイル内のこのラインは、データの“最初の”ビューを格納し、生データファイル(これらのファイルは大きくなる可能性があり、単一の処理ツールについて毎月合計10乃至20Gバイトまでを追加し得る)の全内容をアーカイブし、繰り返しプロットすることなく迅速に検索することができるように、生の時間ベースデータファイルを標準x−yフォーマット内にグラフ化すべきか否かを指定する。イメージオプションの数は、x−yデータプロットの種々のキー領域の多重スナップショットを格納することを可能にし、従って、データの“ズームイン”ビューも利用可能になる。
イメージアーカイブファイル分解能:構成ファイル内のこのラインは、イメージアーカイブファイルオプションによって捕捉されたx−yグラフに、標準イメージ圧縮のどのレベルを適用するかを定義する。
大域グラフ統計量:構成ファイル内のこのラインは、当該構成ファイルによって処理された全てのファイルフォーマットに関する大域統計量の生成を指定する。これらの統計量がどのようにして生成されるかに関しては、後述する。
X軸時間グラフ統計量:構成ファイル内のこのラインは、システムが、当該構成ファイルによって処理された全てのファイルフォーマットに関するX軸時間範囲定義された統計量の生成を指示する。これらの統計量がどのようにして生成されるかに関しては、後述する。
パーセントデータグラフ統計量:構成ファイル内のこのラインは、システムが、当該構成ファイルによって処理された全てのファイルフォーマットに関するパーセントデータ統計量の生成を指示する。これらの統計量がどのようにして生成されるかに関しては、後述する。
本発明のこれらの実施例の1またはそれ以上によれば、X軸時間グラフ統計量ともいう以下の統計量は、パラメータ毎の基準で各時間ベースデータグラフ毎に生成される。例えば、所与の時間ベースデータセット及び所与のパラメータに関して、データは構成ファイル内に定義されている複数のセグメントに分割される。X軸時間グラフセグメントは、x軸の全幅(最小x値から最大x値まで)を取り、それをx軸範囲の複数(N)の等増分に分割することによって定義される。各セグメント毎に統計量が生成され、記録される。これがどのように作動するのかを理解するために、先ず図5を参照する。図5は、生の時間ベースデータの例を、詳述すれば、時間の関数としての処理ツールビーム電流のグラフを示している。図6は、図5に示す生の時間ベースデータをどのようにしてセグメントに分割するかを示しており、図7は、図6のセグメント1に対応する生の時間ベースデータを示している。
以下は、典型的なセグメント統計量(例えば、各セグメント毎に10統計量ずつ、複数(N)のセグメントのセグメント統計量)である。
1.セグメント内の面積
2.セグメント内のデータの平均Y軸値
3.セグメント内のデータのY軸値の標準偏差
4.セグメントの勾配
5.セグメントの最小Y軸値
6.セグメントの最大Y軸値
7.Y軸平均値の先行セグメントからのパーセント変化
8.Y軸平均値の次のセグメントからのパーセント変化
9.Y軸標準偏差値の先行セグメントからのパーセント変化
10.Y軸標準偏差値の次のセグメントからのパーセント変化
図8は、セグメント7内のY範囲のビン_Sに対する依存性の例を示している。上述した情報を使用することによってプロセスエンジニアは、処理ツール内のレシピ(処理ツールのセッティング)を低ビン_S障害に対応する範囲を有するように調整することができる。
本発明の一実施例によれば、以下の29の統計量は、ターキー( Tukey )データクリーニングされていないデータから計算された大域統計量である。
1.曲線下の合計面積
2.10%またはそれ以上のY軸勾配変化の数
3.X軸95%データ幅(即ち、データの中央から出発し、データの95%をピックアップするまで左及び右へ進む)
4.95%X軸データ幅のY軸平均
5.95%X軸データ幅のY軸標準偏差
6.95%X軸データ幅のY軸範囲
7.曲線下のX軸95%面積
8.X軸最左2.5%データ幅
9.曲線下のX軸最左2.5%面積
10.X軸最右2.5%データ幅
11.曲線下のX軸最右2.5%面積
12.X軸90%データ幅(データの中央から出発し、90%をピックアップするまで左及び右へ進む)
13.90%X軸データ幅のY軸平均
14.90%X軸データ幅のY軸標準偏差
15.90%X軸データ幅のY軸範囲
16.曲線下のX軸90%面積
17.X軸最左5%データ幅
18.曲線下のX軸最左5%面積
19.X軸最右5%データ幅
20.曲線下のX軸最右5%面積
21.X軸75%データ幅(データの中央から出発し、75%をピックアップするまで左及び右へ進む)
22.75%X軸データ幅のY軸平均
23.75%X軸データ幅のY軸標準偏差
24.75%X軸データ幅のY軸範囲
25.曲線下のX軸75%面積
26.X軸最左12.5%データ幅
27.曲線下のX軸最左12.5%面積
28.X軸最右12.5%データ幅
29.曲線下のX軸最右12.5%面積
前記実施例において使用したパーセンテージは、一般的なパーセンテージである90、95、75等であるが、例えばデータの“核心”の範囲を多少広げることに関心がある場合にはこれらのパーセンテージを中間値に変更できるようなさらなる実施例が存在する。
上述したような大域統計量を5000% ターキーデータクリーニングを用いて計算するさらなる実施例が存在し、また上述したような大域統計量を500% ターキーデータクリーニングを用いて計算する更に別の実施例が存在する。
本発明の一実施例によれば、パーセントデータ統計量は、X軸時間グラフ統計量のための前記10統計量と同一である。パーセントデータ統計量とX軸時間統計量との差は、セグメントを定義する方法にある。X軸時間統計量の場合、セグメントはX軸のNの等部分に基づいている。しかしながら、パーセントデータ統計量の場合には、セグメントはセグメント内に含まれるデータのパーセンテージによって定義されるので、X軸上のセグメント幅は変化する。例えば、もしパーセントデータセグメントが10セグメントを用いて“オン”に調整されていれば、第1のセグメントはデータの最初の10%である(X軸をある基準として使用する場合、データ点の最左の10%)。
図3に更に示すように、マスターローダーモジュール3040は(時間生成されたイベントによってトリガされるのか、またはデータ到着イベントによってトリガされるのかによって)、自己適応データベース3030(例えば、データファイル3035)からフォーマットされたデータを検索し、それを知能ベース3050に変換する。知能ベース3050は、当分野においては公知のオラクル関係型データベースとして実現されている。本発明のさらなる実施例によれば、マスターローダーモジュール3040は、工場からデータが“少量ずつ流入”(トリクル)してくるにつれて、検索して知能ベース3050へ転送するのに十分なデータの量が到着したか否かを決定するために、自己適応データベース3030内のディレクトリをポーリングする。
本発明の1またはそれ以上の実施例によれば、マスターローダーモジュール3040及び知能ベース3050は、構造化されていない大量の関係型データを管理し、参照し、そして抽出する方法及び装置からなる。本発明の1またはそれ以上の実施例によれば、知能ベース3050は、知能ベース関係型データベース構成要素及び知能ベースファイルシステム構成要素からなるハイブリッドデータベースである。このような一実施例によれば、関係型データベース構成要素(例えば、スキーマ)は、分散型ファイルベース内に格納されている離散データへのアクセスキーを作成するために、ハッシュ・インデックスアルゴリズムを使用する。有利なことに、これは、構造化されていない生データを迅速に形式的構造に変換することを可能にし、それによって市販データベース製品の限界をバイパスし、ディスクアレイ内へ構造化ファイルを格納することによって得られる速度を利用することができる。
本発明の一実施例によれば、知能ベース3050のための設計セットアップの最初のステップは、存在し得る離散データ測定の適用可能レベルを定義することを含む。しかしながら、本発明のこれらの実施例の1またはそれ以上によれば、所与の離散データのための知能ベース3050を構築するプロセスを開始するために、その離散データのレベルがどれ程多く存在するのかを予測する必要はない。その代わりとして、知能ベース3050内のある点において、新しいレベル(サブレベルまたはスーパーレベルの何れか)と早期のレベルとの関係を定義することだけが要求される。これを理解するために、以下の例を考えてみよう。工場内に共通するレベルは、ウェーハの集まりであろう。これを知能ベース3050内のレベル1とインデックス付けすることができる。次に、ウェーハの集まり内の各特定ウェーハは、レベル2とインデックス付けすることができる。次に、ウェーハ上のチップの何れかの特定のサブグルーピングをレベル3(または、サブグルーピングカテゴリの一貫性に依存して多重レベル)とインデックス付けすることができる。有利なことに、知能ベース3050のこのような柔軟性によって、任意のデータ型を知能ベース3050内に格納することが可能になる。但し、その特性を、そのデータ型に適用されている現存細分性の最低レベルにインデックス付けできることが条件である。
有利なことに、本発明の1またはそれ以上の実施例によれば、知能ベース3050のためのデータローディングプロセスは、従来の関係型データベースのためのデータローディングプロセスよりも容易である。何故ならば、知能ベース3050の場合、離散した製造レベルとその特定レベルのIDのためのデータ測定(または、データ履歴)との関係を示すフォーマットで各新しいデータ型を再書込みするだけでよいからである。例えば、工場においては、所与のデータファイルを“レベル1”ID、“レベル2”ID等を含むライン内に再書込みし、次いでそのウェーハの組合わせの集まりのために測定を記録しなければならない。特定の関係型データベーススキーマを定義することなく、どのような適用可能なデータをもロードできるようにしたのが知能ベース3050のこの特性である。
有利なことに、本発明の1またはそれ以上の実施例によれば、知能ベース3050は、大量のデータを迅速に累積し、結合するためにハッシュ・結合アルゴリズムを使用することによって、自動化されたデータ分析ジョブ(詳細は後述する)を支援し、大きいデータベースを出力するように設計されている。従来の関係型データベース設計では、このような大量データセットを出力するには、通常は、データベース内に大きい“テーブル・結合”を必要とする。公知のように、関係型データベーステーブル・結合を使用すると、このような大きいデータセットの出力プロセスがCPUを極めて繁忙にさせるが、有利なことに、知能ベース3050から大きいデータセットを出力するために使用される“ハッシュ・結合”アルゴリズムの場合にはこのようなことはない。
図4は、構造化されていないデータイベントを知能ベース3050に構造化するための本発明の一実施例による方法の論理的なデータの流れを示している。図4に示すように、ボックス4010において、工場データが工場データウェアハウス4000から検索される。この工場データは、多くの異なる形状の何れか1つであることができ、また、限定するものではないが、例えば、データベースからの履歴データ、限定するものではないが、例えば、センサのような処理ツール監視機器からの実時間データを含む多くの異なるソースの何れか1つが生成したものであることができる。次に、フォーマットされていないデータは、データパーサー4020へ供給される。工場ウェアハウス4000からデータを検索する手法及び頻度は、データパーサー4020、データベースローダー4040、または知能ベース3050の挙動に影響を与えないことを理解されたい。次に、データパーサー4020は、フォーマットされたデータストリーム4030を出力する。このフォーマットされたデータは、データベースローダー4040によって受入れ可能なフォーマットである(これは単にフォーマットの問題、即ち、データがどのようにレイアウトされているかだけに関しており、データに関するどのような“知識”をも導入することはない)。次に、データベースローダー4040は、フォーマットされたデータストリーム4030を読む。データベースローダー4040は、ハッシュ・インデックスアルゴリズムを使用してデータ要素と、ファイルシステム4050内のそれらの位置との間のインデックスキーを生成する(限定するものではないが、例えば、ハッシュ・インデックスアルゴリズムはデータ要素のデータレベルIDを使用してインデックスキーを生成する)。次に、データは将来の参照及び使用のためにファイルシステム4050内に格納され、ファイルシステム4050を参照するハッシュ・インデックスキーが関係型データベース4060内に格納される。本発明の1またはそれ以上の代替実施例では、オラクル 9iデータマート内のレベルによって仕切られ、インデックス付けされたテーブル内にデータをロードすることによって知能ベース3050が作成される。
図3に戻って、マスタービルダーモジュール3060は知能ベース3050にアクセスし、構成ファイル(ユーザ編集及び構成ファイルインタフェースモジュール3055を使用して生成)を使用してデータマインニング手順への入力として使用するためのデータ構造を構築する(後述)。ユーザ編集及び構成ファイルインタフェースモジュール3055は、マスタービルダーモジュール3060によって使用される構成データの構成ファイルをユーザが作成するのを可能にする。例えば、マスタービルダー3060は、構成ファイルによって指定された知能ベース3050からデータ(限定するものではないが、例えば、特定のパラメータ値範囲内の特定の型のデータ)を入手し、それを構成ファイルによって指定された知能ベース3050から他のデータ(限定するものではないが、例えば、別の特定の値範囲内の別の特定の型のデータ)と組合わせる。これを行うために、知能ベース3050の知能ベースファイルシステム構成要素が知能ベース3050の知能ベース関係型データベース構成要素によって参照され、異なるデータレベルを迅速に情報の“ベクトルキャッシュ”に併合することを可能にする(この“ベクトルキャッシュ”は、データマインニングにおいて使用するためのデータに変化させられる)。構成ファイルは、ユーザが、ハッシュ・インデックスを使用して新しい関係を定義し、それによって情報の新しい“ベクトルキャッシュ”を作成することを可能にする(この“ベクトルキャッシュ”は、後述する手法でデータマインニングにおいて使用するためのデータに変えられる)。このデータを、以下に“ハイパーキューブ”という。本発明の1またはそれ以上の実施例によれば、マスタービルダーモジュール3060はPCサーバー上で走るソフトウェアアプリケーションであり、当分野において公知の多くの方法の何れか1つに従ってオラクル Dynamic PL−SQL及びパールで符号化される。
動作中、マスタービルダーモジュール3060は、構成ファイルを使用してハイパーキューブ定義を受信及び/または抽出する。次に、マスタービルダーモジュール3060は、ハイパーキューブ定義を使用してベクトルキャッシュ定義を作成する。次に、マスタービルダーモジュール3060は、ベクトルキャッシュ定義に従い、(a)知能ベース3050の知能ベース関係型データベース構成要素からのベクトルキャッシュ定義によって識別された、または指定されたファイル及びデータ要素のリストを、ハッシュ・インデックスキーを使用して検索し、(b)知能ベース3050の知能ベースファイルシステム構成要素からファイルベースファイルを検索し、そして(c)ベクトルキャッシュを、ベクトルキャッシュ定義内に識別されているデータ要素と集団にすることによって、情報のベクトルキャッシュを作成する。次に、マスタービルダーモジュール3060は、後述する手法でハイパーキューブ定義を使用して、ベクトルキャッシュ情報からハイパーキューブを生成する。これらのハイパーキューブには、それらが工場データ分析システム3000を通って進行する際の識別分析結果に使用するための、及び分析結果を見直す際にクライアントが使用するためのIDが割当てられる。マスタービルダーモジュール3060は、ハイパーキューブを構築し、データマインニング結果に悪影響を及ぼすデータを、当分野において公知の多くの方法の何れか1つに従って除去してハイパーキューブデータをきれいにし、多くの異なる変数の分析を可能にするようにハイパーキューブを結合し、そしてビン及びパラメトリックデータをデータマインニングに使用するための形状に変換する(限定するものではないが、例えば、イベントによって駆動されるデータをビンに入れられたデータに変換することによって)サブモジュールを含む。
本発明の1またはそれ以上の実施例によれば、マスタービルダーモジュール3060は、データクリーナ及びスクラバ(例えば、当分野において公知の多くの方法の何れか1つに従って製造されるパール及びC++ソフトウェアアプリケーション)を含む。このデータクリーニングは、構成ファイル内に記述されている基準に従って、またはユーザ入力の受信時に特別の基準で遂行することができる。
本発明の1またはそれ以上の実施例においては、マスタービルダーモジュール3060は、スプレッドシートを、限定するものではないが、例えば、SAS(当分野においては公知のデータベースツール)、.jmp(x−yデータを視覚化し、分析する際に使用するための当分野においては公知のJUMPプロット)、.xls(当分野においては公知のMicrosoft Excelスプレッドシート)、及び .txt(当分野においては公知のテキストファイルフォーマット)のような種々のファイルフォーマットでユーザへエクスポートする。本発明の1またはそれ以上の実施例においては、マスタービルダーモジュール3060は、ユーザが生成したハイパーキューブを入力として受信し、ベクトルキャッシュを分析のためにデータブレインエンジンモジュール3080へ転送するモジュールを含む。
本発明の1またはそれ以上の実施例によれば、データ変換モジュール3020、マスターローダーモジュール3040、及びマスタービルダーモジュール3050はそれぞれ、自己適応データベース3030、知能ベース3050、及びデータマインニングのためのデータ出力の連続更新を行うように動作する。
図3に更に示すように、ウェブコマンダーモジュール3070はマスタービルダーモジュール3060からのデータ出力を、分析のためにデータブレインエンジンモジュール3080へ転送する。マスタービルダーモジュール3060によってフォーマットされたデータセットファイルがデータマインニングのために使用可能になると、自動化されたデータマインニングプロセスは分析テンプレートに対してデータセットを分析する(分析テンプレート内の関連として設計された変数を最大化または最小化するように監視しながら、これらの変数の相対的に重要な大きさをも考える)。データブレインエンジンモジュール3080は、分析構成準備及びテンプレートビルダーモジュール(データブレインエンジンモジュール3080と共に使用するためのユーザが限定する構成パラメータ値、データマインニング自動化ファイルを構築するためのユーザインタフェースを提供する)を含むユーザ編集及び構成ファイルインタフェースモジュール3055を含む。データブレインエンジンモジュール3080は、変数の統計的特性と、自己学習ニューラルネットワーク内の変数の相対的貢献度との組合わせを使用して、自動化されたデータマインニングプロセスを遂行する。所与の定義された“重要”変数(分析テンプレート当たりの)、または、限定するものではないが、例えば、自己編成ニューラルネットワークマップ(“SOM”)の構造に対する変数の貢献度の統計的分布及び大きさが関連質問を形成することができる基準を生成し、それを所与のデータセットの特定の型に最良に適する広範囲のデータマインニングアルゴリズムへ提示する。
本発明の1またはそれ以上の実施例によれば、データブレインエンジンモジュール3080は、“ハンドオフ”動作を得るために未知のデータセットにおける統計的比較を探求することによって大きい未知のデータセットにおける柔軟な、自動化された繰り返しデータマインニングを発生する。このようなアルゴリズムの柔軟性は、データが数値属性及びカテゴリ別属性からなる場合の探求プロセスに特に有用である。これらのデータを完全に探求するために必要なアルゴリズムの例は、限定するものではないが、例えば、カテゴリ別及び数値データを相互に関係付けることができる特殊分散分析(ANOVA)技術を含む。更に、これらのデータにおける統計的比較を完全に探求するためには、典型的には1つより多くのアルゴリズムが必要である。これらのデータは、半導体製造、回路基板アセンブリ、またはフラットパネルディスプレイ製造のような近代的な離散した製造プロセスに見出すことができる。
データブレインエンジンモジュール3080は、データマインニング分析を遂行するために、構成ファイル及びデータセット内に含まれる分析テンプレートを使用するデータマインニングソフトウェアアプリケーション(以下に、データブレインコマンドセンターアプリケーションという)を含む。本発明の1またはそれ以上の実施例によれば、データブレインコマンドセンターアプリケーションは、以下に列挙するデータマインニングアルゴリズムの1またはそれ以上を使用するために、データブレインモジュールを呼び出す。それらは、SOM(当分野においては公知のデータマインニングアルゴリズム)、規則誘導(“RI”:当分野においては公知のデータマインニングアルゴリズム)、MahaCu(数値データをカテゴリ別または属性データ(限定するものではないが、例えば、処理ツールID)に相関付けるデータマインニングアルゴリズム、後述)、逆MahaCu(カテゴリ別または属性データ(限定するものではないが、例えば、処理ツールID)を数値データに相関付けるデータマインニングアルゴリズム、後述)、データマインニングがSOMを使用して遂行され、SOMからの出力が(a)RI、(b)MahaCuを使用してデータマインニングを遂行するために使用されるような多重レベル分析自動化、ピギン( Pigin:後述する発明的なデータマインニングアルゴリズム)、欠陥ブレイン(詳細を後述する発明的なデータマインニングアルゴリズム)、及びセルデン( Selden:当分野においては公知の予測モデルデータマインニングアルゴリズム)である。
本発明の1またはそれ以上の実施例によれば、データブレインコマンドセンターアプリケーションは、複数のデータマインニングアルゴリズム及び統計的方法の使用を可能にする中央制御アプリケーションを使用する。詳述すれば、これらの実施例の1またはそれ以上による中央制御アプリケーションは、1つのデータマインニング分析からの結果をその後の分岐した分析またはランの入力へ送ることを可能にする。その結果、データブレインコマンドセンターアプリケーションは、ユーザが構成可能なシステム構成ファイルによって支配される分析の論理及び深さを用いてデータを探求するための自動化された、そして柔軟なメカニズムを提供することによって、分析繰り返しの数及び型に制限されることなく非有界データ探求を可能にする。
工場データ分析システム3000は、その最も一般的な形状において、複数の工場(それらの全てが同一法人によって所有されるか、または制御されている必要はない)から受信したデータを分析する。その結果、異なるデータセットを、並行データマインニング分析ランで同時に分析し、異なるユーザに報告することができる。更に、たとえ受信データを単一の工場(即ち、同一法人によって所有されるか、または制御されている工場)から入手したとしても、異なるデータセットを法人内の異なるグループによって並行データマインニング分析ランで同時に分析することができる。これらの場合、これらのデータマインニング分析ランは、サーバーファーム上で並行して効率的に遂行される。本発明のこれらの実施例の1またはそれ以上によれば、データブレインエンジンモジュール3080は自動化コマンドセンターとして働き、以下の構成要素を含む。それらは、(a)データブレインコマンドセンターアプリケーション(分岐分析決定及び制御アプリケーション)、これはデータブレインモジュールを呼び出し、またこれは、(i)サーバーファーム内の1組の分散されたスレーブ待ち行列(それらの1つがマスター待ち行列として構成される)を含むデータブレインコマンドセンター待ち行列管理者(当分野においては公知の多くの方法の何れか1つに従って製造される)と、(ii)サーバーファーム内の分布及びジョブロードをバランスさせるデータブレインコマンドセンターロードバランサーアプリケーション(当分野においては公知の多くの方法の何れか1つに従って製造される)と、(iii)顧客会計及び関連分析結果を作成し、管理し、そして状態監視することを可能にするデータブレインコマンドセンター会計管理者アプリケーションとを更に含み、(b)構成ファイル内のデータマインニングのために使用される分析テンプレート情報をユーザが供給することを可能にするユーザ編集及び構成ファイルインタフェースモジュール3055(当分野においては公知の多くの方法の何れか1つに従って製造される)である。
この実施例によれば、データブレインコマンドセンターアプリケーションは、主に、データマインニングジョブ待ち行列の管理と、ネットワークされたWindowsサーバーまたはサーバーファームのアレイにジョブを自動的に分配する責を負う。データブレインコマンドセンターアプリケーションは、システム構成パラメータのための入力を受信するために、ユーザ編集及び構成ファイルインタフェースモジュール3055へインタフェースする。これらの実施例の1またはそれ以上によれば、データマインニングジョブは、複数のデータセット及び分析アルゴリズムからなる1組の分析ランとして定義される。ジョブは、個々のサーバースレーブ待ち行列(キュー)上に存在するマスター待ち行列管理者であるデータブレインコマンドセンター待ち行列管理者アプリケーションによって管理される。マスター待ち行列管理者は、ジョブを同時に走らせることができるように、使用可能なサーバーにデータマインニングジョブを論理的に分配する(データブレインモジュールによって遂行される)。分岐した分析ランの結果はデータブレインコマンドセンターアプリケーションによって収集され、次いで、もし必要ならば、それらはジョブの構成ファイルによって指図されてその後のランへ供給される。
更に、データブレインコマンドセンターアプリケーションは、サーバーファームのロードのバランシングを制御する。バランシングは、サーバーファーム内の使用可能なサーバー資源の効率及び制御を得るために有用である。適切なロードバランシングは、当分野においては公知の多くの方法の何れか1つに従って、個々のサーバーファームのサーバー待ち行列、及び他の相対ラン時間状態情報を実時間で監視することによって達成される。
本発明のこれらの実施例の1またはそれ以上によれば、データブレインコマンドセンター会計管理者アプリケーションは、当分野においては公知の多くの方法の何れか1つに従って遂行される自動化された分析に対する顧客会計の作成、管理、及び状態監視を可能にする。管理及び状態通信は、データブレインコマンドセンター待ち行列管理者アプリケーション及びデータブレインコマンドセンターロードバランサーアプリケーションへの制御フィードバックを与える。
本発明の1またはそれ以上の実施例によれば、データマインニング分析の1ステップは、相関を与えると思われるデータのクラスターを見出すために、数値データの分析に使用することができる(このステップは、これらの相関を与え得る種々の型のデータを使用してデータを分析することを試みる幾つかのデータマインニングステップを含むことができる)。このステップは、構成ファイル内に指定されているデータの型によって駆動される。次いで、次のステップにおいて、相関されたデータを分析してクラスターに関連付けられ得るパラメトリックデータを決定することができる(このステップは、これらの関連付けを与え得る種々の型のデータを使用してデータの分析を試みる幾つかのデータマインニングステップを含むことができる)。このステップも、構成ファイル内に指定されているデータの型によって駆動される。次いで、次のステップにおいて、パラメトリックデータをカテゴリ別データに対して分析し、関連付けられたパラメトリックデータと相関し得る処理ツールを決定することができる(このステップは、これらの相関を与え得る種々の型の処理ツールを使用してデータの分析を試みる幾つかのデータマインニングステップを含むことができる)。次いで、次のステップにおいて、処理ツールセンサデータをカテゴリ別データに対して分析し、障害を起こし得る処理ツールの面を決定することができる(このステップは、これらの相関を与え得る種々の型のセンサデータを使用してデータの分析を試みる幾つかのデータマインニングステップを含むことができる)。この1つの実施例によれば、データマインニング分析技術の階層は、SOMと、それに続く規則誘導と、それに続くANOVAと、それに続く統計的方法とを使用するであろう。
図9は、例として3レベル分岐データマインニングランを示している。図9に示すように、データブレインコマンドセンターアプリケーションは(ユーザが生成した構成ファイルの分析テンプレート部分の指令の下に)、限定するものではないが、例えば、歩留まり(歩留まりとは、限定するものではないが、例えば、工場で製造されるICの速度に関係付けて定義される)に関する数値データをクラスタ化するSOMデータマインニング分析を遂行する。次に、図9に更に示すように、データブレインコマンドセンターアプリケーションは(ユーザが生成した分析テンプレートの指令の下に)、(a)SOMデータマインニング分析出力に対してマップマッチング分析(後述)を遂行し、それが、限定するものではないが、例えば、電気試験結果のようなパラメトリックデータに関係していればクラスタマッチングを遂行し、そして(b)SOMデータマインニング分析出力に対して規則誘導データマインニング分析を遂行し、それが、限定するものではないが、例えば、電気試験結果のようなパラメトリックデータに関係していればクラスタの規則説明を生成する。次に、図9に更に示すように、データブレインコマンドセンターアプリケーションは(ユーザが生成した分析テンプレートの指令の下に)、(a)規則誘導データマインニング分析出力に対して逆MahaCu及び/またはANOVAデータマインニング分析を遂行し、それが、限定するものではないが、例えば、処理ツールにおいてなされる計測測定のための処理ツールセッティングに関係していればカテゴリ別データを数値データに相関させ、そして(b)マップマッチングデータマインニング分析出力に対してMahaCu及び/またはANOVAデータマインニング分析を遂行し、それが、限定するものではないが、例えば、センサ測定のための処理ツールに関係していれば数値データをカテゴリ別データに相関させる。
図10は、本発明の1またはそれ以上の実施例によるデータブレインコマンドセンターアプリケーションによって遂行される分配待ち行列作成を示している。図11は、本発明の1またはそれ以上の実施例に従って製造されるユーザ編集及び構成ファイルインタフェースモジュール3055の分析テンプレートユーザインタフェース部分を示している。図12は、本発明の1またはそれ以上の実施例に従って製造される構成ファイルの分析テンプレート部分を示している。
本発明の1またはそれ以上の実施例によれば、以下に“マップマッチング”と称するアルゴリズムは、自動化され集中された分析を達成するために(即ち、問題ステートメントの自動定義を与えるために)SOMを使用する。即ち、本発明の1またはそれ以上の実施例によれば、SOMは、類似パラメータを有するウェーハのクラスタのマップを作成する。例えば、もしデータセット内の各パラメータ毎にこのようなマップを作成すれば、それらは所与の時点における所与の製品にどれ程多くの独特な歩留まり問題が存在するかを決定するために使用することができる。また、これらのマップを使用して良好な“質問”を定義し、さらなるデータマインニング分析のために問い合わせることができる。
自己編成されたマップの本質から分析を自動化することが可能であるので、発明的なSOMマップマッチング技術のユーザは、完全な“ハンドオフ”自動化を達成するために“関係がある”工場内の変数名タグのリストを保持しているだけでよい。SOM分析は、データを自動的に編成し、データセット内の異なる“工場問題”を表す分離した、そして支配的な(即ち、インパクトを与える)データクラスタを識別する。以下に説明するマップマッチングアルゴリズムと組合わされたこのSOMクラスタ化によれば、各“関心のある”変数を、クラスタ毎の“関心のある”変数の挙動にインパクトを与えることが知られている何等かの履歴データの表現で記述することが可能である。このように、マップマッチングアルゴリズムと結合されたSOMを使用すれば、工場は、歩留まりにインパクトを与える多くの問題(または他の重要な問題)に、完全に自動化された“ハンドオフ”分析技術を用いて対処することが可能になる。
データセットのSOM分析を実行できるようになる前に、データセット内の各列毎に自己編成されたマップを生成しなければならない。これらのマップを生成するために、図13に示すようなハイパーピラミッドキューブ構造が構築される。図13に示すハイパーピラミッドキューブは、4つの層を有している。本発明の1またはそれ以上の実施例によれば、全てのハイパーピラミッドキューブは、各層が2^n×2^nとなるように成長する(但し、nは、0をベースとする層番号)。更に、ピラミッドの各層は、ハイパーキューブを表している。即ち、ハイパーピラミッドキューブの各層は、データセット内の列を表している。図14に示す層は、16列のデータセットの層2(0をベースとする)である。これらの実施例の1またはそれ以上によれば、ハイパーピラミッドキューブの深さが1つ進むにつれて、ハイパーキューブ(2^n×2^n)の幅が大きくなり、ハイパーキューブピラミッドの深さはデータセット内の列の数において一定に留まる。
図15は、ハイパーピラミッドキューブの第2層から抽出されたハイパーキューブからのものであるハイパーキューブ層(自己編成されたマップ)を示している。図15に示すように、各層内のニューロン(即ち、セル)は、その列内の実記録の近似を表している。ピラミッド内の深さが1つ下方に進むとハイパーキューブはより大きくなり、キューブ内のニューロンが増加し、データキューブの各層が表している実際の列内の記録の実値に収束する。メモリの制約及び含まれる計算時間に起因して、ニューロンが表す実値にそれらが収束するまでピラミッドを成長させることは実際的でなく、または実行不能である。その代わりとして、本発明の1またはそれ以上の実施例によれば、ピラミッドは、あるしきい値に達するまで、または所定の最大深さに達するまで成長する。次いで、本発明の1またはそれ以上の実施例によれば、SOM分析が最後の層化されたキューブに対して遂行され、ピラミッドを生成させる。
データセットの各カラム毎のSOMが生成された後に、自動化されたマップマッチングデータ分析を達成するために以下の諸ステップが遂行される。
I.スナップショットの生成(繰り返し)
数値依存変数(“DV”)(データ列(カラム))が与えられると、このDVが参照するデータキューブ内のニューラルマップを探知する。このニューラルマップを用いて、3つの領域を詳述している全ての可能なカラー領域組合わせを生成する。これら3つの領域は、高(丘)、低(池)、及び中央領域であり、ニューラルマップ上の任意のセルはこれらの領域の1つ内に入っている。これらの実施例を理解し易くするように簡易化するために、緑カラーを高領域に割当て、青カラーを中央領域に割当て、そして赤カラーを低領域に割当てる。次いで、最初のステップとして、自動化されたマップマッチング分析の基準として使用するのに必要なカラー領域のスナップショットを生成するために、各間隔において移動させることを必要とするデルタを決定する。全てのスナップショット組合わせを得るために、移動させることを必要とする2つのしきい値マーカー(即ち、低領域のためのしきい値を表すマーカーと、高領域のための別のマーカー)が存在することに注目されたい。これら2つのマーカーを変化させ、またデルタを使用することによって、全ての所望スナップショット組合わせを生成することができる。
デルタ値は、[デルタ=(データ分布のパーセント ― これはユーザ構成値である)×2シグマ]として計算される。次に、高マーカー及び低マーカーを、この列内のデータの平均まで移動させる。この初期状態においては、ニューラルマップ内の全てのセルは、緑または赤の何れかの領域に入る。次に、低マーカーを左へデルタだけ移動させる。次いで、全てのセルが走査され、以下の諸ステップに基づいて、適切なカラーがそれらに割当てられる。もし関連セル値が、[(平均−1.25シグマ)<セル値<低マーカー]であれば、それには赤カラーが割当てられる。もし関連セル値が、[(高マーカー)<セル値<(平均+1.25シグマ)]であれば、それには緑カラーが割当てられる。もし関連セル値が、[(低マーカー)<セル値<(高マーカー)]ならば、それには青カラーが割当てられる。
これらの各スナップショット(繰り返し)において、高領域及び低領域の全てにタグが付けられ、SOM自動化分析(後述)が遂行される。次いで、低マーカーが左へデルタだけ移動され、別のスナップショットが作成される。次いで、全ての高及び低領域にタグが付けられ、SOM自動化分析が遂行される。このプロセスは、低マーカーが(平均−1.25シグマ)より小さくなるまで続行される。このようになると、低マーカーが初期状態にリセットされ、次いで高マーカーが右へデルタだけ前進され、このプロセスが繰り返される。これは、高マーカーが(平均+1.25シグマ)より大きくなるまで続行される。これを以下の擬似コードで示す。
Set High Marker = Mean value of column data.
Set Low Marker = Mean value of column data.
Set Delta = ( Percent of data distribution this is a user configurati
on
Value ) * 2sigma.
Set Low Iterator = Low Marker;
Set High Iterator= High Marker

Keep Looping when ( High Iterator <( mean+1.25 sigma )
Begin Loop
Keep Looping when ( Low Iterator <( mean−1.25 sigma )
Begin Loop
Go through each cell and color code the cells based on the procedure a
bove
and using the High Iterator and Low Iterator as threshold values.
Capture Automated Map Matching analysis ( see the next section below )
on this snapshot.
Set Low Iterator = Low Iterator−Delta.
End Loop
Set High Iterator= High Iterator+Delta.
End Loop
図16は、高、低、及び中央領域を有し、高クラスタ領域及び低クラスタ領域にその後の自動化マップマッチング分析のためのタグが付けられた自己編成マップを示している。
II.スナップショットの自動化マップマッチング分析(繰り返し)
ステップ1において生成された3カラー領域スナップショットの各々は、以下のように分析される。関心領域(ユーザは、選択されたDV(列)ニューラルマップの池(低)領域または丘(高)領域の何れに関心があるかを指定する)。この関心領域をソース領域と呼び、他の、反対の領域をターゲット領域と呼ぶことにする。他の独立変数(“IV”)マップ、即ちDV列ではないデータキューブ内の列の自動化されたSOMランキングを得るための前提は、同一データセットの行(記録)がそのデータキューブを通してありのままに投影されるという事実に基づいている。従って、もしデータセットの行22が所与のDVのニューラルマップの10行40列上に位置していれば、そのセル位置(22, 40)は、他の全てのIVのニューラルマップのデータセットの行22を含むであろう。詳述すれば、図17は、ハイパーキューブを通してのセルの投影を示している。図17から明かなように、それがハイパーキューブの各層を通して投影された時に各層毎の予測値と最良適合するように、“最良適合”記録が確立される。簡単に言えば、その目的は、ソース及びターゲット領域からなる記録を分析することであり、またそれらが互いにどれ程異なっているかを決定することである。各グループを構成している記録はニューラルマップを横切って同一であるから、ソースのグループがターゲットのグループからどれ程大きく異なっているかに基づいて各ニューラルマップにランク付けすることができる。次いで、このスコアを使用してニューラルマップを最高から最低までランク付けする。スコアが高いことは、ニューラルマップ内の2つのグループが互いに極めて異なることを意味し、反対に、スコアが低いことは、2つのグループが互いに極めて類似していることを意味する。従って、目的は、2つのグループ間の差が最大のIVニューラルマップを見出すことである。以下に、この目的を達成するために使用される諸ステップを示す。
a.インパクトを受けたスコアに従って、ソースクラスタを最高から最低までランク付けする。各クラスタ毎のインパクトを受けたスコアは、[インパクトを受けたスコア=(実際の列平均−ニューラルマップの平均)×(クラスタ内の独自記録の数)÷列内の合計記録]に従って計算される。
b.最高にランク付けされたソースクラスタから開始し、以下の基準に基づいてそのターゲットクラスタ近隣にタグ付けする。以下の各基準は相応に重み付けされており、実際に割当てられる結果的なスコアは重みの平均である。
1.それが、ソースクラスタにどれ程近いか。これは、ターゲットクラスタからソースクラスタまでの図心距離として計算される(図心セルとは、クラスタの中心を占めるセルである)。2つのセルを決定した後に、ピタゴラスの定理を使用して図心距離が計算される。
2.クラスタ内の独自記録の数。
3.取り囲んでいるセルの平均と比較した周辺セルの平均。
これは、1つと多くとの関係を与える。即ち1つのソースクラスタがその多くのターゲットクラスタ近隣に関係付けされる。
c.ソースクラスタ内の全ての記録に母集団1とラベル付けし、ターゲットクラスタ内の全ての記録に母集団2とラベル付けする。これは、以下に基づいて、2つのグループがどれ程異なっているかを決定するために使用される。
d.母集団1及び母集団2を使用してIVの“スコア”を計算するために、スコアリング関数を使用する。このスコアリング関数は、限定するものではないが、例えば、変形T試験スコアリング関数、カラーコントラストスコアリング関数、IVインパクトスコアリング関数等を含む。
「変形T試験スコアリング関数」は、次のように遂行される:
変形T試験は、2つの母集団グループを比較する正則T試験に基づく。その差は、T試験後にスコアが計算され、T試験スコアに縮小( reduction )比を乗ずることによって、最終スコアが計算される。即ち、
変形T試験=(縮小比)×T試験
縮小比は、ソース母集団の平均より大きいターゲット母集団内の記録の数を計数することによって計算される。次に、この数を、ソース母集団の平均より小さいターゲット母集団内の記録の数から差し引く。最後に、ターゲット母集団内の合計記録数によって除すことによって縮小比が計算される。即ち、
縮小比=(ソース平均より小さいターゲット記録の数−ソース平均より大きいターゲット記録の数)の絶対値÷ターゲット領域内の合計記録数
このスコアを、後刻IVニューラルマップをランク付けするために格納する。
「カラーコントラストスコアリング関数」は、次のように遂行される:
IVニューラルマップ上の母集団1と母集団2との間のカラーコントラストを比較する。
「IVインパクトスコアリング関数」は、次のように遂行される:
上述のようにして決定されたカラーコントラストに、DVニューラルマップに基づくインパクトスコアを乗ずる。
e.ハイパーキューブ内の各IVニューラルマップ毎にステップd.を繰り返す。
f.変形T試験スコアに従って、IVニューラルマップをランク付けする。全てのIVが使用される前に、またはユーザが指定したしきい値に達する前に、もし変形T試験スコアが0に接近すれば、残余のIVニューラルマップは一般T試験スコアを使用してランク付けされる。
g.ユーザ構成設定によって指定されたトップパーセンテージIVニューラルマップを格納する。
III.結果を生成し、結果を他の分析方法へ送る
IVのトップX%(最高の合計スコアを有する;ユーザによって構成ファイル内に指定)を選択する。本発明の1またはそれ以上の実施例によれば、勝利した各スナップショット毎にユーザが見るための以下の自動化された結果が生成される。
a.勝利したIVのニューラルマップが表示される。独立変数のSOMマップは、トップにアウトラインされている従属変数「丘」及び「池」クラスタを有し、明瞭なアウトラインカラー及びクリヤーなクラスタラベルを有する背景マップである。マップの凡例は、カラーの境界しきい値の実際の値と共に互いに結合された3つの明瞭なカラー(例えば、緑、赤、青)で指示される。
b.実際の結果は、この特定の勝利したDVのために走る。これは、所与の選択されたDVのためにIVが互いに他に対してどのようにランク付けされたかの実際の結果である。
c.ソース及びターゲット領域を構成している記録だけを含むより小さいデータセットが書かれる。このより小さいデータセットは、他のデータ分析方法によるさらなる分析のための基準である。例えば、自動化された“質問”を得るために、このより小さいデータセットは、マップマッチングランからアウトラインされた適切な領域を有する規則誘導データ分析方法エンジン内へフィードバックされる。これらの領域は規則誘導分析が説明する“質問”を形成する。規則誘導は、統計的な有効性を有する変数の相互作用を説明する規則を生成する。それは、生成された質問に最良適合する仮説を見出すために、データベースを探索する。
IV.全てのDVのために前記ステップI−IIIを繰り返す
構成ファイル内のユーザが指定した全てのDVのために、ステップI乃至ステップIIIを繰り返す。総合ハウスキーピングタスクを遂行し、自動化されたマップマッチング結果の報告書生成を準備し、そしてこれらのランの返答を他のデータ分析方法へ送る。
本発明の1またはそれ以上の実施例によれば、データブレインモジュールは、以下に“ピギン”(Pigin)と称する発明的なデータマインニングアルゴリズムアプリケーションを含む。ピギンは、目標にされた数値変数のために、データセット内のどの他の数値変数が指定された目標変数に貢献(即ち、相関)しているかを決定する発明的なデータマインニングアルゴリズムアプリケーションである。ピギンはカテゴリ別データを分析しない(その意味では、他の幾つかのデータマインニングアルゴリズムよりも範囲が狭い)が、その分析をより速く、そして他の標準データマインニングアルゴリズムより効率的にメモリを使用して遂行する。このアルゴリズムは、目標にされた変数(即ち、データマインニングエクササイズによって説明される変数−以下に従属変数(“DV”)という)を取り扱う。アルゴリズムは、以下の諸ステップに従って動作する。ステップ1:どれ程多くのデータが各カテゴリ内に配置されているかを決定するユーザが構成可能なパラメータに基づいて、DVの数値分布を一連のカテゴリとして処理する。ステップ1を、図18に示す。図18は、数値分布から“仮想”カテゴリを定義することを示している。ステップ2:ステップ1においてDVグループ(または、スプリット)が定義された後に、データセット内の他の数値変数(以下、独立変数、または“IV”という)のためのそのカテゴリに一致するデータに基づいて、各DVカテゴリ毎に一連の信頼分布円を計算する。ステップ3:各IV毎の信頼円の総合的な広がりに基づいて、後刻アナリストによって“目標にされた”DVにどのIVが最も高度に相関しているかを決定するのに使用するために、直径スコア及びギャップスコアをその変数に割当てる。直径スコアまたはギャップスコアの値が高いことは、DVとIVとが“より良好に”相関していることを指示していることが多い。ステップ2及び3を、図19に示す。図19は、これらのスコアの計算を示しており、[ギャップスコア=全てのギャップ(どの円内にもない)の和]として、及び[直径スコア=3つの円のDV平均直径]として計算される。ここに、DVカテゴリは、そのDVのための数値分布に基づく。要約すれば、図19は、各菱形が母集団を表し、また菱形の端点が図の右側にプロットされている円(これらの円を、“95%信頼円”という)を発生するような信頼プロットである。ステップ4:繰り返し。ステップ1のDV定義に基づいて全てのIVにスコアが割当てられた後に、スプリットの定義を僅かに変化させるために、DVが再定義される。この再定義が行われた後に、新しいDVカテゴリ定義に対する全てのIVのためのスコアが再計算される。DVカテゴリ定義を洗練させるプロセスは、分析テンプレート内のユーザが指定した繰り返し数に達するまで続行される。ステップ5:総合スコア。全ての繰り返しが完了すると、ステップ1及び4において説明したようなDVの種々の定義に基づく一連のIVランキングが存在することになる。これらのリストが併合され、ターゲットDVに最も高度に相関しているIVの “マスターランク付けされた”リストが形成される。所与のIVのためのマスタースコアを計算する場合、3つのファクタを考慮に入れる。即ち、ギャップスコアの大きさ、直径スコアの大きさ、及びIVがDVスコアリングリストのシリーズに現れた回数である。これら3つのファクタは、ある基本的“ジャンク結果”排他基準と組合わされて、所与の目標にされたDVのための最も高度に相関しているIVのリストを形成する。これを、図20に示す。遭遇する各IV毎のギャップスコア及び直径スコアを使用してこれらの実施例の1またはそれ以上を説明したが、本発明の実施例はこれらの型のスコアに限定されるものではなく、事実、IVのためのスコアを計算するための他のスコアリング関数を使用するさらなる実施例が存在することを理解すべきである。
本発明の1またはそれ以上の実施例によれば、データブレインモジュールは、数値データをカテゴリ別データまたは属性データ(限定するものではないが、例えば、処理ツールID)に相関させる相関アプリケーション( MahaCu )を含む。このアプリケーションは、(a)定性規則上でランク付けされた高速統計的出力、(b)直径スコア及び/またはギャップスコアに基づくランク付けされたスコアリング、(c)少なめに表されたツールIDを排除するために使用されるスコアリングしきい値、(d)表示されるトップ“発見物”の数を選択する能力、及び(e)“発見物”( findings )(ツールID)からの結果を、これらの“発見物”(ツールID)を表示できるようにすることによって影響される従属変数及びパラメータ(数)にすることができるような逆ランを遂行する能力を提供する。
図21は、上述したデータブレインモジュール相関アプリケーションへの入力であるデータマトリックスのサブセットの例を示している。この例には、ラインの終わりプローブデータ(BIN)が、処理ツールID( Eq_Id )及び処理時間( Trackin )と共に、ロットを基準として示されている。類似のデータマトリックスを、ウェーハ、サイト(レティクル)、またはダイを基準として作成することもできる。
図22は、番号(ビン)対カテゴリ(ツールID)ランの例を示している。従属変数としてビン(番号)を使用すると、上述したデータブレインモジュール相関アプリケーションは、データマトリックス内の各Eq_Id毎に類似のプロットを作成する。左区画内の菱形の幅はツールを通ってランしたロットの数を表し、右区画内の円の直径は95%信頼レベルを表している。
多くのプロットを分類するために、円間のギャップ空間(即ち、円によって囲まれていない領域)と、最上円のトップと最下円の底との間の合計距離との和を、“ギャップスコア”または“直径スコア”と呼ぶものを計算するための公式の一部として使用する。上述してデータブレインモジュール相関アプリケーションは、スコアの型を優先させるユーザが選択可能な相対重み付けに基づく重要度の順序でプロットを分類する。
本発明のこの実施例の別の面によれば、上述したデータブレインモジュール相関アプリケーションは、スコアリングしきい値を設定する。典型的にはICの特定処理層のために使用される多くの処理ツールが存在するが、正規基準ではそれらのサブセットだけが使用される。使用されない処理ツールは、屡々データを規則的にスキューし、データ処理中に不要の雑音を発生させる恐れがある。上述したデータブレインモジュール相関アプリケーションは、分析に先立って少なめに表されたツールを濾過して除去できるように、ユーザが定義したスコアリング値を使用することができる。例えば、もしスコアリングしきい値が90に設定されていれば、図23に示されている3つのツールの中のXTOOL1及びXTOOL2がロットの90%以上を含んでいるので、XTOOL3は濾過されて排除される。
本発明の1またはそれ以上の実施例によれば、上述したデータブレインモジュール相関アプリケーションは、“トップスコアの数”オプションを提供する。この特色を使用することによってユーザは、従属変数毎に表示可能な結果の最大数を決定することができる。従って、上述したデータブレインモジュール相関アプリケーションは全ての独立変数に対する分析を遂行するが、“トップスコアの数”フィールド内のプロット入力の数だけが表示されるようになる。
本発明の1またはそれ以上の実施例によれば、上述したデータブレインモジュール相関アプリケーションは、カテゴリ(限定するものではないが、例えば、ツールID)を従属変数にし、またカテゴリによって影響を受ける数値パラメータ(限定するものではないが、例えば、ビン、電気試験、計測等)を重要度の順に表示する逆ラン(逆MahaCu)をも遂行する。この重要度(スコア)は、番号対ツールIDラン中に行われるものと同一である。これらのランは、正常ラン中に検出されたツールIDを、自動的に逆ランのための従属変数にすることができる“デイジーチェーン”化することができる。
本発明の1またはそれ以上の実施例によれば、スコアリング技術に基づいて欠陥問題をランク付けする欠陥ブレインモジュールと称するアプリケーションを含んでいる。しかしながら、この分析を遂行するためには、以下に説明するように、欠陥データをデータ変換モジュール3020によってフォーマット化しなければならない。図24は、例えば、工場内の欠陥検査ツールまたは欠陥見直しツールによって生成された欠陥データファイルの例を示している。詳述すれば、このようなファイルは典型的に、ウェーハ上の各欠陥のx及びy座標、x及びyダイ座標、サイズ、欠陥の型分類コード、及びイメージ情報に関する情報を含む。本発明の1またはそれ以上の実施例によれば、データ変換モジュール3020は、この欠陥データファイルをダイレベル上のサイジング、分類(例えば、欠陥の型)及び欠陥密度からなるマトリックスに変換する。図25は、データ変換アルゴリズムによって作成されたデータマトリックスの例を示している。本発明の一実施例によれば、欠陥ブレインモジュールは、スコアリング技術に基づいて欠陥問題をランク付けする自動化された欠陥データマインニング障害検出アプリケーションからなる。このアプリケーションによれば、特定のサイズのビンまたは欠陥の型のインパクトは、以下に“キル( Kill )比”と呼ぶパラメータを使用して定量化される。キル比は、次のように定義される。
キル比=欠陥の型を伴う不良ダイの数÷欠陥の型を伴うダイの合計数
これも使用することができる別のパラメータは%損失であり、これは次のように定義される。
%損失=欠陥の型を伴う不良ダイの数÷不良ダイの合計数
上述した定義内の不良ダイとは、機能しないダイと呼ばれるものである。
図26は、欠陥ブレインモジュールアプリケーションの典型的な出力を示している。図26には、特定の欠陥の型(この例では、マイクロゲージ)を含むダイの数が、ダイ上のその型の欠陥の数に対してプロットされている。データマトリックス内には機能(即ち、良好)及び機能不全(即ち、不良)ダイ情報が存在しているから、特定の欠陥の型を含むどのダイが良好であるか、または不良であるかを決定するのは容易である。従って、図26には良好及び不良ダイ頻度がプロットされており、欠陥を含むダイの合計数に対する不良ダイの比(即ち、キル比)がグラフとして示されている。これらのグラフにおいて、グラフィカルセグメントの勾配が抽出され、欠陥ブレインモジュールアプリケーションによって生成された他の全てのプロットからのグラフィカルセグメントの勾配と比較され、それらは最高の勾配から始めて最低の勾配までランク付けされる。最高の勾配を有するグラフは歩留まりに影響を与える最重要な勾配であり、歩留まり向上エンジニアにとって価値があろう。
これらのプロットの1つの重要な特色は、欠陥ブレインモジュールアプリケーションがx軸上の“欠陥の数”ビンの最大数を調整する能力である。もしこれを使用することができなければ、有害物または偽欠陥の場合のようにあるダイ上の欠陥が異常な数であるような場合に、勾配ランキングが誤りになる。
本発明の1またはそれ以上の実施例によれば、データブレインモジュールは、例えば、データクリーナー(例えば、当分野においては公知の多数の方法の何れか1つに従って作成されたパール及びC++ソフトウェアアプリケーション)、データ変換プログラム(例えば、当分野においては公知の多数の方法の何れか1つに従って作成されたパール及びC++ソフトウェアアプリケーション)、及びデータフィルタ(例えば、当分野においては公知の多数の方法の何れか1つに従って作成されたパール及びC++ソフトウェアアプリケーション)のようなユーティリティを利用する。これらのデータクリーニング、データ変換、及び/またはデータフィルタリングは、構成ファイルの項において説明した基準、またはユーザ入力受信時の特別基準に従って遂行させることができる。本発明の1またはそれ以上の実施例によれば、データブレインモジュールはPCサーバー上で走るソフトウェアアプリケーションであり、当分野においては公知の多数の方法の何れか1つによるC++及びSOMで符号化されている。
本発明の1またはそれ以上の実施例によれば、データブレインエンジンモジュール3080の出力は、Microsoft FoxProTMデータベースとして実現されている結果データベース3090である。更に、本発明の1またはそれ以上の実施例によれば、WEBコマンダモジュール3070は、当分野においては公知の多数の方法の何れか1つに従って作成された安全ftp伝送ソフトウェアであり、ユーザまたはクライアントはこの安全ftp伝送ソフトウェアを使用してデータブレインエンジンモジュール3080へデータを送り、分析させることができる。
上述したデータマインニングプロセスの結果は、それら自体、データマインニングアルゴリズムに課せられた質問(規則誘導の場合のように)に返答するブール規則として、または構成ファイル内のテンプレートによって“重要”であると目標にされている、または指示されている変数のある相対的ランキング、または統計的貢献度として表されることが多い。どの特定のデータマインニングアルゴリズムを使用したのかに依存して、データマインニングアルゴリズムが生成する“結果”(即ち、数値データまたはカテゴリ別の変数の型)からなるデータの型は、各自動化されたデータマインニング分析ランを伴わせるようにユーザが定義することができる所定の統計的出力グラフのセットである。本発明の1またはそれ以上の実施例によれば、このような自動化された出力は、データマインニングの最初のパスに使用されるデータの“生”データマトリックス、及び/または完全データマインニングプロセスの“結果”からなるデータの列だけを含むより小さい“結果”データセットを伴うことができる。自動化されたデータマインニング分析ランが完了した後に、このような情報は全て結果データベース3090内に格納される。
結果の分配:図3に更に示されているように、本発明の1またはそれ以上の実施例によれば、WEB視覚化モジュール3100は、データブレインエンジンモジュール3080によって作成された結果データベース3090にアクセスして、限定するものではないが、例えば、WEBサーバーデータベース3120内に格納されるHTML報告書を生成するグラフィックス及び分析エンジン3110を走らせる。本発明の1またはそれ以上の実施例によれば、WEBサーバーデータベース3120は、当分野においては公知の多くの方法の何れか1つに従って報告書を発送するために、限定するものではないが、例えば、PCのウェブブラウザを使用してユーザによってアクセスすることができる。本発明の1またはそれ以上の実施例によれば、WEB視覚化モジュール3100は、結果の繰り返し報告、ウェブブラウザによって可能化されたチャート、報告書、エキスポートのためのパワーポイントファイルの生成、構成ファイル生成及び変更、会計管理、結果のeメール通知、及び情報共用を可能にするためのマルチユーザアクセスを可能にする。更に、本発明の1またはそれ以上の実施例によれば、WEB視覚化モジュール3100は、複数のユーザ(十分な機密保護アクセスを有する)が見て変更することができるMicrosoft Power Point(及び/またはWord)オンライン合作文書を複数のユーザが作成することを可能にする。本発明の1またはそれ以上の実施例によれば、WEB視覚化モジュール3100はPCサーバー上で走るソフトウェアアプリケーションであり、Java Applets、Microsoft Active Server Pages(ASP)コード、及びXMLを使用して符号化されている。例えば、WEB視覚化モジュール3100は、新ユーザがセットアップ(限定するものではないが、例えば、種々のシステム機能への保護アクセスのスペック)できる管理モジュール(例えば、PCサーバー上で走り、当分野においては公知の多くの方法の何れか1つに従ってweb Microsoft ASPコードで符号化されているソフトウェアアプリケーション)を含み、ユーザ特権(限定するものではないが、例えば、データ分析結果、構成ファイルセットアップ等へのアクセスを含む)を可能にする。WEB視覚化モジュール3100は、更に、ユーザが分析結果を見て報告書を作成することを可能にするジョブビューワモジュール(例えば、PCサーバー上で走り、当分野においては公知の多くの方法の何れか1つに従ってweb Microsoft ASPコードで符号化されているソフトウェアアプリケーション)を含む。WEB視覚化モジュール3100は、更に、ユーザが彼等のウェブブラウザを使用して特別のチャートを作成することを可能にするチャーティングモジュール(例えば、PCサーバー上で走り、当分野においては公知の多くの方法の何れか1つに従ってweb Microsoft ASPコードで符号化されているソフトウェアアプリケーション)を含む。WEB視覚化モジュール3100は、更に、データマインニング及び/またはハイパーキューブ形成の前に、ユーザがデータセットを組合わせることを可能にする結合・キューブモジュール(例えば、PCサーバー上で走り、当分野においては公知の多くの方法の何れか1つに従ってweb Microsoft ASPコードで符号化されているソフトウェアアプリケーション)を含む。WEB視覚化モジュール3100は、更に、データに対してデータマインニングを遂行する前に、ユーザがハイパーキューブで収集したデータを濾波することを可能にするフィルタモジュール(例えば、PCサーバー上で走り、当分野においては公知の多くの方法の何れか1つに従ってweb Microsoft ASPコードで符号化されているソフトウェアアプリケーション)を含み、このようなフィルタリングはユーザが指定した基準に従って遂行される。WEB視覚化モジュール3100は、更に、ユーザが彼等のウェブブラウザを使用して特別の基準でデータマインニングを遂行することを可能にするオンラインデータツールモジュール(例えば、PCサーバー上で走り、当分野においては公知の多くの方法の何れか1つに従ってweb Microsoft ASPコードで符号化されているソフトウェアアプリケーション)を含む。本発明の1またはそれ以上の実施例によれば、ユーザは、WEB視覚化モジュール3100に、ユーザがウェブブラウザを使用して所定のデータマトリックスを追跡することを可能にする統計的プロセス制御(“SPC”)のチャートを準備させる構成ファイルを構成することができる。
当業者ならば、以上の説明が単なる例示に過ぎないことが理解されよう。また、以上の説明は、本発明を説明した精密な形状以外のものを排除する、またはこれらの形状に限定する意図はない。例えばある寸法を記述したが、上述した実施例を使用して種々の設計を実現することが可能であり、これらの設計のための実際の寸法は回路要求に従って決定されるものであるから、これらは単なる例示に過ぎない。
従来技術による集積回路(“IC”)製造または組立て工場(“半導体工場”または“工場”)に存在する歩留まり分析ツールインフラストラクチャを示す図である。 工場内で利用される従来技術のプロセス(本明細書においては、ラインの終わり監視と称している)を示す図である。 本発明の1またはそれ以上の実施例に従って製造された工場データ分析システム、及びそれをIC製造プロセスに使用するために本発明の1またはそれ以上の実施例に適用した場合の生のフォーマットされていない入力からデータマインニング結果までの自動化されたデータの流れを示す図である。 本発明の1またはそれ以上の実施例に従って、構成されていないデータイベントを知的ベースに構成する方法の論理データ流を示す図である。 生の時間ベースデータの例、詳述すれば、処理ツールビーム電流を時間の関数として表したグラフを示す図である。 図5に示す生の時間ベースデータをどのようにセグメントに分割するかを示す図である。 図6のセグメント1に関連付けられた生の時間ベースデータを示す図である。 ビン_S上のセグメント7内のY範囲の依存性の例を示す図である。 3レベル分岐データマインニングランを示す図である。 本発明の1またはそれ以上の実施例に従って、データブレインコマンドセンターアプリケーションによって遂行される分配待ち行列作成を示す図である。 本発明の1またはそれ以上の実施例に従って製造されたユーザ編集及び構成ファイルインタフェースモジュールの分析テンプレートユーザインタフェース部分を示す図である。 本発明の1またはそれ以上の実施例に従って製造された構成ファイルの分析テンプレート部分を示す図である。 ハイパーピラミッドキューブ構造を示す図である。 ハイパーピラミッドキューブを示す図であって、1つの層を強調表示してある。 ハイパーピラミッドキューブの第2の層から抽出されたハイパーキューブからのハイパーキューブ層(自己編成マップ)を示す図である。 高、低、及び中央領域を有し、高クラスタ領域及び低クラスタ領域の各々には将来の自動化されたマップマッチング分析のためにタグが付けられている自己編成マップを示す図である。 ハイパーキューブを通してのセル投影を示す図である。 数値分布から“仮想”カテゴリを定義することを示す図である。 DVカテゴリがDVの数値分布に基づく場合の、ギャップスコア(ギャップスコア=((どの円内にもない)全てのギャップの和)、及び直径スコア(直径スコア=3つの円のDV平均直径)の計算を示す図である。 ギャップスコアの大きさ、直径スコアの大きさ、及びDVスコアリングリストのシリーズ上に現れるIVの回数の3つのファクタを考慮し、所与のIVのためのマスタースコアの計算を示す図である。 データブレインモジュールへの入力であるデータマトリックスのサブセットの例を示す図である。 番号(ビン)対カテゴリ(ツールID)ランの例を示す図である。 3つのツールのためのスコアリングしきい値の使用を示す図である。 工場内の欠陥検査ツールまたは欠陥見直しツールが生成する欠陥データファイルの例を示す図である。 データ変換アルゴリズムによって作成されたデータマトリックスの例を示す図である。 欠陥ブレインモジュールの典型的出力を示す図である。

Claims (27)

  1. 半導体製造工場(以下、「工場」という)において入手した情報をデータマインニングする方法であって、
    (a)工場内でデータを発生する、または工場からデータを収集するシステム、ツール、及びデータベースの1またはそれ以上からデータを集めるステップと、
    (b)前記データをフォーマットし、前記フォーマットされたデータをソースデータベース内に格納するステップと、
    (c)ユーザが指定した構成ファイルに従ってデータマインニングに使用するための前記データの部分を抽出するステップと、
    (d)ユーザが指定した分析構成ファイルに応答して前記データの抽出された部分をデータマインニングするステップと、
    (e)前記データマインニングの結果を結果データベース内に格納するステップと、
    (f)前記結果へのアクセスを提供するステップと、を含み、
    前記抽出するステップは、前記構成ファイルを使用してハイパーキューブ定義を入手するステップと、前記ハイパーキューブ定義を使用してベクトルキャッシュ定義を作成するステップと、情報のベクトルキャッシュを作成するステップとを順に行うことを特徴とする方法。
  2. 前記格納するステップは、前記ソースデータベースからデータを抽出するステップと、前記抽出されたデータを関係型データベース構成要素及びファイルシステム構成要素からなるハイブリッドデータベース内に格納するステップとを更に含み、
    前記情報のベクトルキャッシュを作成するステップは、(a)前記ベクトルキャッシュ定義によって識別されたファイル及びデータ要素のリストを、ハッシュ・インデックスキーを使用して前記関係型データベース構成要素から検索するステップと、(b)前記ファイルを前記ファイルシステム構成要素から検索するステップと、(c)前記ベクトルキャッシュを、前記ベクトルキャッシュ定義内に識別されているデータ要素と共に集団化するステップとを含むことを特徴とする請求項1に記載の方法。
  3. 前記抽出するステップは、前記ハイパーキューブ定義を使用して前記ベクトルキャッシュ情報からハイパーキューブを生成するステップを更に含むことを特徴とする請求項2に記載の方法。
  4. 半導体製造工場(以下、「工場」という)において入手した情報をデータマインニングする方法であって、
    (a)工場内でデータを発生する、または工場からデータを収集するシステム、ツール、及びデータベースの1またはそれ以上からデータを集めるステップと、
    (b)前記データをフォーマットし、前記フォーマットされたデータをソースデータベース内に格納するステップと、
    (c)ユーザが指定した構成ファイルに従ってデータマインニングに使用するための前記データの部分を抽出するステップと、
    (d)ユーザが指定した分析構成ファイルに応答して前記データの抽出された部分をデータマインニングするステップと、
    (e)前記データマインニングの結果を結果データベース内に格納するステップと、
    (f)前記結果へのアクセスを提供するステップと、を含み、
    前記データマインニングするステップは、クラスタを形成するための自己編成マップデータマインニングするステップと、自己編成データマインニングからの出力をマップマッチング分析してクラスタマッチングを遂行するステップと、自己編成データマインニング分析からの出力を規則誘導データマインニングしてクラスタの規則説明を生成するステップと、カテゴリ別データを前記規則誘導データマインニングからの出力の数値データに相関付けるステップと、数値データを前記マップマッチング分析からの出力のカテゴリ別データに相関付けるステップとを順に行うことを特徴とする方法。
  5. 前記自己編成データマインニングするステップは、データを自動的に編成し、またあるデータセット内の異なる“工場問題”を表す分離し且つ支配的なデータクラスタを識別し、前記マップマッチング分析は、“関心のある”変数を、前記“関心のある”変数の挙動にクラスタ毎にインパクトを与えることが知られている何等かの履歴データで記述することを特徴とする請求項4に記載の方法。
  6. 半導体製造工場(以下、「工場」という)において入手した情報をデータマインニングする方法であって、前記工場は、基板上の半導体回路を製造又は試験するため、1つ又はそれ以上のプロセスツール又は試験ツールを含み、
    (a)前記ツールから、1つ又はそれ以上の測定又は製造プロセスパラメータを含むデータを集めるステップと、
    (b)前記データの自己編成マップニューラルネットワーク解析を行い、前記データの自己編成マップを形成し、前記自己編成マップが、類似データの1つ又はそれ以上のクラスタを含むようにするステップと、
    (c)少なくとも1つのクラスタの規則誘導解析を行い、少なくとも1つのクラスタを説明する1つ又はそれ以上の仮説を出力するステップと、
    (d)前記規則誘導解析からの出力にデータマイニング解析を行い、前記1つ又はそれ以上の仮説と相関付けられた測定又は処理ツールセッティングを識別するステップとを、順に行うことを特徴とする方法。
  7. 前記規則誘導解析からの出力にデータマイニング解析を行うステップは、逆MahaCu解析を行うステップを含むことを特徴とする請求項6に記載の方法。
  8. 前記規則誘導解析からの出力にデータマイニング解析を行うステップは、カテゴリ別データ又は属性データを数値データに相関付けるデータマイニングアルゴリズムを行うステップを含むことを特徴とする請求項6に記載の方法。
  9. 前記自己編成マップニューラルネットワーク解析を行うステップは、関連する歩留まりデータのクラスタを含む自己編成マップを形成するステップを含むことを特徴とする請求項6に記載の方法。
  10. 半導体製造工場(以下、「工場」という)において入手した情報をデータマインニングする方法であって、前記工場は、基板上の半導体回路を製造又は試験するため、1つ又はそれ以上のプロセスツール又は試験ツールを含み、
    (a)前記ツールから、一連のデータ記録を含むデータを集めるステップを含み、各データ記録は、各々の変数の番号について1つの値を含み、各変数は測定又は製造プロセスパラメータであり、
    (b)前記データの自己編成マップニューラルネットワーク解析を行い、各変数に対応する層を有する自己編成マップを形成するステップを含み、各層は各セルが1つの値により特徴付けられるセルのアレイを含み、1つの変数に対応する層は、高しきい値より大きい又は低しきい値より小さい値を有する少なくとも1つのセルのクラスタにより特徴付けられ、
    (c)前記クラスタのマップマッチング解析を行い、前記1つの変数に統計的なインパクトを有する1つ又はそれ以上の変数の識別を出力するステップ、を順に行うことを特徴とする方法。
  11. 前記1つの変数は、歩留まりパラメータであることを特徴とする請求項10に記載の方法。
  12. 前記マップマッチング解析を行うステップは、
    前記1つのセルのクラスタをソースクラスタとして識別するステップと、
    前記ソースクラスタのセルが前記高しきい値より大きい値を有するときは、ソースクラスタと同じ層内の、前記低しきい値より小さい値を有する全てのセルを、ターゲットクラスタセルとして識別し、
    前記ソースクラスタのセルが前記低しきい値より小さい値を有するときは、ソースクラスタと同じ層内の、前記高しきい値より大きい値を有する全てのセルを、ターゲットクラスタセルとして識別し、
    前記ソースクラスタと前記ターゲットクラスタセルとを、前記1つの変数以外の他の変数に対応する自己編成マップの層のそれぞれのセルに投影するステップと、
    その変数に対応する前記自己編成マップの層内の、前記ソースクラスタセルと前記ターゲットクラスタセルとの差の程度に従って、各々の前記他の変数をランク付けするステップと、
    を含むことを特徴とする請求項10に記載の方法。
  13. 各々の前記他の変数をランク付けするステップは、その変数に対応する前記自己編成マップの層内の、前記ソースクラスタと前記ターゲットクラスタとの間の図心距離を求めるステップを含むことを特徴とする請求項12に記載の方法。
  14. 各々の前記他の変数をランク付けするステップは、その変数に対応する前記自己編成マップの層内の、ソースクラスタセルに対応するデータ記録の数と、ターゲットクラスタセルに対応するデータ記録の数とを求めるステップを含むことを特徴とする請求項12に記載の方法。
  15. 各々の前記他の変数をランク付けするステップは、その変数に対応する前記自己編成マップの層内の、そのクラスタを取り囲んでいるセルの値の平均と比較して、各クラスタの周辺セルの値の平均を求めるステップを含むことを特徴とする請求項12に記載の方法。
  16. 各々の前記他の変数をランク付けするステップは、
    前記ソースクラスタセルに対応するデータ記録の数をソースデータ記録として識別するステップと、
    前記ターゲットクラスタセルに対応するデータ記録の数をターゲットデータ記録として識別するステップと、
    前記ソースデータ記録からなる第1母集団と、前記ターゲットデータ記録からなる第2母集団とについて、T試験スコアを求めるステップと、
    前記ソースデータ記録の値の平均を求めるステップと、
    第1の値を第2の値で除した絶対値として、その変数の縮小比を求めるステップと、を含み、該第1の値は、その変数の値が前記平均より小さいターゲットデータ記録の数と、その変数の値が前記平均より大きいターゲットデータ記録の数との差であり、該第2の値はターゲットデータ記録の数であり、
    その変数にT試験スコアを乗じた縮小比として、その変数の変形T試験スコアを求めるステップ、
    を含むことを特徴とする請求項12に記載の方法。
  17. 更に、前記低しきい値と前記高しきい値の少なくとも1つを変化させるステップと、
    前記マップマッチング解析を行うステップを繰り返すステップを含むことを特徴とする請求項12に記載の方法。
  18. 更に、前記1つの変数の値が前記低しきい値より小さい又は前記高しきい値より大きい前記データ記録のサブセットを識別するステップと、
    前記データ記録のサブセットの追加のデータマイニング解析を行い、前記追加のデータマイニング解析から、前記1つの変数の値が前記低しきい値と前記高しきい値との間にある全てのデータ記録を除くステップと、
    を含むことを特徴とする請求項12に記載の方法。
  19. 追加のデータマイニング解析は、前記変数の相互作用を説明する規則を生成するための規則誘導解析を含むことを特徴とする請求項18に記載の方法。
  20. 更に、前記マップマッチング解析からの出力にデータマイニング解析を行い、前記出力に相関付けられたカテゴリデータを識別するステップを含むことを特徴とする請求項10に記載の方法。
  21. 前記マップマッチング解析からの出力にデータマイニング解析を行うステップは、MahaCu解析を行うステップを含むことを特徴とする請求項20に記載の方法。
  22. 前記マップマッチング解析からの出力にデータマイニング解析を行うステップは、前記出力と相関付けられたプロセスツールを識別するステップを含むことを特徴とする請求項20に記載の方法。
  23. 半導体製造工場(以下、「工場」という)において入手した情報をデータマインニングする方法であって、前記工場は、基板上の半導体回路を製造又は試験するため、1つ又はそれ以上のプロセスツール又は試験ツールを含み、
    (a)前記ツールから、一連のデータ記録を含むデータを集めるステップを含み、各データ記録は、各々の変数の番号について1つの値を含み、各変数は測定又は製造プロセスパラメータであり、
    (b)前記データの自己編成マップニューラルネットワーク解析を行い、各変数に対応する層を有する自己編成マップを形成するステップを含み、各層は各セルが1つの値により特徴付けられるセルのアレイを含み、1つの変数に対応する層は、高しきい値より大きい又は低しきい値より小さい値を有する少なくとも1つのセルのクラスタにより特徴付けられ、
    (c)前記データ記録のサブセットの追加のデータマイニング解析を行うステップを含み、前記サブセットは、前記1つの変数が低しきい値の値と高しきい値の値の間の値である全てのデータ記録を除き、(a)〜(c)のステップを順に行うことを特徴とする方法。
  24. 前記追加のデータマイニング解析は、規則誘導解析を行い、前記変数の相互作用を説明する規則を生成することを特徴とする請求項23に記載の方法。
  25. 半導体製造工場(以下、「工場」という)において入手した情報をデータマインニングし、処理ツールセンサデータから得たターゲット変数と、独立変数の数を含むデータセットから、ターゲット変数と、独立変数の数との間の相関の程度を求める方法であって、
    前記ターゲット変数は一連の逐次の値として特徴付けられ、各独立変数は、前記ターゲット変数のそれぞれの逐次の値として特徴付けられ、
    複数の連続する数値範囲を指定するステップと、
    前記ターゲット変数の各逐次の値に、どの数値範囲がその値を包含するかに従って、1つの数値範囲を割り当てるステップと、
    各独立変数と各数値範囲について、その数値範囲に割り当てられた前記ターゲット変数の値に対応するその独立変数の値に対して、中央値と、信頼間隔とを求めるステップと、
    各独立変数について、その独立変数についての前記信頼間隔を平均することにより、直径スコアを求めるステップと、
    各独立変数について、その独立変数の各信頼間隔ギャップのそれぞれの幅を加算することにより、ギャップスコアを求めるステップと、を含み、各信頼間隔ギャップは、その独立変数の何れの信頼間隔からも外れる、その独立変数の値の範囲内の間隔であり、
    各独立変数の直径スコアとギャップスコアに基づいて、各独立変数をランク付けするステップを含むことを特徴とする方法。
  26. 更に、前記ランク付けするステップは、前記割り当てるステップで割り当てられた異なる数値範囲で、前記ランク付けするステップ以外の全てのステップを繰り返すことを特徴とする請求項25に記載の方法。
  27. 前記ランク付けするステップは、その独立変数の直径スコアとギャップスコアに基づいて、また、その独立変数が、他の独立変数と比較して最高の直径スコアとギャップスコアを有する繰り返しの数に基づいて、各独立変数をランク付けするステップを含むことを特徴とする請求項25に記載の方法。
JP2003517801A 2001-07-30 2002-07-29 製造データ分析方法及び装置 Expired - Fee Related JP4446231B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US30812201P 2001-07-30 2001-07-30
US30812501P 2001-07-30 2001-07-30
US30812101P 2001-07-30 2001-07-30
US30812401P 2001-07-30 2001-07-30
US30812301P 2001-07-30 2001-07-30
US31063201A 2001-08-06 2001-08-06
US30978701P 2001-08-06 2001-08-06
US10/194,920 US6965895B2 (en) 2001-07-16 2002-07-12 Method and apparatus for analyzing manufacturing data
PCT/US2002/024114 WO2003012696A2 (en) 2001-07-30 2002-07-29 Method and apparatus for analyzing manufacturing data

Publications (2)

Publication Number Publication Date
JP2005532671A JP2005532671A (ja) 2005-10-27
JP4446231B2 true JP4446231B2 (ja) 2010-04-07

Family

ID=35335201

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003517801A Expired - Fee Related JP4446231B2 (ja) 2001-07-30 2002-07-29 製造データ分析方法及び装置

Country Status (1)

Country Link
JP (1) JP4446231B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218000B2 (en) * 2009-04-01 2015-12-22 Honeywell International Inc. System and method for cloud computing
US10083249B2 (en) 2010-09-23 2018-09-25 Fisher-Rosemount Systems, Inc. Systems, methods and articles of manufacture to provide a search service to a process control system
CN105955209B (zh) * 2016-04-26 2018-05-08 中南民族大学 一种基于数据挖掘制造业工厂设备布局方法
US11010886B2 (en) * 2016-05-17 2021-05-18 Kla-Tencor Corporation Systems and methods for automatic correction of drift between inspection and design for massive pattern searching
JP6782275B2 (ja) 2018-04-10 2020-11-11 株式会社日立製作所 データカタログ自動生成システム及びその自動生成方法
JP7551967B2 (ja) 2020-06-08 2024-09-18 株式会社三葉電熔社 装置状態監視システム

Also Published As

Publication number Publication date
JP2005532671A (ja) 2005-10-27

Similar Documents

Publication Publication Date Title
US6965895B2 (en) Method and apparatus for analyzing manufacturing data
Cheng et al. Data and knowledge mining with big data towards smart production
Chien et al. Analysing semiconductor manufacturing big data for root cause detection of excursion for yield enhancement
Hsu et al. Hybrid data mining approach for pattern extraction from wafer bin map to improve yield in semiconductor manufacturing
US8610718B2 (en) Method of visualizing sets of correlated events on a display
Çiflikli et al. Implementing a data mining solution for enhancing carpet manufacturing productivity
JP2001521249A (ja) 生産分析において分類及び属性を拡張するソフトウエアシステム及び方法
Koppel et al. MDAIC–a Six Sigma implementation strategy in big data environments
JP4446231B2 (ja) 製造データ分析方法及び装置
Lau et al. Decision supporting functionality in a virtual enterprise network
US12038802B2 (en) Collaborative learning model for semiconductor applications
Debuse et al. Building the KDD roadmap: A methodology for knowledge discovery
US20210124751A1 (en) Prescriptive Recommendation System and Method for Enhanced Speed and Efficiency in Rule Discovery from Data in Process Monitoring
Milosevic et al. Big data management processes in business intelligence systems
TWI230349B (en) Method and apparatus for analyzing manufacturing data
Tsang et al. Development of a data mining system for continual process quality improvement
Chen et al. Design and implementation of an intelligent manufacturing execution system for semiconductor manufacturing industry
CN115689463A (zh) 一种稀土行业的企业台账数据库管理系统
EP1412882A2 (en) Method and apparatus for analyzing manufacturing data
Wójcik et al. Data mining industrial applications
Wu et al. Design an intelligent CIM system based on data mining technology for new manufacturing processes
CN117875726B (zh) 基于深度学习的价值链优化管控方法
Baek et al. Application of data mining for improving yield in wafer fabrication system
Lundén Implementing data analytics for improved quality in manufacturing: a case study
Tanuska et al. Knowledge discovery from production databases for hierarchical process control

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100107

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130129

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees