DE102004039861A1

DE102004039861A1 - Vorrichtung und Verfahren zum Messen jeder Dicke einer Vielfachschicht, die auf einem Substrat aufgestapelt ist

Info

Publication number: DE102004039861A1
Application number: DE102004039861A
Authority: DE
Inventors: Pil-Sik Hyun; Sun-Jin Kang; Sang-Kil Lee; Kyung-Ho Jung
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2003-08-18
Filing date: 2004-08-17
Publication date: 2005-03-17
Also published as: JP2005062188A; KR100556529B1; KR20050019303A; US6912056B2; US20050041255A1

Abstract

Bei einer Vorrichtung und einem Verfahren zum Messen der Dicke einer Vielfachschicht auf einem Substrat wird ein Spektrum des reflektierten Lichtes, welches von dem Substrat reflektiert wird, gemessen. Eine Vielzahl an Rezeptdatensätzen, von denen jeder einer einer Vielzahl von hypothetischen Vielfachschichten entspricht, wird gespeichert. Eine der Vielzahl der hypothetischen Vielfachschichten wird anfänglich als die Vielfachschicht angenommen, die tatsächlich auf dem Substrat ausgebildet ist. Eine Vielzahl der theoretischen Spektren wird unter Verwendung von einem der Vielzahl der Rezeptdatensätze in Einklang mit vielfältigen theoretischen Dickenwerten von einer der Vielzahl der hypothetischen Vielfachschichten berechnet. Das gemessene Spektrum wird mit der Vielzahl der theoretischen Spektren verglichen, um eine zeitweilige Dicke der Vielfachschicht zu bestimmen. Es wird eine Zuverlässigkeit der zeitweiligen Dicke der Vielfachschicht eingeschätzt. Die zeitweilige Dicke wird als eine Dicke der Vielfachschicht auf dem Substrat ausgegeben, wenn die Zuverlässigkeit der zeitweiligen Dicke innerhalb eines zulässigen Bereiches liegt.

Description

HINTERGRUND DER ERFINDUNG
1. Gebiet der Erfindung
Die vorliegende Erfindung betrifft eine Vorrichtung und ein Verfahren zum Messen jeder Dicke einer Vielfachschicht, die auf einem Substrat aufgestapelt ist, z.B. einem Halbleiterwafer. Spezieller betrifft die Erfindung eine Vorrichtung und ein Verfahren zum direkten Messen einer Dicke einer Vielfachschicht unter Verwendung eines in ein Muster gebrachten Wafers, anstatt einen Wafer zu überwachen.

2. Beschreibung des Standes der Technik

Im allgemeinen umfaßt ein Halbleiterherstellungsprozeß einen Niederschlagsprozeß zum Aufschichten einer dünnen Schicht, wie z.B. einer Isolierschicht, einer dielektrischen Schicht und einer Metallschicht auf einen Wafer eines einkristallinen Siliziums, und auch einen fotolithographischen Prozeß zur Ausbildung eines vorbestimmten Musters auf der dünnen Schicht. Zusätzlich wird die dünne Schicht gewöhnlich gemessen, um zu bestätigen, ob die dünne Schicht in einer gewünschten Dicke aufgeschichtet wurde und nach der Durchführung des Niederschlagsprozesses oder des fotolithographischen Prozesses weggeätzt worden ist.

In herkömmlicher Weise wird die Dicke einer dünnen Schicht unter Verwendung eines Überwachungswafers gemessen, der eine Art eines Musterwafers darstellt. Wenn ein gewisser Prozeß bei der Herstellung einer Halbleitervorrichtung durchgeführt wird, wird der Überwachungswafer dem gleichen Prozeß wie ein Arbeitswafer unterzogen, der dann anschließend als in ein Muster gebrachter Wafer bezeichnet wird, und zwar nach der Vervollständigung des Prozesses. Es wird dann die Dicke der Schicht auf dem Überwachungswafer gemessen und es wird ein Prozeßfehler detektiert, und zwar basierend auf der gemessenen Dicke der Schicht. Die Schicht auf dem Überwachungswafer kann eine Schicht sein, die neuerlich durch den Prozeß ausgebildet wurde, oder kann eine Restschicht sein, die auf diesem nach der Durchführung des Prozesses verblieben ist.

Der Überwachungswafer enthält lediglich eine einzelne Schicht, die bei dem früheren Niederschlagsprozeß aufgeschichtet wurde, oder enthält eine Restschicht, die verblieben ist, nachdem der frühere Ätzprozeß durchgeführt worden ist, so daß eine untere Schicht, die unter der einzelnen Schicht niedergeschlagen wurde, oder die Restschicht nicht in dem gleichen Prozeß ausgebildet werden kann. Wenn demzufolge der Überwachungswafer zum Messen des Prozesses verwendet wird, wird die Dicke von lediglich einer einzelnen Schicht gemessen. Es werden jedoch vielfältige Arten von dünnen Schichten auf dem Arbeitswafer aufgeschichtet und es sind daher eine Vielzahl an Überwachungswafern erforderlich, die jeder dünnen Schicht auf dem Arbeitswafer zugeordnet sind oder entsprechen, um jede Dicke einer Vielfachschicht auf dem in ein Muster gebrachten Wafer zu messen.

Ferner wird der Überwachungswafer gewöhnlich verworfen, und zwar nach lediglich einem oder zwei Meßprozessen, um eine exakte Messung der Dicke aufrechtzuerhalten. Als ein Ergebnis nehmen die Kosten zum Messen des Prozesses unter Verwendung des Überwachungswafers sehr stark zu. Zusätzlich ergibt sich ein Problem dahingehend, daß die Dicke der dünnen Schicht auf dem Überwachungswafer nicht immer identisch mit der Dicke der dünnen Schicht auf dem in ein Muster gebrachten Wafer ist.

Demzufolge erfordert die Dicke der dünnen Schicht eine Messung in direkter Weise unter Verwendung des in ein Muster gebrachten Wafers statt der Verwendung des Überwachungswafers. Im allgemeinen werden verschiedene Arten von Schichten aufeinanderfolgend auf den in ein Muster gebrachten Wafer aufgestapelt und die Schichten als Ganzes, die auf den in ein Muster gebrachten Wafer aufgestapelt werden, werden kollektiv als Vielfachschicht bezeichnet. Eine Vielfachschicht kann auch als variable Vielfachschicht bezeichnet werden, und zwar insofern als einige der aufgestapelten Schichten entfernt werden können oder andere Schichten auf der Vielfachschicht zusätzlich aufgestapelt werden können, und zwar bei einem nachfolgenden Prozeß. Daher ist das Meßverfahren zum Messen der Dicke der dünnen Schicht unter Verwendung des in ein Muster gebrachten Wafers ein grundlegendes Problem dahingehend, daß die Dicke der Schicht gemessen werden muß, ohne dabei die variable Vielfachschicht zu zerstören, um zu verhindern, daß der in ein Muster gebrachte Wafer beschädigt oder zerstört wird. In herkömmlicher Weise wurde ein Dualstrahl-Spektrometrie-Verfahren oder ein spektroskopisches Ellipsometrieverfahren dazu verwendet, um die Dicke der Schicht ohne Beschädigung zu messen.

Bei dem Dualstrahl-Spektrometrie-Verfahren wird Licht auf den in ein Muster gebrachten Wafer zum Einfallen gebracht, und zwar in einem im wesentlichen rechten Winkel von einer Lichtquelle aus, und es wird ein von dem Wafer reflektiertes Licht aufgeteilt in einen Probekanal und einen Referenzkanal. Es wird die Intensität des einfallenden Lichtes gemessen und es wird eine Referenzintensität unter Verwendung eines Siliziumreferenzchips berechnet. Eine relative Reflexionsfähigkeit wird anhand der Referenzintensität und der aktuellen oder tatsächlichen Intensität des Referenzkanals erhalten. Dann kann eine Dicke der Schicht unter Verwendung der relativen Reflexionsfähigkeit erhalten werden. Jedoch ist das Dualstrahl-Spektrometrie-Verfahren mit einem Problem behaftet, daß nämlich die gemessene Dicke nicht in einem Fall exakt ist, bei dem die Schicht sehr dünne ist oder eine Vielfachschichtstruktur besitzt, in der eine Vielzahl von Schichten auf den Wafer aufgeschichtet oder aufgestapelt sind.

Bei dem Spektroskopie-Ellipsometrie-Verfahren wird polarisiertes Licht zum Einfallen auf den Wafer gebracht, und zwar in einem vorbestimmten Winkel von einer Lichtquelle aus, und ein von dem Wafer reflektiertes Licht wird in horizontale und vertikale Polarisationskomponenten in bezug auf die Polarisationsrichtung aufgeteilt. Dann wird ein Lichtintensitätsverhältnis der horizontalen und der vertikalen Polarisationskomponente und es wird eine Phasendifferenz zwischen der horizontal und der vertikalen Polarisationskomponente erhalten. Eine Dicke einer Schicht auf dem Wafer wird unter Verwendung des Lichtintensitätsverhältnisses erhalten und auch auf Grund der Phasendifferenz zwischen den horizontalen und vertikalen Polarisationskomponenten.

Gemäß dem Dualstrahl-Spektrometrie-Verfahren und dem Spektroskopie-Ellipsometrie-Verfahren wird das von dem Wafer reflektierte Licht in Einklang mit einer Wellenlänge des Lichtes aufgeteilt und es wird ein Spektrum von jeder Wellenlänge gemessen. Dann wird das gemessene Spektrum mit einem theoretischen Spektrum verglichen und eine theoretische Dicke entsprechend dem theoretischen Spektrum, welches im wesentlichen ähnlich dem gemessenen Spektrum ist, wird bestimmt, und zwar als Dicke der Schicht.

Wenn eine Vielfachschicht auf einem in ein Muster gebrachten Wafer ausgebildet wird, wird das theoretische Spektrum exakt bei einem Zustand oder Bedingung berechnet, das strukturelle Informationen der Vielfachschicht, z.B. einer gestapelten Struktur und auch einer Materialeigenschaft von jeder Komponentenschicht, vollständig bekannt sind. Spezifischer ausgedrückt, wird das theoretische Spektrum in signifikanter Weise durch den Typ von jeder Komponentenschicht beeinflußt, ebenso durch die sequentielle Reihenfolge, entlang welcher die Komponentenschicht gestapelt ist, einem Brechungsindex n von jeder Komponentenschicht und einem Auslöschungskoeffizienten k von jeder Komponentenschicht. Der Brechungsindex wird als ein Verhältnis aus einer Geschwindigkeit des Lichtes in der Schicht zu der Geschwindigkeit des Lichtes in einem Vakuum definiert. Der Auslöschungskoeffizient ist als ein Reduzierungsverhältnis der Intensität des Lichtes definiert, wenn das Licht durch die Schicht hindurch verläuft.

Wenn daher die Informationen über die Vielfachschicht nicht exakt sind, kann das gemessene Spektrum nicht identisch mit dem theoretischen Spektrum sein und die gemessene Dicke der Vielfachschicht ist dann nicht zuverlässig.

Bei einem theoretisch in ein Muster gebrachten Wafer wird jede Komponentenschicht der Vielfachschicht auf den Wafer aufgeschichtet oder aufgestapelt, und zwar in Einklang mit einer entworfenen sequentiellen Folge, und die strukturellen Informationen der Vielfachschicht sind dann gut bekannt. Wenn jedoch ein Prozeßfehler erzeugt wird, und zwar während der Ausbildung von einer der Komponentenschichten in der Vielfachschicht, und wenn die tatsächlich gestapelte Struktur der Vielfachschicht verschieden ist von einer erwarteten Struktur der Vielfachschicht, können die strukturellen Informationen der Vielfachschicht nicht exakt bekannt sein. Als ein Ergebnis wird die Dicke der Komponentenschicht mit Hilfe des Dualstrahl-Spektrometrie-Verfahrens oder mit Hilfe des Spektroskopie-Ellipsometrie-Verfahrens nicht exakt gemessen. Speziell dann, wenn die Vielfachschicht so ausgebildet wird, daß sie eine örtlich unterschiedliche Stapelstruktur besitzt, und zwar auf Grund einer schlechten Ebenheit des in ein Muster gebrachten Wafers, wird die gemessene Dicke einer Komponentenschicht in der Vielfachschicht vollständig unzuverlässig.

ZUSAMMENFASSUNG DER ERFINDUNG

Die vorliegende Erfindung richtet sich daher auf die Schaffung einer Vorrichtung und eines Verfahrens zum Messen der Dicke einer Vielfachschicht, die auf einen in ein Muster gebrachten Wafer aufgeschichtet ist, bei der bzw. bei dem das eine oder auch mehrere Probleme auf Grund der Einschränkungen und Nachteile, die sich beim Stand der Technik einstellen, überwunden wird bzw. überwunden werden.

Ein Merkmal einer Ausführungsform der vorliegenden Erfindung besteht darin, eine Vorrichtung und ein Verfahren zum Messen einer Dicke einer Vielfachschicht anzugeben, die auf einen in ein Muster gebrachten Wafer aufgeschichtet ist, und zwar in direkter Weise, ohne den in ein Muster gebrachten Wafer zu beschädigen.

Ein anderes Merkmal einer Ausführungsform der vorliegenden Erfindung besteht darin, eine Vorrichtung und ein Verfahren zum Messen der Dicke einer Vielfachschicht zu schaffen, die auf einen in ein Muster gebrachten Wafer aufgeschichtet ist, die bzw. das dazu befähigt ist, in exakter Weise die Dicke der Vielfachschicht zu messen, und zwar ungeachtet davon, ob ein Prozeßfehler während der Ausbildung der Vielfachschicht aufgetreten war.

Wenigstens eines der oben erläuterten und weitere Merkmale und Vorteile der vorliegenden Erfindung können mit Hilfe einer Vorrichtung zum Messen einer Dicke einer Vielfachschicht auf einem Substrat realisiert werden, welche Vorrichtung eine Meßeinheit enthält, um reflektiertes Licht zu messen, um ein gemessenes Spektrum des reflektierten Lichtes zu erzeugen, wobei das reflektierte Licht von dem Substrat reflektiert wurde, auf welchem die Vielfachschicht ausgebildet ist, mit einer Eingabeeinheit zum Eingeben einer Vielzahl von Rezeptdaten, von denen jedes der Vielzahl der Rezeptdaten einer einer Vielzahl von hypothetischen Vielfachschichten entspricht, wobei eine der hypothetischen Vielfachschichten zu Beginn als die Vielfachschicht angenommen wird, die tatsächlich auf dem Substrat ausgebildet ist, mit einer ersten Speichereinheit zum Speichern der gemessenen Daten, einer zweiten Speichereinheit zum Speichern der Vielzahl der Rezeptdaten, einer Ausgabeeinheit zum Ausgeben der Dicke der Vielfachschicht auf dem Substrat, und mit einer Steuereinheit, die mit der Meßeinheit, der Eingabeeinheit, der ersten und der zweiten Speichereinheit und der Ausgabeeinheit verbunden ist, wobei die Steuereinheit eine Vielzahl an theoretischen Spektren berechnet, von denen jedes wenigstens eine Dicke von jeder Komponentenschicht der hypothetischen Vielfachschicht angibt, die als die Vielfachschicht angenommen wird, welche tatsächlich auf dem Substrat ausgebildet ist, unter Verwendung von einem Satz der Vielzahl der Rezeptdaten, wobei das gemessene Spektrum mit der Vielzahl der theoretischen Spektren verglichen wird, wodurch eine zeitweilige Dicke der Vielfachschicht bestimmt wird, geschätzt wird, ob die Zuverlässigkeit der zeitweiligen Dicke innerhalb eines zulässigen Bereiches liegt, und dann die zeitweilige Dicke zu der Ausgabeeinheit übertragen wird, wenn die Zuverlässigkeit innerhalb des zulässigen Bereiches liegt, oder wobei dann die Auswahl der zeitweiligen Dicke nach Änderung der Rezeptdaten wiederholt wird, wenn die Zuverlässigkeit außerhalb des zulässigen Bereiches liegt.

Die Meßeinheit kann einen Ladeteil aufweisen, um das Substrat einzuladen, eine Lichtquelle zum Erzeugen eines Lichtquellenlichtes, einen Polarisator zum Polarisieren des Lichtquellenlichtes, so daß das polarisierte Licht auf das Substrat gelenkt wird und von dem Substrat reflektiert wird, und kann einen Analysierer enthalten, um das reflektierte Licht zu analysieren, um die Daten zu messen, um das gemessene Spektrum zu erzeugen.

Die Meßeinheit kann auch ein Prisma enthalten, um das reflektiere Licht von dem Analysierer in horizontale und vertikale Polarisationskomponenten aufzuteilen, ferner einen Detektor aufweisen, der die horizontalen und vertikalen Polarisationskomponenten empfängt und Intensitäten derselben ausgibt, die ein Intensitätsverhältnis liefern und auch eine Phasendifferenz liefern, und zwar zwischen der horizontalen und der vertikalen Polarisationskomponente in Einklang mit einer Wellenlänge des reflektierten Lichtes.

Die Steuereinheit kann eines der Vielzahl der theoretischen Spektren auswählen, welches den geringsten Betrag eines Spektrumsfehlers besitzt, und kann eine theoretische Dicke bestimmen, die beim Berechnen des theoretischen Spektrums verwendet wird, und zwar als zeitweilige Dicke, wobei der Spektrumsfehler eine Differenz zwischen dem gemessenen Spektrum und dem theoretischen Spektrum ist.

Die Zuverlässigkeit der zeitweiligen Dicke kann eine Zahl enthalten, welche eine Größe des Spektrumsfehlers angibt.

Jeder Satz der Vielzahl der Rezeptdaten kann eine Stapelreihenfolge von jeder Komponentenschicht der entsprechenden hypothetischen Vielfachschicht, eine Stapelnummer von jeder Komponentenschicht der hypothetischen Vielfachschicht und physikalische Informationen über jede Komponentenschicht enthalten.

Die physikalischen Informationen von jeder Komponentenschicht können einen Brechungsindex und einen Auslöschungskoeffizienten von jeder Komponentenschicht enthalten.

Wenigstens eines der oben erläuterten Merkmale und weitere Merkmale und Vorteile der vorliegenden Erfindung können mit Hilfe eines Verfahrens realisiert werden, um die Dicke einer Vielfachschicht auf einem Substrat zu messen, welches Verfahren die Schritte umfaßt gemäß Messen eines Spektrums des reflektierten Lichtes, wobei das reflektierte Licht von dem Substrat reflektiert wird, auf welchem eine Vielfachschicht ausgebildet ist, nachdem ein Lichtquellenlicht auf das Substrat gelenkt wurde, Speichern einer Vielzahl von Rezeptdaten, wobei jeder Rezeptdatensatz einer einer Vielzahl von hypothetischen Vielfachschichten entspricht, wobei eine der Vielzahl der hypothetischen Vielfachschichten zu Beginn als die Vielfachschicht angenommen wird, die tatsächlich auf dem Substrat ausgebildet ist, Berechnen einer Vielzahl von theoretischen Spektren unter Verwendung von einem Satz der Vielzahl der Rezeptdatensätze in Einklang mit vielfältigen theoretischen Dicken der einen der Vielzahl der hypothetischen Vielfachschichten, Vergleichen des gemessenen Spektrums mit der Vielzahl der theoretischen Spektren, um eine zeitweilige Dicke der Vielfachschicht zu bestimmen, Abschätzen einer Zuverlässigkeit der zeitweiligen Dicke der Vielfachschicht und Ausgeben der zeitweiligen Dicke als eine Dicke der Vielfachschicht auf dem Substrat, wenn die Zuverlässigkeit der zeitweiligen Dicke innerhalb eines zulässigen Bereiches liegt.

Es kann das Berechnen einer Vielzahl der theoretischen Spektren unter Verwendung eines anderen Datensatzes der Vielzahl der Rezeptdatensätze, das Vergleichen des gemessenen Spektrums mit der Vielzahl der theoretischen Spektren und das Einschätzen einer Zuverlässigkeit der zeitweiligen Dicke der Vielfachschicht sequentiell wiederholt werden, wenn die Zuverlässigkeit der zeitweiligen Dicke außerhalb des zulässigen Bereiches liegt.

Wenn die Zulässigkeit der zeitweiligen Dicke außerhalb des zulässigen Bereiches liegt und all die Sätze der Vielzahl der Rezeptdaten verwendet worden sind, kann die zeitweilige Dicke mit der größten Zuverlässigkeit als die Dicke der Vielfachschicht auf dem Substrat ausgegeben werden.

Jeder Satz der Vielzahl der Rezeptdatensätze kann eine Stapelreihenfolge von jeder Komponentenschicht der entsprechenden hypothetischen Vielfachschicht, eine Stapelzahl von jeder Komponentenschicht der hypothetischen Vielfachschicht und physikalische Informationen hinsichtlich jeder Komponentenschicht enthalten.

Das Lichtquellenlicht kann als polarisiertes Licht ausgegeben werden und das Verfahren kann ferner einen Schritt umfassen gemäß Aufteilen des reflektierten Lichtes in eine horizontale und eine vertikale Polarisationskomponente und Bestimmen eines Intensitätsverhältnisses und einer Phasendifferenz zwischen der horizontalen und der vertikalen Polarisationskomponente in Einklang mit einer Wellenlänge des reflektierten Lichtes.

Ein optimales Spektrum mit einem geringsten Spektrumsfehler kann unter der Vielzahl der theoretischen Spektren ausgewählt werden und es kann eine Dicke in bezug auf das optimale Spektrum als zeitweilige Dicke der Vielfachschicht auf dem Substrat bestimmt werden, wobei der Spektrumsfehler aus einer Differenz zwischen dem gemessenen Spektrum und dem theoretischen Spektrum besteht.

Die Zuverlässigkeit der zeitweiligen Dicke kann als eine Zahl ausgedrückt werden, die eine Größe des Spektrumsfehlers angibt.

Das Substrat kann einen in ein Muster gebrachten Wafer aufweisen, auf welchem Halbleiterverarbeitungsprozesse durchgeführt werden.

Das Messen eines Spektrums des reflektierten Lichtes kann an einer Oxidstelle (oxide site) (OS) durchgeführt werden, die auf einer vorgezeichneten Linie des in ein Muster gebrachten Wafers ausgebildet ist. Das Messen eines Spektrums des reflektierten Lichtes kann sequentiell an einer Vielzahl an Meßpunkten auf dem Substrat vorgenommen werden.

Wenigstens eines der oben erläuterten Merkmale und weitere Merkmale und Vorteile der vorliegenden Erfindung können mit Hilfe eines Verfahrens zum Messen der Dicke einer Vielfachschicht auf einem in ein Muster gebrachten Wafer realisiert werden, gemäß Messen einer Vielzahl von Spektren des reflektierten Lichtes an einer Vielzahl von Meßpunkten auf dem in ein Muster gebrachten Wafer, wobei das Reflexionslicht von jedem der Vielzahl der Meßpunkte auf dem in ein Muster gebrachten Wafer reflektiert wird, auf welchem die Vielfachschicht ausgebildet ist, dann, nachdem das Lichtquellenlicht auf die Vielzahl der Meßpunkte gelenkt worden ist, eine Vielzahl von Rezeptdaten oder Rezeptdatensätzen gespeichert werden, von denen jeder einer einer Vielzahl von hypothetischen Vielfachschichten entspricht, wobei eine der Vielzahl der hypothetischen Vielfachschichten zu Beginn als die Vielfachschicht angenommen wird, die auf dem in ein Muster gebrachten Wafer ausgebildet ist, Berechnen einer Vielzahl von theoretischen Spektren unter Verwendung von einem Datensatz der Vielzahl der Rezeptdatensätze in Einklang mit vielfältigen theoretischen Dicken oder Dickenwerten der einen der hypothetischen Vielfachschichten, Vergleichen jedes der Vielzahl der gemessenen Spektren mit der Vielzahl der theoretischen Spektren, um eine Vielzahl an temporären Dicken der Vielfachschicht an jedem gemessenen Punkt zu bestimmen, Abschätzen einer Zuverlässigkeit von jeder der Vielzahl der zeitweiligen Dickenwerte der Vielfachschicht und Ausgeben der Vielzahl der zeitweiligen Dickenwerte als aktuelle Dickenwerte der Vielfachschicht an jedem der Vielzahl der gemessenen Punkte, wenn die Zuverlässigkeit der zeitweiligen Dicke innerhalb eines zulässigen Bereiches liegt.

Das Berechnen einer Vielzahl von theoretischen Spektren unter Verwendung eines anderen Satzes an Daten der Vielzahl der Rezeptdaten oder Datensätze, das Vergleichen von jedem der Vielzahl der gemessenen Spektren mit der Vielzahl der theoretischen Spektren und das Einschätzen einer Zuverlässigkeit von jeder der zeitweiligen Dicken der Vielfachschicht kann nachfolgend oder aufeinanderfolgend an jedem Meßpunkt wiederholt werden, wenn eine Zuverlässigkeit der zeitweiligen Dicke außerhalb des zulässigen Bereiches liegt.

Wenn die Zuverlässigkeit der zeitweiligen Dicke außerhalb des zulässigen Bereiches liegt und alle Datensätze der Vielzahl der Rezeptdaten oder Rezeptdatensätze verwendet worden sind, kann die zeitweilige Dicke mit der größten Zuverlässigkeit als aktuelle Dicke der Vielfachschicht an jedem der Vielzahl der Meßpunkte ausgegeben werden.

Bei einem Verfahren gemäß der vorliegenden Erfindung kann eine der Vielzahl der hypothetischen Vielfachschichten eine Standard-Vielfachschicht sein, die in Einklang mit einer gewünschten sequentiellen Folge aufgestapelt wurde. Die Vielzahl der theoretischen Spektren kann zu Beginn unter Verwendung der Rezeptdaten berechnet werden, entsprechend der Standard-Vielfachschicht. Eine andere der Vielzahl der hypothetischen Vielfachschichten kann sequentiell immer dann bestimmt werden, wenn eine oberste Komponentenschicht von der Standard-Vielfachschicht entfernt wurde. Eine andere der Vielzahl der hypothetischen Vielfachschichten kann sequentiell immer dann bestimmt werden, wenn eine zusätzliche Schicht auf der Standard-Vielfachschicht ausgebildet wurde.

Obwohl gemäß der vorliegenden Erfindung eine aktuelle Stapelstruktur der Vielfachschicht von der ursprünglich designten Struktur abweichen kann, kann die Dicke der Vielfachschicht exakt gemessen werden und es kann eine Zuverlässigkeitsbedingung erfüllt werden, indem die Rezeptdaten bzw. Rezeptdatensätze geändert werden.

KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die oben erläuterten und weitere Merkmale und Vorteile der vorliegenden Erfindung ergeben sich für Fachleute anhand der folgenden detaillierten Beschreibung von Ausführungsbeispielen in Verbindung mit den beigefügten Zeichnungen, in welchen zeigen:
1 eine schematische Darstellung einer Vorrichtung zum Messen der Dicke von jeder Schicht, die eine Vielfachschicht auf einem Wafer bildet, in Einklang mit einer als Beispiel gewählten Ausführungsform der vorliegenden Erfindung;
2 ein Flußdiagramm zur Erläuterung eines Verfahrens zum Messen der Dicke einer Vielfachschicht gemäß einer ersten Ausführungsform der vorliegenden Erfindung;
3A bis 3E Querschnittsansichten von vielfältigen hypothetischen Vielfachschichten, die einer aktuellen Vielfachschicht entsprechen, die auf einem in ein Muster gebrachten Wafer ausgebildet ist;
4A eine Ansicht einer gemessenen Zone auf einem in ein Muster gebrachten Wafer, an der eine Dicke der Vielfachschicht gemessen wird;
4B eine Ansicht einer Oxidstelle, die in einer vorgezeichneten Linie ausgebildet ist, entsprechend der Meßzone, die in 4A gezeigt ist;
5 eine Ansicht eines Waferplans mit einer Vielzahl von Meßpunkten;
6 einen Graphen, der eine Intensität von Licht in bezug auf die Wellenlänge veranschaulicht; und
7 einen Graphen, der eine Phasenverschiebung des Lichtes in bezug auf die Wellenlänge veranschaulicht.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Die koreanische Patentanmeldung Nr. 2003-56961, eingereicht am 18. August 2003 an das Korean Intellectual Properly Office, mit dem Titel: "Vorrichtung und Verfahren zum Messen jeder Dicke einer Vielfachschicht, die auf einem Substrat aufgestapelt ist", wird hier unter Bezugnahme voll mit einbezogen.
Die vorliegende Erfindung wird nun im folgenden vollständiger unter Hinweis auf die beigefügten Zeichnungen beschrieben, in welchen Ausführungsformen der Erfindung dargestellt sind. Die Erfindung kann jedoch in sehr unterschiedlichen und vielfältigen Formen realisiert werden und die Ausführungsbeispiele, die hier aufgeführt sind, sind nicht als Einschränkung zu interpretieren; vielmehr dienen diese Ausführungsbeispiele dazu, eine vollständige und sorgfältige Offenbarung zu vermitteln und auch Fachleuten den Rahmen der Erfindung darzulegen. In den Zeichnungen ist die Dicke von Schichten und von Zonen der Übersichtlichkeit halber übertrieben dargestellt. Gleiche Bezugszeichen bezeichnen ähnliche oder identische Elemente in allen Zeichnungen.
Vorrichtung zum Messen einer Dicke einer Vielfachschicht
1 veranschaulicht schematisch eine Vorrichtung zum Messen der Dicke von jeder Schicht, die eine Vielfachschicht bildet, die auf einen in ein Muster gebrachten Wafer aufgeschichtet sind, und zwar entsprechend einer als Beispiel gewählten Ausführungsform der vorliegenden Erfindung. Bei der beispielhaften Ausführungsform wird die Dicke der Vielfachschicht mit Hilfe des Spektroskopie-Ellipsometrie-Verfahrens gemessen.
Gemäß 1 enthält die Vorrichtung zum Messen der Dicke einer Vielfachschicht gemäß einer beispielhaften Ausführungsform der vorliegenden Erfindung eine Meßeinheit 30 zum Analysieren eines Reflexionslichtes, welches von einem in ein Muster gebrachten Wafer W reflektiert wird, und um Meßdaten zu erhalten, um ein gemessenes Spektrum des reflektierten Lichtes zu erzeugen. Die Meßeinheit 30 kann auch das gemessene Spektrum des reflektierten Lichtes ausgeben. Im Betrieb wird polarisiertes Licht auf den in ein Muster gebrachten Wafer W gelenkt, auf den die Vielfachschicht aufgeschichtet ist, und wird dann von dem Wafer W reflektiert. Das reflektierte Licht wird dann in horizontale und vertikale Polarisationskomponenten aufgeteilt und es werden ein Intensitätsverhältnis und eine Phasendifferenz zwischen der horizontalen und der vertikalen Polarisationskomponente des reflektierten Lichtes erhalten. Die Meßeinheit 30 liefert Graphen, welche die Beziehungen zwischen den Intensitätsverhältnissen und den Wellenlängen des Lichtes wiedergeben, und auch die Phasendifferenzen und die Wellenlängen des Lichtes. Im folgenden wird einer der Graphen als ein Spektrum des polarisierten Lichtes bezeichnet und verwendet. Demzufolge liefert die Meßeinheit 30 ein Spektrum des reflektierten Lichts, welches von dem in ein Muster gebrachten Wafer W reflektiert wird.
Die Meßeinheit 30 enthält einen Ladeabschnitt 10 zum Einladen des in ein Muster gebrachten Wafers W, eine Lichtquelle 12 zum Erzeugen von Licht, einen Polarisierer 14 zum Polarisieren des Lichtes, welches von der Lichtquelle 12 erzeugt wird, einen Analysierer 16 zum Analysieren des reflektierten Lichtes, welches von dem in ein Muster gebrachten Wafer W reflektiert wird, und zum Erzeugen des Spektrums des reflektierten Lichtes, ein Prisma 18 und einen Detektor 20. Das polarisierte Licht wird auf den in ein Muster gebrachten Wafer W in einem vorbestimmten Winkel aufgestrahlt, und zwar einem Winkel in bezug auf die Waferoberfläche und es sind eine Vielzahl an Spiegeln in einem Ausbreitungspfad des polarisierten Lichtes angeordnet, um den Ausbreitungspfad des polarisierten Lichtes zu ändern. Der Analysierer 16 überträgt das reflektierte Licht von dem in ein Muster gebrachten Wafer W proportional auf einen Polaxisationszustand des reflektierten Lichtes. Das Prisma 18 teilt das reflektierte Licht auf, welches durch den Analysierer 16 übertragen wird, und zwar in horizontale und vertikale Polarisationskomponenten. Der Detektor 20 mißt die Intensität der horizontalen und vertikalen Polarisationskomponenten des reflektierten Lichtes in Einklang mit der Wellenlänge des reflektierten Lichtes. Aus diesen Intensitätsgrößen kann ein Intensitätsverhältnis zwischen den horizontalen und vertikalen Polarisationskomponenten und kann die Phasendifferenz zwischen den horizontalen und vertikalen Polarisationskomponenten des reflektierten Lichtes in einer bekannten Weise bestimmt werden.
Die Vorrichtung zum Messen der Dicke der Vielfachschicht enthält auch eine Eingabeeinheit 40 zum Einspeisen einer Vielzahl von Rezeptdaten oder Rezeptdatensätzen, von denen jeder einer der Vielzahl der hypothetischen Mehrfachschichten entspricht. Die hypothetische Mehrfachschicht besteht aus einer theoretischen Pseudo-Vielfachschicht, die angenommenermaßen die Vielfachschicht ist, welche tatsächlich auf dem in ein Muster gebrachten Wafer W ausgebildet ist und eine theoretische Stapelstruktur besitzt, welche die Designbedingungen erfüllt. Daher speist der Operator der Vorrichtung die Rezeptdaten oder Rezeptdatensätze entsprechend der hypothetischen Vielfachschicht ein, mit der Annahme, daß die tatsächliche Vielfachschicht auf den in ein Muster gebrachten Wafer in Einklang mit einer gewünschten sequentiellen Reihenfolge aufgestapelt ist. Die Rezeptdaten (recipe data) entsprechend der hypothetischen Vielfachschicht enthalten eine Stapelreihenfolge der Schichten, eine Stapelnummer von jeder Komponentenschicht der hypothetischen Vielfachschicht, und Brechungsindizes und Auslöschungskoeffizienten von jeder Komponentenschicht. Die Eingabe-Rezeptdaten werden dazu verwendet, um ein theoretisches Spektrum der hypothetischen Vielfachschicht, die diesem entspricht, zu erhalten.
Eine erste Speichereinheit 50 speichert das gemessene Spektrum des reflektierten Lichtes. Zusätzlich speichert eine zweite Speichereinheit 60 die Eingabe-Rezeptdaten entsprechend der hypothetischen Vielfachschicht.
Eine Ausgabeeinheit 70 gibt die Dicke von jeder Schicht aus, welche die tatsächliche Vielfachschicht bildet, die auf den Wafer aufgeschichtet ist.
Eine Steuereinheit 80 steuert die Meßeinheit 30, die Eingabeeinheit 40, die erste und die zweite Speichereinheit 50 und 60 und die Ausgabeeinheit 70.
Um in Einzelheiten zu gehen, so berechnet die Steuereinheit 80 ein theoretisches Spektrum der hypothetischen Vielfachschicht unter Verwendung der Rezeptdaten, die in der zweiten Speichereinheit 60 gespeichert sind. Die Steuereinheit 80 berechnet ein Intensitätsverhältnis und eine Phasendifferenz unter Verwendung bekannter theoretischer Formeln und unter Verwendung der Rezeptdaten, die physikalische Informationen über die hypothetische Vielfachschicht enthalten. Dann werden das Intensitätsverhältnis und die Phasendifferenz in Einklang mit der Wellenlänge des Lichtes angeordnet, wodurch dann das theoretische Spektrum der hypothetischen Vielfachschicht entsprechend den Rezeptdaten bzw. Datensatz gebildet werden. Hierbei kann das theoretische Spektrum auch wiederholt gebildet werden, und zwar in Einklang mit vielfältigen theoretischen Dickenwerten von jeder Komponentenschicht in der hypothetischen Vielfachschicht. Die theoretischen Dickenwerte von jeder Komponentenschicht können innerhalb eines zulässigen Grenzbereiches variiert werden. Demzufolge werden eine Vielzahl der theoretischen Spektren in bezug auf jede theoretische Dicke der hypothetischen Vielfachschicht erhalten. Die Beziehung zwischen dem theoretischen Spektrum und der theoretischen Dicke der hypothetischen Vielfachschicht wird als eine Dispersionskurve bezeichnet. Es können eine Vielzahl der Dispersionskurven in Form einer Bibliotheksdatei gespeichert werden.
Das gemessene Spektrum des in ein Muster gebrachten Wafers wird mit den theoretischen Spektren verglichen und es wird eine theoretische Dicke zeitweilig ausgewählt, und zwar als eine Dicke der tatsächlichen Vielfachschicht auf dem in ein Muster gebrachten Wafer. Spezifischer ausgedrückt, wird das gemessene Spektrum wiederholt mit allen theoretischen Spektren verglichen und es wird das theoretische Spektrum mit dem kleinsten Spektrumsfehler, das heißt also einem kleinstmöglichen Spektrumsfehlerbetrag, als ein optimales Spektrum ausgewählt. Der Spektrumsfehler des theoretischen Spektrums zeigt eine Fehlübereinstimmung oder Differenz zwischen dem gemessenen Spektrum und dem theoretischen Spektrum an. Es wird daher die theoretische Dicke, die auf das optimale Spektrum bezogen ist, als zeitweilige Dicke der tatsächlichen Vielfachschicht ausgewählt.
Um eine Zuverlässigkeit der zeitweiligen Dicke abzuschätzen, wird der Grad des Passens (GOF) des optimalen Spektrums basierend auf der zeitweiligen Dicke berechnet und ergibt sich als eine Zahl zwischen null (0) und eins (1). Das GOF ist eine Zahl, die den Grad der Entsprechung zwischen dem gemessenen Spektrum und dem optimalen Spektrum angibt. Wenn GOF bei 1 liegt, ist das gemessene Spektrum im wesentlichen identisch mit dem optimalen Spektrum. Wenn GOF bei 0 liegt, ist das gemessene Spektrum wesentlichen verschieden von dem optimalen Spektrum.
Wenn GOF außerhalb eines zulässigen GOF-Bereiches liegt, der im voraus oder an früherer Stelle festgelegt wurde, werden die Rezeptdaten oder der Rezeptdatensatz geändert und es wird eine andere zeitweilige Dicke in der gleichen Weise, wie dies oben beschrieben wurde, ausgewählt. Wenn GOF innerhalb des zulässigen Bereiches liegt, so wird die zeitweilige Dicke dazu verwendet, um das optimale Spektrum zu berechnen, und diese wird zu der Ausgabeeinheit 70 als die Dicke der aktuellen Vielfachschicht des in ein Muster gebrachten Wafers übertragen. Wenn GOF außerhalb des zulässigen Bereiches liegt, obwohl alle die Rezeptdaten, die in der zweiten Speichereinheit 60 gespeichert sind, verwendet worden sind, so wird die zeitweilige Dicke mit dem höchsten GOF-Wert zu der Ausgabeeinheit 70 übertragen.
Spezifischer ausgedrückt, wenn GOF außerhalb des zulässigen Bereiches liegt, so wird die zeitweilige Dicke entsprechen dem GOF-Wert als nicht korrekt bestimmt und es wird nach einer anderen zeitweiligen Dicke wiederholt gesucht, und zwar nach Ändern der Rezeptdaten oder des Datensatzes, bis eine exaktere zeitweilige Dicke erhalten ist. Als Ergebnis wird eine Dicke der Vielfachschicht mit der höchstmöglichen Genauigkeit erhalten.
Verfahren zum Messen einer Dicke einer Vielfachschicht
1. Ausführungsform
2 ist ein Flußdiagramm zur Erläuterung eines Verfahrens zum Messen der Dicke einer Vielfachschicht gemäß einer ersten Ausführungsform der vorliegenden Erfindung.
Wie in 2 gezeigt ist, wird bei einem Schritt S10 ein in ein Muster gebrachter Wafer, auf den eine Vielfachschicht aufgeschichtet ist, vorgesehen. Eine Vielzahl an Oxidstellen (OS) wird in einer Vorgabelinie des in ein Muster gebrachten Wafers ausgebildet, um vielfältige Prozeßfehler zu überprüfen, die während verschiedener Prozesse erzeugt werden können. Wenigstens eine der Vielzahl der OS besitzt eine gestapelte Struktur zum Messen der Dicke der Vielfachschicht. Demzufolge wird die Dicke der Vielfachschicht auf dem in ein Muster gebrachten Wafer bei der OS gemessen, welche die gestapelte Struktur besitzt.
Bei einer als Beispiel gewählten Ausführungsform wird bei dem Verfahren angenommen, daß die erste bis fünfte Schicht sequentiell auf eine OS aufgeschichtet wurden und daß die vierte und die fünfte Schicht sequentiell von der OS während eines Ätzprozesses weggeätzt wurden. Daher mißt die Meßvorrichtung der vorliegenden Erfindung, die oben beschrieben wurde, jede Dicke der Schichten an der OS, die verblieben ist, und zwar nach dem Ätzprozeß. Es wird polarisiertes Licht auf die OS-Stelle gelenkt, um die Dicke des in ein Muster gebrachten Wafers dort zu messen, und das nicht wird von dem in ein Muster gebrachten Wafer reflektiert.
Bei dem Schritt S12 wird das reflektierte Licht detektiert und analysiert, und zwar entsprechend der Wellenlänge desselben, und wird in eine horizontal und vertikale Polarisationskomponente aufgeteilt. Nachfolgend werden ein Intensitätsverhältnis und eine Phasendifferenz zwischen der horizontalen und der vertikalen Polarisationskomponente als eine Funktion der Wellenlänge des polarisierten Lichtes abgeleitet und damit erhal ten. Spezifischer ausgedrückt, sind das Intensitätsverhältnis und die Phasendifferenz zwischen der horizontalen und der vertikalen Polarisationskomponente des polarisierten Lichtes in bezug auf die Wellenlänge des polarisierten Lichtes verteilt, was dann als ein gemessenes Spektrum im folgenden bezeichnet wird. Das gemessene Spektrum des polarisierten Lichtes wird in der ersten Speichereinheit gespeichert.
Bei dem Schritt S14 wird eine einer Vielzahl von hypothetischen Vielfachschichten zu Beginn als die aktuelle Vielfachschicht auf dem in ein Muster gebrachten Wafer angenommen und es werden eine Vielzahl von Rezeptdaten oder Datensätzen, von denen jeder einer der hypothetischen Vielfachschichten entspricht, in der zweiten Speichereinheit abgespeichert. Jeder Datensatz der Rezeptdaten enthält einige physikalische Informationen für jede hypothetische Vielfachschicht basierend auf einem Zustand, daß die Vielfachschicht auf den in ein Muster gebrachten Wafer gemäß einer designten sequentiellen Reihenfolge aufgestapelt wurde. Die Rezeptdaten oder Datensätze können alternativ vor der Erzeugung des gemessenen Spektrums abgespeichert werden.
Beispielsweise werden die Vielzahl der hypothetischen Schichten in der folgenden Weise angenommen. Zuerst wird eine willkürliche Vielfachschicht mit einer original designten Stapelstruktur als eine erste hypothetische Vielfachschicht entworfen. Das heißt, jede der Schichten in der ersten hypothetischen Vielfachschicht wird so angenommen, daß sie auf den in ein Muster gebrachten Wafer in Einklang mit einer designten sequentiellen Folge aufgestapelt wurde. Die erste hypothetische Vielfachschicht kann somit auch als eine Standard-Vielfachschicht bezeichnet werden. Dann wird eine oberste Schicht angenommenermaßen von der ersten hypothetischen Vielfachschicht entfernt und die erste hypothetische Vielfachschicht ohne der obersten Schicht derselben wird als eine zweite hypothetische Vielfachschicht designed. In der gleichen Weise wird, wann immer eine oberste Schicht angenommenermaßen von einer hypothetischen Vielfachschicht entfernt wurde, eine neue hypothetische Vielfachschicht sequentiell entworfen, das heißt eine erste, eine zweite, eine dritte usw. Anhand von weiteren Beispielen wird die zweite hypothetische Vielfachschicht ohne der obersten Schicht derselben als eine dritte hypothetische Vielfachschicht entworfen. In ähnlicher Weise wird, wann immer eine zusätzliche Schicht angenommenermaßen zu der ersten hypothetischen Schicht hinzugefügt wurde, eine neue hypothetische Vielfachschicht ebenfalls in sequentieller Weise entworfen. Wenn eine zusätzliche Schicht angenommenermaßen zu der hypothetischen ersten Vielfachschicht hinzuaddiert wurde, so wird die erste hypothetische Vielfachschicht, welche die zusätzliche Schicht enthält, als eine vierte hypothetische Vielfachschicht entworfen. Als ein Ergebnis werden eine Vielzahl von hypothetischen Vielfachschichten basierend auf der ersten hypothetischen Vielfachschicht mit einer ursprünglich designten Stapelstruktur entworfen.
Bei einer beispielhaften Ausführungsform enthält die erste hypothetische Vielfachschicht eine erste, eine zweite und eine dritte Schicht, die angenommenermaßen sequentiell auf den in ein Muster gebrachten Wafer gemäß einer Designreihenfolge aufgestapelt wurden. Die dritte Schicht der ersten hypothetischen Vielfachschicht wird dann entfernt, so daß dann die zweite hypothetische Vielfachschicht lediglich die erste und die zweite Schicht enthält. Beispielsweise kann ein Überätzen der ersten hypothetischen Vielfachschicht die oberste Schicht der ersten hypothetischen Vielfachschicht entfernen, wodurch die zweite hypothetische Vielfachschicht gebildet wird. Die zweite Schicht der zweiten hypothetischen Vielfachschicht wird dann entfernt und es wird eine dritte hypothetische Vielfachschicht gebildet, die lediglich die erste Schicht enthält. In ähnlicher Weise zur Ausbildung der zweiten hypothetischen Vielfachschicht kann ein Überätzen der zweiten hypothetischen Vielfachschicht die oberste Schicht der zweiten hypothetischen Vielfachschicht entfernen, wodurch dann die dritte hypothetische Vielfachschicht gebildet wird. Eine zusätzliche vierte Schicht wird dann angenommenermaßen auf der dritten Schicht der ersten hypothetischen Vielfachschicht angeordnet, wodurch dann die vierte hypothetische Vielfachschicht gebildet wird. Beispielsweise kann die vierte Schicht eine Überschußschicht aufweisen, die auf der ersten hypothetischen Vielfachschicht auf Grund eines ungenügenden Ätzvorganges verblieben ist. Eine zusätzliche fünfte Schicht wird angenommenermaßen auf der vierten Schicht der vierten hypothetischen Vielfachschicht angeordnet, wodurch dann eine fünfte hypothetische Vielfachschicht gebildet wird. Die fünfte hypothetische Vielfachschicht entspricht einer Stapelstruktur der aktuellen Vielfachschicht auf dem in ein Muster gebrachten Wafer, wenn irgendeine Schicht des Wafers nicht auf Grund eines Ätzfehlers weggeätzt wurde.
Bei der als Beispiel gewählten Ausführungsform, die oben beschrieben ist, bilden die erste Schicht und die fünfte Schicht die Bodenschicht bzw. die oberste Schicht der tatsächlichen Vielfachschicht, so daß zusätzliche hypothetische Vielfachschichten z.B. eine sechste hypothetische Vielfachschicht mit einer zusätzlichen Schicht gebildet werden, die angenommenermaßen auf der fünften Schicht angeordnet ist, oder eine siebte hypothetische Vielfachschicht, bei der die erste Schicht angenommenermaßen entfernt ist usw., dann nicht mehr benötigt wird.
Nachfolgend wird eine Vielzahl von Rezeptdaten bzw. Datensätzen, von denen jeder einer der Vielzahl der hypothetischen Vielfachschichten entspricht, vorbereitet. Es werden somit fünf Arten von Rezeptdaten oder Rezeptdatensätzen, das heißt ein erster Rezeptdatensatz bis hin zu einem fünften Rezeptdatensatz, vorbereitet. Die Rezeptdaten oder Datensätze enthalten eine Stapelreihenfolge der Schichten, eine Stapelnummer von jeder Komponentenschicht der hypothetischen Vielfachschicht und physikalische Informationen über die hypothetische Vielfachschicht. Die physikalischen Informationen der Vielfachschicht können einen Brechungsindex n und einen Auslöschungskoeffizienten k von jeder Komponentenschicht der hypothetischen Vielfachschicht enthalten.
Das Intensitätsverhältnis und die Phasendifferenz werden theoretisch in bezug auf jede Wellenlänge des polarisierten Lichtes berechnet, und zwar unter Verwendung der ersten Rezeptdaten bzw. des ersten Datensatzes, und bei einem Schritt S16, wird ein theoretisches Spektrum des polarisierten Lichtes unter Verwendung des Intensitätsverhältnisses, der Phasendifferenz und einer angenommenen Dicke der Komponentenschicht der hypothetischen Vielfachschicht erhalten. Spezifischer ausgedrückt, werden das Intensitätsverhältnis und die Phasendifferenz durch Verwenden einer theoretischen Formel der Ellipsometrie berechnet, unter Verwendung des Brechungsindex n, des Auslöschungskoeffizienten k, die in dem ersten Datensatz bzw. ersten Rezeptdaten enthalten sind. Dann wird eine Dicke von jeder Komponentenschicht der hypothetischen Vielfachschicht angenommen und es wird das theoretische Spektrum mit Hilfe einer anderen theoretischen Formel der Ellipsometrie erhalten, und zwar unter Verwendung des Brechungsindex n, des Auslöschungskoeffizienten k und der angenommenen Schichtdicke. Die Dicke der Komponentenschicht kann innerhalb eines vorbestimmten Grenzfehlerbereiches ausgewählt werden, das heißt einem zulässigen Fehlerbereich bei der Bearbeitung einer aktuellen Vielfachschicht auf dem in ein Muster gebrachten Wafer.
Wenn das theoretische Spektrum für einen ersten Zeitpunkt erhalten wurde, werden die ersten Rezeptdaten bzw. der erste Datensatz zu Beginn unter der Vielzahl der Rezeptdaten bzw. Datensätze verwendet. Wenn kein Prozeßfehler an dem in ein Muster gebrachten Wafer erzeugt wurde, so ist die erste hypothetische Vielfachschicht im wesentlichen identisch mit der tatsächlichen Vielfachschicht, die auf den in ein Muster gebrachten Wafer aufgeschichtet ist. Daher ist die aktuelle oder tatsächliche Dicke der Vielfachschicht im wesentlichen ähnlich der Dicke des theoretischen Spektrums basierend auf den ersten Rezeptdaten bzw. ersten Datensatz.
Das gemessene Spektrum wird mit einer Vielzahl von theoretischen Spektren basierend auf den ersten Rezeptdaten und einer Vielzahl von angenommenen Dickenwerten verglichen, und eine Fehlübereinstimmung oder Differenz zwischen dem gemessenen Spektrum und jedem theoretischen Spektrum wird überprüft. Im folgenden wird die Fehlübereinstimmung oder Differenz zwischen dem gemessenen Spektrum und dem theoretischen Spektrum als ein Spektrumsfehler des theoretischen Spektrums bezeichnet. Das theoretische Spektrum mit dem geringsten Betrag eines Spektrumsfehlers, das heißt das theoretisch Spektrum, bei dem der Spektrumsfehler minimiert ist, wird als ein am meisten exaktes und geeignetes Spektrum der aktuellen Vielfachschicht, die auf den in ein Muster gebrachten Wafer aufgeschichtet ist, betrachtet. Im folgenden wird das theoretische Spektrum, welches den geringsten Betrag eines Spektrumsfehlers besitzt, als optimales Spektrum des theoretischen Spektrums bezeichnet. Die Dicke des optimalen Spektrums wird als Dicke der aktuellen oder tatsächlichen Vielfachschicht behandelt. Daher wird bei dem Schritt S18 die Dicke der ersten bis dritten Komponenten schichten der hypothetischen Vielfachschicht zeitweilig als erste bis dritte Komponentenschichten der tatsächlichen Vielfachschicht jeweils betrachtet. Die Dicke der ersten hypothetischen Vielfachschicht, die auf den ersten Rezeptdaten basiert, wird als erste zeitweilige Dicke bezeichnet.
Um eine Zuverlässigkeit der zeitweiligen Dicke einzuschätzen, wird ein GOF-Wert berechnet. Bei einem Schritt S20 wird ein Entscheidungsschritt durchgeführt, um zu entscheiden, ob GOF des optimalen Spektrums basierend auf der ersten zeitweiligen Dicke innerhalb eines zulässigen Bereiches liegt, um die Zuverlässigkeit der ersten zeitweiligen Dicke zu bewerten. Der zulässige GOF-Bereich wird vor dem Prozeß voreingestellt. Bei einem Schritt S24, wenn der GOF-Wert des optimalen Spektrums innerhalb des zulässigen Bereiches liegt, wird die erste zeitweilige Dicke zu einer Ausgabeeinheit als die Dicke der tatsächlichen Vielfachschicht übertragen. Daher wird jede Dicke der ersten bis dritten Schicht der ersten hypothetischen Mehrfachschicht als Dicke von jeder Komponentenschicht der tatsächlichen Vielfachschicht ausgegeben, die auf den in ein Muster gebrachten Wafer aufgeschichtet ist.
Wenn GOF des optimalen Spektrums außerhalb des zulässigen Bereiches liegt, wird eine andere zeitweilige Dicke unter Verwendung von anderen Rezeptdaten bzw. eines anderen Datensatzes erhalten, der eine andere hypothetische Vielfachschicht charakterisiert, was dann mit Hilfe des gleichen Prozesses erfolgt, wie dies oben beschrieben wurde, und zwar nach Änderung der Rezeptdaten bzw. des Datensatzes bei dem Schritt S22. Der zulässige GOF-Bereich schätzt auch die Zuverlässigkeit der anderen zeitweiligen Dicke ab.
Spezifischer ausgedrückt, wenn die erste zeitweilige Dicke als unzuverlässig bestimmt wurde, wird eine Vielzahl von zweiten theoretischen Spektren abgeleitet, basierend auf den zweiten Rezeptdaten bzw. dem zweiten Datensatz, der eine zweite hypothetische Vielfachschicht charakterisiert, was bei dem Schritt S16 erfolgt. Dann wird das gemessene Spektrum mit einer Vielzahl der zweiten theoretischen Spektren verglichen, die unter Verwendung einer Vielzahl an Dickenwerten der zweiten hypothetischen Vielfachschicht berechnet wurden. Dann wird das optimale Spektrum unter der Vielzahl der zweiten theoretischen Spektren ausgewählt. Die Dicke in Verbindung mit dem optimalen Spektrum wird auch zeitweilig als die Dicke der tatsächlichen Vielfachschicht behandelt, so daß die Dicke der zweiten hypothetischen Vielfachschicht als eine zweite zeitweilige Dicke der tatsächlichen Vielfachschicht betrachtet wird, was bei dem Schritt S18 erfolgt. Dann, bei einem Schritt S20, wird GOF des optimalen Spektrums basierend auf der zweiten zeitweiligen Dicke berechnet, um die Zuverlässigkeit der zweiten zeitweiligen Dicke zu bewerten.
Wenn GOF des optimalen Spektrums innerhalb des zulässigen Bereiches liegt, wird die zweite zeitweilige Dicke zu der Ausgabeeinheit übertragen und es wird dann bei dem Schritt S24 jede Dicke der ersten und zweiten Schicht in der zweiten hypothetischen Mehrfachschicht als die Dicke von jeder Komponentenschicht der tatsächlichen Vielfachschicht ausgegeben. Wenn jedoch das optimale Spektrum außerhalb von dem zulässigen Bereich liegt, wird eine dritte zeitweilige Dicke abgeleitet, und zwar unter Verwendung eines dritten Datensatzes bzw. dritter Rezeptdaten entsprechend der dritten hypothetischen Vielfachschicht mit Hilfe des gleichen Prozesses, wie er oben beschrieben wurde. Wenn das optimale Spektrum basierend auf der dritten zeitweiligen Dicke außerhalb des zulässigen GOF-Bereiches liegt, wird eine vierte oder eine fünfte zeitweilige Dicke abgeleitet, indem der gleiche Prozeß wiederholt wird, wie er oben beschrieben wurde, wenn dies erforderlich ist.
Wenn GOF des optimalen Spektrums, welches die zeitweilige Dicke betrifft, innerhalb des zulässigen Bereiches liegt, wird bei einem Schritt S24 die zeitweilige Dicke als die Dicke der tatsächlichen Vielfachschicht ausgegeben, die auf dem in ein Muster gebrachten Wafer aufgeschichtet ist, ohne daß ein nachfolgender Dickenmeßprozeß durchgeführt wird. Wenn GOF des optimalen Spektrums außerhalb des zulässigen Bereiches liegt, obwohl alle Datensätze oder Rezeptdaten verwendet worden sind, so ist die zeitweilige Dicke, die für die Berechnung eines theoretischen Spektrums verwendet wurde, von dem GOF das exakteste ist, und zwar unter denjenigen der gegebenen theoretischen Spektren, so wird diese als die Dicke der aktuellen Vielfachschicht ausgege ben, die auf den in ein Muster gebrachten Wafer aufgeschichtet ist. Daher kann die Dicke der Vielfachschicht, die sequentiell auf den in ein Muster gebrachten Wafer aufgestapelt wurde, ohne direkten Kontakt mit der Vielfachschicht gemessen werden. Obwohl zusätzlich die tatsächliche Vielfachschicht nicht die gleiche Struktur haben kann, wie sie auf Grund der vielfachen Prozeßfehler erwartet wird, kann die Vielfachschichtdicke dennoch exakt gemessen werden.
Zweite Ausführungsform
Die 3A bis 3E zeigen Querschnittsansichten von vielfältigen hypothetischen Vielfachschichten, die einer aktuellen Vielfachschicht entsprechen können, die auf einem in ein Muster gebrachten Wafer ausgebildet sein können.
Ein in ein Muster gebrachter Wafer, auf dem eine Vielfachschicht ausgebildet ist, wird in eine Prozeßkammer geladen. Bei einer als Beispiel gewählten Ausführungsform wird eine Vielfachschicht auf den gemusterten Wafer ausgebildet, und zwar wie folgt: Es wird eine erste Siliziumnitridschicht 102 mit einer Dicke von etwa 260 Å, eine erste Siliziumoxidschicht 104 mit einer Dicke von etwa 750 Å, eine zweite Siliziumnitridschicht 106 mit einer Dicke von etwa 500 Å, eine zweite Siliziumoxidschicht 108 mit einer Dicke von etwa 5500 Å, eine dritte Siliziumnitridschicht 110 mit einer Dicke von etwa 600 Ä, eine dritte Siliziumoxidschicht 112 mit einer Dicke von etwa 13.000 Å und eine vierte Siliziumnitridschicht 114 mit einer Dicke von etwa 3000 Å aufeinanderfolgend aufgestapelt, und zwar in dieser Reihenfolge, und auf einer oberen Oberfläche eines Siliziumwafers 100, wie in 3A veranschaulicht ist. Dann werden die vierte Siliziumnitridschicht 114, die dritte Siliziumoxidschicht 112 und die dritte Siliziumnitridschicht 110 vollständig weggeätzt und es wird die zweite Siliziumoxidschicht 108 teilweise weggeätzt. Eine Dicke der Vielfachschicht, die auf dem gemusterten Wafer zurück bleibt, wird gemessen, um zu bestätigen, ob der Ätzprozeß ohne einen Fehler durchgeführt worden ist. Bei der Vervollständigung des Ätzprozesses ohne irgendeinen Fehler wird erwartet, daß die erste Siliziumnitridschicht 102 mit einer Dicke von etwa 260 Å, die erste Siliziumoxidschicht 104 mit einer Dicke von etwa 750 Å, eine zweite Siliziumnitridschicht 106 mit einer Dicke von etwa 500 Å und eine zweite Siliziumoxidschicht 108 mit einer Dicke von etwa 5500 Å aufeinanderfolgend in dieser Reihenfolge auf der oberen Oberfläche des Halbleiterwafers 100 aufgestapelt sind.
4A veranschaulicht eine Ansicht einer Meßzone auf dem gemusterten Wafer, auf welchem die Dicke der Vielfachschicht gemessen wird. 4B veranschaulicht eine Darstellung einer Oxidstelle, die in einer vorgezeichneten Linie ausgebildet ist, entsprechend der Meßzone, die in 4A gezeigt ist.
Eine Vielzahl der Meßpunkte zum Messen einer Dicke einer Vielfachschicht ist auf dem gemusterten Wafer festgelegt und es wird eine Vielzahl von OS, die den Meßpunkten entsprechen, zur Durchführung des Dickenmeßprozesses bezeichnet. Im allgemeinen wird eine OS wenigstens an einem oberen Abschnitt (T), einem zentralen Abschnitt (C), einem Bodenabschnitt (B), einem linken Abschnitt (L) und einem rechten Abschnitt (R) des gemusterten Wafers bezeichnet. Bei dieser Ausführungsform sind OS an jedem Abschnitt gemäß dem oberen Abschnitt, dem zentralen Abschnitt, dem Bodenabschnitt, dem linken Abschnitt und dem rechten Abschnitt des gemusterten Wafers bezeichnet, so daß erste bis fünfte Oxidstellen bezeichnet sind. Die OS 120 bildet ein Testmuster zum Prüfen von Prozeßfehlern und ist in einer Vorzeichnungslinie ausgebildet. Wenigstens eine der OS 120 besitzt im wesentlichen die gleiche Stapelstruktur wie das Muster, welches in einer Chipzone des gemusterten Wafers gestapelt ist.
Es wird dann polarisiertes Licht auf die erste OS gelenkt und es wird das reflektierte Licht, welches von der ersten OS reflektiert wird, detektiert. Das reflektierte Licht wird detektiert und in Einklang mit der Wellenlänge desselben analysiert und das reflektierte Licht wird in horizontale und vertikale Polarisationskomponenten aufgeteilt. Daher werden das Intensitätsverhältnis und die Phasendifferenz zwischen der horizontalen und der vertikalen Polarisationskomponente als eine Funktion der Wellenlänge des polarisierten Lichtes erhalten. Spezifischer ausgedrückt, sind das Intensitätsverhältnis und die Phasendifferenz zwischen der horizontalen und der vertikalen Polarisationskomponente des polarisierten Lichtes in bezug auf die Wellenlänge des polarisierten Lichtes verteilt. Daher wird das gemessene Spektrum des polarisierten Lichtes, welches von der ersten OS reflektiert wird, erhalten und ausgegeben. Das gemessene Spektrum wird gespeichert.
Dann werden eine Vielzahl von Rezeptdaten oder Datensätzen entsprechend einer Vielzahl der hypothetischen Vielfachschichten erstellt und in der zweiten Speichereinheit gespeichert, die dadurch bestimmt werden, indem die tatsächliche Vielfachschicht, die auf dem gemusterten Wafer ausgebildet ist, vorweggenommen wird.
Wie in 3B gezeigt ist, wird erwartet, daß eine erste hypothetische Vielfachschicht, welche die gleiche Stapelstruktur besitzt, wie dies bei dem Design der Vielfachschicht erwartet wird, eine erste Siliziumnitridschicht 102, eine erste Siliziumoxidschicht 104, eine zweite Siliziumnitridschicht 106 und eine zweite Siliziumoxidschicht 108 aufweist, die in einer jeweiligen Folge von der oberen Oberfläche des Siliziumwafers 100 aufgestapelt sind. Die erste hypothetische Vielfachschicht kann auch als eine Standard-Vielfachschicht bezeichnet werden. Die ersten Rezeptdaten bzw. der ersten Datensatz enthält eine Stapelreihenfolge der ersten hypothetischen Vielfachschicht, einen Brechungsindex n von jeder Komponentenschicht und einen Auslöschungskoeffizienten (Schwächungskoeffizienten) k von jeder Komponentenschicht.
Bei der zweiten hypothetischen Vielfachschicht wird erwartet, daß sie die erste Siliziumnitridschicht 102, die erste Siliziumoxidschicht 104 und die zweite Siliziumnitridschicht 106 aufweist, gestapelt in einer jeweiligen Sequenz von der oberen Oberfläche des Siliziumwafers 100 aus, wie in 3C gezeigt ist. Wenn daher die oberste Schicht von der ersten hypothetischen Vielfachschicht entfernt wird, wird die zweite hypothetische Vielfachschicht gebildet. Der zweite Datensatz enthält eine Stapelreihenfolge der zweiten hypothetischen Mehrfachschicht, einen Brechungsindex n von jeder Komponentenschicht und einen Löschungs- oder Abschwächungskoeffizienten k von jeder Komponentenschicht der zweiten hypothetischen Vielfachschicht.
Bei der dritten hypothetischen Vielfachschicht wird erwartet, daß sie die erste Siliziumnitridschicht 102 und die erste Siliziumoxidschicht 104 enthält, die in einer jeweiligen Folge gestapelt sind, und zwar von der oberen Oberfläche des Siliziumwafers 100 aus, wie in 3D gezeigt ist. Wenn daher die oberste Schicht von der zweiten hypothetischen Vielfachschicht entfernt wird, wird die dritte hypothetische Vielfachschicht gebildet.
Bei einer vierten hypothetischen Vielfachschicht wird erwartet, daß sie lediglich die erste Siliziumnitridschicht 102 enthält, die auf die oberste Oberfläche des Siliziumwafers 100 aufgeschichtet ist, wie in 3E dargestellt ist. Wenn daher die oberste Schicht von der dritten hypothetischen Mehrfachschicht entfernt wird, wird die vierte hypothetische Vielfachschicht gebildet. Die erste Siliziumnitridschicht 102 ist eine Bodenschicht, die direkt den Wafer 100 kontaktiert, und eine hypothetische Vielfachschicht ist dafür nicht erforderlich.
Obwohl in den Figuren nicht dargestellt, kann eine andere hypothetische Vielfachschicht realisiert werden, von der erwartet wird, daß sie eine dritte Siliziumnitridschicht mit einer Dicke von etwa 600 Ä, eine dritte Siliziumoxidschicht mit einer Dicke von etwa 13.000 Å und eine vierte Siliziumnitridschicht mit einer Dicke von etwa 3000 Å aufweist, die jeweils von der obersten Schicht der ersten hypothetischen Vielfachschicht aus aufgestapelt sind. Wenn jedoch die Schicht so dick ist, daß der Ätzprozeß zum Entfernen der Schicht in übermäßiger Form ausgeführt wird, kann eine oberste Schicht des gemusterten Wafers entfernt werden, und zwar auf Grund einer Überätzung. Es können daher andere hypothetische Vielfachschichten, die andere Schichten auf der obersten Schicht der ersten hypothetischen Schicht aufweisen, nicht erforderlich sein, und zusätzliche Rezeptdaten oder Datensätze entsprechend den anderen hypothetischen Vielfachschichten werden nicht benötigt.
Als nächstes wird eine Vielzahl von theoretischen Spektren unter Verwendung der ersten Rezeptdaten bzw. des ersten Datensatzes mit Hilfe einer theoretischen Gleichung abgeleitet. Spezifischer ausgedrückt, werden Brechungsindizes und Abschwächungs koeffizienten der ersten Siliziumnitridschicht 102, der ersten Siliziumoxidschicht 104, der zweiten Siliziumnitridschicht 106 und der zweiten Siliziumoxidschicht 108, die bereits in dem ersten Datensatz festgesetzt sind, in der theoretischen Gleichung verwendet und es wird das theoretische Spektrum in Übereinstimmung mit der Wellenlänge des Lichtes bei einem Zustand erhalten, bei dem die Dicke der ersten hypothetischen Vielfachschicht vorbestimmt ist. Das theoretische Spektrum wird in wiederholter Form abgeleitet, und zwar durch Variieren der Dicke der hypothetischen Vielfachschicht innerhalb eines vorbestimmten Bereiches, so daß eine Vielzahl an theoretischen Spektren gebildet wird. Die Dicke der Vielfachschicht kann aus einem zulässigen Randbereich der Dicke für jede Komponentenschicht ausgewählt werden. Das theoretische Spektrum wird in Einklang mit der Dicke der ersten hypothetischen Vielfachschicht ausgegeben und gespeichert.
Nachfolgend wird ein gemessenes Spektrum bei dem ersten OS mit einer Vielzahl von theoretischen Spektren verglichen und eine der theoretischen Spektren mit der geringsten Größe eines Spektrumsfehlers wird als optimales Spektrum ausgewählt, welches am engsten mit dem gemessenen Spektrum übereinstimmt. Als ein Ergebnis wird die Dicke von jeder Komponentenschicht der ersten hypothetischen Vielfachschicht zeitweilig als jede Dicke der aktuellen Vielfachschicht betrachtet, die als eine erste zeitweilige Dicke bezeichnet wird. Demzufolge wird eine Vielzahl der ersten zeitweiligen Dicken der ersten Siliziumnitridschicht 102, der ersten Siliziumoxidschicht 104, der zweiten Siliziumnitridschicht 106 und der zweiten Siliziumoxidschicht 108 gleichzeitig bestimmt.
Es wird GOF des optimalen Spektrums in bezug auf den zulässigen GOF-Bereich eingeschätzt. Wenn GOF des optimalen Spektrums innerhalb des zulässigen Bereiches liegt, wird die erste zeitweilige Dicke als die Dicke von jeder Komponentenschicht der aktuellen Vielfachschicht gespeichert. Der zulässige GOF-Bereich kann zwischen etwa 0,9 und 1 eingestellt werden. Wenn GOF außerhalb des zulässigen Bereiches liegt, wird die erste zeitweilige Dicke nicht als die Dicke der aktuellen Vielfachschicht betrachtet, und es wird eine zweite zeitweilige Dicke abgeleitet, und zwar unter Verwendung von zweiten Rezeptdaten bzw. eines zweiten Datensatzes, welcher der zweiten hypothetischen Vielfachschicht entspricht. Eine starke Abweichung von dem zulässigen GOF-Bereich kann anzeigen, daß die oberste Schicht der zweiten Siliziumoxidschicht 108 überätzt worden ist, und zwar bei einem früheren Ätzprozeß, und es können dann die ersten Rezeptdaten bzw. der ersten Datensatz nicht für die Bestimmung der Dicke der tatsächlichen Vielfachschicht verwendet werden. Daher werden die ersten Rezeptdaten bzw. wird der ersten Datensatz durch einen zweiten Datensatz ersetzt unter der Annahme, daß die tatsächliche Vielfachschicht enger an der zweiten hypothetischen Vielfachschicht liegt, in der die zweite Siliziumoxidschicht 108 nicht mehr vorhanden ist, und zwar enger daran liegt als an der ersten hypothetischen Vielfachschicht. Da der Prozeß zum Messen der zweiten zeitweiligen Dicke der Vielfachschicht der gleiche ist wie der Prozeß zum Messen der ersten zeitweiligen Dicke mit der Ausnahme, daß der erste Datensatz durch einen zweiten Datensatz ersetzt wird, wird eine weitere detaillierte Beschreibung zum Messen der zweiten Dicke hier weggelassen.
In einer ähnlichen Weise gemäß dem Messen der ersten Dicke der Vielfachschicht wird der GOF-Wert der zweiten zeitweiligen Dicke abgeschätzt, und zwar unter Verwendung des Spektrumsfehlers zwischen dem gemessen Spektrum und dem ausgewählten theoretischen Spektrum. Wenn GOF innerhalb des zulässigen GOF-Bereiches liegt, wird die zweite zeitweilige Dicke als die Dicke von jeder Komponentenschicht der tatsächlichen Vielfachschicht gespeichert. Wenn jedoch GOF außerhalb des zulässigen Bereiches liegt, wird die zweite zeitweilige Schicht nicht als die Dicke der aktuellen Vielfachschicht betrachtet und es wird eine dritte zeitweilige Schicht in bezug auf die dritte hypothetische Vielfachschicht abgeleitet unter Verwendung der dritten Rezeptdaten bzw. des dritten Datensatzes. Wenn GOF nicht innerhalb des zulässigen Bereiches liegt, ist die dritte Dicke nicht annehmbar, und zwar als Dicke der tatsächlichen Vielfachschicht, und es wird eine vierte zeitweilige Dicke in Verbindung mit der vierten hypothetischen Mehrfachschicht abgeleitet unter Verwendung des vierten Datensatzes. Es wird GOF der vierten Dicke in ähnlicher Weise berechnet, um zu bestimmen, ob GOF innerhalb des zulässigen Bereiches liegt.
Wenn GOF eines ausgewählten Spektrums innerhalb des zulässigen Bereiches liegt, kann der Prozeß gemäß dem Messen der Dicke der Vielfachschicht nicht durchgeführt werden und es wird eine zeitweilige Dicke, welche die GOF-Bedingung befriedigt, als die Dicke von jeder Komponentenschicht der aktuellen Vielfachschicht an der ersten OS bestimmt. Wenn nicht alle gemessenen Dickenwerte innerhalb des zulässigen Bereiches liegen, so wird die zeitweilige Dicke, von der GOF am nächsten zu dem zulässigen GOF-Bereich liegt, als die Dicke von jeder Komponentenschicht der aktuellen Vielfachschicht an dem ersten OS bestimmt. Die Dicke von jeder Komponentenschicht in der Vielfachschicht, die auf der ersten OS aufgeschichtet ist, wird mit Hilfe des oben beschriebenen Prozesses bestimmt. In dem gleichen Prozeß kann auch die Dicke von jeder Komponentenschicht in der Vielfachschicht, die auf der zweiten bis fünften OS aufgeschichtet ist, bestimmt werden, wie dies für einen Fachmann auf dem vorliegenden Gebiet zu erkennen ist.
Wenn demzufolge der Ätzprozeß nicht einheitlich auf dem gemusterten Wafer durchgeführt wird, werden die Rezeptdaten bzw. der Datensatz zum Berechnen der theoretischen Dicke in Einklang mit der Stapelstruktur von jeder OS ausgewählt, so daß die Dicke von jeder Komponentenschicht exakt bestimmt werden kann.
Dritte Ausführungsform
Die Elemente und die Prozesse einer dritten Ausführungsform der vorliegenden Erfindung sind im wesentlichen ähnlich denjenigen der zweiten Ausführungsform der vorliegenden Erfindung, ausgenommen einer Meßsequenz.
Ein gemusterter Wafer, auf welchem eine Vielfachschicht ausgebildet ist, wird in eine Prozeßkammer geladen. Bei einer beispielhaften Ausführungsform wird angenommen, daß die Vielfachschicht des gemusterten Wafers gemäß dem gleichen Prozeß wie bei dem gemusterten Wafer der oben beschriebenen zweiten Ausführungsform ausgebildet wurde. Spezifischer ausgedrückt, enthält der gemusterte Wafer eine erste Siliziumnitridschicht mit einer Dicke von etwa 260 Å, eine erste Siliziumoxidschicht mit einer Dicke von etwa 750 Å, eine zweite Siliziumnitridschicht mit einer Dicke von etwa 500 Å und eine zweite Siliziumoxidschicht mit einer Dicke von etwa 4500 Å, die sequentiell in dieser Reihenfolge von einer oberen Oberfläche eines Substrats nach einem Ätzprozeß aufgestapelt wurden.
Es wird polarisiertes Licht auf eine erste OS gelenkt und das von der ersten OS reflektierte Licht wird detektiert. Das reflektierte Licht wird detektiert und in Einklang mit einer Wellenlänge desselben analysiert und wird in eine horizontal und eine vertikale Polarisationskomponente aufgeteilt. Ein Intensitätsverhältnis und eine Phasendifferenz zwischen der horizontalen und der vertikalen Polarisationskomponente werden als eine Funktion der Wellenlänge des polarisierten Lichts erhalten. Spezifischer ausgedrückt, sind das Intensitätsverhältnis und die Phasendifferenz zwischen der horizontalen und der vertikalen Polarisationskomponente des polarisierten Lichtes in bezug auf die Wellenlänge des polarisierten Lichtes verteilt. Als ein Ergebnis wird ein erstes gemessenes Spektrum des polarisierten Lichtes, welches von der ersten OS reflektiert wurde, erhalten und ausgegeben. Dann werden zweite bis fünfte Meßspektren des polarisierten Lichtes, welches von einer zweiten OS bis einer fünften OS jeweils reflektiert wird, getrennt erhalten. Die ersten bis fünften gemessenen Spektren werden in einer ersten Speichereinheit gespeichert.
Als nächstes werden Erwartungen hinsichtlich einer Stapelstruktur der Vielfachschicht in der gleichen Weise gestellt, wie dies in Verbindung mit der beschriebenen zweiten Ausführungsform der vorliegenden Erfindung der Fall ist, und es werden erste bis vierte Rezeptdaten oder Datensätze im voraus eingestellt, so daß sie jeweils den ersten bis vierten hypothetischen Vielfachschichten entsprechen. Bei der vorliegenden Ausführungsform werden erste bis fünfte OS-Stellen oder -Punkte entsprechend einem oberen Abschnitt, einem zentralen Abschnitt, einem Bodenabschnitt und linken und rechten Abschnitten des gemusterten Wafers ausgewählt.
Eine Vielzahl der ersten theoretischen Spektren wird unter Verwendung der ersten Rezeptdaten bzw. des ersten Datensatzes gemäß einer theoretischen Gleichung abgelei tet. Spezifischer ausgedrückt, werden die Brechungsindizes und die Schwächungskoeffizienten von jeder Komponentenschicht der ersten hypothetischen Vielfachschicht, die bereits in den ersten Rezeptdaten bzw. dem ersten Datensatz eingestellt sind, in der theoretischen Gleichung verwendet und es wird das erste theoretische Spektrum in Einklang mit der Wellenlänge des Lichtes bei einer Bedingung erhalten, daß die theoretische Dicke von jeder Schicht festgelegt ist. Das erste theoretische Spektrum wird wiederholt mit variierenden theoretischen Dickenwerten von jeder Schicht abgeleitet, und zwar innerhalb eines vorbestimmten Bereiches, so daß eine Vielzahl von ersten theoretischen Spektren gebildet wird. Die Dicke der Vielfachschicht kann innerhalb eines zulässigen Grenzbereiches der Dicke von jeder Komponentenschicht ausgewählt werden. Eine Vielzahl der ersten theoretischen Spektren wird in Einklang mit der Dicke der ersten hypothetischen Vielfachschicht gespeichert.
Das gemessene Spektrum, welches an dem ersten OS gemessen wurde, wird mit einer Vielzahl der ersten theoretischen Spektren verglichen, die unter Verwendung der ersten Rezeptdaten bzw. des ersten Datensatzes berechnet wurden, entsprechend einer ersten hypothetischen Vielfachschicht, und es wird eine der ersten theoretischen Spektren, welche den geringsten Betrag eines Spektrumsfehlers besitzt, als ein erstes optimales Spektrum ausgewählt, welches am dichtesten zu dem gemessenen Spektrum paßt. Als ein Ergebnis wird die Dicke der Vielfachschicht in bezug auf das optimale Spektrum als eine erste zeitweilige Dicke der aktuellen Vielfachschicht an dem ersten OS betrachtet. In der gleichen Weise wird die erste zeitweilige Dicke der tatsächlichen Vielfachschicht an dem zweiten bis fünften OS-Punkten ebenfalls jeweils bestimmt.
Dann wird jeder GOF-Wert der ersten zeitweiligen Dicke an dem ersten bis fünften OS-Punkt eingeschätzt. Jede erste zeitweilige Dicke, von der GOF innerhalb des zulässigen Bereiches liegt, wird in Betracht gezogen und wird als aktuelle Dicke der Vielfachschicht ausgegeben, die an dem entsprechenden OS-Punkt aufgeschichtet ist. Jedoch wird die erste zeitweilige Dicke, bei der GOF außerhalb des zulässigen Bereiches liegt, nicht als die aktuelle oder tatsächliche Dicke der Vielfachschicht an dem entsprechenden OS-Punkt betrachtet.
Wenn der GOF-Wert der ersten zeitweiligen Dicke außerhalb des zulässigen Bereiches liegt, und zwar bei einem bestimmten OS, so wird eine Vielzahl von zweiten theoretischen Spektren abgeleitet, und zwar unter Verwendung der zweiten Rezeptdaten bzw. des zweiten Datensatzes, der einer zweiten hypothetischen Vielfachschicht entspricht, und es wird das gemessene Spektrum an dem speziellen OS mit einer Vielzahl der zweiten theoretischen Spektren verglichen. Wenn GOF der ersten zeitweiligen Dicke nicht innerhalb des zulässigen Bereiches liegt, und zwar an der ersten OS, so werden eine Vielzahl der zweiten theoretischen Spektren mit dem gemessenen Spektrum des ersten OS verglichen. Es wird dann die Dicke in bezug auf das zweite theoretische Spektrum, welches den geringsten Spektrumsfehlerbetrag aufweist, als eine zweite zeitweilige Dicke der tatsächlichen Vielfachschicht an der ersten OS gespeichert. Wenn der GOF-Wert der zweiten zeitweiligen Dicke nicht innerhalb des zulässigen Bereiches liegt, wird eine dritte und eine vierte zeitweilige Dicke der aktuellen Vielfachschicht wiederholt gemessen, basierend auf den dritten und vierten Rezeptdaten, welche dritte und vierte hypothetische Vielfachschichten jeweils kennzeichnen. Der GOF-Wert der dritten und der vierten zeitweiligen Dicken wird fortlaufend überprüft, um zu bestimmen, ob jeder GOF-Wert der dritten und der vierten zeitweiligen Dicke innerhalb des zulässigen Bereiches liegt.
Wenn alle die GOF-Werte der zeitweiligen Dicke innerhalb des zulässigen Bereiches liegen, und zwar bei allen den ersten bis fünften OS-Punkten, so wird jede der zeitweiligen Dicken, die die GOF-Bedingung befriedigen, als aktuelle Dicke von jeder Komponentenschicht in der Vielfachschicht ausgewählt und ein Meßprozeß zum Messen der Dicke der Vielfachschicht wird nicht mehr benötigt. Wenn alle der GOF-Werte innerhalb des zulässigen Bereiches liegen, obwohl alle Rezeptdaten zum Berechnen der zeitweiligen Dicke verwendet worden sind, so wir die zeitweilige Dicke, bei der GOF am engsten an den zulässigen GOF-Bereich angenähert ist, als die Dicke der aktuellen Vielfachschicht ausgewählt.
Demzufolge wird jede Dicke der Vielfachschicht, die an der ersten bis fünften OS-Stelle jeweils aufgeschichtet ist, exakt gemessen, und zwar mit Hilfe des oben beschriebenen Prozesses. Wenn zusätzlich der Ätzprozeß nicht in einheitlicher Weise an dem gemusterten Wafer vorgenommen wird, werden Rezeptdaten bzw. ein Datensatz zum Berechnen der theoretischen Dicke in Einklang mit der Stapelstruktur des OS ausgewählt, so daß die Dicke von jeder Komponentenschicht exakt bestimmt werden kann.
Die Dicke der Vielfachschicht, die auf den gemusterten Wafer aufgeschichtet ist, wurde experimentell an jedem OS-Punkt mit Hilfe des oben beschriebenen Prozesses gemessen, und zwar unter den folgenden Bedingungen:
5 veranschaulicht eine Ansicht eines Waferplans, der eine Vielzahl von Meßpunkten angibt. Drei Arten von Meßgruppen werden auf dem Wafer ausgewählt und jede Gruppe enthält zwei Meßpunkte oder Meßstellen, die zueinander benachbart sind. In 5 bezeichnen die Bezugszeichen 200a bis 200f jeweils erste bis sechste Meß punkte auf dem Wafer und es wird der Meßprozeß an einer entsprechenden OS vorgenommen, die an jeder Meßstelle ausgebildet ist.
6 zeigt einen Graphen, der eine Lichtintensität in bezug auf die Wellenlänge veranschaulicht. 7 ist ein Graph, der eine Phasenverschiebung des Lichtes in bezug auf die Wellenlänge veranschaulicht. Die Lichtintensität und die Phasenverschiebung werden an jedem Meßpunkt gemessen. In 6 geben die Kurven, die durch die Bezugszeichen 210a und 210 jeweils angezeigt sind, die Intensitätsänderung an dem ersten und zweiten OS-Punkt an. Die Kurven, die mit den Bezugszeichen 212a bzw. 212 bezeichnet sind, geben die Intensitätsänderung an den dritten und vierten OS-Punkten an. Die Kurven, die mit den Bezugszeichen 214a und 214 jeweils bezeichnet sind, geben die Intensitätsänderung an den fünften und sechsten OS-Punkten an.
In 7 geben die Kurven, die mit den Bezugszeichen 250a bzw. 250 bezeichnet sind, die Phasenänderung an dem ersten und dem zweiten OS-Punkt an. Die Kurven, die mit den Bezugszeichen 252a bzw. 252 bezeichnet sind, geben die Phasenänderung an dem dritten und dem vierten OS-Punkt an. Die Kurven, die mit den Bezugszeichen 254a bzw. 254 bezeichnet sind, geben die Phasenänderung an dem fünften bzw. sechsten OS-Punkt an. Im folgenden wird der in 6 dargestellte Graph als SE α bezeichnet und der Graf, der in 7 bezeichnet ist, wird als SE β bezeichnet.
Wenn gemäß den 6 und 7 die Meßpunkte beieinanderliegend gewählt sind und in der gleichen Meßgruppe liegen, ist die Gestalt von SE α sehr ähnlich der Gestalt von SE β, so daß sich SE α und SE β angenähert überlappen, wenn sie entlang einer vertikalen oder horizontalen Richtung in dem Graphen verschoben werden. Wenn jedoch die Meßpunkte voneinander getrennt sind und nicht in der gleichen Meßgruppe liegen, so ist die Gestalt von SE α vollständig verschieden von der Gestalt von SE β. Die Ähnlichkeit zwischen SE α und SE β zeigt an, daß die Vielfachschichten, die an den benachbarten Meßpunkten aufgeschichtet sind, in der Stapelstruktur ähnlich sind, und die Differenz zwischen SE α und SE β zeigt an, daß die Vielfachschichten die an den getrennten Meßpunkten aufgeschichtet sind, hinsichtlich der Stapelstruktur voll ständig voneinander verschieden sind, und zwar auf Grund von z.B. einem Ebenheitsfehler des gemusterten Wafers.
Die Dicke der Vielfachschicht wurde an den oben genannten sechs Meßpunkten des Wafers gemessen, und zwar unter Verwendung der ersten Rezeptdaten bzw. des ersten Datensatzes entsprechend der ersten hypothetischen Vielfachschicht, und es wurden die GOF-Werte der Dicke für jede Komponentenschicht jeweils berechnet, wobei die Ergebnisse in der folgenden Tabelle 1 dargestellt sind.
Tabelle 1
Um auf die Tabelle 1 einzugehen, so ist GOF der Dicke an den dritten bis sechsten Meßpunkten größer als 0,9, jedoch ist GOF der Dicke an dem ersten und dem zweiten Meßpunkt gleich 0. Daher ist die Dicke, die an dem ersten und dem zweiten Meßpunkt gemessen wurde, nicht vollständig zuverlässig, und zwar für die Verwendung für die tatsächliche Dicke der Vielfachschicht, die an dem ersten und dem zweiten Punkt des gemusterten Wafers aufgeschichtet ist. Zusätzlich wurde auch die Dicke der zweiten Siliziumnitridschicht als null (0) an dem fünften und sechsten Meßpunkt gemessen. Die in der Tabelle 1 gezeigten Ergebnisse zeigen an, daß die Dicke von jeder Komponentenschicht in der Vielfachschicht in gewisser Weise bei den ersten Rezeptdaten exakt ist, die für die Berechnung der Dicke verwendet wurden, wenn die Stapelstruktur der aktuellen Vielfachschicht die gleiche ist wie diejenige der ersten hypothetischen Vielfachschicht, von welcher lediglich die oberste Schicht entfernt worden ist.
Es wurde dann die Dicke der Vielfachschicht wiederholt an dem ersten und dem zweiten Meßpunkt gemessen, und zwar unter Verwendung der zweiten Rezeptdaten entsprechend der zweiten hypothetischen Vielfachschicht, da GOF der Dicke nicht innerhalb des zulässigen Bereiches lag. Die GOF-Werte der jeweiligen Dicke jeder Komponentenschicht wurden jeweils berechnet und die Ergebnisse sind in der folgenden Tabelle 2 dargestellt.
Tabelle 2
Es wurden dann alle die Dickenwerte mit einem GOF-Wert größer als 0,9 ausgegeben, wie in der Tabelle 3 gezeigt ist.
Tabelle 3
Um auf die Tabelle 3 einzugehen, so enthält die aktuelle Vielfachschicht, die an der ersten und der zweiten Stelle aufgeschichtet ist, lediglich die erste Siliziumnitridschicht ohne die zweite Siliziumnitridschicht und die Siliziumoxidschicht und die aktuelle Vielfachschicht, die an der dritten und der vierten Stelle aufgeschichtet ist, enthält alle Schichten gemäß der ersten Siliziumnitridschicht, der zweiten Siliziumnitridschicht und der Siliziumoxidschicht. Zusätzlich enthält die aktuelle Vielfachschicht, die an der fünften und sechsten Stelle aufgeschichtet ist, lediglich die erste Siliziumnitridschicht und die Siliziumoxidschicht ohne die zweite Siliziumnitridschicht.
Obwohl daher die Stapelstruktur der Vielfachschicht an jedem Abschnitt des gemusterten Wafers verschieden ist, und zwar beispielsweise auf Grund eines nicht einheitlich erfolgten Ätzprozesses, kann die Dicke von jeder Komponente der Vielfachschicht exakt gemessen werden mit einer Zuverlässigkeit eines GOF-Wertes größer als 0,9.
Gemäß der vorliegenden Erfindung kann somit die Dicke von jeder Komponentenschicht in der Vielfachschicht gemessen werden, ohne dabei den Wafer direkt zu kontaktieren und ohne Verwendung eines Überwachungswafers, sondern lediglich mit Verwendung des in ein Muster gebrachten Wafers, wodurch die Herstellungskosten der Halbleitervorrichtung reduziert werden. Obwohl zusätzlich die Stapelstruktur der Vielfachschicht an jedem Abschnitt des gemusterten Wafers verschieden sein kann, kann die Dicke von jeder Komponente der Vielfachschicht exakt mit einer hohen Zuverlässigkeit gemessen werden.
Es wurden als Beispiel ausgewählte Ausführungsformen offenbart und, obwohl spezifische Ausdrücke verwendet wurden, so sind diese lediglich als gattungsmäßige Ausdrücke und in einem beschreibenden Sinn und nicht im Sinne einer Einschränkung zu interpretieren. Es wird demzufolge für Fachleute darauf hingewiesen, daß vielfältige Änderungen in der Form und in Einzelheiten vorgenommen werden können, ohne jedoch dadurch den Rahmen der vorliegenden Erfindung, wie er in den nachfolgenden Ansprüchen festgehalten ist, zu verlassen.

Claims

Vorrichtung zum Messen einer Dicke einer Vielfachschicht auf einem Substrat, mit: einer Meßeinheit zum Messen eines reflektierten Lichtes, um ein gemessenes Spektrum des reflektierten Lichtes zu erzeugen, wobei das reflektierte Licht von dem Substrat reflektiert wird, auf dem die Vielfachschicht ausgebildet ist; einer Eingabeeinheit zum Eingeben einer Vielzahl von Rezeptdaten (Datensätzen), von denen jeder der Vielzahl der Rezeptdatensätze einer einer Vielzahl von hypothetischen Vielfachschichten entspricht, wobei bei einer der hypothetischen Vielfachschichten zu Beginn angenommen ist, daß sie eine tatsächlich auf dem Substrat ausgebildete Vielfachschicht ist; einer ersten Speichereinheit zum Speichern der gemessenen Daten; einer zweiten Speichereinheit zum Speichern der Vielzahl der Rezeptdatensätze; einer Ausgabeeinheit zum Ausgeben einer Dicke der Vielfachschicht auf dem Substrat; und einer Steuereinheit, die mit der Meßeinheit, der Eingabeeinheit, der ersten und der zweiten Speichereinheit und der Ausgabeeinheit verbunden ist, wobei die Steuereinheit eine Vielzahl der theoretischen Spektren berechnet, von denen jedes wenigstens eine Dicke von jeder Komponentenschicht der hypothetischen Vielfachschicht angibt, welche als die tatsächlich auf dem Substrat ausgebildete Vielfachschicht angenommen wird, unter Verwendung von einem der Vielzahl der Rezeptdatensätze, die Steuereinheit ferner das gemessene Spektrum mit der Vielzahl der theoretischen Spektren vergleicht, wobei eine zeitweilige Dicke der Vielfachschicht bestimmt wird, ferner beurteilt, ob eine Zuverlässigkeit der zeitweiligen Dicke innerhalb eines zulässigen Bereiches liegt, und die zeitweilige Dicke zu der Ausgabeeinheit überträgt, wenn die Zuverlässigkeit innerhalb eines zulässigen Bereiches liegt, oder die Auswahl der zeitweiligen Dicke wiederholt, nachdem der Rezeptdatensatz geändert wurde, wenn die Zuverlässigkeit außerhalb des zulässigen Bereiches liegt.
Vorrichtung nach Anspruch 1, bei der die Meßeinheit folgendes aufweist: einen Ladeabschnitt zum Einladen des Substrats; eine Lichtquelle zum Erzeugen von einem Quellenlicht; einen Polarisierer zum Polarisieren des Lichtquellenlichtes, so daß polarisiertes Licht auf das Substrat gelenkt wird und von dem Substrat reflektiert wird; und einen Analysierer zum Analysieren des reflektierten Lichtes, um die Daten zum Generieren des gemessenen Spektrums zu messen.
Vorrichtung nach Anspruch 2, bei der die Meßeinheit ferner folgendes aufweist: ein Prisma zum Aufteilen des reflektierten Lichtes von dem Analysierer in eine horizontale und eine vertikale Polarisationskomponente; und einen Detektor, der die horizontale und die vertikale Polarisationskomponente empfängt und die Intensitätswerte derselben ausgibt, die ein Intensitätsverhältnis und eine Phasendifferenz zwischen der horizontalen und der vertikalen Polarisa tionskomponente in Einklang mit einer Wellenlänge des reflektierten Lichtes liefern.
Vorrichtung nach Anspruch 1, bei der die Steuereinheit eines der Vielzahl der theoretischen Spektren auswählt, welches den geringsten Betrag eines Spektrumsfehlers aufweist, und eine theoretische Dicke bestimmt, die bei der Berechnung des theoretischen Spektrums als zeitweilige Dicke verwendet wird, wobei der Spektrumsfehler aus einer Differenz zwischen dem gemessenen Spektrum und dem theoretischen Spektrum besteht.
Vorrichtung nach Anspruch 4, bei der die Zuverlässigkeit der zeitweiligen Dicke eine Zahl umfaßt, welche eine Größe des Spektrumsfehlers angibt.
Vorrichtung nach Anspruch 1, bei der jede der Vielzahl der Rezeptdatensätze eine Stapelreihenfolge von jeder Komponentenschicht der entsprechenden hypothetischen Vielfachschicht, eine Stapelzahl von jeder Komponentenschicht der hypothetischen Vielfachschicht und physikalische Informationen hinsichtlich jeder Komponentenschicht enthält.
Vorrichtung nach Anspruch 6, bei der die physikalischen Informationen von jeder Komponentenschicht einen Brechungsindex und einen Abschwächungskoeffizienten von jeder Komponentenschicht enthalten.
Verfahren zum Messen der Dicke einer Vielfachschicht auf einem Substrat, mit den folgenden Schritten: Messen eines Spektrums des reflektierten Lichtes, wobei das reflektierte Licht von dem Substrat reflektiert wird, auf welchem die Vielfachschicht ausgebildet ist, nachdem ein Lichtquellenlicht auf das Substrat gelenkt wurde; Speichern einer Vielzahl von Rezeptdatensätzen, wobei jeder Rezeptdatensatz einer einer Vielzahl von hypothetischen Vielfachschichten entspricht, wobei eine der Vielzahl der hypothetischen Vielfachschichten anfänglich als die Vielfachschicht angenommen wird, die tatsächlich auf dem Substrat ausgebildet ist; Berechnen einer Vielzahl an theoretischen Spektren unter Verwendung von einem der Vielzahl der Rezeptdatensätze in Einklang mit vielfältigen theoretischen Dickenwerten von einer der Vielzahl der hypothetischen Vielfachschichten; Vergleichen des gemessenen Spektrums mit der Vielzahl der theoretischen Spektren, um eine zeitweilige Dicke der Vielfachschicht zu bestimmen; Abschätzen einer Zuverlässigkeit der zeitweiligen Dicke der Vielfachschicht; und Ausgeben der zeitweiligen Dicke als eine Dicke der Vielfachschicht auf dem Substrat, wenn die Zuverlässigkeit der zeitweiligen Dicke innerhalb eines zulässigen Bereiches liegt.
Verfahren nach Anspruch 8, bei dem das Berechnen einer Vielzahl von theoretischen Spektren unter Verwendung eines anderen einen der Vielzahl der Rezeptdatensätze durchgeführt wird, das Vergleichen des gemessenen Spektrums mit der Vielzahl der theoretischen Spektren und das Abschätzen einer Zuverlässigkeit der zeitweiligen Dicke der Vielfachschicht sequentiell wiederholt werden, wenn die Zuverlässigkeit der zeitweiligen Dicke außerhalb des zulässigen Bereiches liegt.
Verfahren nach Anspruch 9, bei dem dann, wenn die Zuverlässigkeit der zeitweiligen Dicke außerhalb des zulässigen Bereiches liegt und alle Rezeptdatensätze der Vielzahl der Rezeptdatensätze verwendet worden sind, die zeitweilige Dicke mit der größten Zuverlässigkeit als die Dicke der Vielfachschicht auf dem Substrat ausgegeben wird.
Verfahren nach Anspruch 8, bei dem eine der Vielzahl der hypothetischen Vielfachschichten eine Standard-Vielfachschicht bildet, die in Einklang mit einer entworfenen sequentiellen Reihenfolge aufgestapelt wurde.
Verfahren nach Anspruch 11, bei dem die Vielzahl der theoretischen Spektren zu Beginn unter Verwendung des Rezeptdatensatzes berechnet wird, der der Standard-Vielfachschicht entspricht.
Verfahren nach Anspruch 11, bei dem eine andere eine der Vielzahl der hypothetischen Vielfachschichten sequentiell bestimmt wird, wann immer eine oberste Komponentenschicht von der Standard-Vielfachschicht entfernt wird.
Verfahren nach Anspruch 11, bei dem eine andere eine der Vielzahl der hypothetischen Vielfachschichten sequentiell bestimmt wird, wann immer eine zusätzliche Schicht auf der Standard-Vielfachschicht ausgebildet wurde.
Verfahren nach Anspruch 8, bei dem jede der Vielzahl der Rezeptdatensätze eine Stapelreihenfolge von jeder Komponentenschicht der entsprechenden hypothetischen Vielfachschicht, eine Stapelzahl von jeder Komponentenschicht der hypothetischen Vielfachschicht und physikalische Informationen hinsichtlich jeder Komponentenschicht enthält.
Verfahren nach Anspruch 15, bei dem die physikalischen Informationen von jeder Komponentenschicht einen Brechungsindex und einen Abschwächungskoeffizienten von jeder Komponentenschicht enthalten.
Verfahren nach Anspruch 8, bei dem die Lichtquelle polarisiertes Licht ausgibt und ferner das reflektierte Licht in horizontale und vertikale Polarisationskomponenten aufgeteilt wird und ein Intensitätsverhältnis und eine Phasendifferenz zwischen den horizontalen und vertikalen Polarisationskomponenten in Einklang mit einer Wellenlänge des reflektierten Lichtes bestimmt werden.
Verfahren nach Anspruch 8, bei dem ein optimales Spektrum mit einem kleinsten Betrag eines Spektrumsfehlers unter der Vielzahl der theoretischen Spektren ausgewählt wird und bei dem die Dicke in bezug auf das optimale Spektrum als die zeitweilige Dicke der Vielfachschicht auf dem Substrat bestimmt wird, wobei der Spektrumsfehler eine Differenz zwischen dem gemessenen Spektrum und dem theoretischen Spektrum ist.
Verfahren nach Anspruch 18, bei dem die Zuverlässigkeit der zeitweiligen Dicke als eine Zahl ausgedrückt wird, welche eine Größe des Spektrumsfehlers angibt.
Verfahren nach Anspruch 8, bei dem das Substrat einen in ein Muster gebrachten Wafer bildet, auf dem eine Halbleiterverarbeitung durchgeführt wird.
Verfahren nach Anspruch 20, bei dem das Messen eines Spektrums des reflektierten Lichtes an einer Oxidstelle (OS) durchgeführt wird, die in einer vorgezeichneten Linie auf dem in ein Muster gebrachten Wafer ausgebildet ist.
Verfahren nach Anspruch 8, bei dem das Messen eines Spektrums des reflektierten Lichtes sequentiell an einer Vielzahl an Meßpunkten auf dem Substrat durchgeführt wird.
Verfahren zum Messen einer Dicke einer Vielfachschicht auf einem in ein Muster gebrachten Wafer, mit den folgenden Schritten: Messen einer Vielzahl an Spektren eines reflektierten Lichtes an einer Vielzahl von Meßpunkten auf dem in ein Muster gebrachten Wafer, wobei das reflektierte Licht von jeder der Vielzahl der Meßpunkte auf dem in ein Muster gebrachten Wafer reflektiert wird, auf welchem die Vielfachschicht ausgebildet ist, nachdem das Licht von einer Lichtquelle aus auf die Vielzahl der Meßpunkte gelenkt wurde; Speichern einer Vielzahl von Rezeptdatensätzen, von denen jeder einer einer Vielzahl von hypothetischen Vielfachschichten entspricht, wobei eine der Vielzahl der hypothetischen Vielfachschichten anfänglich als die Vielfachschicht angenommen wird, die tatsächlich auf dem in ein Muster gebrachten Wafer ausgebildet ist; Berechnen einer Vielzahl von theoretischen Spektren unter Verwendung von einem der Vielzahl der Rezeptdatensätze in Einklang mit vielfältigen theoretischen Dickenwerten von einer der hypothetischen Vielfachschichten; Vergleichen von jedem der Vielzahl der gemessenen Spektren mit der Vielzahl der theoretischen Spektren, um eine Vielzahl der zeitweiligen Dicken der Vielfachschicht an jeder Meßstelle oder jedem Meßpunkt zu bestimmen; Einschätzen einer Zuverlässigkeit von jeder der Vielzahl der zeitweiligen Dicken der Vielfachschicht; und Ausgeben der Vielzahl der zeitweiligen Dicken als tatsächliche Dickenwerte der Vielfachschicht an jedem der Vielzahl der Meßpunkte, wenn die Zuverlässigkeit der zeitweiligen Dicke innerhalb eines zulässigen Bereiches liegt.
Verfahren nach Anspruch 23, bei dem das Berechnen einer Vielzahl der theoretischen Spektren unter Verwendung eines anderen einen der Vielzahl der Rezeptdatensätze durchgeführt wird, ferner das Vergleichen von jeder der Vielzahl der gemessenen Spektren mit der Vielzahl der theoretischen Spektren und das Abschätzen einer Zuverlässigkeit von jeder der zeitweiligen Dicken der Vielfachschicht sequentiell wiederholt werden, und zwar an jedem Meßpunkt bei einer Zuverlässigkeit der zeitweiligen Dicke, die außerhalb des zulässigen Bereiches liegt.
Verfahren nach Anspruch 24, bei dem dann, wenn die Zuverlässigkeit der zeitweiligen Dicke außerhalb des zulässigen Bereiches liegt und alle der Vielzahl der Rezeptdatensätze verwendet worden sind, die zeitweilige Dicke mit der größten Zuverlässigkeit als eine aktuelle Dicke der Vielfachschicht an jedem der Vielzahl der Meßpunkte ausgegeben wird.
Verfahren nach Anspruch 23, bei dem eine der Vielzahl der hypothetischen Vielfachschichten eine Standard-Vielfachschicht bildet, die in Einklang mit einer entworfenen Reihenfolge aufgestapelt wurde.
Verfahren nach Anspruch 23, bei dem die Vielzahl der theoretischen Spektren anfänglich unter Verwendung des Rezeptdatensatzes berechnet wird, welcher der Standard-Vielfachschicht entspricht.
Verfahren nach Anspruch 23, bei dem eine andere eine der Vielzahl der hypothetischen Vielfachschichten sequentiell immer dann bestimmt wird, wenn eine oberste Komponentenschicht von der Standard-Vielfachschicht entfernt wurde.
Verfahren nach Anspruch 23, bei dem eine andere eine der Vielzahl der hypothetischen Vielfachschichten sequentiell bestimmt wird, wann immer eine zusätzliche Schicht auf der Standard-Vielfachschicht ausgebildet wurde.