-
HINTERGRUND
DER ERFINDUNG
-
1.
Gebiet der Erfindung
-
Die
vorliegende Erfindung betrifft eine Vorrichtung und ein Verfahren
zum Messen jeder Dicke einer Vielfachschicht, die auf einem Substrat
aufgestapelt ist, z.B. einem Halbleiterwafer. Spezieller betrifft
die Erfindung eine Vorrichtung und ein Verfahren zum direkten Messen
einer Dicke einer Vielfachschicht unter Verwendung eines in ein
Muster gebrachten Wafers, anstatt einen Wafer zu überwachen.
-
2. Beschreibung des Standes
der Technik
-
Im
allgemeinen umfaßt
ein Halbleiterherstellungsprozeß einen
Niederschlagsprozeß zum
Aufschichten einer dünnen
Schicht, wie z.B. einer Isolierschicht, einer dielektrischen Schicht
und einer Metallschicht auf einen Wafer eines einkristallinen Siliziums,
und auch einen fotolithographischen Prozeß zur Ausbildung eines vorbestimmten
Musters auf der dünnen
Schicht. Zusätzlich
wird die dünne
Schicht gewöhnlich
gemessen, um zu bestätigen,
ob die dünne
Schicht in einer gewünschten
Dicke aufgeschichtet wurde und nach der Durchführung des Niederschlagsprozesses
oder des fotolithographischen Prozesses weggeätzt worden ist.
-
In
herkömmlicher
Weise wird die Dicke einer dünnen
Schicht unter Verwendung eines Überwachungswafers
gemessen, der eine Art eines Musterwafers darstellt. Wenn ein gewisser
Prozeß bei
der Herstellung einer Halbleitervorrichtung durchgeführt wird, wird
der Überwachungswafer
dem gleichen Prozeß wie
ein Arbeitswafer unterzogen, der dann anschließend als in ein Muster gebrachter
Wafer bezeichnet wird, und zwar nach der Vervollständigung
des Prozesses. Es wird dann die Dicke der Schicht auf dem Überwachungswafer gemessen
und es wird ein Prozeßfehler
detektiert, und zwar basierend auf der gemessenen Dicke der Schicht. Die
Schicht auf dem Überwachungswafer
kann eine Schicht sein, die neuerlich durch den Prozeß ausgebildet wurde,
oder kann eine Restschicht sein, die auf diesem nach der Durchführung des
Prozesses verblieben ist.
-
Der Überwachungswafer
enthält
lediglich eine einzelne Schicht, die bei dem früheren Niederschlagsprozeß aufgeschichtet
wurde, oder enthält
eine Restschicht, die verblieben ist, nachdem der frühere Ätzprozeß durchgeführt worden
ist, so daß eine
untere Schicht, die unter der einzelnen Schicht niedergeschlagen
wurde, oder die Restschicht nicht in dem gleichen Prozeß ausgebildet
werden kann. Wenn demzufolge der Überwachungswafer zum Messen
des Prozesses verwendet wird, wird die Dicke von lediglich einer
einzelnen Schicht gemessen. Es werden jedoch vielfältige Arten
von dünnen
Schichten auf dem Arbeitswafer aufgeschichtet und es sind daher
eine Vielzahl an Überwachungswafern
erforderlich, die jeder dünnen
Schicht auf dem Arbeitswafer zugeordnet sind oder entsprechen, um
jede Dicke einer Vielfachschicht auf dem in ein Muster gebrachten
Wafer zu messen.
-
Ferner
wird der Überwachungswafer
gewöhnlich
verworfen, und zwar nach lediglich einem oder zwei Meßprozessen,
um eine exakte Messung der Dicke aufrechtzuerhalten. Als ein Ergebnis
nehmen die Kosten zum Messen des Prozesses unter Verwendung des Überwachungswafers
sehr stark zu. Zusätzlich
ergibt sich ein Problem dahingehend, daß die Dicke der dünnen Schicht
auf dem Überwachungswafer
nicht immer identisch mit der Dicke der dünnen Schicht auf dem in ein
Muster gebrachten Wafer ist.
-
Demzufolge
erfordert die Dicke der dünnen
Schicht eine Messung in direkter Weise unter Verwendung des in ein
Muster gebrachten Wafers statt der Verwendung des Überwachungswafers.
Im allgemeinen werden verschiedene Arten von Schichten aufeinanderfolgend
auf den in ein Muster gebrachten Wafer aufgestapelt und die Schichten
als Ganzes, die auf den in ein Muster gebrachten Wafer aufgestapelt
werden, werden kollektiv als Vielfachschicht bezeichnet. Eine Vielfachschicht
kann auch als variable Vielfachschicht bezeichnet werden, und zwar
insofern als einige der aufgestapelten Schichten entfernt werden
können
oder andere Schichten auf der Vielfachschicht zusätzlich aufgestapelt
werden können,
und zwar bei einem nachfolgenden Prozeß. Daher ist das Meßverfahren
zum Messen der Dicke der dünnen
Schicht unter Verwendung des in ein Muster gebrachten Wafers ein
grundlegendes Problem dahingehend, daß die Dicke der Schicht gemessen werden
muß, ohne
dabei die variable Vielfachschicht zu zerstören, um zu verhindern, daß der in
ein Muster gebrachte Wafer beschädigt
oder zerstört
wird. In herkömmlicher
Weise wurde ein Dualstrahl-Spektrometrie-Verfahren oder ein spektroskopisches
Ellipsometrieverfahren dazu verwendet, um die Dicke der Schicht ohne
Beschädigung
zu messen.
-
Bei
dem Dualstrahl-Spektrometrie-Verfahren wird Licht auf den in ein
Muster gebrachten Wafer zum Einfallen gebracht, und zwar in einem
im wesentlichen rechten Winkel von einer Lichtquelle aus, und es
wird ein von dem Wafer reflektiertes Licht aufgeteilt in einen Probekanal
und einen Referenzkanal. Es wird die Intensität des einfallenden Lichtes
gemessen und es wird eine Referenzintensität unter Verwendung eines Siliziumreferenzchips
berechnet. Eine relative Reflexionsfähigkeit wird anhand der Referenzintensität und der
aktuellen oder tatsächlichen
Intensität
des Referenzkanals erhalten. Dann kann eine Dicke der Schicht unter
Verwendung der relativen Reflexionsfähigkeit erhalten werden. Jedoch
ist das Dualstrahl-Spektrometrie-Verfahren mit einem Problem behaftet,
daß nämlich die
gemessene Dicke nicht in einem Fall exakt ist, bei dem die Schicht
sehr dünne
ist oder eine Vielfachschichtstruktur besitzt, in der eine Vielzahl
von Schichten auf den Wafer aufgeschichtet oder aufgestapelt sind.
-
Bei
dem Spektroskopie-Ellipsometrie-Verfahren wird polarisiertes Licht
zum Einfallen auf den Wafer gebracht, und zwar in einem vorbestimmten
Winkel von einer Lichtquelle aus, und ein von dem Wafer reflektiertes
Licht wird in horizontale und vertikale Polarisationskomponenten
in bezug auf die Polarisationsrichtung aufgeteilt. Dann wird ein
Lichtintensitätsverhältnis der
horizontalen und der vertikalen Polarisationskomponente und es wird
eine Phasendifferenz zwischen der horizontal und der vertikalen
Polarisationskomponente erhalten. Eine Dicke einer Schicht auf dem
Wafer wird unter Verwendung des Lichtintensitätsverhältnisses erhalten und auch
auf Grund der Phasendifferenz zwischen den horizontalen und vertikalen
Polarisationskomponenten.
-
Gemäß dem Dualstrahl-Spektrometrie-Verfahren
und dem Spektroskopie-Ellipsometrie-Verfahren wird das von dem Wafer
reflektierte Licht in Einklang mit einer Wellenlänge des Lichtes aufgeteilt
und es wird ein Spektrum von jeder Wellenlänge gemessen. Dann wird das
gemessene Spektrum mit einem theoretischen Spektrum verglichen und
eine theoretische Dicke entsprechend dem theoretischen Spektrum,
welches im wesentlichen ähnlich
dem gemessenen Spektrum ist, wird bestimmt, und zwar als Dicke der
Schicht.
-
Wenn
eine Vielfachschicht auf einem in ein Muster gebrachten Wafer ausgebildet
wird, wird das theoretische Spektrum exakt bei einem Zustand oder
Bedingung berechnet, das strukturelle Informationen der Vielfachschicht,
z.B. einer gestapelten Struktur und auch einer Materialeigenschaft
von jeder Komponentenschicht, vollständig bekannt sind. Spezifischer
ausgedrückt,
wird das theoretische Spektrum in signifikanter Weise durch den
Typ von jeder Komponentenschicht beeinflußt, ebenso durch die sequentielle
Reihenfolge, entlang welcher die Komponentenschicht gestapelt ist,
einem Brechungsindex n von jeder Komponentenschicht und einem Auslöschungskoeffizienten
k von jeder Komponentenschicht. Der Brechungsindex wird als ein
Verhältnis
aus einer Geschwindigkeit des Lichtes in der Schicht zu der Geschwindigkeit
des Lichtes in einem Vakuum definiert. Der Auslöschungskoeffizient ist als
ein Reduzierungsverhältnis
der Intensität
des Lichtes definiert, wenn das Licht durch die Schicht hindurch
verläuft.
-
Wenn
daher die Informationen über
die Vielfachschicht nicht exakt sind, kann das gemessene Spektrum
nicht identisch mit dem theoretischen Spektrum sein und die gemessene
Dicke der Vielfachschicht ist dann nicht zuverlässig.
-
Bei
einem theoretisch in ein Muster gebrachten Wafer wird jede Komponentenschicht
der Vielfachschicht auf den Wafer aufgeschichtet oder aufgestapelt,
und zwar in Einklang mit einer entworfenen sequentiellen Folge,
und die strukturellen Informationen der Vielfachschicht sind dann
gut bekannt. Wenn jedoch ein Prozeßfehler erzeugt wird, und zwar
während
der Ausbildung von einer der Komponentenschichten in der Vielfachschicht,
und wenn die tatsächlich
gestapelte Struktur der Vielfachschicht verschieden ist von einer
erwarteten Struktur der Vielfachschicht, können die strukturellen Informationen
der Vielfachschicht nicht exakt bekannt sein. Als ein Ergebnis wird
die Dicke der Komponentenschicht mit Hilfe des Dualstrahl-Spektrometrie-Verfahrens
oder mit Hilfe des Spektroskopie-Ellipsometrie-Verfahrens nicht
exakt gemessen. Speziell dann, wenn die Vielfachschicht so ausgebildet
wird, daß sie
eine örtlich
unterschiedliche Stapelstruktur besitzt, und zwar auf Grund einer
schlechten Ebenheit des in ein Muster gebrachten Wafers, wird die
gemessene Dicke einer Komponentenschicht in der Vielfachschicht
vollständig
unzuverlässig.
-
ZUSAMMENFASSUNG
DER ERFINDUNG
-
Die
vorliegende Erfindung richtet sich daher auf die Schaffung einer
Vorrichtung und eines Verfahrens zum Messen der Dicke einer Vielfachschicht,
die auf einen in ein Muster gebrachten Wafer aufgeschichtet ist, bei
der bzw. bei dem das eine oder auch mehrere Probleme auf Grund der
Einschränkungen
und Nachteile, die sich beim Stand der Technik einstellen, überwunden
wird bzw. überwunden
werden.
-
Ein
Merkmal einer Ausführungsform
der vorliegenden Erfindung besteht darin, eine Vorrichtung und ein
Verfahren zum Messen einer Dicke einer Vielfachschicht anzugeben,
die auf einen in ein Muster gebrachten Wafer aufgeschichtet ist,
und zwar in direkter Weise, ohne den in ein Muster gebrachten Wafer
zu beschädigen.
-
Ein
anderes Merkmal einer Ausführungsform
der vorliegenden Erfindung besteht darin, eine Vorrichtung und ein
Verfahren zum Messen der Dicke einer Vielfachschicht zu schaffen,
die auf einen in ein Muster gebrachten Wafer aufgeschichtet ist,
die bzw. das dazu befähigt
ist, in exakter Weise die Dicke der Vielfachschicht zu messen, und
zwar ungeachtet davon, ob ein Prozeßfehler während der Ausbildung der Vielfachschicht
aufgetreten war.
-
Wenigstens
eines der oben erläuterten
und weitere Merkmale und Vorteile der vorliegenden Erfindung können mit
Hilfe einer Vorrichtung zum Messen einer Dicke einer Vielfachschicht
auf einem Substrat realisiert werden, welche Vorrichtung eine Meßeinheit
enthält,
um reflektiertes Licht zu messen, um ein gemessenes Spektrum des
reflektierten Lichtes zu erzeugen, wobei das reflektierte Licht
von dem Substrat reflektiert wurde, auf welchem die Vielfachschicht
ausgebildet ist, mit einer Eingabeeinheit zum Eingeben einer Vielzahl
von Rezeptdaten, von denen jedes der Vielzahl der Rezeptdaten einer
einer Vielzahl von hypothetischen Vielfachschichten entspricht,
wobei eine der hypothetischen Vielfachschichten zu Beginn als die
Vielfachschicht angenommen wird, die tatsächlich auf dem Substrat ausgebildet
ist, mit einer ersten Speichereinheit zum Speichern der gemessenen
Daten, einer zweiten Speichereinheit zum Speichern der Vielzahl
der Rezeptdaten, einer Ausgabeeinheit zum Ausgeben der Dicke der
Vielfachschicht auf dem Substrat, und mit einer Steuereinheit, die
mit der Meßeinheit,
der Eingabeeinheit, der ersten und der zweiten Speichereinheit und
der Ausgabeeinheit verbunden ist, wobei die Steuereinheit eine Vielzahl
an theoretischen Spektren berechnet, von denen jedes wenigstens
eine Dicke von jeder Komponentenschicht der hypothetischen Vielfachschicht
angibt, die als die Vielfachschicht angenommen wird, welche tatsächlich auf
dem Substrat ausgebildet ist, unter Verwendung von einem Satz der
Vielzahl der Rezeptdaten, wobei das gemessene Spektrum mit der Vielzahl
der theoretischen Spektren verglichen wird, wodurch eine zeitweilige
Dicke der Vielfachschicht bestimmt wird, geschätzt wird, ob die Zuverlässigkeit
der zeitweiligen Dicke innerhalb eines zulässigen Bereiches liegt, und
dann die zeitweilige Dicke zu der Ausgabeeinheit übertragen
wird, wenn die Zuverlässigkeit
innerhalb des zulässigen Bereiches
liegt, oder wobei dann die Auswahl der zeitweiligen Dicke nach Änderung
der Rezeptdaten wiederholt wird, wenn die Zuverlässigkeit außerhalb des zulässigen Bereiches
liegt.
-
Die
Meßeinheit
kann einen Ladeteil aufweisen, um das Substrat einzuladen, eine
Lichtquelle zum Erzeugen eines Lichtquellenlichtes, einen Polarisator
zum Polarisieren des Lichtquellenlichtes, so daß das polarisierte Licht auf
das Substrat gelenkt wird und von dem Substrat reflektiert wird,
und kann einen Analysierer enthalten, um das reflektierte Licht
zu analysieren, um die Daten zu messen, um das gemessene Spektrum
zu erzeugen.
-
Die
Meßeinheit
kann auch ein Prisma enthalten, um das reflektiere Licht von dem
Analysierer in horizontale und vertikale Polarisationskomponenten
aufzuteilen, ferner einen Detektor aufweisen, der die horizontalen
und vertikalen Polarisationskomponenten empfängt und Intensitäten derselben
ausgibt, die ein Intensitätsverhältnis liefern
und auch eine Phasendifferenz liefern, und zwar zwischen der horizontalen
und der vertikalen Polarisationskomponente in Einklang mit einer
Wellenlänge
des reflektierten Lichtes.
-
Die
Steuereinheit kann eines der Vielzahl der theoretischen Spektren
auswählen,
welches den geringsten Betrag eines Spektrumsfehlers besitzt, und
kann eine theoretische Dicke bestimmen, die beim Berechnen des theoretischen
Spektrums verwendet wird, und zwar als zeitweilige Dicke, wobei
der Spektrumsfehler eine Differenz zwischen dem gemessenen Spektrum
und dem theoretischen Spektrum ist.
-
Die
Zuverlässigkeit
der zeitweiligen Dicke kann eine Zahl enthalten, welche eine Größe des Spektrumsfehlers
angibt.
-
Jeder
Satz der Vielzahl der Rezeptdaten kann eine Stapelreihenfolge von
jeder Komponentenschicht der entsprechenden hypothetischen Vielfachschicht,
eine Stapelnummer von jeder Komponentenschicht der hypothetischen
Vielfachschicht und physikalische Informationen über jede Komponentenschicht
enthalten.
-
Die
physikalischen Informationen von jeder Komponentenschicht können einen
Brechungsindex und einen Auslöschungskoeffizienten
von jeder Komponentenschicht enthalten.
-
Wenigstens
eines der oben erläuterten
Merkmale und weitere Merkmale und Vorteile der vorliegenden Erfindung
können
mit Hilfe eines Verfahrens realisiert werden, um die Dicke einer
Vielfachschicht auf einem Substrat zu messen, welches Verfahren
die Schritte umfaßt
gemäß Messen
eines Spektrums des reflektierten Lichtes, wobei das reflektierte
Licht von dem Substrat reflektiert wird, auf welchem eine Vielfachschicht
ausgebildet ist, nachdem ein Lichtquellenlicht auf das Substrat
gelenkt wurde, Speichern einer Vielzahl von Rezeptdaten, wobei jeder
Rezeptdatensatz einer einer Vielzahl von hypothetischen Vielfachschichten
entspricht, wobei eine der Vielzahl der hypothetischen Vielfachschichten
zu Beginn als die Vielfachschicht angenommen wird, die tatsächlich auf
dem Substrat ausgebildet ist, Berechnen einer Vielzahl von theoretischen
Spektren unter Verwendung von einem Satz der Vielzahl der Rezeptdatensätze in Einklang
mit vielfältigen
theoretischen Dicken der einen der Vielzahl der hypothetischen Vielfachschichten,
Vergleichen des gemessenen Spektrums mit der Vielzahl der theoretischen
Spektren, um eine zeitweilige Dicke der Vielfachschicht zu bestimmen,
Abschätzen
einer Zuverlässigkeit
der zeitweiligen Dicke der Vielfachschicht und Ausgeben der zeitweiligen
Dicke als eine Dicke der Vielfachschicht auf dem Substrat, wenn
die Zuverlässigkeit
der zeitweiligen Dicke innerhalb eines zulässigen Bereiches liegt.
-
Es
kann das Berechnen einer Vielzahl der theoretischen Spektren unter
Verwendung eines anderen Datensatzes der Vielzahl der Rezeptdatensätze, das
Vergleichen des gemessenen Spektrums mit der Vielzahl der theoretischen
Spektren und das Einschätzen
einer Zuverlässigkeit
der zeitweiligen Dicke der Vielfachschicht sequentiell wiederholt
werden, wenn die Zuverlässigkeit
der zeitweiligen Dicke außerhalb
des zulässigen
Bereiches liegt.
-
Wenn
die Zulässigkeit
der zeitweiligen Dicke außerhalb
des zulässigen
Bereiches liegt und all die Sätze
der Vielzahl der Rezeptdaten verwendet worden sind, kann die zeitweilige
Dicke mit der größten Zuverlässigkeit
als die Dicke der Vielfachschicht auf dem Substrat ausgegeben werden.
-
Jeder
Satz der Vielzahl der Rezeptdatensätze kann eine Stapelreihenfolge
von jeder Komponentenschicht der entsprechenden hypothetischen Vielfachschicht,
eine Stapelzahl von jeder Komponentenschicht der hypothetischen
Vielfachschicht und physikalische Informationen hinsichtlich jeder
Komponentenschicht enthalten.
-
Die
physikalischen Informationen von jeder Komponentenschicht können einen
Brechungsindex und einen Auslöschungskoeffizienten
von jeder Komponentenschicht enthalten.
-
Das
Lichtquellenlicht kann als polarisiertes Licht ausgegeben werden
und das Verfahren kann ferner einen Schritt umfassen gemäß Aufteilen
des reflektierten Lichtes in eine horizontale und eine vertikale
Polarisationskomponente und Bestimmen eines Intensitätsverhältnisses
und einer Phasendifferenz zwischen der horizontalen und der vertikalen
Polarisationskomponente in Einklang mit einer Wellenlänge des
reflektierten Lichtes.
-
Ein
optimales Spektrum mit einem geringsten Spektrumsfehler kann unter
der Vielzahl der theoretischen Spektren ausgewählt werden und es kann eine
Dicke in bezug auf das optimale Spektrum als zeitweilige Dicke der
Vielfachschicht auf dem Substrat bestimmt werden, wobei der Spektrumsfehler
aus einer Differenz zwischen dem gemessenen Spektrum und dem theoretischen
Spektrum besteht.
-
Die
Zuverlässigkeit
der zeitweiligen Dicke kann als eine Zahl ausgedrückt werden,
die eine Größe des Spektrumsfehlers
angibt.
-
Das
Substrat kann einen in ein Muster gebrachten Wafer aufweisen, auf
welchem Halbleiterverarbeitungsprozesse durchgeführt werden.
-
Das
Messen eines Spektrums des reflektierten Lichtes kann an einer Oxidstelle
(oxide site) (OS) durchgeführt
werden, die auf einer vorgezeichneten Linie des in ein Muster gebrachten
Wafers ausgebildet ist. Das Messen eines Spektrums des reflektierten
Lichtes kann sequentiell an einer Vielzahl an Meßpunkten auf dem Substrat vorgenommen
werden.
-
Wenigstens
eines der oben erläuterten
Merkmale und weitere Merkmale und Vorteile der vorliegenden Erfindung
können
mit Hilfe eines Verfahrens zum Messen der Dicke einer Vielfachschicht
auf einem in ein Muster gebrachten Wafer realisiert werden, gemäß Messen
einer Vielzahl von Spektren des reflektierten Lichtes an einer Vielzahl
von Meßpunkten
auf dem in ein Muster gebrachten Wafer, wobei das Reflexionslicht
von jedem der Vielzahl der Meßpunkte
auf dem in ein Muster gebrachten Wafer reflektiert wird, auf welchem
die Vielfachschicht ausgebildet ist, dann, nachdem das Lichtquellenlicht
auf die Vielzahl der Meßpunkte
gelenkt worden ist, eine Vielzahl von Rezeptdaten oder Rezeptdatensätzen gespeichert
werden, von denen jeder einer einer Vielzahl von hypothetischen
Vielfachschichten entspricht, wobei eine der Vielzahl der hypothetischen Vielfachschichten
zu Beginn als die Vielfachschicht angenommen wird, die auf dem in
ein Muster gebrachten Wafer ausgebildet ist, Berechnen einer Vielzahl
von theoretischen Spektren unter Verwendung von einem Datensatz
der Vielzahl der Rezeptdatensätze
in Einklang mit vielfältigen
theoretischen Dicken oder Dickenwerten der einen der hypothetischen
Vielfachschichten, Vergleichen jedes der Vielzahl der gemessenen
Spektren mit der Vielzahl der theoretischen Spektren, um eine Vielzahl
an temporären
Dicken der Vielfachschicht an jedem gemessenen Punkt zu bestimmen,
Abschätzen
einer Zuverlässigkeit
von jeder der Vielzahl der zeitweiligen Dickenwerte der Vielfachschicht
und Ausgeben der Vielzahl der zeitweiligen Dickenwerte als aktuelle
Dickenwerte der Vielfachschicht an jedem der Vielzahl der gemessenen
Punkte, wenn die Zuverlässigkeit
der zeitweiligen Dicke innerhalb eines zulässigen Bereiches liegt.
-
Das
Berechnen einer Vielzahl von theoretischen Spektren unter Verwendung
eines anderen Satzes an Daten der Vielzahl der Rezeptdaten oder
Datensätze,
das Vergleichen von jedem der Vielzahl der gemessenen Spektren mit
der Vielzahl der theoretischen Spektren und das Einschätzen einer
Zuverlässigkeit
von jeder der zeitweiligen Dicken der Vielfachschicht kann nachfolgend
oder aufeinanderfolgend an jedem Meßpunkt wiederholt werden, wenn
eine Zuverlässigkeit
der zeitweiligen Dicke außerhalb
des zulässigen
Bereiches liegt.
-
Wenn
die Zuverlässigkeit
der zeitweiligen Dicke außerhalb
des zulässigen
Bereiches liegt und alle Datensätze
der Vielzahl der Rezeptdaten oder Rezeptdatensätze verwendet worden sind,
kann die zeitweilige Dicke mit der größten Zuverlässigkeit als aktuelle Dicke
der Vielfachschicht an jedem der Vielzahl der Meßpunkte ausgegeben werden.
-
Bei
einem Verfahren gemäß der vorliegenden
Erfindung kann eine der Vielzahl der hypothetischen Vielfachschichten
eine Standard-Vielfachschicht sein, die in Einklang mit einer gewünschten
sequentiellen Folge aufgestapelt wurde. Die Vielzahl der theoretischen
Spektren kann zu Beginn unter Verwendung der Rezeptdaten berechnet
werden, entsprechend der Standard-Vielfachschicht. Eine andere der
Vielzahl der hypothetischen Vielfachschichten kann sequentiell immer
dann bestimmt werden, wenn eine oberste Komponentenschicht von der
Standard-Vielfachschicht entfernt wurde. Eine andere der Vielzahl
der hypothetischen Vielfachschichten kann sequentiell immer dann
bestimmt werden, wenn eine zusätzliche
Schicht auf der Standard-Vielfachschicht ausgebildet wurde.
-
Obwohl
gemäß der vorliegenden
Erfindung eine aktuelle Stapelstruktur der Vielfachschicht von der
ursprünglich
designten Struktur abweichen kann, kann die Dicke der Vielfachschicht
exakt gemessen werden und es kann eine Zuverlässigkeitsbedingung erfüllt werden,
indem die Rezeptdaten bzw. Rezeptdatensätze geändert werden.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
Die
oben erläuterten
und weitere Merkmale und Vorteile der vorliegenden Erfindung ergeben
sich für Fachleute
anhand der folgenden detaillierten Beschreibung von Ausführungsbeispielen
in Verbindung mit den beigefügten
Zeichnungen, in welchen zeigen:
-
1 eine schematische Darstellung
einer Vorrichtung zum Messen der Dicke von jeder Schicht, die eine
Vielfachschicht auf einem Wafer bildet, in Einklang mit einer als
Beispiel gewählten
Ausführungsform
der vorliegenden Erfindung;
-
2 ein Flußdiagramm
zur Erläuterung
eines Verfahrens zum Messen der Dicke einer Vielfachschicht gemäß einer
ersten Ausführungsform
der vorliegenden Erfindung;
-
3A bis 3E Querschnittsansichten von vielfältigen hypothetischen
Vielfachschichten, die einer aktuellen Vielfachschicht entsprechen,
die auf einem in ein Muster gebrachten Wafer ausgebildet ist;
-
4A eine Ansicht einer gemessenen
Zone auf einem in ein Muster gebrachten Wafer, an der eine Dicke
der Vielfachschicht gemessen wird;
-
4B eine Ansicht einer Oxidstelle,
die in einer vorgezeichneten Linie ausgebildet ist, entsprechend der
Meßzone,
die in 4A gezeigt ist;
-
5 eine Ansicht eines Waferplans
mit einer Vielzahl von Meßpunkten;
-
6 einen Graphen, der eine
Intensität
von Licht in bezug auf die Wellenlänge veranschaulicht; und
-
7 einen Graphen, der eine
Phasenverschiebung des Lichtes in bezug auf die Wellenlänge veranschaulicht.
-
DETAILLIERTE
BESCHREIBUNG DER ERFINDUNG
-
Die
koreanische Patentanmeldung Nr. 2003-56961, eingereicht am 18. August
2003 an das Korean Intellectual Properly Office, mit dem Titel: "Vorrichtung und Verfahren
zum Messen jeder Dicke einer Vielfachschicht, die auf einem Substrat
aufgestapelt ist",
wird hier unter Bezugnahme voll mit einbezogen.
-
Die
vorliegende Erfindung wird nun im folgenden vollständiger unter
Hinweis auf die beigefügten Zeichnungen
beschrieben, in welchen Ausführungsformen
der Erfindung dargestellt sind. Die Erfindung kann jedoch in sehr
unterschiedlichen und vielfältigen
Formen realisiert werden und die Ausführungsbeispiele, die hier aufgeführt sind,
sind nicht als Einschränkung
zu interpretieren; vielmehr dienen diese Ausführungsbeispiele dazu, eine
vollständige
und sorgfältige
Offenbarung zu vermitteln und auch Fachleuten den Rahmen der Erfindung
darzulegen. In den Zeichnungen ist die Dicke von Schichten und von
Zonen der Übersichtlichkeit
halber übertrieben
dargestellt. Gleiche Bezugszeichen bezeichnen ähnliche oder identische Elemente
in allen Zeichnungen.
-
Vorrichtung
zum Messen einer Dicke einer Vielfachschicht
-
1 veranschaulicht schematisch
eine Vorrichtung zum Messen der Dicke von jeder Schicht, die eine
Vielfachschicht bildet, die auf einen in ein Muster gebrachten Wafer
aufgeschichtet sind, und zwar entsprechend einer als Beispiel gewählten Ausführungsform
der vorliegenden Erfindung. Bei der beispielhaften Ausführungsform
wird die Dicke der Vielfachschicht mit Hilfe des Spektroskopie-Ellipsometrie-Verfahrens
gemessen.
-
Gemäß 1 enthält die Vorrichtung zum Messen
der Dicke einer Vielfachschicht gemäß einer beispielhaften Ausführungsform
der vorliegenden Erfindung eine Meßeinheit 30 zum Analysieren
eines Reflexionslichtes, welches von einem in ein Muster gebrachten
Wafer W reflektiert wird, und um Meßdaten zu erhalten, um ein
gemessenes Spektrum des reflektierten Lichtes zu erzeugen. Die Meßeinheit 30 kann
auch das gemessene Spektrum des reflektierten Lichtes ausgeben.
Im Betrieb wird polarisiertes Licht auf den in ein Muster gebrachten
Wafer W gelenkt, auf den die Vielfachschicht aufgeschichtet ist,
und wird dann von dem Wafer W reflektiert. Das reflektierte Licht
wird dann in horizontale und vertikale Polarisationskomponenten
aufgeteilt und es werden ein Intensitätsverhältnis und eine Phasendifferenz
zwischen der horizontalen und der vertikalen Polarisationskomponente
des reflektierten Lichtes erhalten. Die Meßeinheit 30 liefert
Graphen, welche die Beziehungen zwischen den Intensitätsverhältnissen
und den Wellenlängen
des Lichtes wiedergeben, und auch die Phasendifferenzen und die
Wellenlängen
des Lichtes. Im folgenden wird einer der Graphen als ein Spektrum
des polarisierten Lichtes bezeichnet und verwendet. Demzufolge liefert
die Meßeinheit 30 ein Spektrum
des reflektierten Lichts, welches von dem in ein Muster gebrachten
Wafer W reflektiert wird.
-
Die
Meßeinheit 30 enthält einen
Ladeabschnitt 10 zum Einladen des in ein Muster gebrachten
Wafers W, eine Lichtquelle 12 zum Erzeugen von Licht, einen
Polarisierer 14 zum Polarisieren des Lichtes, welches von
der Lichtquelle 12 erzeugt wird, einen Analysierer 16 zum
Analysieren des reflektierten Lichtes, welches von dem in ein Muster
gebrachten Wafer W reflektiert wird, und zum Erzeugen des Spektrums
des reflektierten Lichtes, ein Prisma 18 und einen Detektor 20.
Das polarisierte Licht wird auf den in ein Muster gebrachten Wafer
W in einem vorbestimmten Winkel aufgestrahlt, und zwar einem Winkel
in bezug auf die Waferoberfläche und
es sind eine Vielzahl an Spiegeln in einem Ausbreitungspfad des
polarisierten Lichtes angeordnet, um den Ausbreitungspfad des polarisierten
Lichtes zu ändern.
Der Analysierer 16 überträgt das reflektierte
Licht von dem in ein Muster gebrachten Wafer W proportional auf
einen Polaxisationszustand des reflektierten Lichtes. Das Prisma 18 teilt
das reflektierte Licht auf, welches durch den Analysierer 16 übertragen
wird, und zwar in horizontale und vertikale Polarisationskomponenten.
Der Detektor 20 mißt
die Intensität
der horizontalen und vertikalen Polarisationskomponenten des reflektierten
Lichtes in Einklang mit der Wellenlänge des reflektierten Lichtes.
Aus diesen Intensitätsgrößen kann
ein Intensitätsverhältnis zwischen
den horizontalen und vertikalen Polarisationskomponenten und kann
die Phasendifferenz zwischen den horizontalen und vertikalen Polarisationskomponenten
des reflektierten Lichtes in einer bekannten Weise bestimmt werden.
-
Die
Vorrichtung zum Messen der Dicke der Vielfachschicht enthält auch
eine Eingabeeinheit 40 zum Einspeisen einer Vielzahl von
Rezeptdaten oder Rezeptdatensätzen,
von denen jeder einer der Vielzahl der hypothetischen Mehrfachschichten
entspricht. Die hypothetische Mehrfachschicht besteht aus einer
theoretischen Pseudo-Vielfachschicht, die angenommenermaßen die
Vielfachschicht ist, welche tatsächlich
auf dem in ein Muster gebrachten Wafer W ausgebildet ist und eine
theoretische Stapelstruktur besitzt, welche die Designbedingungen
erfüllt.
Daher speist der Operator der Vorrichtung die Rezeptdaten oder Rezeptdatensätze entsprechend
der hypothetischen Vielfachschicht ein, mit der Annahme, daß die tatsächliche
Vielfachschicht auf den in ein Muster gebrachten Wafer in Einklang
mit einer gewünschten
sequentiellen Reihenfolge aufgestapelt ist. Die Rezeptdaten (recipe
data) entsprechend der hypothetischen Vielfachschicht enthalten
eine Stapelreihenfolge der Schichten, eine Stapelnummer von jeder
Komponentenschicht der hypothetischen Vielfachschicht, und Brechungsindizes
und Auslöschungskoeffizienten
von jeder Komponentenschicht. Die Eingabe-Rezeptdaten werden dazu
verwendet, um ein theoretisches Spektrum der hypothetischen Vielfachschicht, die
diesem entspricht, zu erhalten.
-
Eine
erste Speichereinheit 50 speichert das gemessene Spektrum
des reflektierten Lichtes. Zusätzlich speichert
eine zweite Speichereinheit 60 die Eingabe-Rezeptdaten
entsprechend der hypothetischen Vielfachschicht.
-
Eine
Ausgabeeinheit 70 gibt die Dicke von jeder Schicht aus,
welche die tatsächliche
Vielfachschicht bildet, die auf den Wafer aufgeschichtet ist.
-
Eine
Steuereinheit 80 steuert die Meßeinheit 30, die Eingabeeinheit 40,
die erste und die zweite Speichereinheit 50 und 60 und
die Ausgabeeinheit 70.
-
Um
in Einzelheiten zu gehen, so berechnet die Steuereinheit 80 ein
theoretisches Spektrum der hypothetischen Vielfachschicht unter
Verwendung der Rezeptdaten, die in der zweiten Speichereinheit 60 gespeichert
sind. Die Steuereinheit 80 berechnet ein Intensitätsverhältnis und
eine Phasendifferenz unter Verwendung bekannter theoretischer Formeln
und unter Verwendung der Rezeptdaten, die physikalische Informationen über die
hypothetische Vielfachschicht enthalten. Dann werden das Intensitätsverhältnis und
die Phasendifferenz in Einklang mit der Wellenlänge des Lichtes angeordnet,
wodurch dann das theoretische Spektrum der hypothetischen Vielfachschicht
entsprechend den Rezeptdaten bzw. Datensatz gebildet werden. Hierbei kann
das theoretische Spektrum auch wiederholt gebildet werden, und zwar
in Einklang mit vielfältigen
theoretischen Dickenwerten von jeder Komponentenschicht in der hypothetischen
Vielfachschicht. Die theoretischen Dickenwerte von jeder Komponentenschicht
können
innerhalb eines zulässigen
Grenzbereiches variiert werden. Demzufolge werden eine Vielzahl
der theoretischen Spektren in bezug auf jede theoretische Dicke
der hypothetischen Vielfachschicht erhalten. Die Beziehung zwischen
dem theoretischen Spektrum und der theoretischen Dicke der hypothetischen
Vielfachschicht wird als eine Dispersionskurve bezeichnet. Es können eine Vielzahl
der Dispersionskurven in Form einer Bibliotheksdatei gespeichert
werden.
-
Das
gemessene Spektrum des in ein Muster gebrachten Wafers wird mit
den theoretischen Spektren verglichen und es wird eine theoretische
Dicke zeitweilig ausgewählt,
und zwar als eine Dicke der tatsächlichen Vielfachschicht
auf dem in ein Muster gebrachten Wafer. Spezifischer ausgedrückt, wird
das gemessene Spektrum wiederholt mit allen theoretischen Spektren
verglichen und es wird das theoretische Spektrum mit dem kleinsten
Spektrumsfehler, das heißt
also einem kleinstmöglichen
Spektrumsfehlerbetrag, als ein optimales Spektrum ausgewählt. Der
Spektrumsfehler des theoretischen Spektrums zeigt eine Fehlübereinstimmung oder
Differenz zwischen dem gemessenen Spektrum und dem theoretischen
Spektrum an. Es wird daher die theoretische Dicke, die auf das optimale
Spektrum bezogen ist, als zeitweilige Dicke der tatsächlichen
Vielfachschicht ausgewählt.
-
Um
eine Zuverlässigkeit
der zeitweiligen Dicke abzuschätzen,
wird der Grad des Passens (GOF) des optimalen Spektrums basierend
auf der zeitweiligen Dicke berechnet und ergibt sich als eine Zahl
zwischen null (0) und eins (1). Das GOF ist eine Zahl, die den Grad
der Entsprechung zwischen dem gemessenen Spektrum und dem optimalen
Spektrum angibt. Wenn GOF bei 1 liegt, ist das gemessene Spektrum
im wesentlichen identisch mit dem optimalen Spektrum. Wenn GOF bei
0 liegt, ist das gemessene Spektrum wesentlichen verschieden von
dem optimalen Spektrum.
-
Wenn
GOF außerhalb
eines zulässigen
GOF-Bereiches liegt, der im voraus oder an früherer Stelle festgelegt wurde,
werden die Rezeptdaten oder der Rezeptdatensatz geändert und
es wird eine andere zeitweilige Dicke in der gleichen Weise, wie
dies oben beschrieben wurde, ausgewählt. Wenn GOF innerhalb des zulässigen Bereiches
liegt, so wird die zeitweilige Dicke dazu verwendet, um das optimale
Spektrum zu berechnen, und diese wird zu der Ausgabeeinheit 70 als
die Dicke der aktuellen Vielfachschicht des in ein Muster gebrachten
Wafers übertragen.
Wenn GOF außerhalb
des zulässigen
Bereiches liegt, obwohl alle die Rezeptdaten, die in der zweiten
Speichereinheit 60 gespeichert sind, verwendet worden sind,
so wird die zeitweilige Dicke mit dem höchsten GOF-Wert zu der Ausgabeeinheit 70 übertragen.
-
Spezifischer
ausgedrückt,
wenn GOF außerhalb
des zulässigen
Bereiches liegt, so wird die zeitweilige Dicke entsprechen dem GOF-Wert
als nicht korrekt bestimmt und es wird nach einer anderen zeitweiligen
Dicke wiederholt gesucht, und zwar nach Ändern der Rezeptdaten oder
des Datensatzes, bis eine exaktere zeitweilige Dicke erhalten ist.
Als Ergebnis wird eine Dicke der Vielfachschicht mit der höchstmöglichen
Genauigkeit erhalten.
-
Verfahren
zum Messen einer Dicke einer Vielfachschicht
-
1. Ausführungsform
-
2 ist ein Flußdiagramm
zur Erläuterung
eines Verfahrens zum Messen der Dicke einer Vielfachschicht gemäß einer
ersten Ausführungsform
der vorliegenden Erfindung.
-
Wie
in 2 gezeigt ist, wird
bei einem Schritt S10 ein in ein Muster gebrachter Wafer, auf den
eine Vielfachschicht aufgeschichtet ist, vorgesehen. Eine Vielzahl
an Oxidstellen (OS) wird in einer Vorgabelinie des in ein Muster
gebrachten Wafers ausgebildet, um vielfältige Prozeßfehler zu überprüfen, die während verschiedener Prozesse
erzeugt werden können.
Wenigstens eine der Vielzahl der OS besitzt eine gestapelte Struktur zum
Messen der Dicke der Vielfachschicht. Demzufolge wird die Dicke
der Vielfachschicht auf dem in ein Muster gebrachten Wafer bei der
OS gemessen, welche die gestapelte Struktur besitzt.
-
Bei
einer als Beispiel gewählten
Ausführungsform
wird bei dem Verfahren angenommen, daß die erste bis fünfte Schicht
sequentiell auf eine OS aufgeschichtet wurden und daß die vierte
und die fünfte
Schicht sequentiell von der OS während
eines Ätzprozesses
weggeätzt
wurden. Daher mißt
die Meßvorrichtung
der vorliegenden Erfindung, die oben beschrieben wurde, jede Dicke
der Schichten an der OS, die verblieben ist, und zwar nach dem Ätzprozeß. Es wird
polarisiertes Licht auf die OS-Stelle gelenkt, um die Dicke des
in ein Muster gebrachten Wafers dort zu messen, und das nicht wird
von dem in ein Muster gebrachten Wafer reflektiert.
-
Bei
dem Schritt S12 wird das reflektierte Licht detektiert und analysiert,
und zwar entsprechend der Wellenlänge desselben, und wird in
eine horizontal und vertikale Polarisationskomponente aufgeteilt.
Nachfolgend werden ein Intensitätsverhältnis und
eine Phasendifferenz zwischen der horizontalen und der vertikalen Polarisationskomponente
als eine Funktion der Wellenlänge
des polarisierten Lichtes abgeleitet und damit erhal ten. Spezifischer
ausgedrückt,
sind das Intensitätsverhältnis und
die Phasendifferenz zwischen der horizontalen und der vertikalen
Polarisationskomponente des polarisierten Lichtes in bezug auf die
Wellenlänge
des polarisierten Lichtes verteilt, was dann als ein gemessenes
Spektrum im folgenden bezeichnet wird. Das gemessene Spektrum des
polarisierten Lichtes wird in der ersten Speichereinheit gespeichert.
-
Bei
dem Schritt S14 wird eine einer Vielzahl von hypothetischen Vielfachschichten
zu Beginn als die aktuelle Vielfachschicht auf dem in ein Muster
gebrachten Wafer angenommen und es werden eine Vielzahl von Rezeptdaten
oder Datensätzen,
von denen jeder einer der hypothetischen Vielfachschichten entspricht,
in der zweiten Speichereinheit abgespeichert. Jeder Datensatz der
Rezeptdaten enthält
einige physikalische Informationen für jede hypothetische Vielfachschicht
basierend auf einem Zustand, daß die
Vielfachschicht auf den in ein Muster gebrachten Wafer gemäß einer
designten sequentiellen Reihenfolge aufgestapelt wurde. Die Rezeptdaten
oder Datensätze
können
alternativ vor der Erzeugung des gemessenen Spektrums abgespeichert
werden.
-
Beispielsweise
werden die Vielzahl der hypothetischen Schichten in der folgenden
Weise angenommen. Zuerst wird eine willkürliche Vielfachschicht mit
einer original designten Stapelstruktur als eine erste hypothetische
Vielfachschicht entworfen. Das heißt, jede der Schichten in der
ersten hypothetischen Vielfachschicht wird so angenommen, daß sie auf
den in ein Muster gebrachten Wafer in Einklang mit einer designten sequentiellen
Folge aufgestapelt wurde. Die erste hypothetische Vielfachschicht
kann somit auch als eine Standard-Vielfachschicht bezeichnet werden.
Dann wird eine oberste Schicht angenommenermaßen von der ersten hypothetischen
Vielfachschicht entfernt und die erste hypothetische Vielfachschicht
ohne der obersten Schicht derselben wird als eine zweite hypothetische
Vielfachschicht designed. In der gleichen Weise wird, wann immer
eine oberste Schicht angenommenermaßen von einer hypothetischen
Vielfachschicht entfernt wurde, eine neue hypothetische Vielfachschicht
sequentiell entworfen, das heißt
eine erste, eine zweite, eine dritte usw. Anhand von weiteren Beispielen
wird die zweite hypothetische Vielfachschicht ohne der obersten Schicht
derselben als eine dritte hypothetische Vielfachschicht entworfen.
In ähnlicher
Weise wird, wann immer eine zusätzliche
Schicht angenommenermaßen
zu der ersten hypothetischen Schicht hinzugefügt wurde, eine neue hypothetische
Vielfachschicht ebenfalls in sequentieller Weise entworfen. Wenn
eine zusätzliche
Schicht angenommenermaßen
zu der hypothetischen ersten Vielfachschicht hinzuaddiert wurde,
so wird die erste hypothetische Vielfachschicht, welche die zusätzliche
Schicht enthält,
als eine vierte hypothetische Vielfachschicht entworfen. Als ein
Ergebnis werden eine Vielzahl von hypothetischen Vielfachschichten
basierend auf der ersten hypothetischen Vielfachschicht mit einer
ursprünglich
designten Stapelstruktur entworfen.
-
Bei
einer beispielhaften Ausführungsform
enthält
die erste hypothetische Vielfachschicht eine erste, eine zweite
und eine dritte Schicht, die angenommenermaßen sequentiell auf den in
ein Muster gebrachten Wafer gemäß einer
Designreihenfolge aufgestapelt wurden. Die dritte Schicht der ersten
hypothetischen Vielfachschicht wird dann entfernt, so daß dann die
zweite hypothetische Vielfachschicht lediglich die erste und die
zweite Schicht enthält.
Beispielsweise kann ein Überätzen der
ersten hypothetischen Vielfachschicht die oberste Schicht der ersten
hypothetischen Vielfachschicht entfernen, wodurch die zweite hypothetische
Vielfachschicht gebildet wird. Die zweite Schicht der zweiten hypothetischen
Vielfachschicht wird dann entfernt und es wird eine dritte hypothetische
Vielfachschicht gebildet, die lediglich die erste Schicht enthält. In ähnlicher
Weise zur Ausbildung der zweiten hypothetischen Vielfachschicht
kann ein Überätzen der
zweiten hypothetischen Vielfachschicht die oberste Schicht der zweiten
hypothetischen Vielfachschicht entfernen, wodurch dann die dritte
hypothetische Vielfachschicht gebildet wird. Eine zusätzliche
vierte Schicht wird dann angenommenermaßen auf der dritten Schicht
der ersten hypothetischen Vielfachschicht angeordnet, wodurch dann
die vierte hypothetische Vielfachschicht gebildet wird. Beispielsweise
kann die vierte Schicht eine Überschußschicht
aufweisen, die auf der ersten hypothetischen Vielfachschicht auf
Grund eines ungenügenden Ätzvorganges
verblieben ist. Eine zusätzliche
fünfte
Schicht wird angenommenermaßen
auf der vierten Schicht der vierten hypothetischen Vielfachschicht
angeordnet, wodurch dann eine fünfte
hypothetische Vielfachschicht gebildet wird. Die fünfte hypothetische
Vielfachschicht entspricht einer Stapelstruktur der aktuellen Vielfachschicht
auf dem in ein Muster gebrachten Wafer, wenn irgendeine Schicht
des Wafers nicht auf Grund eines Ätzfehlers weggeätzt wurde.
-
Bei
der als Beispiel gewählten
Ausführungsform,
die oben beschrieben ist, bilden die erste Schicht und die fünfte Schicht
die Bodenschicht bzw. die oberste Schicht der tatsächlichen
Vielfachschicht, so daß zusätzliche
hypothetische Vielfachschichten z.B. eine sechste hypothetische
Vielfachschicht mit einer zusätzlichen Schicht
gebildet werden, die angenommenermaßen auf der fünften Schicht
angeordnet ist, oder eine siebte hypothetische Vielfachschicht,
bei der die erste Schicht angenommenermaßen entfernt ist usw., dann
nicht mehr benötigt
wird.
-
Nachfolgend
wird eine Vielzahl von Rezeptdaten bzw. Datensätzen, von denen jeder einer
der Vielzahl der hypothetischen Vielfachschichten entspricht, vorbereitet.
Es werden somit fünf
Arten von Rezeptdaten oder Rezeptdatensätzen, das heißt ein erster
Rezeptdatensatz bis hin zu einem fünften Rezeptdatensatz, vorbereitet.
Die Rezeptdaten oder Datensätze
enthalten eine Stapelreihenfolge der Schichten, eine Stapelnummer
von jeder Komponentenschicht der hypothetischen Vielfachschicht
und physikalische Informationen über die
hypothetische Vielfachschicht. Die physikalischen Informationen
der Vielfachschicht können
einen Brechungsindex n und einen Auslöschungskoeffizienten k von
jeder Komponentenschicht der hypothetischen Vielfachschicht enthalten.
-
Das
Intensitätsverhältnis und
die Phasendifferenz werden theoretisch in bezug auf jede Wellenlänge des
polarisierten Lichtes berechnet, und zwar unter Verwendung der ersten
Rezeptdaten bzw. des ersten Datensatzes, und bei einem Schritt S16,
wird ein theoretisches Spektrum des polarisierten Lichtes unter
Verwendung des Intensitätsverhältnisses,
der Phasendifferenz und einer angenommenen Dicke der Komponentenschicht
der hypothetischen Vielfachschicht erhalten. Spezifischer ausgedrückt, werden
das Intensitätsverhältnis und
die Phasendifferenz durch Verwenden einer theoretischen Formel der
Ellipsometrie berechnet, unter Verwendung des Brechungsindex n,
des Auslöschungskoeffizienten
k, die in dem ersten Datensatz bzw. ersten Rezeptdaten enthalten
sind. Dann wird eine Dicke von jeder Komponentenschicht der hypothetischen Vielfachschicht
angenommen und es wird das theoretische Spektrum mit Hilfe einer
anderen theoretischen Formel der Ellipsometrie erhalten, und zwar
unter Verwendung des Brechungsindex n, des Auslöschungskoeffizienten k und
der angenommenen Schichtdicke. Die Dicke der Komponentenschicht
kann innerhalb eines vorbestimmten Grenzfehlerbereiches ausgewählt werden,
das heißt
einem zulässigen
Fehlerbereich bei der Bearbeitung einer aktuellen Vielfachschicht
auf dem in ein Muster gebrachten Wafer.
-
Wenn
das theoretische Spektrum für
einen ersten Zeitpunkt erhalten wurde, werden die ersten Rezeptdaten
bzw. der erste Datensatz zu Beginn unter der Vielzahl der Rezeptdaten
bzw. Datensätze
verwendet. Wenn kein Prozeßfehler
an dem in ein Muster gebrachten Wafer erzeugt wurde, so ist die
erste hypothetische Vielfachschicht im wesentlichen identisch mit
der tatsächlichen
Vielfachschicht, die auf den in ein Muster gebrachten Wafer aufgeschichtet
ist. Daher ist die aktuelle oder tatsächliche Dicke der Vielfachschicht
im wesentlichen ähnlich
der Dicke des theoretischen Spektrums basierend auf den ersten Rezeptdaten
bzw. ersten Datensatz.
-
Das
gemessene Spektrum wird mit einer Vielzahl von theoretischen Spektren
basierend auf den ersten Rezeptdaten und einer Vielzahl von angenommenen
Dickenwerten verglichen, und eine Fehlübereinstimmung oder Differenz
zwischen dem gemessenen Spektrum und jedem theoretischen Spektrum
wird überprüft. Im folgenden
wird die Fehlübereinstimmung
oder Differenz zwischen dem gemessenen Spektrum und dem theoretischen
Spektrum als ein Spektrumsfehler des theoretischen Spektrums bezeichnet.
Das theoretische Spektrum mit dem geringsten Betrag eines Spektrumsfehlers,
das heißt
das theoretisch Spektrum, bei dem der Spektrumsfehler minimiert
ist, wird als ein am meisten exaktes und geeignetes Spektrum der
aktuellen Vielfachschicht, die auf den in ein Muster gebrachten
Wafer aufgeschichtet ist, betrachtet. Im folgenden wird das theoretische
Spektrum, welches den geringsten Betrag eines Spektrumsfehlers besitzt,
als optimales Spektrum des theoretischen Spektrums bezeichnet. Die
Dicke des optimalen Spektrums wird als Dicke der aktuellen oder
tatsächlichen
Vielfachschicht behandelt. Daher wird bei dem Schritt S18 die Dicke
der ersten bis dritten Komponenten schichten der hypothetischen Vielfachschicht
zeitweilig als erste bis dritte Komponentenschichten der tatsächlichen
Vielfachschicht jeweils betrachtet. Die Dicke der ersten hypothetischen
Vielfachschicht, die auf den ersten Rezeptdaten basiert, wird als
erste zeitweilige Dicke bezeichnet.
-
Um
eine Zuverlässigkeit
der zeitweiligen Dicke einzuschätzen,
wird ein GOF-Wert
berechnet. Bei einem Schritt S20 wird ein Entscheidungsschritt durchgeführt, um
zu entscheiden, ob GOF des optimalen Spektrums basierend auf der
ersten zeitweiligen Dicke innerhalb eines zulässigen Bereiches liegt, um
die Zuverlässigkeit
der ersten zeitweiligen Dicke zu bewerten. Der zulässige GOF-Bereich
wird vor dem Prozeß voreingestellt.
Bei einem Schritt S24, wenn der GOF-Wert des optimalen Spektrums
innerhalb des zulässigen
Bereiches liegt, wird die erste zeitweilige Dicke zu einer Ausgabeeinheit
als die Dicke der tatsächlichen
Vielfachschicht übertragen.
Daher wird jede Dicke der ersten bis dritten Schicht der ersten
hypothetischen Mehrfachschicht als Dicke von jeder Komponentenschicht
der tatsächlichen
Vielfachschicht ausgegeben, die auf den in ein Muster gebrachten
Wafer aufgeschichtet ist.
-
Wenn
GOF des optimalen Spektrums außerhalb
des zulässigen
Bereiches liegt, wird eine andere zeitweilige Dicke unter Verwendung
von anderen Rezeptdaten bzw. eines anderen Datensatzes erhalten,
der eine andere hypothetische Vielfachschicht charakterisiert, was
dann mit Hilfe des gleichen Prozesses erfolgt, wie dies oben beschrieben
wurde, und zwar nach Änderung
der Rezeptdaten bzw. des Datensatzes bei dem Schritt S22. Der zulässige GOF-Bereich
schätzt
auch die Zuverlässigkeit
der anderen zeitweiligen Dicke ab.
-
Spezifischer
ausgedrückt,
wenn die erste zeitweilige Dicke als unzuverlässig bestimmt wurde, wird eine
Vielzahl von zweiten theoretischen Spektren abgeleitet, basierend
auf den zweiten Rezeptdaten bzw. dem zweiten Datensatz, der eine
zweite hypothetische Vielfachschicht charakterisiert, was bei dem
Schritt S16 erfolgt. Dann wird das gemessene Spektrum mit einer
Vielzahl der zweiten theoretischen Spektren verglichen, die unter
Verwendung einer Vielzahl an Dickenwerten der zweiten hypothetischen Vielfachschicht
berechnet wurden. Dann wird das optimale Spektrum unter der Vielzahl
der zweiten theoretischen Spektren ausgewählt. Die Dicke in Verbindung
mit dem optimalen Spektrum wird auch zeitweilig als die Dicke der
tatsächlichen
Vielfachschicht behandelt, so daß die Dicke der zweiten hypothetischen
Vielfachschicht als eine zweite zeitweilige Dicke der tatsächlichen
Vielfachschicht betrachtet wird, was bei dem Schritt S18 erfolgt.
Dann, bei einem Schritt S20, wird GOF des optimalen Spektrums basierend
auf der zweiten zeitweiligen Dicke berechnet, um die Zuverlässigkeit
der zweiten zeitweiligen Dicke zu bewerten.
-
Wenn
GOF des optimalen Spektrums innerhalb des zulässigen Bereiches liegt, wird
die zweite zeitweilige Dicke zu der Ausgabeeinheit übertragen
und es wird dann bei dem Schritt S24 jede Dicke der ersten und zweiten
Schicht in der zweiten hypothetischen Mehrfachschicht als die Dicke
von jeder Komponentenschicht der tatsächlichen Vielfachschicht ausgegeben.
Wenn jedoch das optimale Spektrum außerhalb von dem zulässigen Bereich
liegt, wird eine dritte zeitweilige Dicke abgeleitet, und zwar unter
Verwendung eines dritten Datensatzes bzw. dritter Rezeptdaten entsprechend
der dritten hypothetischen Vielfachschicht mit Hilfe des gleichen
Prozesses, wie er oben beschrieben wurde. Wenn das optimale Spektrum
basierend auf der dritten zeitweiligen Dicke außerhalb des zulässigen GOF-Bereiches
liegt, wird eine vierte oder eine fünfte zeitweilige Dicke abgeleitet,
indem der gleiche Prozeß wiederholt
wird, wie er oben beschrieben wurde, wenn dies erforderlich ist.
-
Wenn
GOF des optimalen Spektrums, welches die zeitweilige Dicke betrifft,
innerhalb des zulässigen Bereiches
liegt, wird bei einem Schritt S24 die zeitweilige Dicke als die
Dicke der tatsächlichen
Vielfachschicht ausgegeben, die auf dem in ein Muster gebrachten
Wafer aufgeschichtet ist, ohne daß ein nachfolgender Dickenmeßprozeß durchgeführt wird.
Wenn GOF des optimalen Spektrums außerhalb des zulässigen Bereiches liegt,
obwohl alle Datensätze
oder Rezeptdaten verwendet worden sind, so ist die zeitweilige Dicke,
die für
die Berechnung eines theoretischen Spektrums verwendet wurde, von
dem GOF das exakteste ist, und zwar unter denjenigen der gegebenen
theoretischen Spektren, so wird diese als die Dicke der aktuellen
Vielfachschicht ausgege ben, die auf den in ein Muster gebrachten
Wafer aufgeschichtet ist. Daher kann die Dicke der Vielfachschicht,
die sequentiell auf den in ein Muster gebrachten Wafer aufgestapelt
wurde, ohne direkten Kontakt mit der Vielfachschicht gemessen werden.
Obwohl zusätzlich
die tatsächliche
Vielfachschicht nicht die gleiche Struktur haben kann, wie sie auf
Grund der vielfachen Prozeßfehler
erwartet wird, kann die Vielfachschichtdicke dennoch exakt gemessen
werden.
-
Zweite Ausführungsform
-
Die 3A bis 3E zeigen Querschnittsansichten von vielfältigen hypothetischen
Vielfachschichten, die einer aktuellen Vielfachschicht entsprechen
können,
die auf einem in ein Muster gebrachten Wafer ausgebildet sein können.
-
Ein
in ein Muster gebrachter Wafer, auf dem eine Vielfachschicht ausgebildet
ist, wird in eine Prozeßkammer
geladen. Bei einer als Beispiel gewählten Ausführungsform wird eine Vielfachschicht
auf den gemusterten Wafer ausgebildet, und zwar wie folgt: Es wird
eine erste Siliziumnitridschicht 102 mit einer Dicke von etwa
260 Å,
eine erste Siliziumoxidschicht 104 mit einer Dicke von
etwa 750 Å,
eine zweite Siliziumnitridschicht 106 mit einer Dicke von
etwa 500 Å,
eine zweite Siliziumoxidschicht 108 mit einer Dicke von
etwa 5500 Å,
eine dritte Siliziumnitridschicht 110 mit einer Dicke von
etwa 600 Ä,
eine dritte Siliziumoxidschicht 112 mit einer Dicke von
etwa 13.000 Å und
eine vierte Siliziumnitridschicht 114 mit einer Dicke von
etwa 3000 Å aufeinanderfolgend
aufgestapelt, und zwar in dieser Reihenfolge, und auf einer oberen
Oberfläche
eines Siliziumwafers 100, wie in 3A veranschaulicht ist. Dann werden die
vierte Siliziumnitridschicht 114, die dritte Siliziumoxidschicht 112 und
die dritte Siliziumnitridschicht 110 vollständig weggeätzt und
es wird die zweite Siliziumoxidschicht 108 teilweise weggeätzt. Eine
Dicke der Vielfachschicht, die auf dem gemusterten Wafer zurück bleibt, wird
gemessen, um zu bestätigen,
ob der Ätzprozeß ohne einen
Fehler durchgeführt
worden ist. Bei der Vervollständigung
des Ätzprozesses
ohne irgendeinen Fehler wird erwartet, daß die erste Siliziumnitridschicht 102 mit
einer Dicke von etwa 260 Å,
die erste Siliziumoxidschicht 104 mit einer Dicke von etwa
750 Å,
eine zweite Siliziumnitridschicht 106 mit einer Dicke von
etwa 500 Å und
eine zweite Siliziumoxidschicht 108 mit einer Dicke von
etwa 5500 Å aufeinanderfolgend
in dieser Reihenfolge auf der oberen Oberfläche des Halbleiterwafers 100 aufgestapelt
sind.
-
4A veranschaulicht eine
Ansicht einer Meßzone
auf dem gemusterten Wafer, auf welchem die Dicke der Vielfachschicht
gemessen wird. 4B veranschaulicht
eine Darstellung einer Oxidstelle, die in einer vorgezeichneten
Linie ausgebildet ist, entsprechend der Meßzone, die in 4A gezeigt ist.
-
Eine
Vielzahl der Meßpunkte
zum Messen einer Dicke einer Vielfachschicht ist auf dem gemusterten Wafer
festgelegt und es wird eine Vielzahl von OS, die den Meßpunkten
entsprechen, zur Durchführung
des Dickenmeßprozesses
bezeichnet. Im allgemeinen wird eine OS wenigstens an einem oberen
Abschnitt (T), einem zentralen Abschnitt (C), einem Bodenabschnitt
(B), einem linken Abschnitt (L) und einem rechten Abschnitt (R)
des gemusterten Wafers bezeichnet. Bei dieser Ausführungsform
sind OS an jedem Abschnitt gemäß dem oberen
Abschnitt, dem zentralen Abschnitt, dem Bodenabschnitt, dem linken
Abschnitt und dem rechten Abschnitt des gemusterten Wafers bezeichnet,
so daß erste
bis fünfte
Oxidstellen bezeichnet sind. Die OS 120 bildet ein Testmuster
zum Prüfen
von Prozeßfehlern
und ist in einer Vorzeichnungslinie ausgebildet. Wenigstens eine
der OS 120 besitzt im wesentlichen die gleiche Stapelstruktur
wie das Muster, welches in einer Chipzone des gemusterten Wafers
gestapelt ist.
-
Es
wird dann polarisiertes Licht auf die erste OS gelenkt und es wird
das reflektierte Licht, welches von der ersten OS reflektiert wird,
detektiert. Das reflektierte Licht wird detektiert und in Einklang
mit der Wellenlänge
desselben analysiert und das reflektierte Licht wird in horizontale
und vertikale Polarisationskomponenten aufgeteilt. Daher werden
das Intensitätsverhältnis und
die Phasendifferenz zwischen der horizontalen und der vertikalen
Polarisationskomponente als eine Funktion der Wellenlänge des
polarisierten Lichtes erhalten. Spezifischer ausgedrückt, sind
das Intensitätsverhältnis und
die Phasendifferenz zwischen der horizontalen und der vertikalen
Polarisationskomponente des polarisierten Lichtes in bezug auf die
Wellenlänge
des polarisierten Lichtes verteilt. Daher wird das gemessene Spektrum
des polarisierten Lichtes, welches von der ersten OS reflektiert
wird, erhalten und ausgegeben. Das gemessene Spektrum wird gespeichert.
-
Dann
werden eine Vielzahl von Rezeptdaten oder Datensätzen entsprechend einer Vielzahl
der hypothetischen Vielfachschichten erstellt und in der zweiten
Speichereinheit gespeichert, die dadurch bestimmt werden, indem
die tatsächliche
Vielfachschicht, die auf dem gemusterten Wafer ausgebildet ist,
vorweggenommen wird.
-
Wie
in 3B gezeigt ist, wird
erwartet, daß eine
erste hypothetische Vielfachschicht, welche die gleiche Stapelstruktur
besitzt, wie dies bei dem Design der Vielfachschicht erwartet wird,
eine erste Siliziumnitridschicht 102, eine erste Siliziumoxidschicht 104,
eine zweite Siliziumnitridschicht 106 und eine zweite Siliziumoxidschicht 108 aufweist,
die in einer jeweiligen Folge von der oberen Oberfläche des
Siliziumwafers 100 aufgestapelt sind. Die erste hypothetische
Vielfachschicht kann auch als eine Standard-Vielfachschicht bezeichnet
werden. Die ersten Rezeptdaten bzw. der ersten Datensatz enthält eine
Stapelreihenfolge der ersten hypothetischen Vielfachschicht, einen
Brechungsindex n von jeder Komponentenschicht und einen Auslöschungskoeffizienten
(Schwächungskoeffizienten)
k von jeder Komponentenschicht.
-
Bei
der zweiten hypothetischen Vielfachschicht wird erwartet, daß sie die
erste Siliziumnitridschicht 102, die erste Siliziumoxidschicht 104 und
die zweite Siliziumnitridschicht 106 aufweist, gestapelt
in einer jeweiligen Sequenz von der oberen Oberfläche des
Siliziumwafers 100 aus, wie in 3C gezeigt ist. Wenn daher die oberste
Schicht von der ersten hypothetischen Vielfachschicht entfernt wird,
wird die zweite hypothetische Vielfachschicht gebildet. Der zweite
Datensatz enthält
eine Stapelreihenfolge der zweiten hypothetischen Mehrfachschicht,
einen Brechungsindex n von jeder Komponentenschicht und einen Löschungs-
oder Abschwächungskoeffizienten
k von jeder Komponentenschicht der zweiten hypothetischen Vielfachschicht.
-
Bei
der dritten hypothetischen Vielfachschicht wird erwartet, daß sie die
erste Siliziumnitridschicht 102 und die erste Siliziumoxidschicht 104 enthält, die
in einer jeweiligen Folge gestapelt sind, und zwar von der oberen
Oberfläche
des Siliziumwafers 100 aus, wie in 3D gezeigt ist. Wenn daher die oberste
Schicht von der zweiten hypothetischen Vielfachschicht entfernt
wird, wird die dritte hypothetische Vielfachschicht gebildet.
-
Bei
einer vierten hypothetischen Vielfachschicht wird erwartet, daß sie lediglich
die erste Siliziumnitridschicht 102 enthält, die
auf die oberste Oberfläche
des Siliziumwafers 100 aufgeschichtet ist, wie in 3E dargestellt ist. Wenn
daher die oberste Schicht von der dritten hypothetischen Mehrfachschicht
entfernt wird, wird die vierte hypothetische Vielfachschicht gebildet.
Die erste Siliziumnitridschicht 102 ist eine Bodenschicht, die
direkt den Wafer 100 kontaktiert, und eine hypothetische
Vielfachschicht ist dafür
nicht erforderlich.
-
Obwohl
in den Figuren nicht dargestellt, kann eine andere hypothetische
Vielfachschicht realisiert werden, von der erwartet wird, daß sie eine
dritte Siliziumnitridschicht mit einer Dicke von etwa 600 Ä, eine dritte Siliziumoxidschicht
mit einer Dicke von etwa 13.000 Å und eine vierte Siliziumnitridschicht
mit einer Dicke von etwa 3000 Å aufweist,
die jeweils von der obersten Schicht der ersten hypothetischen Vielfachschicht
aus aufgestapelt sind. Wenn jedoch die Schicht so dick ist, daß der Ätzprozeß zum Entfernen
der Schicht in übermäßiger Form
ausgeführt
wird, kann eine oberste Schicht des gemusterten Wafers entfernt
werden, und zwar auf Grund einer Überätzung. Es können daher andere hypothetische
Vielfachschichten, die andere Schichten auf der obersten Schicht
der ersten hypothetischen Schicht aufweisen, nicht erforderlich
sein, und zusätzliche
Rezeptdaten oder Datensätze
entsprechend den anderen hypothetischen Vielfachschichten werden
nicht benötigt.
-
Als
nächstes
wird eine Vielzahl von theoretischen Spektren unter Verwendung der
ersten Rezeptdaten bzw. des ersten Datensatzes mit Hilfe einer theoretischen
Gleichung abgeleitet. Spezifischer ausgedrückt, werden Brechungsindizes
und Abschwächungs koeffizienten
der ersten Siliziumnitridschicht 102, der ersten Siliziumoxidschicht 104,
der zweiten Siliziumnitridschicht 106 und der zweiten Siliziumoxidschicht 108,
die bereits in dem ersten Datensatz festgesetzt sind, in der theoretischen
Gleichung verwendet und es wird das theoretische Spektrum in Übereinstimmung
mit der Wellenlänge
des Lichtes bei einem Zustand erhalten, bei dem die Dicke der ersten
hypothetischen Vielfachschicht vorbestimmt ist. Das theoretische
Spektrum wird in wiederholter Form abgeleitet, und zwar durch Variieren
der Dicke der hypothetischen Vielfachschicht innerhalb eines vorbestimmten
Bereiches, so daß eine
Vielzahl an theoretischen Spektren gebildet wird. Die Dicke der Vielfachschicht
kann aus einem zulässigen
Randbereich der Dicke für
jede Komponentenschicht ausgewählt werden.
Das theoretische Spektrum wird in Einklang mit der Dicke der ersten
hypothetischen Vielfachschicht ausgegeben und gespeichert.
-
Nachfolgend
wird ein gemessenes Spektrum bei dem ersten OS mit einer Vielzahl
von theoretischen Spektren verglichen und eine der theoretischen
Spektren mit der geringsten Größe eines
Spektrumsfehlers wird als optimales Spektrum ausgewählt, welches
am engsten mit dem gemessenen Spektrum übereinstimmt. Als ein Ergebnis
wird die Dicke von jeder Komponentenschicht der ersten hypothetischen
Vielfachschicht zeitweilig als jede Dicke der aktuellen Vielfachschicht
betrachtet, die als eine erste zeitweilige Dicke bezeichnet wird.
Demzufolge wird eine Vielzahl der ersten zeitweiligen Dicken der
ersten Siliziumnitridschicht 102, der ersten Siliziumoxidschicht 104,
der zweiten Siliziumnitridschicht 106 und der zweiten Siliziumoxidschicht 108 gleichzeitig
bestimmt.
-
Es
wird GOF des optimalen Spektrums in bezug auf den zulässigen GOF-Bereich
eingeschätzt.
Wenn GOF des optimalen Spektrums innerhalb des zulässigen Bereiches
liegt, wird die erste zeitweilige Dicke als die Dicke von jeder
Komponentenschicht der aktuellen Vielfachschicht gespeichert. Der
zulässige
GOF-Bereich kann zwischen etwa 0,9 und 1 eingestellt werden. Wenn
GOF außerhalb
des zulässigen
Bereiches liegt, wird die erste zeitweilige Dicke nicht als die
Dicke der aktuellen Vielfachschicht betrachtet, und es wird eine zweite
zeitweilige Dicke abgeleitet, und zwar unter Verwendung von zweiten
Rezeptdaten bzw. eines zweiten Datensatzes, welcher der zweiten
hypothetischen Vielfachschicht entspricht. Eine starke Abweichung
von dem zulässigen
GOF-Bereich kann
anzeigen, daß die
oberste Schicht der zweiten Siliziumoxidschicht 108 überätzt worden
ist, und zwar bei einem früheren Ätzprozeß, und es
können
dann die ersten Rezeptdaten bzw. der ersten Datensatz nicht für die Bestimmung
der Dicke der tatsächlichen
Vielfachschicht verwendet werden. Daher werden die ersten Rezeptdaten
bzw. wird der ersten Datensatz durch einen zweiten Datensatz ersetzt
unter der Annahme, daß die
tatsächliche
Vielfachschicht enger an der zweiten hypothetischen Vielfachschicht
liegt, in der die zweite Siliziumoxidschicht 108 nicht
mehr vorhanden ist, und zwar enger daran liegt als an der ersten hypothetischen
Vielfachschicht. Da der Prozeß zum
Messen der zweiten zeitweiligen Dicke der Vielfachschicht der gleiche
ist wie der Prozeß zum
Messen der ersten zeitweiligen Dicke mit der Ausnahme, daß der erste
Datensatz durch einen zweiten Datensatz ersetzt wird, wird eine
weitere detaillierte Beschreibung zum Messen der zweiten Dicke hier
weggelassen.
-
In
einer ähnlichen
Weise gemäß dem Messen
der ersten Dicke der Vielfachschicht wird der GOF-Wert der zweiten
zeitweiligen Dicke abgeschätzt,
und zwar unter Verwendung des Spektrumsfehlers zwischen dem gemessen
Spektrum und dem ausgewählten
theoretischen Spektrum. Wenn GOF innerhalb des zulässigen GOF-Bereiches
liegt, wird die zweite zeitweilige Dicke als die Dicke von jeder
Komponentenschicht der tatsächlichen
Vielfachschicht gespeichert. Wenn jedoch GOF außerhalb des zulässigen Bereiches
liegt, wird die zweite zeitweilige Schicht nicht als die Dicke der
aktuellen Vielfachschicht betrachtet und es wird eine dritte zeitweilige
Schicht in bezug auf die dritte hypothetische Vielfachschicht abgeleitet
unter Verwendung der dritten Rezeptdaten bzw. des dritten Datensatzes.
Wenn GOF nicht innerhalb des zulässigen
Bereiches liegt, ist die dritte Dicke nicht annehmbar, und zwar
als Dicke der tatsächlichen
Vielfachschicht, und es wird eine vierte zeitweilige Dicke in Verbindung
mit der vierten hypothetischen Mehrfachschicht abgeleitet unter
Verwendung des vierten Datensatzes. Es wird GOF der vierten Dicke
in ähnlicher
Weise berechnet, um zu bestimmen, ob GOF innerhalb des zulässigen Bereiches
liegt.
-
Wenn
GOF eines ausgewählten
Spektrums innerhalb des zulässigen
Bereiches liegt, kann der Prozeß gemäß dem Messen
der Dicke der Vielfachschicht nicht durchgeführt werden und es wird eine
zeitweilige Dicke, welche die GOF-Bedingung befriedigt, als die
Dicke von jeder Komponentenschicht der aktuellen Vielfachschicht
an der ersten OS bestimmt. Wenn nicht alle gemessenen Dickenwerte
innerhalb des zulässigen Bereiches
liegen, so wird die zeitweilige Dicke, von der GOF am nächsten zu
dem zulässigen
GOF-Bereich liegt, als die Dicke von jeder Komponentenschicht der
aktuellen Vielfachschicht an dem ersten OS bestimmt. Die Dicke von
jeder Komponentenschicht in der Vielfachschicht, die auf der ersten
OS aufgeschichtet ist, wird mit Hilfe des oben beschriebenen Prozesses
bestimmt. In dem gleichen Prozeß kann
auch die Dicke von jeder Komponentenschicht in der Vielfachschicht,
die auf der zweiten bis fünften
OS aufgeschichtet ist, bestimmt werden, wie dies für einen
Fachmann auf dem vorliegenden Gebiet zu erkennen ist.
-
Wenn
demzufolge der Ätzprozeß nicht
einheitlich auf dem gemusterten Wafer durchgeführt wird, werden die Rezeptdaten
bzw. der Datensatz zum Berechnen der theoretischen Dicke in Einklang
mit der Stapelstruktur von jeder OS ausgewählt, so daß die Dicke von jeder Komponentenschicht
exakt bestimmt werden kann.
-
Dritte Ausführungsform
-
Die
Elemente und die Prozesse einer dritten Ausführungsform der vorliegenden
Erfindung sind im wesentlichen ähnlich
denjenigen der zweiten Ausführungsform
der vorliegenden Erfindung, ausgenommen einer Meßsequenz.
-
Ein
gemusterter Wafer, auf welchem eine Vielfachschicht ausgebildet
ist, wird in eine Prozeßkammer geladen.
Bei einer beispielhaften Ausführungsform
wird angenommen, daß die
Vielfachschicht des gemusterten Wafers gemäß dem gleichen Prozeß wie bei
dem gemusterten Wafer der oben beschriebenen zweiten Ausführungsform
ausgebildet wurde. Spezifischer ausgedrückt, enthält der gemusterte Wafer eine
erste Siliziumnitridschicht mit einer Dicke von etwa 260 Å, eine
erste Siliziumoxidschicht mit einer Dicke von etwa 750 Å, eine
zweite Siliziumnitridschicht mit einer Dicke von etwa 500 Å und eine
zweite Siliziumoxidschicht mit einer Dicke von etwa 4500 Å, die sequentiell
in dieser Reihenfolge von einer oberen Oberfläche eines Substrats nach einem Ätzprozeß aufgestapelt
wurden.
-
Es
wird polarisiertes Licht auf eine erste OS gelenkt und das von der
ersten OS reflektierte Licht wird detektiert. Das reflektierte Licht
wird detektiert und in Einklang mit einer Wellenlänge desselben
analysiert und wird in eine horizontal und eine vertikale Polarisationskomponente
aufgeteilt. Ein Intensitätsverhältnis und
eine Phasendifferenz zwischen der horizontalen und der vertikalen
Polarisationskomponente werden als eine Funktion der Wellenlänge des
polarisierten Lichts erhalten. Spezifischer ausgedrückt, sind
das Intensitätsverhältnis und
die Phasendifferenz zwischen der horizontalen und der vertikalen
Polarisationskomponente des polarisierten Lichtes in bezug auf die
Wellenlänge
des polarisierten Lichtes verteilt. Als ein Ergebnis wird ein erstes
gemessenes Spektrum des polarisierten Lichtes, welches von der ersten
OS reflektiert wurde, erhalten und ausgegeben. Dann werden zweite
bis fünfte
Meßspektren
des polarisierten Lichtes, welches von einer zweiten OS bis einer
fünften
OS jeweils reflektiert wird, getrennt erhalten. Die ersten bis fünften gemessenen
Spektren werden in einer ersten Speichereinheit gespeichert.
-
Als
nächstes
werden Erwartungen hinsichtlich einer Stapelstruktur der Vielfachschicht
in der gleichen Weise gestellt, wie dies in Verbindung mit der beschriebenen
zweiten Ausführungsform
der vorliegenden Erfindung der Fall ist, und es werden erste bis
vierte Rezeptdaten oder Datensätze
im voraus eingestellt, so daß sie
jeweils den ersten bis vierten hypothetischen Vielfachschichten
entsprechen. Bei der vorliegenden Ausführungsform werden erste bis
fünfte
OS-Stellen oder -Punkte entsprechend einem oberen Abschnitt, einem
zentralen Abschnitt, einem Bodenabschnitt und linken und rechten
Abschnitten des gemusterten Wafers ausgewählt.
-
Eine
Vielzahl der ersten theoretischen Spektren wird unter Verwendung
der ersten Rezeptdaten bzw. des ersten Datensatzes gemäß einer
theoretischen Gleichung abgelei tet. Spezifischer ausgedrückt, werden die
Brechungsindizes und die Schwächungskoeffizienten
von jeder Komponentenschicht der ersten hypothetischen Vielfachschicht,
die bereits in den ersten Rezeptdaten bzw. dem ersten Datensatz
eingestellt sind, in der theoretischen Gleichung verwendet und es
wird das erste theoretische Spektrum in Einklang mit der Wellenlänge des
Lichtes bei einer Bedingung erhalten, daß die theoretische Dicke von
jeder Schicht festgelegt ist. Das erste theoretische Spektrum wird
wiederholt mit variierenden theoretischen Dickenwerten von jeder Schicht
abgeleitet, und zwar innerhalb eines vorbestimmten Bereiches, so
daß eine
Vielzahl von ersten theoretischen Spektren gebildet wird. Die Dicke
der Vielfachschicht kann innerhalb eines zulässigen Grenzbereiches der Dicke
von jeder Komponentenschicht ausgewählt werden. Eine Vielzahl der
ersten theoretischen Spektren wird in Einklang mit der Dicke der
ersten hypothetischen Vielfachschicht gespeichert.
-
Das
gemessene Spektrum, welches an dem ersten OS gemessen wurde, wird
mit einer Vielzahl der ersten theoretischen Spektren verglichen,
die unter Verwendung der ersten Rezeptdaten bzw. des ersten Datensatzes
berechnet wurden, entsprechend einer ersten hypothetischen Vielfachschicht,
und es wird eine der ersten theoretischen Spektren, welche den geringsten
Betrag eines Spektrumsfehlers besitzt, als ein erstes optimales
Spektrum ausgewählt,
welches am dichtesten zu dem gemessenen Spektrum paßt. Als
ein Ergebnis wird die Dicke der Vielfachschicht in bezug auf das
optimale Spektrum als eine erste zeitweilige Dicke der aktuellen
Vielfachschicht an dem ersten OS betrachtet. In der gleichen Weise
wird die erste zeitweilige Dicke der tatsächlichen Vielfachschicht an
dem zweiten bis fünften
OS-Punkten ebenfalls jeweils bestimmt.
-
Dann
wird jeder GOF-Wert der ersten zeitweiligen Dicke an dem ersten
bis fünften
OS-Punkt eingeschätzt.
Jede erste zeitweilige Dicke, von der GOF innerhalb des zulässigen Bereiches
liegt, wird in Betracht gezogen und wird als aktuelle Dicke der
Vielfachschicht ausgegeben, die an dem entsprechenden OS-Punkt aufgeschichtet
ist. Jedoch wird die erste zeitweilige Dicke, bei der GOF außerhalb
des zulässigen
Bereiches liegt, nicht als die aktuelle oder tatsächliche
Dicke der Vielfachschicht an dem entsprechenden OS-Punkt betrachtet.
-
Wenn
der GOF-Wert der ersten zeitweiligen Dicke außerhalb des zulässigen Bereiches
liegt, und zwar bei einem bestimmten OS, so wird eine Vielzahl von
zweiten theoretischen Spektren abgeleitet, und zwar unter Verwendung
der zweiten Rezeptdaten bzw. des zweiten Datensatzes, der einer
zweiten hypothetischen Vielfachschicht entspricht, und es wird das
gemessene Spektrum an dem speziellen OS mit einer Vielzahl der zweiten
theoretischen Spektren verglichen. Wenn GOF der ersten zeitweiligen
Dicke nicht innerhalb des zulässigen
Bereiches liegt, und zwar an der ersten OS, so werden eine Vielzahl
der zweiten theoretischen Spektren mit dem gemessenen Spektrum des
ersten OS verglichen. Es wird dann die Dicke in bezug auf das zweite theoretische
Spektrum, welches den geringsten Spektrumsfehlerbetrag aufweist,
als eine zweite zeitweilige Dicke der tatsächlichen Vielfachschicht an
der ersten OS gespeichert. Wenn der GOF-Wert der zweiten zeitweiligen
Dicke nicht innerhalb des zulässigen
Bereiches liegt, wird eine dritte und eine vierte zeitweilige Dicke
der aktuellen Vielfachschicht wiederholt gemessen, basierend auf
den dritten und vierten Rezeptdaten, welche dritte und vierte hypothetische
Vielfachschichten jeweils kennzeichnen. Der GOF-Wert der dritten
und der vierten zeitweiligen Dicken wird fortlaufend überprüft, um zu
bestimmen, ob jeder GOF-Wert der dritten und der vierten zeitweiligen
Dicke innerhalb des zulässigen
Bereiches liegt.
-
Wenn
alle die GOF-Werte der zeitweiligen Dicke innerhalb des zulässigen Bereiches
liegen, und zwar bei allen den ersten bis fünften OS-Punkten, so wird jede
der zeitweiligen Dicken, die die GOF-Bedingung befriedigen, als
aktuelle Dicke von jeder Komponentenschicht in der Vielfachschicht
ausgewählt
und ein Meßprozeß zum Messen
der Dicke der Vielfachschicht wird nicht mehr benötigt. Wenn
alle der GOF-Werte innerhalb des zulässigen Bereiches liegen, obwohl
alle Rezeptdaten zum Berechnen der zeitweiligen Dicke verwendet worden
sind, so wir die zeitweilige Dicke, bei der GOF am engsten an den
zulässigen
GOF-Bereich angenähert ist,
als die Dicke der aktuellen Vielfachschicht ausgewählt.
-
Demzufolge
wird jede Dicke der Vielfachschicht, die an der ersten bis fünften OS-Stelle jeweils aufgeschichtet
ist, exakt gemessen, und zwar mit Hilfe des oben beschriebenen Prozesses.
Wenn zusätzlich
der Ätzprozeß nicht
in einheitlicher Weise an dem gemusterten Wafer vorgenommen wird,
werden Rezeptdaten bzw. ein Datensatz zum Berechnen der theoretischen
Dicke in Einklang mit der Stapelstruktur des OS ausgewählt, so
daß die
Dicke von jeder Komponentenschicht exakt bestimmt werden kann.
-
Die
Dicke der Vielfachschicht, die auf den gemusterten Wafer aufgeschichtet
ist, wurde experimentell an jedem OS-Punkt mit Hilfe des oben beschriebenen
Prozesses gemessen, und zwar unter den folgenden Bedingungen:
5 veranschaulicht eine Ansicht
eines Waferplans, der eine Vielzahl von Meßpunkten angibt. Drei Arten
von Meßgruppen
werden auf dem Wafer ausgewählt
und jede Gruppe enthält
zwei Meßpunkte
oder Meßstellen, die
zueinander benachbart sind. In
5 bezeichnen
die Bezugszeichen
200a bis
200f jeweils erste
bis sechste Meß punkte
auf dem Wafer und es wird der Meßprozeß an einer entsprechenden OS
vorgenommen, die an jeder Meßstelle
ausgebildet ist.
-
6 zeigt einen Graphen, der
eine Lichtintensität
in bezug auf die Wellenlänge
veranschaulicht. 7 ist
ein Graph, der eine Phasenverschiebung des Lichtes in bezug auf
die Wellenlänge
veranschaulicht. Die Lichtintensität und die Phasenverschiebung
werden an jedem Meßpunkt
gemessen. In 6 geben
die Kurven, die durch die Bezugszeichen 210a und 210 jeweils
angezeigt sind, die Intensitätsänderung
an dem ersten und zweiten OS-Punkt an. Die Kurven, die mit den Bezugszeichen 212a bzw. 212 bezeichnet
sind, geben die Intensitätsänderung
an den dritten und vierten OS-Punkten an. Die Kurven, die mit den
Bezugszeichen 214a und 214 jeweils bezeichnet
sind, geben die Intensitätsänderung
an den fünften
und sechsten OS-Punkten an.
-
In 7 geben die Kurven, die
mit den Bezugszeichen 250a bzw. 250 bezeichnet
sind, die Phasenänderung
an dem ersten und dem zweiten OS-Punkt an. Die Kurven, die mit den
Bezugszeichen 252a bzw. 252 bezeichnet sind, geben
die Phasenänderung
an dem dritten und dem vierten OS-Punkt an. Die Kurven, die mit den
Bezugszeichen 254a bzw. 254 bezeichnet sind, geben
die Phasenänderung
an dem fünften
bzw. sechsten OS-Punkt an. Im folgenden wird der in 6 dargestellte Graph als SE α bezeichnet
und der Graf, der in 7 bezeichnet
ist, wird als SE β bezeichnet.
-
Wenn
gemäß den 6 und 7 die Meßpunkte beieinanderliegend
gewählt
sind und in der gleichen Meßgruppe
liegen, ist die Gestalt von SE α sehr ähnlich der
Gestalt von SE β,
so daß sich
SE α und
SE β angenähert überlappen,
wenn sie entlang einer vertikalen oder horizontalen Richtung in
dem Graphen verschoben werden. Wenn jedoch die Meßpunkte
voneinander getrennt sind und nicht in der gleichen Meßgruppe liegen,
so ist die Gestalt von SE α vollständig verschieden
von der Gestalt von SE β.
Die Ähnlichkeit
zwischen SE α und
SE β zeigt
an, daß die
Vielfachschichten, die an den benachbarten Meßpunkten aufgeschichtet sind, in
der Stapelstruktur ähnlich
sind, und die Differenz zwischen SE α und SE β zeigt an, daß die Vielfachschichten
die an den getrennten Meßpunkten
aufgeschichtet sind, hinsichtlich der Stapelstruktur voll ständig voneinander
verschieden sind, und zwar auf Grund von z.B. einem Ebenheitsfehler
des gemusterten Wafers.
-
Die
Dicke der Vielfachschicht wurde an den oben genannten sechs Meßpunkten
des Wafers gemessen, und zwar unter Verwendung der ersten Rezeptdaten
bzw. des ersten Datensatzes entsprechend der ersten hypothetischen
Vielfachschicht, und es wurden die GOF-Werte der Dicke für jede Komponentenschicht
jeweils berechnet, wobei die Ergebnisse in der folgenden Tabelle
1 dargestellt sind.
-
-
Um
auf die Tabelle 1 einzugehen, so ist GOF der Dicke an den dritten
bis sechsten Meßpunkten
größer als
0,9, jedoch ist GOF der Dicke an dem ersten und dem zweiten Meßpunkt gleich
0. Daher ist die Dicke, die an dem ersten und dem zweiten Meßpunkt gemessen
wurde, nicht vollständig
zuverlässig,
und zwar für
die Verwendung für
die tatsächliche
Dicke der Vielfachschicht, die an dem ersten und dem zweiten Punkt
des gemusterten Wafers aufgeschichtet ist. Zusätzlich wurde auch die Dicke
der zweiten Siliziumnitridschicht als null (0) an dem fünften und
sechsten Meßpunkt
gemessen. Die in der Tabelle 1 gezeigten Ergebnisse zeigen an, daß die Dicke
von jeder Komponentenschicht in der Vielfachschicht in gewisser
Weise bei den ersten Rezeptdaten exakt ist, die für die Berechnung
der Dicke verwendet wurden, wenn die Stapelstruktur der aktuellen
Vielfachschicht die gleiche ist wie diejenige der ersten hypothetischen
Vielfachschicht, von welcher lediglich die oberste Schicht entfernt
worden ist.
-
Es
wurde dann die Dicke der Vielfachschicht wiederholt an dem ersten
und dem zweiten Meßpunkt gemessen,
und zwar unter Verwendung der zweiten Rezeptdaten entsprechend der
zweiten hypothetischen Vielfachschicht, da GOF der Dicke nicht innerhalb
des zulässigen
Bereiches lag. Die GOF-Werte der jeweiligen Dicke jeder Komponentenschicht
wurden jeweils berechnet und die Ergebnisse sind in der folgenden
Tabelle 2 dargestellt.
-
-
Es
wurden dann alle die Dickenwerte mit einem GOF-Wert größer als
0,9 ausgegeben, wie in der Tabelle 3 gezeigt ist.
-
-
Um
auf die Tabelle 3 einzugehen, so enthält die aktuelle Vielfachschicht,
die an der ersten und der zweiten Stelle aufgeschichtet ist, lediglich
die erste Siliziumnitridschicht ohne die zweite Siliziumnitridschicht und
die Siliziumoxidschicht und die aktuelle Vielfachschicht, die an
der dritten und der vierten Stelle aufgeschichtet ist, enthält alle
Schichten gemäß der ersten
Siliziumnitridschicht, der zweiten Siliziumnitridschicht und der
Siliziumoxidschicht. Zusätzlich
enthält
die aktuelle Vielfachschicht, die an der fünften und sechsten Stelle aufgeschichtet
ist, lediglich die erste Siliziumnitridschicht und die Siliziumoxidschicht
ohne die zweite Siliziumnitridschicht.
-
Obwohl
daher die Stapelstruktur der Vielfachschicht an jedem Abschnitt
des gemusterten Wafers verschieden ist, und zwar beispielsweise
auf Grund eines nicht einheitlich erfolgten Ätzprozesses, kann die Dicke von
jeder Komponente der Vielfachschicht exakt gemessen werden mit einer
Zuverlässigkeit
eines GOF-Wertes größer als
0,9.
-
Gemäß der vorliegenden
Erfindung kann somit die Dicke von jeder Komponentenschicht in der
Vielfachschicht gemessen werden, ohne dabei den Wafer direkt zu
kontaktieren und ohne Verwendung eines Überwachungswafers, sondern
lediglich mit Verwendung des in ein Muster gebrachten Wafers, wodurch
die Herstellungskosten der Halbleitervorrichtung reduziert werden.
Obwohl zusätzlich
die Stapelstruktur der Vielfachschicht an jedem Abschnitt des gemusterten
Wafers verschieden sein kann, kann die Dicke von jeder Komponente
der Vielfachschicht exakt mit einer hohen Zuverlässigkeit gemessen werden.
-
Es
wurden als Beispiel ausgewählte
Ausführungsformen
offenbart und, obwohl spezifische Ausdrücke verwendet wurden, so sind
diese lediglich als gattungsmäßige Ausdrücke und
in einem beschreibenden Sinn und nicht im Sinne einer Einschränkung zu
interpretieren. Es wird demzufolge für Fachleute darauf hingewiesen,
daß vielfältige Änderungen
in der Form und in Einzelheiten vorgenommen werden können, ohne
jedoch dadurch den Rahmen der vorliegenden Erfindung, wie er in
den nachfolgenden Ansprüchen
festgehalten ist, zu verlassen.