DE102005023735A1

DE102005023735A1 - Verfahren zur automatischen Durchführung einer Oberflächenuntersuchung

Info

Publication number: DE102005023735A1
Application number: DE200510023735
Authority: DE
Inventors: Christian Halm
Original assignee: Leica Microsystems Jena GmbH; Leica Microsystems CMS GmbH
Current assignee: KLA Tencor MIE GmbH
Priority date: 2005-05-23
Filing date: 2005-05-23
Publication date: 2006-11-30

Abstract

Bei der Bestimmung von Parametereigenschaften von Schichten insbesondere auf Halbleiteroberflächen erfolgt eine Anpassung einer theoretisch aus einem Modell berechneten Kurve an eine gemessene Kurve mit Hilfe variabler Parameter, wobei die Parameter so lange variiert werden, bis eine ausreichend gute Übereinstimmung der Theoriekurve mit der Messkurve erreicht ist. Für diesen Fit stehen häufig verschiedene Einzelmethoden zur Verfügung. Mit dem erfindungsgemäßen Verfahren wird eine vorteilhafte Verknüpfung dieser Einzelmethoden, insbesondere dem Constant-Mesh-Verfahren, zwei Gradientenverfahren und dem FFT-Verfahren vorgeschlagen.

Description

Die Erfindung betrifft ein Verfahren zur automatischen Auswahl und Kombination einer Methode zur Bestimmung von Parametern einer Schicht insbesondere auf einer Halbleiteroberfläche nach dem Oberbegriff des Anspruch 1.

Bei technischen Oberflächen, insbesondere in der Halbleiterfertigung ist es oftmals erforderlich, die Strukturparameter der Oberflächen zu bestimmen. Beispielsweise müssen während des Fertigungsprozesses aufgebrachte Linienbreiten und Linienprofile von strukturierten Schichten auf ihre Dimensionen und ihre Regelmäßigkeit hin kontrolliert werden. Die exakte Einhaltung der Spezifikationen für die Schichtdicken ist im Hinblick auf die Funktionsfähigkeit des Produktes von entscheidender Bedeutung. Zur Überprüfung dieser Fertigungsparameter werden die Reflektionsspektren der Probe bei verschiedenen Wellenlängen gemessen. Diese Messungen liefern allerdings nicht unmittelbar die erwünschten Materialdaten, wie etwa die oben genannte Schichtdicke. Vielmehr ist es erforderlich, die berechneten Werte an gemessene Werte anzupassen und mit Hilfe eines Modells mit der Theorie der Lichtstreuung ein theoretisches Spektrum zu berechnen und mit der Messung zu vergleichen. Anschließend werden die Modellparameter solange verändert, bis Theorie und Messung in möglichst guter Übereinstimmung liegen.

Die Reflexions-Spektroskopie ist eine seit langem bekannte und weit verbreitete Methode zur Untersuchung von Schichtsystemen insbesondere von Wafern, und zur Bestimmung von Schichtdicken und anderen optischen Parametern. Dabei wird eine Probe, die bevorzugt mehrere Schichten aufweist, mit Licht einer vorgegebenen Wellenlänge bestrahlt. Sind die Schichten im Bereich dieser Wellenlänge transparent, so dringt das Licht in die Schicht ein und wird in den Übergangsbereichen zwischen zwei Schichten, wozu auch der Übergang zwischen der obersten Schicht und der sie umgebenden Atmosphäre gehört, teilweise reflektiert. Durch Überlagerung der einfallenden und reflektierten Lichtstrahlen kommt es zu Interferenz, was die Intensität des reflektierten Lichts beeinflusst. Das Verhältnis der Intensitäten von einfallendem und reflektiertem Licht bestimmt den so genannten absoluten Reflexionsgrad, so dass beide Intensitäten daher gemessen werden müssen. Variiert man nun die Wellenlänge in einem vorgegebenen Bereich kontinuierlich, so erhält man das Reflexionsspektrum, das als Funktion der Wellenlänge Maxima und Minima aufweist. Diese werden durch die Interferenzen hervorgerufen. Die Lage dieser Extrema hängt von den Materialeigenschaften der untersuchten Probe ab. Diese bestimmt demnach das optische Verhalten. Zu diesen optischen Parametern zählen z.B. der Brechungsindex oder der Absorptionskoeffizient. Weiterhin beeinflusst die Schichtdicke die Lage der Extrema im Reflexionsspektrum.

Die grundlegenden Formeln, die verwendet werden, um aus dem Vergleich des Modells mit der Messung die gesuchten Größen berechnen zu können, lassen sich aus der Fresnel'schen Beugungstheorie ableiten.

Diese sind beispielsweise in „Spectroscopic Ellipsometry and Reflectometry – A Users Guide" von H. G. Tompkins und W. A. McGahan beschrieben.

Die gesuchten Parameter werden dadurch erhalten, dass eine Anpassung einer theoretisch aus einem Modell berechneten Kurve an eine gemessene Kurve mit Hilfe von variablen Parametern erfolgt, wobei die Parameter so lange variiert werden, bis eine ausreichend gute Übereinstimmung der Theoriekurve mit der Messkurve erreicht ist. Im Folgenden wird dies als Fit bezeichnet. Zum Erreichen eines guten Ergebnisses sind deshalb oftmals viele Theoriekurven zeitaufwändig zu berechnen. Um diesen Zeitaufwand zu reduzieren wird beispielsweise in der DE 102 04 943 vorgeschlagen, das Optimierungskriterium durch die Gesamtheit der Beträge der Wellenlängendifferenzen aller Paare von Wellenlängen zu bestimmen. Dabei wird ein Paar von Wellenlängen durch diejenigen Wellenlängen gebildet, die jeweils zu einem ausgewähl ten Extremum im gemessenen Reflexionsspektrum korrespondieren. Die Extrema werden hierzu in auf- oder absteigender Ordnung mit einem Index versehen. Der Vergleich wird dann mit demjenigen Extremum ausgeführt, welches im modellierten Reflexionsspektrum den gleichen Index aufweist.

Das Standardverfahren für einen Fit ist das Gradientenverfahren, da mit seiner Hilfe schnell das exakte Ergebnis gefunden werden kann. Voraussetzung hierzu ist, dass der Startpunkt schon in der Nähe der Lösung liegt. Ist das Modell jedoch nur ungenau bekannt, so ist es noch nötig diesen Startpunkt zu finden. Anderenfalls führt das Gradientenverfahren in ein Nebenminimum, ohne dass dieser Fehler klar erkennbar wäre. Ein vorgeschaltetes Verfahren, das so genannte Constant Mesh Verfahren, erfüllt diese Aufgabe. Hierbei wird jeder zu fittenden Parameter in einem vorgegebenen Intervall mit einer bestimmten Schrittweite abgerastert. Soll z.B. eine Schichtdicke durch einen Fit bestimmt werden und ist bekannt, dass eine Schicht mit einer Dicke von etwa 1000 nm vorliegt, so kann mit Hilfe eines Automatismus, dem so genannten Autoranger dann ein Intervall und eine sinnvolle Schrittweite bestimmt werden. Das Vorgehen hierzu ist beispielsweise in der DE 10227376 A1 beschrieben. Für einen Nominalwert der Schichtdicke von 1000 nm ergibt sich ein Intervall von 382,74 nm bis 1617,25 nm bei einer Schrittweite von 17,14 nm. Der ConstantMesh berechnet dann die sich ergebenen 73 Spektren und dazu jeweils den MSE. Die Schichtdicke mit dem kleinsten MSE bildet den Startwert für das Gradientenverfahren. Sollen mehrere Parameter gefittet werden, so ergibt sich die Gesamtzahl der zu berechneten Spektren aus dem Produkt der Anzahl der Spektren pro Parameter. Bei drei Schichtdicken à 73 Spektren sind das bereits 73·73·73 = 389.017 Spektren. Zur Berechnung werden drei verschachtelte Schleifen benötigt. Man sieht, dass der Rechenaufwand stark ansteigt mit der Zahl der zu variierenden Parameter. Bei der Produktionskontrolle, bei der die Analyse eingesetzt wird, ist die Zeit der begrenzende Faktor. Je mehr Spektren innerhalb einer vorgegebenen Zeit berechnet werden können, desto mehr Parameter können variiert werden. Es können dann auch die Intervalle größer gewählt werden, in denen die Lösung vermutet wird, was zu einer größeren Trefferwahrscheinlichkeit führt. Ein derartiges Verfahren ist von der Anmelderin unter dem eigenen Aktenzeichen A 3443 DE beim DPMA als Patentanmeldung hinterlegt worden.

Zur Berechnung dicker Schichten ist weiterhin das so genannte FFT-Verfahren bekannt, bei dem die Schichtdicken der einzelnen Schichten über eine Fouriertransformation (FFT) der Messkurve und der Theoriekurve erhalten werden.

Die genannten Verfahren stehen in einer Messapparatur üblicherweise zur Verfügung. Jedoch ist es jeweils dem Anwender überlassen, das geeignete, Verfahren sowie die geeignete Reihenfolge der Verfahren gegebenenfalls auch durch Versuch und Irrtum zu ermitteln.

Aufgabe der vorliegenden Erfindung ist es, die geeignete Auswahl und gegebenenfalls die geeignete Reihenfolge der Auswertungen so zu automatisieren, dass es für die gegebene Aufgabe geeignet ist und damit weniger Spezialwissen vom Anwender gefordert werden muss.

Nach der vorliegenden Erfindung wird diese Aufgabe durch ein Verfahren zur automatischen Auswahl einer Methode zur Bestimmung von Parametern einer Schicht insbesondere auf einer Halbleiteroberfläche gemäß Anspruch 1 gelöst.

Entsprechend zeichnet sich das erfindungsgemäße Verfahren dadurch aus, dass eine intelligente Verknüpfung von Einzelverfahren, insbesondere des so genannten Constant-Mesh-Verfahrens, zweier Gradientenverfahren und einem FFT-Verfahren erfolgt. Ein hierzu geeignetes Constant-Mesh-Verfahren ist von der Anmelderin unter dem eigenen Aktenzeichen A 3443 DE beim DPMA als Patentanmeldung hinterlegt worden, wobei die Beschreibungen dieser Verfahren im Folgenden als Teil dieser Anmeldung und als bekannt vorausgesetzt werden.

In einer bevorzugten Ausführungsform der Erfindung wird geprüft, die Anzahl von Peaks des Mess-FFT-Spektrums kleiner als die Anzahl der sehr dicken Schichten mit einer optischen Dicke größer D, insbesondere 10000 nm ist. Ist dies der Fall wird mit einem Fehler abgebrochen.

Darüber hinaus kann geprüft werden, ob ein Sonderfall vorliegt, bei dem ein Einschichtsystem vorliegt, dessen Schichtdicke gefittet werden soll. In diesem Fall wird die Anzahl optischen Schichtdicken des Modellspektrums auf 1 gesetzt und geprüft, ob wirklich eine dicke Schicht vorliegt. Diese Prüfung kann beispielsweise dadurch erfolgen, dass nach Peaks einschließlich der Rauschpeaks am Anfang des FFT-Spektrums gesucht wird, die mindestens die Hälfte der Höhe des größten gefundenen Peaks besitzen. Wenn die Anzahl dieser Peaks, nicht mehr als 10 beträgt liegt eine dünne Schicht vor und es wird dann kein FFT-Verfahren durchgeführt.

Weitere Vorteile und vorteilhafte Ausführungsformen der Erfindung sind Gegenstand der nachfolgenden Figuren sowie deren Beschreibungen, bei deren Darstellung zugunsten der Übersichtlichkeit auf eine maßstabsgetreue Wiedergabe verzichtet wurde.

Die einzige Figur zeigt:
Fig.: schematisch den Ablauf des erfindungsgemäßen Verfahrens auch in vorteilhaften Ausführungsformen.
Die einzige Figur zeigt schematisch den Ablauf des erfindungsgemäßen Verfahrens. Wenn im Schritt 10 festgestellt wird, dass der Automatikmodus nicht gewählt wurde, wird im Schritt 11 unmittelbar abgebrochen. Wurde der Automatikmodus gewählt, so wird im Schritt 12 grundsätzlich ein FFT-Messspektrum des aufgenommen Messspektrums berechnet und nach den Peaks in diesem FFT-Messspektrum gesucht. Anschließend wird im Schritt 14 die Anzahl A1 von optischen Schichtdicken des Modells, die größer als ein vorgegebener Wert W, insbesondere größer als 2500 nm ist gezählt und im Schritt 16 geprüft, ob es sich um den Sonderfall eines Einschichtsystems handelt. Ist dies nicht der Fall, so wird im Schritt 20 die Anzahl von Peaks A2 im Mess-FFT-Spektrum ermittelt, deren Optische Dicke größer als der Quotient W/p, also insbesondere 2500/3 nm ist Dabei ist p ein vorgegebener Teiler ist.
Sofern der Sonderfall eines Einschichtsystems vorliegt, so wird der Wert für A1 auf 1 gesetzt, da kein Nominalwert zur Verfügung steht. Da bei einem Ein fachschichtsystem der Nominalwert nicht genutzt werden soll, kann es zu Problemen bei der Unterscheidung von ganz dünnen und ganz dicken Schichten kommen, deren Spektren sich sehr ähneln. Daher wird im Schritt 18 auch untersucht, ob tatsächlich eine dicke Schicht vorliegt. Falls es sich um eine dünne Schicht handelt, so liegen im FFT-Spektrum durch das Rauschen viele kleine Peaks ähnlicher Höhe nebeneinander. Bei einer dicken Schicht sollte sich der auszuwertende Peak einigermaßen von den anderen Peaks abheben. Daher wird im Schritt 19 nach Peaks einschließlich der Rauschpeaks am Anfang des FFT-Spektrums gesucht, die mindestens die Hälfte der Höhe des größten gefundenen Peaks besitzen. Für das Vorliegen einer dicken Schicht wird gefordert, dass von diesen Peaks höchstens ein definierter Wert, insbesondere 10 gefunden werden. Dies wird im Schritt 22 geprüft. Falls mehr Peaks gefunden werden, wird davon ausgegangen, dass es sich um eine dünne Schicht handelt, für die das FFT-Verfahren zur Schichtdickenbestimmung ungeeignet ist. Daher wird in diesem Fall kein FFT-Verfahren durchgeführt und hierzu der Wert A2 im Schritt 23 auf Null gesetzt.
Sofern der Sonderfall eines Einschichtsystems nicht vorliegt, wird im Schritt 20 die Anzahl von Peaks A2 im Mess-FFT-Spektrum gezählt, deren Optische Dicke größer W/p, insbesondere größer als 2500/3 nm ist. Unabhängig davon, ob nun ein Sonderfall vorliegt oder nicht wird im Schritt 24 geprüft, ob das FFT-Verfahren durchgeführt werden soll. Dies wird dann im Schritt 26 durchgeführt, wenn A2 größer oder gleich als A1 ist.
Ergibt die Prüfung im Schritt 24, dass A2 kleiner als A1 ist, so wird im Schritt 28 festgestellt, ob es sehr dicke Schichten mit einer Optischen Dicke größer 10000 nm zu fitten gibt, die nur vom FFT-Verfahren gefunden werden können, da die Dämpfung des Spektrometers hier schon zu groß ist. Ist A2 auch kleiner als diese Anzahl A4, was im Schritt 27 geprüft wird, so wird mit einem Fehler mit Schritt 32 abgebrochen. Ansonsten wird das FFT-Verfahren nun im Schritt 26 nur für die sehr dicken Schichten ausgeführt. Führt dies zum Fehler, so erfolgt ein Abbruch. Nun wird im Schritt 34 überprüft, ob ausschließlich sehr dicke Schichten gefittet werden sollten. Ist dies der Fall so ist das gesamte Verfahren im Schritt 36 mit dem dann vorliegenden Ergebnis beendet.
Wurden auch dünne Schichten erkannt, muss deren Schichtdicke mit alternativen Verfahren festgestellt werden. Hierzu wird im Schritt 38 zunächst für alle zu fittenden Schichtdicken, für die noch kein FFT-Verfahren durchgeführt wurde oder wenn dieses nicht erfolgreich war weiter verfahren. Dabei wird zunächst ausgehend von dem Nominalwert mit dem Autoranger die Grenzen für das Constant-Mesh-Verfahren ermittelt und das Constant-Mesh-Verfahren für alle zu fittenden Schichten gestartet.
Im Schritt 40 wird dann das Gradientenverfahren für alle zu fittenden Schichten gestartet, für die das Constant-Mesh-Verfahren im Schritt 38 durchgeführt wurde. Damit wird die Wahrscheinlichkeit erhöht, dass beim anschließenden Gradientenverfahren zusammen mit den Dispersionsparametern die Schichtdicken nicht mehr ihr globales Minimum verlassen. Als Gradientenverfahren wird bevorzugt das Levenberg-Marquardt-Verfahren eingesetzt, welches ein schnelles und gebräuchliches Verfahren ist. Sollte dies nicht zum Ziel kommen, also nicht schnell genug konvergieren, so wird mit den gleichen Startparametern das Powellverfahren ausgeführt. Beide Verfahren funktionieren intern grundlegend verschieden und kommen daher manchmal auch dann zum Ziel, wenn das andere Verfahren scheitert. Die Kombination beider Verfahren vergrößert die Menge der Aufgaben, die gelöst werden kann. Im Schritt 42 wird dann das Gradientenverfahren für alle Dispersionsparameter gestartet. Im Schritt 44 wird schließlich das Gradientenverfahren für alle zu fittenden Schichten gestartet, für die das Constant-Mesh-Verfahren durchgeführt wurde, und für alle Dispersionsparameter, womit das Verfahren der Automatikmethode beendet ist.
Die Gradientenverfahren einschließlich des FFT-Verfahrens sind schnelle Verfahren, ihre Zeiten machen nur einen verschwindend kleinen Teil der benötigten Gesamtzeit aus, sofern auch ein Constant-Mesh-Verfahren ausgeführt wird. Letzteres hat einen zeitlichen Aufwand, der exponentiell mit der Anzahl der zu fittenden Parameter steigt. Dies stellt damit auch die eigentliche Grenze im Hinblick darauf dar, wie viele Parameter gefittet werden können. Die Bereiche, in welchen die zu fittenden Parameter untersucht werden, und die Parameter selbst, welche mit dem untersucht werden sollen, werden erst in nerhalb des Verfahrens der Automatikmethode bestimmt. Es ist daher dem Anwender nicht ohne weiteres möglich vorauszusehen, wie lange das Verfahren brauchen wird und ob es innerhalb der vorgegebenen Zeit bleibt. Dies ist selbst dann noch schwer, wenn die Parameter und deren Bereiche bekannt sind, welche mit dem Constant-Mesh-Verfahren untersucht werden sollen.
Im Constant-Mesh-Verfahren wird daher berechnet, wie viele Schleifendurchläufe insgesamt durchgeführt werden sollen, und gemessen, wie viel Zeit für einen Durchlauf benötigt wird. Nach einigen Sekunden Rechenzeit ist die Statistik so gut, dass eine relativ genaue Vorhersage möglich ist, wie viel Zeit noch benötigt wird. Zusammen mit der bisher benötigten Zeit (einschließlich der für die bisher ausgeführten Einzelverfahren) wird berechnet, ob die voraussichtlich benötigte Zeit die vorgegebene Zeit deutlich überschreitet. Wenn dies der Fall ist, so wird das Verfahren vorzeitig beendet und eine Warnmeldung ausgegeben.

10: Automatikmodus gewählt?
12: FFT-Spektrum und Peaksuche
14: Zählen großer Schichtdicken
16: Abfrage auf Einschichtsystem
18: Prüfung ob Schicht vorliegt
20: Peaks zählen
22: Peakzahl A3 größer definierter Wert?
23: Setzte A = 0
24: A2 > = A1?
26: FFT-Verfahren
27: A2 < A4 ?
28: Prüfung ob sehr dicke Schichten vorhanden;
30: A2 > A4 ?
32: Abbruch durch Fehler
34: Nur sehr dicke Schichten zu Fitten?
36: Ende
38: Constant Mesh für alle übrigen Schichten
40: Gradientenverfahren für alle übrigen Schichten
42: Gradientenverfahren für alle Dispersionsparameter
44: Gradientenverfahren für alle zu fittenden Parameter aus 38 und 42
A1: Anzahl von Schichten mit optischer Schichtdicke > W
A2: Anzahl von Schichten mit optischer Schichtdicke > W/p
A3: Anzahl der Peaks inklusive Rauschpeaks
A4: Anzahl von Schichten mit sehr großer optischer Schichtdicke
W: Vorgegebene Schichtdicke
p: Vorgegebener Teiler

Claims

Verfahren zur automatischen Auswahl mindestens einer Methode zur Bestimmung von Parametern einer Schicht insbesondere auf einer Halbleiteroberfläche aus einer Mehrzahl von Methoden bei denen wobei ein Reflexionsspektrum des Objektes gemessen wird und das gemessene Reflexionsspektrum mit einem berechneten Modellspektrum verglichen wird, gekennzeichnet durch folgende Schritte: – Berechnen eines FFT-Spektrums aus einem Messspektrum und Auffinden von Peaks in diesem FFT-Messspektrum (12); – Zählen der Anzahl (A1) von optischen Schichtdicken des Modellspektrums, die größer ein vorgegebener Wert (W), insbesondere größer als 2500 nm ist (14); – Zählen der Anzahl (A2) von Peaks des Mess-FFT-Spektrums, deren optische Dicke größer als der vorgegebener Wert (W) geteilt durch einen vorgegebenen Teiler (p) insbesondere 2500/3 nm ist; – Durchführen des FFT-Verfahrens, wenn A1 <= A2 ist oder wenn sehr dicke Schichten mit einer vorgegebenen Schichtdicke D, insbesondere von mehr als 10000 nm vorliegen; – Berechnen der Grenzen für das Constant-Mesh-Verfahrens mit einem Autoranger für alle zu fittenden Schichtdicken, für die noch kein FFT-Verfahren gemacht wurde; – Durchführen ausgehend vom Nominalwert und Ausführen des Constant-Mesh-Verfahrens (38); – Durchführen des Gradientenverfahrens für alle zu fittenden Schichten, für die das Constant-Mesh-Verfahren durchgeführt wurde (40); – Durchführen des Gradientenverfahren für alle Dispersionsparameter (42); und – Starte das Gradientenverfahren für alle zu fittenden Schichten, für die das Constant-Mesh-Verfahren gemacht wurde, und für alle Dispersionsparameter (44).
Verfahren nach Anspruch 1 dadurch gekennzeichnet, dass für den Fall dass die Anzahl von Peaks des Mess-FFT-Spektrums (A2) kleiner als die Anzahl (A4) der sehr dicken Schichten mit einer optischen Dicke größer D, insbesondere 10000 nm ist, mit einem Fehler abgebrochen wird.
Verfahren nach Anspruch 1 oder 2 dadurch gekennzeichnet, dass geprüft wird ob ein Sonderfall vorliegt, bei dem ein Einschichtsystem vorliegt, dessen Schichtdicke gefittet werden soll, so wird die Anzahl optischen Schichtdicken des Modellspektrums (A1) auf 1 gesetzt und geprüft, ob wirklich eine dicke Schicht vorliegt.
Verfahren nach Anspruch 3 dadurch gekennzeichnet, dass bei Vorliegen des Sonderfalls nach Peaks einschließlich der Rauschpeaks am Anfang des FFT-Spektrums gesucht wird, wobei die Peaks mindestens die Hälfte der Höhe des größten gefundenen Peaks besitzen.
Verfahren nach Anspruch 4 dadurch gekennzeichnet, dass festgestellt wird, dass im Sonderfall eine dünne Schicht vorliegt, wenn die Anzahl der Peaks, die mindestens die Hälfte der Höhe des größten gefundenen Peaks besitzen mehr als 10 beträgt und dann kein FFT-Verfahren durchgeführt wird.
Verfahren nach einem der Ansprüche 1–4 dadurch gekennzeichnet, dass für den Fall, dass das FFT-Verfahren nur für sehr dicke Schichten mit einer Schichtdicke (D) insbesondere mehr als 10000 nm durchzuführen war, das Verfahren zur automatischen Auswahl einer Methode zur Bestimmung von Parametern einer Schicht beendet wird.
Verfahren nach einem der Ansprüche 1–5 dadurch gekennzeichnet, dass für den Fall; dass das Verfahren für weitere Schichten durchgeführt werden soll, das Ergebnismodell aus dem FFT-Verfahren als Startmodell für die folgenden Schritte gewählt wird.