DE19942171A1

DE19942171A1 - Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung

Info

Publication number: DE19942171A1
Application number: DE1999142171
Authority: DE
Inventors: Martin Holzapfel; Horst-Udo Hain
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1999-09-03
Filing date: 1999-09-03
Publication date: 2001-03-15
Also published as: WO2001018788A3; WO2001018788A2

Abstract

Ein in Token unterteilter Text wird erfindungsgemäß derart bearbeitet, daß zunächst die einzelnen Token in vorbestimmte linguistische Kategorien eingeteilt werden, wobei ambige Token in einem separaten Verfahrensschritt disambiguiert werden und die endgültige Beurteilung der Satzenden auf Grundlage der linguistischen Kategorien erfolgt.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Satzen debestimmung in der automatischen Sprachverarbeitung.

Die beiden hauptsächlichen Anwendungsgebiete der automati schen Sprachverarbeitung sind die automatische Spracherken nung und die automatische Sprachsynthese. Verfahren zum Syn thetisieren von Sprache sind beispielsweise aus der EP 793 218 A2, EP 821 344 A2 oder der WO 96/42079 bekannt.

Bei diesen bekannten Verfahren wird ein in Form einer Textda tei vorliegender Text in eine Audiodatei gewandelt, die mit tels einer akustischen Ausgabeeinheit als Sprache ausgegeben wird. Bei der Umsetzung der Textdatei in eine Audiodatei wird versucht die menschliche Sprache möglichst exakt nachzubil den. Die zwei wesentlichen Kriterien hierfür sind die Ver ständlichkeit der Sprache an sich und die Prosodie der er zeugten Sprache. Die Prosodie wird im wesentlichen durch die Grundfrequenz (Stimmlage), Lautenergie (Lautstärke) und Laut dauer (Dehnung und Pausen) bestimmt.

Ein komplexes Problem bei der Erzeugung der richtigen Proso die ist die Erkennung der Satzenden in einem beliebigen Text. Hierzu müssen die in der jeweiligen Sprache geltenden Satz endezeichen richtig interpretiert werden. Dieses Problem wur de bisher durch regelbasierte Routinen gelöst, die in ein entsprechendes Programm zur Erzeugung von Sprache implemen tiert werden. Zum Aufstellen einer derartigen regelbasierten Routine ist ein Sprachexperte nötig, der für die jeweilige Sprache einen Regelsatz aufstellt. Die Erstellung des Regel satzes bedeutet einen erheblichen Aufwand, der für jede Spra che, für die das Verfahren angewandt werden soll, wiederholt werden muß.

Der Erfindung liegt die Aufgabe zugrunde Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung zu schaffen, das einfacher als die bekannten Verfahren auf unterschiedliche Sprachen adaptiert werden kann und dennoch Satzenden mit geringster Fehlerrate korrekt erkennt.

Die Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst. Vorteilhafte Ausgestaltungen der Erfin dung sind in den Unteransprüchen angegeben.

Das erfindungsgemäße Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung umfaßt folgende Schritte:

- Einteilen des Textes in Token,
- Untersuchen der Token, ob sie ein Satzende darstellen kön nen,
- Markieren aller Token, die ein potentielles Satzende dar stellen können, mit einem Flag,
- Kategorisieren der einzelnen Token in vorbestimmte lingui stische Kategorien, wobei in der Regel nicht allen Token eindeutig eine linguistische Kategorie zugeordnet werden kann,
- Disambiguieren der Token, welchen nicht eindeutig eine Ka tegorie zugeordnet werden kann, und
- Beurteilen der mit einem Flag versehenen Token auf Grundla ge der ihnen zugeordneten Kategorie, ob sie ein Satzende darstellen oder nicht.

Das Beurteilen der mit einem Flag versehenen Token kann mit einer datengetriebenen Routine durchgeführt werden, das heißt, einem lernenden Programmteil, der sich im wesentlichen selbständig an eine Sprache anpassen kann. Beispiele für da tengetriebene Routinen sind Routinen, die selbständig Stati stiken erstellen und diese bei einer Entscheidung entspre chend auswerten, oder auch neuronale Netze.

Auch das Disambiguieren der Token kann mittels datengetriebe ner Routinen realisiert werden.

Das erfindungsgemäße Verfahren eignet sich besonders für da tengetriebene Routinen, da das Beurteilen der mit einem Flag versehenen Token nach dem Disambiguieren der Token auf Grund lage der ihnen zugeordneten Kategorie durchgeführt wird, so daß die ermittelten linguistischen Kategorien der einzelnen Token fast vollständig korrekt sind und dementsprechend exakt die Beurteilung der Token erfolgen kann.

Nach einer besonders bevorzugten Ausführungsform sind die beiden Verfahrensschritte des Disambiguierens und des Beur teilens der mit einem Flag versehenen Token als neuronale Netze ausgebildet, die jeweils auf den gleichen Kontext, z. B. drei Token vor und drei Token nach dem zu untersuchenden To ken zugreifen.

Die Erfindung wird nachfolgend anhand der Zeichnung beispiel haft näher erläutert in denen schematisch zeigen:

Fig. 1 ein Beispiel des erfindungsgemäßen Verfahrens in ei nem Flußdiagramm,

Fig. 2 ein Computersystem zum Ausführen des erfindungsgemä ßen Verfahrens in einem Blockschaltbild,

Fig. 3 einen Aufbau eines neuronalen Netzes zum Disambiguie ren, und

Fig. 4 den Aufbau eines neuronalen Netzes zur Beurteilung von Satzenden.

Die Erfindung wird anhand eines Ausführungsbeispieles für die deutsche Sprache näher erläutert. Sie ist jedoch nicht auf die deutsche Sprache beschränkt, sondern das erfindungsgemäße Verfahren kann für beliebige Sprachen angewandt werden.

Fig. 1 zeigt in einem Flußdiagramm die wesentlichen Verfah rensschritte des erfindungsgemäßen Verfahrens bei der Umset zung einer Textdatei in eine Audiodatei. Zunächst wird in ei nem ersten Schritt S1 eine Textdatei in Token eingeteilt. Im Sinne der Erfindung sind Token alle Textelemente, die sich zwischen zwei Tokenseparatoren befinden. Im vorliegenden Aus führungsbeispiel umfassen die Tokenseparatoren Leerzeichen, Tabulatoren und Zeilenendezeichen. Ein Token beginnt mit ei nem Zeichen, das kein Separator ist, und endet mit dem Zei chen, nach dem ein Separator kommt. Diese Separatoren können für jede Sprache in einer gesonderten Datei abgelegt werden. Dies stellt einen der wenigen Verfahrensabschnitte dar, die beim erfindungsgemäßen Ausführungsbeispiel vorab sprachspezi fisch mit entsprechendem Expertenwissen erstellt werden müs sen. Die Tokenseparatoren sind jedoch in der Regel für die meisten Sprachen bekannt und lassen sich aufgrund ihrer ge ringen Zahl einfach ermitteln.

Im nachfolgenden Schritt S2 werden die Token, die ein Satzen de darstellen können, mit einem entsprechenden Flag markiert. Flags im Sinne der Erfindung sind alle beliebigen Datenzuord nungen, mit welchen einzelne Token nach einer entsprechenden Zuordnung einfach und schnell als mögliches Satzende identi fiziert werden können. Dieses Flag wird als PEOS (possible end of sentence) bezeichnet. Als Token, die ein Satzende dar stellen können, werden alle Token beurteilt, die ein Zeichen aufweisen, das möglicherweise als Satzende verstanden werden kann. Bei Satzendezeichen unterscheidet man zwischen Zeichen, die immer ein Satzende markieren, wie z. B. das Fragezeichen oder das Ausrufezeichen, und solchen Zeichen, die auch eine andere Verwendung haben können, wie z. B. der Punkt, der auch in Abkürzungen, Akronymen und Zahlen vorkommen kann. Ein Son derfall für die Prosodiebestimmung ist der Doppelpunkt, da er zwar nie am grammatischen Satzende steht, jedoch für die Pro sodie, insbesondere für ein Sprechpause, in der Regel die gleiche Bedeutung wie der Punkt am Satzende hat. Der Doppel punkt gilt deshalb beim erfindungsgemäßen Ausführungsbeispiel auch als Satzendezeichen, obwohl dies grammatikalisch nicht korrekt ist.

Für die Behandlung dieser Satzendezeichen gibt es im Deut schen drei Möglichkeiten:

- Das Satzendezeichen steht am Tokenende und ein klein ge schriebenes Token folgt. In diesem Fall handelt es sich nicht um ein Satzende.
- Das Satzendezeichen steht im Token, das heißt, es folgt kein Tokenseparator. Dieser Fall tritt z. B. in Zahlenanga ben auf (1.5, 13 : 20). Dabei markiert das Satzendezeichen in keinem Fall ein Satzende.
- Das Satzendezeichen steht am Tokenende und das nächste To ken beginnt nicht mit einem kleinen Buchstaben. Dieses To ken, der am Ende das Satzendezeichen aufweist, stellt ein mögliches Satzende dar und wird mit dem Flag PEOS markiert (PEOS: possible end of sentence).

Diese oben aufgeführten Regeln aus der deutschen Sprache gel ten für viele weitere Sprachen, insbesondere den mitteleuro päischen Sprachen, so daß bei einer Anwendung des erfindungs gemäßen Ausführungsbeispiels für eine andere Sprache keine Anpassungen nötig sind. Soll das erfindungsgemäße Ausfüh rungsbeispiel jedoch für Sprachen angewandt werden, in denen es z. B. keine Großbuchstaben gibt, wie z. B. im Arabischen, muß der Verfahrensschritt des Markierens der möglichen Satzendetoken entsprechend angepaßt werden.

Im folgenden Schritt S3 werden den einzelnen Token linguisti sche Kategorien zugeordnet. Die linguistischen Kategorien um fassen Wortklassen und sonstige Zeichen, die in einem Text enthalten sein können. In der unten angegebenen Tabelle sind die im vorliegenden Ausführungsbeispiel verwendeten lingui stischen Kategorien aufgeführt:

Tabelle der Kategorien

Kategorie
Beschreibung
NUM	Numerale
VERB	Verben
VPART	Verbpartikel
PRON	Pronomen
PREP	Präpositionen
NOMEN	Nomen, Eigennamen
PART	Partikel
DET	Artikel
CONJ	Konjunktionen
ADV	Adverben
ADJ	Adjektive
PDET	PREP+DET
INTJ	Interjektionen
PUNCT	Satzzeichen

Die oben angegebene Aufteilung der linguistischen Kategorien ist lediglich ein Beispiel. Es können auch andere Aufteilun gen von linguistischen Kategorien verwendet werden. So werden beispielsweise bei der Spracherkennung bis zu 40 linguisti sche Kategorien verwendet. Bei der vorliegenden Erfindung ist jedoch eine Aufteilung mit weniger Kategorien vorteilhaft, da sich hierbei die unten näher erläuterten neuronalen Netzwerke einfacher realisieren und schneller trainieren lassen.

Beim Kategorisieren der Token werden aus einem Lexikon die zu den jeweiligen Token gehörenden linguistischen Kategorien ausgelesen. Hierbei ist es möglich, daß einem einzelnen Token auch mehrere linguistische Kategorien zugeordnet werden.

In der Regel sind jedoch nicht alle Token eines Textes im Le xikon vorhanden, so daß mit Hilfe des Lexikons nicht für alle Token die entsprechende Kategorie bzw. die entsprechenden Ka tegorien bestimmt werden können. Die linguistische Kategorie der Token, welchen nicht eindeutig eine Kategorie zugeordnet werden kann, wird mit einer sogenannten OOV-Routine (out of vocabulary) bestimmt. Diese OOV-Routine ist im vorliegenden Ausführungsbeispiel als neuronales Netzwerk ausgebildet, das anhand der letzten vier Buchstaben des jeweiligen Tokens auf dessen Kategorie schließt. Diese OOV-Routine kann jedoch auch auf einer anderen datengetriebenen Methode beruhen.

Das neuronale Netzwerk der OOV-Routine kann auch die letzen drei oder fünf Zeichen des Tokens auswerten, um auf dessen Kategorie zu schließen. Bei einer anderen Sprache kann es zweckmäßig sein, nicht anhand der Endung, sondern anhand ei nes anderen Abschnittes des Tokens die Kategorie zu bestim men.

Sowohl bei der Kategorisierung anhand des Lexikons als auch bei der Kategorisierung anhand der OOV-Routine kann das lin guistische Kriterium ambig sein, das heißt, daß dem Token mehrere linguistische Kategorien zugeordnet sind.

Die Lexika für die einzelnen Sprachen sind wiederum sprach spezifisch, so daß das Lexikon bei der Übertragung des erfin dungsgemäßen Verfahrens auf eine andere Sprache entsprechend ausgetauscht werden muß. Derartige Lexika sind jedoch für die meisten Sprachen bekannt, weshalb der Austausch der Lexika kein ernsthaftes Problem bei der Übertragung des erfindungs gemäßen Verfahrens auf eine andere Sprache darstellt.

Die Token können weiteren Bearbeitungsvorgängen unterzogen werden, die in dem in Fig. 1 gezeigten Flußdiagramm im Schritt S4 zusammengefaßt dargestellt sind. Mit derartigen Bearbeitungsvorgängen können im Text enthaltene Abkürzungen, Akronyme und Formeln ausgewertet werden. Hierbei kann sich ergeben, daß ein mit einem Flag als potentielles Satzende markiertes Token kein Satzende sein kann. In einem solchen Fall wird während dieser Bearbeitungsvorgänge das entspre chende Flag gelöscht. Weitere derartige Arbeitsvorgänge kön nen z. B. das Normalisieren (normalizing) bzw. Ausdehnen (ex panding) der Token sein. Beim Normalisieren eines Tokens wer den Token kategorisiert, die Zeichen unterschiedlicher Kate gorien enthalten, wie z. B. "54jährig". Beim Ausdehnen von To ken werden mehrere Token, wie z. B. "New" und "York" zu einem einzigen Token "New York" zusammengefaßt. Auch bei diesen Verarbeitungsvorgängen kann sich ergeben, daß ein im Schritt S2 gesetztes Flag gelöscht werden kann, was dann entsprechend ausgeführt wird.

Im nachfolgenden Schritt S5 werden die ambigen Token, das heißt die Token, denen mehrere linguistische Kategorien zuge ordnet sind, disambiguiert. Dies wird beim erfindungsgemäßen Ausführungsbeispiel durch ein neuronales Netz ausgeführt, das auf einer standard-feed-forward-Architektur mit einem hidden Layer beruht. Dieses neuronale Netz ist schematisch grob ver einfacht in Fig. 3 dargestellt. Auf der Eingangsseite weist es Knoten für das zu disambiguierende Wort und den entspre chenden Vorgängern bzw. Nachfolgern auf. Im Ausführungsbei spiel werden drei dem zu disambiguierenden Token vorhergehen de Token und drei dem zu disambiguierenden Token nachfolgende Token berücksichtigt. Dies bedeutet, daß für die drei Token der Vorgänger jeweils 14 Knoten für die einzelnen Kategorien vorgesehen sind. Für das zu disambiguierende Token sind 13 Knoten vorgesehen, da hier die Kategorie der Satzzeichen nicht berücksichtigt werden muß. Für den Nachfolger sind ge nauso wie für die Vorgänger 3 × 14 (42) Knoten vorzusehen. Jeder dieser Knoten stellt somit eine linguistische Kategorie für ein bestimmtes Token dar. An die Knoten wird das Ein gangssignal +1 angelegt, wenn die jeweilige Kategorie dem je weiligen Token zugeordnet ist bzw. -1 angelegt, wenn dem je weiligen Token diese Kategorie nicht zugeordnet ist. Wenn bei den Vorgängern bzw. Nachfolgern kein Token vorhanden ist, was am Anfang und am Ende des Textes der Fall ist, wird den je weiligen Knoten der Wert 0 zugeordnet. Auf der Ausgangsseite des Netzwerkes sind 13 Knoten für die jeweiligen Kategorien des zu disambiguierenden Wortes vorgesehen. Zwischen den Aus gangsknoten und den Eingangsknoten befindet sich eine ver deckte Schicht (hidden Layer).

Mit diesem neuronalen Netzwerk wird den ambigen Token jeweils eine einzige Kategorie zugeordnet, wodurch deren Mehrdeutig keit aufgehoben wird. Mit dem Schritt der Disambiguierung wird somit eindeutig eine Zuordnung der linguistischen Kate gorien zu den Token geschaffen.

Im nächsten Schritt S6 werden die mit dem Flag PEOS versehe nen Token untersucht und es wird beurteilt, ob sie ein Satzende oder kein Satzende darstellen. Dies wird im vorlie genden Ausführungsbeispiel durch ein weiteres neuronales Netzwerk (Fig. 4) ausgeführt. Das neuronale Netzwerk weist auf der Eingangsseite wiederum 13 Knoten für das zu beurtei lende Token und jeweils 42 Knoten für die Vorgänger (3 Token) und 42 Knoten für den Nachfolger (3 Token) auf. Darüber ist eine versteckte Schicht angeordnet und ausgangsseitig gibt es lediglich einen einzigen Knoten, der das binäre Ergebnis, das Token ist ein Satzende oder ist kein Satzende, darstellt. Diese Struktur des neuronalen Netzes zeigt, daß bei der Beur teilung das mit dem Flag versehenen Token die linguistische Kategorie des zu beurteilenden Tokens und die linguistische Kategorie der Vorgänger und Nachfolger mit berücksichtigt werden.

Nach der Beurteilung der Token, die ein Satzende darstellen können, sind die durch die linguistische Kategorisierung und den Satzenden auf die Prosodie ausgeübten Einflüsse abschlie ßend festgelegt. Auf Grundlage dieser Daten kann somit eine Audiodatei erzeugt werden (Schritt S7), wobei hier noch wei tere Parameter zur Festlegung der Prosodie zu berücksichtigen sind, die jedoch nicht Gegenstand der vorliegenden Erfindung sind.

Die neuronalen Netze oder sonstigen datengetriebenen Routinen des erfindungsgemäßen Verfahrens werden zunächst in einer Trainingsphase anhand eines Textes trainiert. Die linguisti schen Kategorien der Token und die Enden der einzelnen Sätze dieses Trainingstextes sind bekannt und werden während des Trainings den zu trainierenden Routinen eingegeben. Das er findungsgemäße Verfahren lernt somit selbsttätig die Gesetze einer Sprache, wobei lediglich bekanntes und einfach verfüg bares Wissen (Einteilung der Token, Vergabe von Flags für Satzenden, Lexikon) als Expertenwissen hinzugefügt werden muß. Die in der Praxis schwierig zu erstellenden Gesetze der Sprache lernt das erfindungsgemäße Verfahren beim Training. Das erfindungsgemäße Verfahren läßt sich somit schnell und einfach auf eine andere Sprache übertragen.

Mit dem oben beschriebenen Ausführungsbeispiel des erfin dungsgemäßen Verfahrens sind für die deutsche Sprache gute Ergebnisse erzielt worden. So konnten bei umfangreichen Tex ten Fehlerraten beim Kategorisieren von weniger als 2% er zielt werden. Entsprechend zuverlässig ist auch die Erkennung der Satzenden gewesen, wodurch eine sehr natürliche Sprach ausgabe der Texte erzielt worden ist.

Das erfindungsgemäße Verfahren wird als Computerprogramm auf einem Computersystem realisiert, wie es schematisch verein facht in Fig. 2 dargestellt ist. Das Computerprogramm kann auch auf einen elektronisch lesbaren Datenträger gespeichert werden und so auf ein anderes Computersystem übertragen wer den. Das Computersystem 1 weist einen internen Bus 2 auf, der mit einem Speicherbereich 3, einer zentralen Prozessoreinheit 4 und einem Interface 5 verbunden ist. Das Interface 5 stellt über eine Datenleitung 6 eine Datenverbindung zu weiteren Computersystemen her. An dem internen Bus sind ferner eine akustische Ausgabeeinheit 7, eine grafische Ausgabeeinheit 8 und eine Eingabeeinheit 9 angeschlossen. Die akustische Aus gabeeinheit 7 ist mit einem Lautsprecher 10, die grafische Ausgabeeinheit 8 mit einem Bildschirm 11 und die Eingabeein heit 9 mit einer Tastatur 12 verbunden. An das Computersystem 1 können über die Datenleitung 6 und das Interface 5 Texte übertragen werden, die im Speicher 3 abgespeichert werden. Der Speicherbereich 3 ist in mehrere Bereiche unterteilt, in denen Texte, Audiodateien, Anwendungsprogramme zum Durchfüh ren des erfindungsgemäßen Verfahrens und weitere Anwendungs- und Hilfsprogramme gespeichert sind. Die als Textdatei abge speicherten Texte werden durch die Anwendungsprogramme zum Ausführen des erfindungsgemäßen Verfahrens in Audiodateien gewandelt, die über den internen Bus 2 zur akustischen Ausga beeinheit 7 übertragen und von dieser am Lautsprecher 10 als Sprache ausgegeben werden.

Die Erfindung ist oben anhand eines Ausführungsbeispiels für die deutsche Sprache näher erläutert. Die Erfindung ist je doch nicht auf die Anwendung der deutschen Sprache be schränkt, sondern ist im Vergleich zu bekannten Verfahren sehr leicht auf andere Sprachen übertragbar. Ein wesentlicher Vorteil des erfindungsgemäßen Verfahrens gegenüber bekannten Verfahren liegt darin, daß hiermit auch eine Satzendeerken nung in Sprachen möglich ist, für die ein Expertenwissen zu den Sprachregeln zum Bestimmen der Kategorie der Token als auch der Satzenden noch nicht bekannt ist. Das erfindungsge mäße Verfahren läßt sich somit auch einfach bei nicht sehr populären und deshalb nur gering erforschten Sprachen einset zen.

Ferner ist es möglich, daß die beiden neuronalen Netzwerke des oben beschriebenen Ausführungsbeispiels zum Disambiguie ren und zum Beurteilen der Satzenden als ein einziges neuro nales Netzwerk ausgebildet werden. Es ist auch möglich, an stelle neuronaler Netzwerke ein beliebiges anderes statisti sches, datengetriebenes Verfahren zu verwenden.

Claims

1. Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung mit folgenden Schritten:
Einteilen des Textes in Token,
Untersuchen der Token, ob sie ein Satzende darstellen können,
Markieren aller Token, die ein potentielles Satzende dar stellen können, mit einem Flag (PEOS),
Kategorisieren der einzelnen Token in vorbestimmte lin guistische Kategorien, wobei in der Regel nicht allen Token eindeutig eine linguistische Kategorie zugeordnet werden kann,
Disambiguieren der Token, welchen nicht eindeutig eine Kategorie zugeordnet werden kann,
Beurteilen der mit einem Flag versehenen Token auf Grund lage der Ihnen zugeordneten linguistischen Kategorie, ob sie ein Satzende darstellen.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Beurteilung der mit einem Flag versehenen Token auch auf Grundlage des dem zu beurteilendem Token vorherge henden und/oder nachfolgenden Kontextes erfolgt.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Kontext für die Beurteilung eines mit einem Flag versehenen Tokens jeweils ein einziges Token umfaßt.

4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Kontext für die Beurteilung eines mit einem Flag versehenen Tokens mehrere und vorzugsweise genau drei Token umfaßt.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß das Beurteilen der mit einem Flag versehenen Token mit Hilfe eines neuronalen Netzwerkes ausgeführt wird.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß das Disambiguieren auf Grundlage des vorhergehenden und/oder nachfolgenden Kontextes des zu disambiguierenden To kens erfolgt.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der beim Disambiguieren berücksichtigte Kontext genau ein einziges Token umfaßt.

8. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der beim Disambiguieren berücksichtigte Kontext meh rere Token und vorzugsweise genau drei Token umfaßt.

9. Verfahren nach einem der Ansprüche 6 bis 7, dadurch gekennzeichnet, daß das Disambiguieren und das Beurteilen der mit einem Flag versehenen Token auf Grundlage gleich großer Kontexte erfolgt.

10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß beim Kategorisieren der einzelnen Token die einem To ken zugeordneten Kategorien aus einem Lexikon ausgelesen wer den und alle Token, die nicht im Lexikon enthalten sind mit tels einer OOV-Routine kategorisiert werden.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die OOV-Routine eine datengetriebene Routine ist, die anhand der Othographie eines Tokens dessen Kategorie beur teilt, wobei vorzugsweise ein Abschnitt des Tokens mit 3 bis 5 Zeichen ausgewertet wird.

12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, daß nach dem Kategorisieren der einzelnen Token und vor dem Beurteilen der mit einem Flag versehenen Token ein oder mehrere Tokenbehandlungsvorgänge, z. B. zum Ermitteln von Ab kürzungen, Akronymen oder Formeln oder zum Normalisieren bzw. Ausdehnen der Token, ausgeführt werden, wobei bei den einzel nen Tokenbehandlungsvorgängen gesetzte Flags gelöscht werden, wenn sich aus dem Tokenbehandlungsvorgang ergibt, daß das je weilige Token kein Satzende bilden kann.

13. Vorrichtung zum Synthetisieren von Sprache aus einem elektronisch verarbeitbaren Text, gekennzeichnet durch ein Computersystem (1) mit einer zentralen Prozessorein heit (4), einem Arbeitsspeicher (3) und einer akustischen Ausgabeeinheit (7) und einem im Arbeitsspeicher (3) gespei cherten Programm zum Ausführen des Verfahrens nach einem der Ansprüche 1 bis 12, wobei auf Grundlage der dementsprechend ermittelten Satzenden eine Prosodie erzeugt wird, und der elektronisch verarbeitbare Text als Textdatei vorliegt, die gemäß der erfindungsgemäß ermittelten Prosodie in eine Audio datei gewandelt wird, und die Audiodatei an der akustischen Ausgabeeinheit (7) in Sprache gewandelt wird.