DE19942171A1 - Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung - Google Patents

Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung

Info

Publication number
DE19942171A1
DE19942171A1 DE1999142171 DE19942171A DE19942171A1 DE 19942171 A1 DE19942171 A1 DE 19942171A1 DE 1999142171 DE1999142171 DE 1999142171 DE 19942171 A DE19942171 A DE 19942171A DE 19942171 A1 DE19942171 A1 DE 19942171A1
Authority
DE
Germany
Prior art keywords
token
tokens
sentence
category
judging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE1999142171
Other languages
English (en)
Inventor
Martin Holzapfel
Horst-Udo Hain
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE1999142171 priority Critical patent/DE19942171A1/de
Priority to PCT/DE2000/002979 priority patent/WO2001018788A2/de
Publication of DE19942171A1 publication Critical patent/DE19942171A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Ein in Token unterteilter Text wird erfindungsgemäß derart bearbeitet, daß zunächst die einzelnen Token in vorbestimmte linguistische Kategorien eingeteilt werden, wobei ambige Token in einem separaten Verfahrensschritt disambiguiert werden und die endgültige Beurteilung der Satzenden auf Grundlage der linguistischen Kategorien erfolgt.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Satzen­ debestimmung in der automatischen Sprachverarbeitung.
Die beiden hauptsächlichen Anwendungsgebiete der automati­ schen Sprachverarbeitung sind die automatische Spracherken­ nung und die automatische Sprachsynthese. Verfahren zum Syn­ thetisieren von Sprache sind beispielsweise aus der EP 793 218 A2, EP 821 344 A2 oder der WO 96/42079 bekannt.
Bei diesen bekannten Verfahren wird ein in Form einer Textda­ tei vorliegender Text in eine Audiodatei gewandelt, die mit­ tels einer akustischen Ausgabeeinheit als Sprache ausgegeben wird. Bei der Umsetzung der Textdatei in eine Audiodatei wird versucht die menschliche Sprache möglichst exakt nachzubil­ den. Die zwei wesentlichen Kriterien hierfür sind die Ver­ ständlichkeit der Sprache an sich und die Prosodie der er­ zeugten Sprache. Die Prosodie wird im wesentlichen durch die Grundfrequenz (Stimmlage), Lautenergie (Lautstärke) und Laut­ dauer (Dehnung und Pausen) bestimmt.
Ein komplexes Problem bei der Erzeugung der richtigen Proso­ die ist die Erkennung der Satzenden in einem beliebigen Text. Hierzu müssen die in der jeweiligen Sprache geltenden Satz­ endezeichen richtig interpretiert werden. Dieses Problem wur­ de bisher durch regelbasierte Routinen gelöst, die in ein entsprechendes Programm zur Erzeugung von Sprache implemen­ tiert werden. Zum Aufstellen einer derartigen regelbasierten Routine ist ein Sprachexperte nötig, der für die jeweilige Sprache einen Regelsatz aufstellt. Die Erstellung des Regel­ satzes bedeutet einen erheblichen Aufwand, der für jede Spra­ che, für die das Verfahren angewandt werden soll, wiederholt werden muß.
Der Erfindung liegt die Aufgabe zugrunde Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung zu schaffen, das einfacher als die bekannten Verfahren auf unterschiedliche Sprachen adaptiert werden kann und dennoch Satzenden mit geringster Fehlerrate korrekt erkennt.
Die Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst. Vorteilhafte Ausgestaltungen der Erfin­ dung sind in den Unteransprüchen angegeben.
Das erfindungsgemäße Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung umfaßt folgende Schritte:
  • - Einteilen des Textes in Token,
  • - Untersuchen der Token, ob sie ein Satzende darstellen kön­ nen,
  • - Markieren aller Token, die ein potentielles Satzende dar­ stellen können, mit einem Flag,
  • - Kategorisieren der einzelnen Token in vorbestimmte lingui­ stische Kategorien, wobei in der Regel nicht allen Token eindeutig eine linguistische Kategorie zugeordnet werden kann,
  • - Disambiguieren der Token, welchen nicht eindeutig eine Ka­ tegorie zugeordnet werden kann, und
  • - Beurteilen der mit einem Flag versehenen Token auf Grundla­ ge der ihnen zugeordneten Kategorie, ob sie ein Satzende darstellen oder nicht.
Das Beurteilen der mit einem Flag versehenen Token kann mit einer datengetriebenen Routine durchgeführt werden, das heißt, einem lernenden Programmteil, der sich im wesentlichen selbständig an eine Sprache anpassen kann. Beispiele für da­ tengetriebene Routinen sind Routinen, die selbständig Stati­ stiken erstellen und diese bei einer Entscheidung entspre­ chend auswerten, oder auch neuronale Netze.
Auch das Disambiguieren der Token kann mittels datengetriebe­ ner Routinen realisiert werden.
Das erfindungsgemäße Verfahren eignet sich besonders für da­ tengetriebene Routinen, da das Beurteilen der mit einem Flag versehenen Token nach dem Disambiguieren der Token auf Grund­ lage der ihnen zugeordneten Kategorie durchgeführt wird, so daß die ermittelten linguistischen Kategorien der einzelnen Token fast vollständig korrekt sind und dementsprechend exakt die Beurteilung der Token erfolgen kann.
Nach einer besonders bevorzugten Ausführungsform sind die beiden Verfahrensschritte des Disambiguierens und des Beur­ teilens der mit einem Flag versehenen Token als neuronale Netze ausgebildet, die jeweils auf den gleichen Kontext, z. B. drei Token vor und drei Token nach dem zu untersuchenden To­ ken zugreifen.
Die Erfindung wird nachfolgend anhand der Zeichnung beispiel­ haft näher erläutert in denen schematisch zeigen:
Fig. 1 ein Beispiel des erfindungsgemäßen Verfahrens in ei­ nem Flußdiagramm,
Fig. 2 ein Computersystem zum Ausführen des erfindungsgemä­ ßen Verfahrens in einem Blockschaltbild,
Fig. 3 einen Aufbau eines neuronalen Netzes zum Disambiguie­ ren, und
Fig. 4 den Aufbau eines neuronalen Netzes zur Beurteilung von Satzenden.
Die Erfindung wird anhand eines Ausführungsbeispieles für die deutsche Sprache näher erläutert. Sie ist jedoch nicht auf die deutsche Sprache beschränkt, sondern das erfindungsgemäße Verfahren kann für beliebige Sprachen angewandt werden.
Fig. 1 zeigt in einem Flußdiagramm die wesentlichen Verfah­ rensschritte des erfindungsgemäßen Verfahrens bei der Umset­ zung einer Textdatei in eine Audiodatei. Zunächst wird in ei­ nem ersten Schritt S1 eine Textdatei in Token eingeteilt. Im Sinne der Erfindung sind Token alle Textelemente, die sich zwischen zwei Tokenseparatoren befinden. Im vorliegenden Aus­ führungsbeispiel umfassen die Tokenseparatoren Leerzeichen, Tabulatoren und Zeilenendezeichen. Ein Token beginnt mit ei­ nem Zeichen, das kein Separator ist, und endet mit dem Zei­ chen, nach dem ein Separator kommt. Diese Separatoren können für jede Sprache in einer gesonderten Datei abgelegt werden. Dies stellt einen der wenigen Verfahrensabschnitte dar, die beim erfindungsgemäßen Ausführungsbeispiel vorab sprachspezi­ fisch mit entsprechendem Expertenwissen erstellt werden müs­ sen. Die Tokenseparatoren sind jedoch in der Regel für die meisten Sprachen bekannt und lassen sich aufgrund ihrer ge­ ringen Zahl einfach ermitteln.
Im nachfolgenden Schritt S2 werden die Token, die ein Satzen­ de darstellen können, mit einem entsprechenden Flag markiert. Flags im Sinne der Erfindung sind alle beliebigen Datenzuord­ nungen, mit welchen einzelne Token nach einer entsprechenden Zuordnung einfach und schnell als mögliches Satzende identi­ fiziert werden können. Dieses Flag wird als PEOS (possible end of sentence) bezeichnet. Als Token, die ein Satzende dar­ stellen können, werden alle Token beurteilt, die ein Zeichen aufweisen, das möglicherweise als Satzende verstanden werden kann. Bei Satzendezeichen unterscheidet man zwischen Zeichen, die immer ein Satzende markieren, wie z. B. das Fragezeichen oder das Ausrufezeichen, und solchen Zeichen, die auch eine andere Verwendung haben können, wie z. B. der Punkt, der auch in Abkürzungen, Akronymen und Zahlen vorkommen kann. Ein Son­ derfall für die Prosodiebestimmung ist der Doppelpunkt, da er zwar nie am grammatischen Satzende steht, jedoch für die Pro­ sodie, insbesondere für ein Sprechpause, in der Regel die gleiche Bedeutung wie der Punkt am Satzende hat. Der Doppel­ punkt gilt deshalb beim erfindungsgemäßen Ausführungsbeispiel auch als Satzendezeichen, obwohl dies grammatikalisch nicht korrekt ist.
Für die Behandlung dieser Satzendezeichen gibt es im Deut­ schen drei Möglichkeiten:
  • - Das Satzendezeichen steht am Tokenende und ein klein ge­ schriebenes Token folgt. In diesem Fall handelt es sich nicht um ein Satzende.
  • - Das Satzendezeichen steht im Token, das heißt, es folgt kein Tokenseparator. Dieser Fall tritt z. B. in Zahlenanga­ ben auf (1.5, 13 : 20). Dabei markiert das Satzendezeichen in keinem Fall ein Satzende.
  • - Das Satzendezeichen steht am Tokenende und das nächste To­ ken beginnt nicht mit einem kleinen Buchstaben. Dieses To­ ken, der am Ende das Satzendezeichen aufweist, stellt ein mögliches Satzende dar und wird mit dem Flag PEOS markiert (PEOS: possible end of sentence).
Diese oben aufgeführten Regeln aus der deutschen Sprache gel­ ten für viele weitere Sprachen, insbesondere den mitteleuro­ päischen Sprachen, so daß bei einer Anwendung des erfindungs­ gemäßen Ausführungsbeispiels für eine andere Sprache keine Anpassungen nötig sind. Soll das erfindungsgemäße Ausfüh­ rungsbeispiel jedoch für Sprachen angewandt werden, in denen es z. B. keine Großbuchstaben gibt, wie z. B. im Arabischen, muß der Verfahrensschritt des Markierens der möglichen Satzendetoken entsprechend angepaßt werden.
Im folgenden Schritt S3 werden den einzelnen Token linguisti­ sche Kategorien zugeordnet. Die linguistischen Kategorien um­ fassen Wortklassen und sonstige Zeichen, die in einem Text enthalten sein können. In der unten angegebenen Tabelle sind die im vorliegenden Ausführungsbeispiel verwendeten lingui­ stischen Kategorien aufgeführt:
Tabelle der Kategorien
Kategorie
Beschreibung
NUM Numerale
VERB Verben
VPART Verbpartikel
PRON Pronomen
PREP Präpositionen
NOMEN Nomen, Eigennamen
PART Partikel
DET Artikel
CONJ Konjunktionen
ADV Adverben
ADJ Adjektive
PDET PREP+DET
INTJ Interjektionen
PUNCT Satzzeichen
Die oben angegebene Aufteilung der linguistischen Kategorien ist lediglich ein Beispiel. Es können auch andere Aufteilun­ gen von linguistischen Kategorien verwendet werden. So werden beispielsweise bei der Spracherkennung bis zu 40 linguisti­ sche Kategorien verwendet. Bei der vorliegenden Erfindung ist jedoch eine Aufteilung mit weniger Kategorien vorteilhaft, da sich hierbei die unten näher erläuterten neuronalen Netzwerke einfacher realisieren und schneller trainieren lassen.
Beim Kategorisieren der Token werden aus einem Lexikon die zu den jeweiligen Token gehörenden linguistischen Kategorien ausgelesen. Hierbei ist es möglich, daß einem einzelnen Token auch mehrere linguistische Kategorien zugeordnet werden.
In der Regel sind jedoch nicht alle Token eines Textes im Le­ xikon vorhanden, so daß mit Hilfe des Lexikons nicht für alle Token die entsprechende Kategorie bzw. die entsprechenden Ka­ tegorien bestimmt werden können. Die linguistische Kategorie der Token, welchen nicht eindeutig eine Kategorie zugeordnet werden kann, wird mit einer sogenannten OOV-Routine (out of vocabulary) bestimmt. Diese OOV-Routine ist im vorliegenden Ausführungsbeispiel als neuronales Netzwerk ausgebildet, das anhand der letzten vier Buchstaben des jeweiligen Tokens auf dessen Kategorie schließt. Diese OOV-Routine kann jedoch auch auf einer anderen datengetriebenen Methode beruhen.
Das neuronale Netzwerk der OOV-Routine kann auch die letzen drei oder fünf Zeichen des Tokens auswerten, um auf dessen Kategorie zu schließen. Bei einer anderen Sprache kann es zweckmäßig sein, nicht anhand der Endung, sondern anhand ei­ nes anderen Abschnittes des Tokens die Kategorie zu bestim­ men.
Sowohl bei der Kategorisierung anhand des Lexikons als auch bei der Kategorisierung anhand der OOV-Routine kann das lin­ guistische Kriterium ambig sein, das heißt, daß dem Token mehrere linguistische Kategorien zugeordnet sind.
Die Lexika für die einzelnen Sprachen sind wiederum sprach­ spezifisch, so daß das Lexikon bei der Übertragung des erfin­ dungsgemäßen Verfahrens auf eine andere Sprache entsprechend ausgetauscht werden muß. Derartige Lexika sind jedoch für die meisten Sprachen bekannt, weshalb der Austausch der Lexika kein ernsthaftes Problem bei der Übertragung des erfindungs­ gemäßen Verfahrens auf eine andere Sprache darstellt.
Die Token können weiteren Bearbeitungsvorgängen unterzogen werden, die in dem in Fig. 1 gezeigten Flußdiagramm im Schritt S4 zusammengefaßt dargestellt sind. Mit derartigen Bearbeitungsvorgängen können im Text enthaltene Abkürzungen, Akronyme und Formeln ausgewertet werden. Hierbei kann sich ergeben, daß ein mit einem Flag als potentielles Satzende markiertes Token kein Satzende sein kann. In einem solchen Fall wird während dieser Bearbeitungsvorgänge das entspre­ chende Flag gelöscht. Weitere derartige Arbeitsvorgänge kön­ nen z. B. das Normalisieren (normalizing) bzw. Ausdehnen (ex­ panding) der Token sein. Beim Normalisieren eines Tokens wer­ den Token kategorisiert, die Zeichen unterschiedlicher Kate­ gorien enthalten, wie z. B. "54jährig". Beim Ausdehnen von To­ ken werden mehrere Token, wie z. B. "New" und "York" zu einem einzigen Token "New York" zusammengefaßt. Auch bei diesen Verarbeitungsvorgängen kann sich ergeben, daß ein im Schritt S2 gesetztes Flag gelöscht werden kann, was dann entsprechend ausgeführt wird.
Im nachfolgenden Schritt S5 werden die ambigen Token, das heißt die Token, denen mehrere linguistische Kategorien zuge­ ordnet sind, disambiguiert. Dies wird beim erfindungsgemäßen Ausführungsbeispiel durch ein neuronales Netz ausgeführt, das auf einer standard-feed-forward-Architektur mit einem hidden Layer beruht. Dieses neuronale Netz ist schematisch grob ver­ einfacht in Fig. 3 dargestellt. Auf der Eingangsseite weist es Knoten für das zu disambiguierende Wort und den entspre­ chenden Vorgängern bzw. Nachfolgern auf. Im Ausführungsbei­ spiel werden drei dem zu disambiguierenden Token vorhergehen­ de Token und drei dem zu disambiguierenden Token nachfolgende Token berücksichtigt. Dies bedeutet, daß für die drei Token der Vorgänger jeweils 14 Knoten für die einzelnen Kategorien vorgesehen sind. Für das zu disambiguierende Token sind 13 Knoten vorgesehen, da hier die Kategorie der Satzzeichen nicht berücksichtigt werden muß. Für den Nachfolger sind ge­ nauso wie für die Vorgänger 3 × 14 (42) Knoten vorzusehen. Jeder dieser Knoten stellt somit eine linguistische Kategorie für ein bestimmtes Token dar. An die Knoten wird das Ein­ gangssignal +1 angelegt, wenn die jeweilige Kategorie dem je­ weiligen Token zugeordnet ist bzw. -1 angelegt, wenn dem je­ weiligen Token diese Kategorie nicht zugeordnet ist. Wenn bei den Vorgängern bzw. Nachfolgern kein Token vorhanden ist, was am Anfang und am Ende des Textes der Fall ist, wird den je­ weiligen Knoten der Wert 0 zugeordnet. Auf der Ausgangsseite des Netzwerkes sind 13 Knoten für die jeweiligen Kategorien des zu disambiguierenden Wortes vorgesehen. Zwischen den Aus­ gangsknoten und den Eingangsknoten befindet sich eine ver­ deckte Schicht (hidden Layer).
Mit diesem neuronalen Netzwerk wird den ambigen Token jeweils eine einzige Kategorie zugeordnet, wodurch deren Mehrdeutig­ keit aufgehoben wird. Mit dem Schritt der Disambiguierung wird somit eindeutig eine Zuordnung der linguistischen Kate­ gorien zu den Token geschaffen.
Im nächsten Schritt S6 werden die mit dem Flag PEOS versehe­ nen Token untersucht und es wird beurteilt, ob sie ein Satzende oder kein Satzende darstellen. Dies wird im vorlie­ genden Ausführungsbeispiel durch ein weiteres neuronales Netzwerk (Fig. 4) ausgeführt. Das neuronale Netzwerk weist auf der Eingangsseite wiederum 13 Knoten für das zu beurtei­ lende Token und jeweils 42 Knoten für die Vorgänger (3 Token) und 42 Knoten für den Nachfolger (3 Token) auf. Darüber ist eine versteckte Schicht angeordnet und ausgangsseitig gibt es lediglich einen einzigen Knoten, der das binäre Ergebnis, das Token ist ein Satzende oder ist kein Satzende, darstellt. Diese Struktur des neuronalen Netzes zeigt, daß bei der Beur­ teilung das mit dem Flag versehenen Token die linguistische Kategorie des zu beurteilenden Tokens und die linguistische Kategorie der Vorgänger und Nachfolger mit berücksichtigt werden.
Nach der Beurteilung der Token, die ein Satzende darstellen können, sind die durch die linguistische Kategorisierung und den Satzenden auf die Prosodie ausgeübten Einflüsse abschlie­ ßend festgelegt. Auf Grundlage dieser Daten kann somit eine Audiodatei erzeugt werden (Schritt S7), wobei hier noch wei­ tere Parameter zur Festlegung der Prosodie zu berücksichtigen sind, die jedoch nicht Gegenstand der vorliegenden Erfindung sind.
Die neuronalen Netze oder sonstigen datengetriebenen Routinen des erfindungsgemäßen Verfahrens werden zunächst in einer Trainingsphase anhand eines Textes trainiert. Die linguisti­ schen Kategorien der Token und die Enden der einzelnen Sätze dieses Trainingstextes sind bekannt und werden während des Trainings den zu trainierenden Routinen eingegeben. Das er­ findungsgemäße Verfahren lernt somit selbsttätig die Gesetze einer Sprache, wobei lediglich bekanntes und einfach verfüg­ bares Wissen (Einteilung der Token, Vergabe von Flags für Satzenden, Lexikon) als Expertenwissen hinzugefügt werden muß. Die in der Praxis schwierig zu erstellenden Gesetze der Sprache lernt das erfindungsgemäße Verfahren beim Training. Das erfindungsgemäße Verfahren läßt sich somit schnell und einfach auf eine andere Sprache übertragen.
Mit dem oben beschriebenen Ausführungsbeispiel des erfin­ dungsgemäßen Verfahrens sind für die deutsche Sprache gute Ergebnisse erzielt worden. So konnten bei umfangreichen Tex­ ten Fehlerraten beim Kategorisieren von weniger als 2% er­ zielt werden. Entsprechend zuverlässig ist auch die Erkennung der Satzenden gewesen, wodurch eine sehr natürliche Sprach­ ausgabe der Texte erzielt worden ist.
Das erfindungsgemäße Verfahren wird als Computerprogramm auf einem Computersystem realisiert, wie es schematisch verein­ facht in Fig. 2 dargestellt ist. Das Computerprogramm kann auch auf einen elektronisch lesbaren Datenträger gespeichert werden und so auf ein anderes Computersystem übertragen wer­ den. Das Computersystem 1 weist einen internen Bus 2 auf, der mit einem Speicherbereich 3, einer zentralen Prozessoreinheit 4 und einem Interface 5 verbunden ist. Das Interface 5 stellt über eine Datenleitung 6 eine Datenverbindung zu weiteren Computersystemen her. An dem internen Bus sind ferner eine akustische Ausgabeeinheit 7, eine grafische Ausgabeeinheit 8 und eine Eingabeeinheit 9 angeschlossen. Die akustische Aus­ gabeeinheit 7 ist mit einem Lautsprecher 10, die grafische Ausgabeeinheit 8 mit einem Bildschirm 11 und die Eingabeein­ heit 9 mit einer Tastatur 12 verbunden. An das Computersystem 1 können über die Datenleitung 6 und das Interface 5 Texte übertragen werden, die im Speicher 3 abgespeichert werden. Der Speicherbereich 3 ist in mehrere Bereiche unterteilt, in denen Texte, Audiodateien, Anwendungsprogramme zum Durchfüh­ ren des erfindungsgemäßen Verfahrens und weitere Anwendungs- und Hilfsprogramme gespeichert sind. Die als Textdatei abge­ speicherten Texte werden durch die Anwendungsprogramme zum Ausführen des erfindungsgemäßen Verfahrens in Audiodateien gewandelt, die über den internen Bus 2 zur akustischen Ausga­ beeinheit 7 übertragen und von dieser am Lautsprecher 10 als Sprache ausgegeben werden.
Die Erfindung ist oben anhand eines Ausführungsbeispiels für die deutsche Sprache näher erläutert. Die Erfindung ist je­ doch nicht auf die Anwendung der deutschen Sprache be­ schränkt, sondern ist im Vergleich zu bekannten Verfahren sehr leicht auf andere Sprachen übertragbar. Ein wesentlicher Vorteil des erfindungsgemäßen Verfahrens gegenüber bekannten Verfahren liegt darin, daß hiermit auch eine Satzendeerken­ nung in Sprachen möglich ist, für die ein Expertenwissen zu den Sprachregeln zum Bestimmen der Kategorie der Token als auch der Satzenden noch nicht bekannt ist. Das erfindungsge­ mäße Verfahren läßt sich somit auch einfach bei nicht sehr populären und deshalb nur gering erforschten Sprachen einset­ zen.
Ferner ist es möglich, daß die beiden neuronalen Netzwerke des oben beschriebenen Ausführungsbeispiels zum Disambiguie­ ren und zum Beurteilen der Satzenden als ein einziges neuro­ nales Netzwerk ausgebildet werden. Es ist auch möglich, an­ stelle neuronaler Netzwerke ein beliebiges anderes statisti­ sches, datengetriebenes Verfahren zu verwenden.

Claims (13)

1. Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung mit folgenden Schritten:
Einteilen des Textes in Token,
Untersuchen der Token, ob sie ein Satzende darstellen können,
Markieren aller Token, die ein potentielles Satzende dar­ stellen können, mit einem Flag (PEOS),
Kategorisieren der einzelnen Token in vorbestimmte lin­ guistische Kategorien, wobei in der Regel nicht allen Token eindeutig eine linguistische Kategorie zugeordnet werden kann,
Disambiguieren der Token, welchen nicht eindeutig eine Kategorie zugeordnet werden kann,
Beurteilen der mit einem Flag versehenen Token auf Grund­ lage der Ihnen zugeordneten linguistischen Kategorie, ob sie ein Satzende darstellen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Beurteilung der mit einem Flag versehenen Token auch auf Grundlage des dem zu beurteilendem Token vorherge­ henden und/oder nachfolgenden Kontextes erfolgt.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Kontext für die Beurteilung eines mit einem Flag versehenen Tokens jeweils ein einziges Token umfaßt.
4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß der Kontext für die Beurteilung eines mit einem Flag versehenen Tokens mehrere und vorzugsweise genau drei Token umfaßt.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß das Beurteilen der mit einem Flag versehenen Token mit Hilfe eines neuronalen Netzwerkes ausgeführt wird.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß das Disambiguieren auf Grundlage des vorhergehenden und/oder nachfolgenden Kontextes des zu disambiguierenden To­ kens erfolgt.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der beim Disambiguieren berücksichtigte Kontext genau ein einziges Token umfaßt.
8. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß der beim Disambiguieren berücksichtigte Kontext meh­ rere Token und vorzugsweise genau drei Token umfaßt.
9. Verfahren nach einem der Ansprüche 6 bis 7, dadurch gekennzeichnet, daß das Disambiguieren und das Beurteilen der mit einem Flag versehenen Token auf Grundlage gleich großer Kontexte erfolgt.
10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß beim Kategorisieren der einzelnen Token die einem To­ ken zugeordneten Kategorien aus einem Lexikon ausgelesen wer­ den und alle Token, die nicht im Lexikon enthalten sind mit­ tels einer OOV-Routine kategorisiert werden.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, daß die OOV-Routine eine datengetriebene Routine ist, die anhand der Othographie eines Tokens dessen Kategorie beur­ teilt, wobei vorzugsweise ein Abschnitt des Tokens mit 3 bis 5 Zeichen ausgewertet wird.
12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, daß nach dem Kategorisieren der einzelnen Token und vor dem Beurteilen der mit einem Flag versehenen Token ein oder mehrere Tokenbehandlungsvorgänge, z. B. zum Ermitteln von Ab­ kürzungen, Akronymen oder Formeln oder zum Normalisieren bzw. Ausdehnen der Token, ausgeführt werden, wobei bei den einzel­ nen Tokenbehandlungsvorgängen gesetzte Flags gelöscht werden, wenn sich aus dem Tokenbehandlungsvorgang ergibt, daß das je­ weilige Token kein Satzende bilden kann.
13. Vorrichtung zum Synthetisieren von Sprache aus einem elektronisch verarbeitbaren Text, gekennzeichnet durch ein Computersystem (1) mit einer zentralen Prozessorein­ heit (4), einem Arbeitsspeicher (3) und einer akustischen Ausgabeeinheit (7) und einem im Arbeitsspeicher (3) gespei­ cherten Programm zum Ausführen des Verfahrens nach einem der Ansprüche 1 bis 12, wobei auf Grundlage der dementsprechend ermittelten Satzenden eine Prosodie erzeugt wird, und der elektronisch verarbeitbare Text als Textdatei vorliegt, die gemäß der erfindungsgemäß ermittelten Prosodie in eine Audio­ datei gewandelt wird, und die Audiodatei an der akustischen Ausgabeeinheit (7) in Sprache gewandelt wird.
DE1999142171 1999-09-03 1999-09-03 Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung Withdrawn DE19942171A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE1999142171 DE19942171A1 (de) 1999-09-03 1999-09-03 Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung
PCT/DE2000/002979 WO2001018788A2 (de) 1999-09-03 2000-08-31 Verfahren zur satzendebestimmung in der automatischen sprachverarbeitung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1999142171 DE19942171A1 (de) 1999-09-03 1999-09-03 Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung

Publications (1)

Publication Number Publication Date
DE19942171A1 true DE19942171A1 (de) 2001-03-15

Family

ID=7920746

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1999142171 Withdrawn DE19942171A1 (de) 1999-09-03 1999-09-03 Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung

Country Status (2)

Country Link
DE (1) DE19942171A1 (de)
WO (1) WO2001018788A2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016008855A1 (de) 2016-07-20 2018-01-25 Audi Ag Verfahren zum Durchführen einer Sprachübertragung

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3733674A1 (de) * 1986-10-03 1988-04-21 Ricoh Kk Sprachanalysator
WO1996042079A1 (en) * 1995-06-13 1996-12-27 British Telecommunications Public Limited Company Speech synthesis
EP0793218A2 (de) * 1996-02-28 1997-09-03 Sony Corporation Verfahren und Vorrichtung zur Sprachsynthese
EP0821344A2 (de) * 1996-07-25 1998-01-28 Matsushita Electric Industrial Co., Ltd. Verfahren und Vorrichtung zur Sprachsynthese
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4773009A (en) * 1986-06-06 1988-09-20 Houghton Mifflin Company Method and apparatus for text analysis
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3733674A1 (de) * 1986-10-03 1988-04-21 Ricoh Kk Sprachanalysator
US5860064A (en) * 1993-05-13 1999-01-12 Apple Computer, Inc. Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system
WO1996042079A1 (en) * 1995-06-13 1996-12-27 British Telecommunications Public Limited Company Speech synthesis
EP0793218A2 (de) * 1996-02-28 1997-09-03 Sony Corporation Verfahren und Vorrichtung zur Sprachsynthese
EP0821344A2 (de) * 1996-07-25 1998-01-28 Matsushita Electric Industrial Co., Ltd. Verfahren und Vorrichtung zur Sprachsynthese

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102016008855A1 (de) 2016-07-20 2018-01-25 Audi Ag Verfahren zum Durchführen einer Sprachübertragung

Also Published As

Publication number Publication date
WO2001018788A3 (de) 2001-09-07
WO2001018788A2 (de) 2001-03-15

Similar Documents

Publication Publication Date Title
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE69816676T2 (de) System und verfahren zur bestimmung und minimalisierung eines endlichen transducers zur spracherkennung
DE60020434T2 (de) Erzeugung und Synthese von Prosodie-Mustern
DE3788488T2 (de) Sprachenübersetzungssystem.
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE69821673T2 (de) Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE112017006151T5 (de) Anpassbare Verarbeitungskomponenten
DE2212472A1 (de) Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
DE3615972A1 (de) Zweisprachiges uebersetzungssystem mit eigen-intelligenz
EP1217610A1 (de) Verfahren und System zur multilingualen Spracherkennung
DE112005002534T5 (de) Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE10306599A1 (de) Benutzeroberfläche, System und Verfahren zur automatischen Benennung von phonischen Symbolen für Sprachsignale zum Korrigieren von Aussprache
DE69025091T2 (de) Verfahren und Vorrichtung zur Übersetzung eines Satzes mit einem durch Trennung gebildeten, zusammengesetzten Wort
DE68919030T2 (de) Computerunterstütztes Übersetzungsgerät.
DE69723449T2 (de) Verfahren und system zur sprache-in-sprache-umsetzung
EP0814457B1 (de) Verfahren zur automatischen Erkennung eines gesprochenen Textes
DE19942171A1 (de) Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung
DE102007042971A1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
DE102016125162B4 (de) Verfahren und Vorrichtung zum maschinellen Verarbeiten von Texten

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8139 Disposal/non-payment of the annual fee