DE69131549T2

DE69131549T2 - Parsingsystem für geschriebene Sprache

Info

Publication number: DE69131549T2
Application number: DE69131549T
Authority: DE
Inventors: Joan C. Bachenko
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 1990-06-28
Filing date: 1991-06-20
Publication date: 2000-07-13
Anticipated expiration: 2011-06-21
Also published as: CA2043667C; CA2043667A1; EP0465058A2; DE69131549D1; EP0465058A3; JPH04233598A; EP0465058B1; US5157759A; JP3323519B2

Description

Die Erfindung bezieht sich auf Sprachsynthese eines frei erzeugten Textes und insbesondere auf die Synthese eines von einer akustisch behinderten (hör- oder sprachbehinderten) Person frei erzeugten Textes.
Der Übertragungsdienst für zwei Teilnehmer (Dual Party Relay Service) ist ein Dienst, der es Sprach- oder Hörbehinderten ermöglicht, mit Personen zu kommunizieren, die nicht auf diese Weise behindert sind. Durch Wählen einer bestimmten Rufnummer werden solche Personen mit einem Operator zusammengeschaltet, der den rufenden Teilnehmer mit dem gerufenen Teilnehmer verbindet und das zustande gekommene Gespräch überträgt.
Insbesondere werden eingehende Rufe von Sprach- oder Hörbehinderten über eine digitale Einrichtung geführt, wie etwa eine Telekommunikationseinrichtung für Taube (Telecommunications Device for the Deaf, TDD) oder ein Computerterminal und ein Modem. Der sprach- oder hörbehinderte Nutzer gibt Text über die TDD (oder ähnliches) ein, der empfangen und dem Operator angezeigt wird. Über eine getrennte Verbindung spricht der Operator die angezeigten Textwörter zum nicht behinderten Teilnehmer, hört die gesprochene Antwort des nicht behinderten Teilnehmers und übermittelt eine geschriebene Textnachricht, die der vom Operator gehörten, gesprochenen Antwort entspricht, an den sprach- oder hörbehinderten Teilnehmer. Der hörbehinderte Teilnehmer empfängt die geschriebene Textnachricht auf einer Anzeigeeinrichtung.
Das vorstehend beschriebene Verfahren leidet an einem Mangel an Privatsphäre. Es ist zudem sehr langsam, schwerfällig und stark arbeitsaufwendig. Es wäre sowohl für die Nutzer als auch für die Telefongesellschaft sehr nützlich, die Beteiligung des Operators an Rufen zu und von sprach- oder hörbehinderten Teilnehmern zu vermeiden oder wenigstens zu verringern.
Die Möglichkeit zum Beseitigen des Bedarfs nach der Unterstützung durch einen Operator besteht eindeutig in der Richtung, in der Text zu Sprache umgewandelt wird. Ein Beispiel ist der "Telefoninformationsdienst" von AT & T und den Beil Operating Companies. Als Reaktion auf eine Anfrage greift der Telefoninformations-Operator auf eine Datenbank zu, identifiziert die gewünschte Nummer und aktiviert einen Synthesizer. Dieser und alle weiteren bekannten Text-zu- Sprache-Synthesizersysteme beschäftigen sich jedoch ausschließlich mit "konservierter" Sprache, das heißt mit einer Sprache (oder Text) mit vordefinierter Syntax und vordefiniertem Vokabular.
Prinzipiell sollte es möglich sein, den Text, der von einem TDD-Benutzer erzeugt wurde, in einen Sprachsynthesizer einzugeben und den Synthesizer die gesprochenen Wörter erzeugen zu lassen, die an eine nicht sprach- oder hörbehinderte Person übermittelt werden können. In der Praxis ist dies nicht einfach zu erreichen. Sprachsynthesizer wandeln Text in Sprache exakt so um, wie der Text erscheint. Dies erfordert einen korrekten, fehlerfreien, richtig interpunktierten Text in einer Standardsyntax. Die geschriebene Sprache der Tauben jedoch offenbart viele Abweichungen von erwarteten Muster der englischen Syntax (oder anderer Sprachen). Die nachfolgenden drei Sätze sind Beispiele geschriebener Sprache von Tauben (WLD), die von verschiedenen Schreibern erzeugt wurden:
They tend refusing to communicate. Some people have strong based on knowledges. I have many appointment from my childrens.
In einer Studie der WLD im Deaf English Technical Report 236, Institute for Mathematical Studies in the Social Sciences, Stanford University, 1974, behauptet V. R. Charrow, daß die Veränderlichkeit von WLD systematisch ist und Regeln unterliegt. Sie schreibt:
Ich vermute, daß Taube eine unterschiedliche Vielfalt der englischen Sprache bilden, basierend auf einer Verinnerlichung bestimmter Regeln der englischen Sprache, aber keine anderem Regeln, und in manchen Fällen durch Störungen von ASL, deren Regeln sich fundamental von denen der englischen Sprache unterscheiden, beeinflußt werden. Das Ergebnis ist das hypothetische "Tauben-Englisch".
Eine Untersuchung der WLD-Syntax unterstützt Charrows Behauptung. Obwohl syntaktische Veränderungen in WLD-Texten zufällig auftreten, zeigt eine nähere Betrachtung, daß die Veränderungen übereinstimmen. WLD offenbart eine Sammlung von Nicht-Standardmerkmalen, die identifiziert und beschrieben werden können. Einige anekdotische Beweise für diese Schlußfolgerung stammen aus der Tatsache, daß sich Sprecher von Standardenglisch nach Lesen einer Anzahl von WLD-Texten gewöhnlich diesem Stil anpassen. Ernsthafte Verständigungsprobleme scheinen nur aufzutauchen, wenn Sätze extrem telegrafisch, die Wörterordnung außergewöhnlich frei oder die lexikalische Auswahl undurchsichtig ist.
Laurreur et al. offenbaren in, "Linguistic and Prosodic Processing For a Text-To-Speech Synthesis System", Eurospeech 89, September 1989, Seiten 590 bis 593, ein Text-zu-Sprache- System, das das automatische prosodische Parsing refomiert, das auf der Erkennung einer kleinen Anzahl grammatikalischer Wörter beruht. Laurreur beschreibt einen prosodischen Parsing-Algorithmus, der eine rekursive, morphosyntaktische links-nach-rechts-Analyse umfaßt, die jedem Wort im Text einen grammatikalischen Wert zuordnet und den Text phonetisch umschreibt. Einhundertvierzig (140) hierarchische Parsingregeln teilen die Nachricht dann in eine Folge prosodischer Gruppen. Prosodische Muster werden jedem Wort durch Abfragen einer Datenbank prosodischer Ereignisse automatisch zugeordnet.
US-A-4 872 202 offenbart ein Umsetzungssystem, das ein Wort nach Ausnahmen überprüft, das Wort in Phoneme unter Verwendung der Satz- und Wortstruktur und die Phoneme in LCP- Parameter umwandelt.
EP-A-327 266 offenbart ein Verfahren zum Bestimmen von Sprachabschnitten und zum Parsing von Substantivverbindungen. Das Bestimmen von Sprachabschnitten verbessert das Produkt lexikalischer Wahrscheinlichkeiten von einzelnen Wörtern bei normalisierten Wahrscheinlichkeiten im Kontext von drei Wörtern.
Van Coile et al., beschreibt in "Dutch Text-To-Speech Aids For the Vocally Handicapped", Eurospeech 89, September 1989, Seiten 590 bis 593, zwei niederländisch sprechende Kommunikationshilfen. Dieses Text-zu-Sprache-System umfaßt einen linguistischen, einen phonetischen und einen Synthesizer-Abschnitt. Der linguistische Abschnitt erzeugt die phonetische Übertragung des Eingabetextes, der phonetische Abschnitt verwendet die durch den linguistischen Abschnitt verfügbar gemachte Information zum Erzeugen von Sprachparametern und ein Synthesizer-Abschnitt verwendet die Sprachparameter zum Ansteuern eines Sprachsynthesizers.
Kurz gesagt wird für den Übertragungsdienst für zwei Teilnehmer die Fähigkeit zur Annahme und zum Synthetisieren eines frei erzeugten Textes benötigt. Die Beschaffenheit von WLD deutet darauf hin, daß eine Computeranalyse dieser · Sprachart durchführbar sein könnte.
Die Erfindung ist in Anspruch 1 umschrieben, bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen angegeben.
Motiviert durch den Bedarf, den Übertragungsdienst für zwei Teilnehmer zu verbessern, stellt die Erfindung eine Text-zu-Sprache-Synthese frei erzeugten Textes bereit. Insbesondere stellt die Erfindung einen Text-zu-Sprache- Synthesizer bereit, der eine frei erzeugte Textsequenz von Wörtern annimmt und die Sequenz mit richtiger Betonung und mit richtig gesetzten Pausen synthetisiert. In Kombination mit weiteren Elementen sorgt die Erfindung für einen verbesserten Übertragungsdienst für zwei Teilnehmer, bei dem der vom sprach- oder hörbehinderten Teilnehmer erzeugte Text ohne Beteiligung eines Operators synthetisiert wird. Die Synthese kann in dem Gebäude der sprach- oder hörbehinderten Person, in der lokalen Telefonzentrale oder an einigen vorbestimmten lokalen Orten stattfinden.
In Kombination mit weiteren zusätzlichen Elementen sorgt die Erfindung für eine vollständig automatische Zweiwege- Kommunikation mit sprach- oder hörbehinderten Teilnehmern durch Einfügen eines Sprach-zu-Text-Umsetzers.
Gemäß den Prinzipien der Erfindung wird ein von einem sprach- oder hörbehinderten Teilnehmer erzeugter Text durch Interpretieren von Abkürzungen, Korrigieren von Fehlern (falsche Schreibweise und "Rauschen"), Übersetzen bestimmter Ausdrucke, die gewöhnlich von sprach- oder hörbehinderten Personen verwendet werden, durch Übersetzen nicht standardisierter Wortfolgen oder kurzer Sätze und im Wesentlichen durch Umwandeln der Textnachrichten in standardisiertes Englisch verständlicher. Zusätzlich werden Pausen zum Erhöhen der Verständlichkeit eingefügt.
Bei einer bevorzugten erfindungsgemäßen Ausführungsform wird Text einem Prozessor zugeführt, der eine ausgewählte Anzahl von Wörtern gleichzeitig analysiert. Basierend auf vordefinierten Regeln werden Signale an einen gewöhnlichen Synthesizer zum Erzeugen des Sprachsignals angelegt. Es zeigen:
Fig. 1 ein Blockschaltbild eines Text-zu-Sprache- Schallwandlungssystems;
Fig. 2 die Verwendung des Text-zu-Sprache- Umwandlungssystems in einem Telefonnetz zusammen mit einem Sprach-zu-Text-Umwandlungssystems;
Fig. 3 ein Flußdiagramm für eine Art einer Signalverarbeitung des Systems nach Fig. 1; und
Fig. 4 ein Flußdiagramm für eine weitere Art einer Signalverarbeitung des Systems nach Fig. 1.
Fig. 1 stellt in Form eines Blockschaltbildes eine Ausführungsform für den frei erzeugten-Text-zu-Sprache- Synthesizer der Erfindung dar. Block 10 ist ein intelligenter Parser und Block 20 ist ein Synthesizer. Der Synthesizer 20 ist ein gewöhnlicher Synthesizer, wie etwa der "Olive- Libermann Synthesizer", J. P. Olive und M. Y. Libermann, 1985, Text-zu-Sprache - An Overview, Journal of the Acoustic Society of America, Supplement 1 78, Seite 6. Dessen Eingangssignal auf der Leitung 21 ist Text, der gleichzeitig mit speziellen Befehlen kommentiert wird. Dessen Ausgangssingal auf der Leitung 22 ist das analoge Sprachsignal.
Der intelligente Synthesizer 10 umfaßt einen Wortdetektor 11, "Wortspeicherblöcke" 12, 13 und 14 und einen regelbasierten Prozessor 15. Text wird in den Wortdetektor 11 eingegeben, in dem Wörter oder Ausdrücke identifiziert werden. Typischerweise kennzeichnet ein Leerzeichen, ein Interpunktionszeichen oder das Zeilenende das Ende eines Ausdrucks. Die Interpunktionszeichen sind an sich selbst Ausdrücke. Die erkannten Ausdrücke werden in die in Reihe geschalteten Wortspeicher 12, 13 und 14 in der Art eines Schieberegisters eingefügt. Obwohl die Fig. 1 die Verwendung von drei Wortspeichern (12, 13 und 14) darstellt, ist verständlich, daß jede Anzahl solcher Speicher verwendet werden kann. Die in jedem Wortspeicher gespeicherten Ausdrücke werden vom regelbasierten Prozessor 15 empfangen.
Die Funktion des Prozessors 15 liegt darin, die angelegten Ausdrücke zu analysieren und zu verändern, Betonungen und Pausen an syntaktisch richtige Stellen einzufügen und die veränderten Ausdrucke dem Synthesizer 20 zu geeigneten Zeiten zuzuführen.
Die im Prozessor 15 ausgeführten Regeln können in zwei Klassen eingeteilt werden: Regeln, die Ausdrücke identifizieren und verändern, und Regeln, die relevante syntaktische Informationen erkennen.
Die Regeln, die Ausdrücke identifizieren und verändern, achten auf das Erkennen von Abkürzungen, das Erkennen spezieller Ausdrücke, die vom relevanten Teilnehmerkreis verwendet werden, das Erkennen von Wortverbindungen, die eine Anzahl von Wörter umfassen, die gleich der Anzahl der Wortspeicher ist (in Fig. 1, ist die Anzahl 3), und Erkennen von falschen Schreibweisen, typografischen Fehlern und weiteren "Rauscheingaben". Eine gewöhnliche "Rauscheingabe" ist beispielsweise "XXXXX", die typischerweise das Streichen von Buchstaben kennzeichnet (in diesem Fall fünf Buchstaben) Zusätzlich zu den vorstehenden Wortveränderungen führen die Regeln, die Ausdrücke identifizieren und verändern, auch eine Funktion zur Entfernung von Mehrdeutigkeiten durch, um einen genaueren und verständlicheren Text zu erzeugen. Dies umfaßt das Hinzufügen von Wörtern (z. B. Präpositionen), um einen Text mit einer höher standardisierten englischen Syntax zu erzeugen.
Nachdem die Regeln, die Ausdrücke identifizieren und verändern, angewendet wurden, werden die syntaktischen Regeln angewendet. Diese Regeln verwenden lokale syntaktische Einschränkungen, um festzustellen, ob eine Pause vor oder nach einem Wort im Wortspeicher auftreten soll.
In Verbindung mit Pausen muß das Problem der Eingabe und Verarbeitungs-Synchronisation betrachtet werden. Die Synchronisation gesprochener Sprache ist ziemlich wichtig für die Verständlichkeit, oder genauer gesagt, die relative Synchronisation von Wortgruppen ist kritisch. Die Synchronisation-Information jedoch ist in einem vom TDD bereitgestellten Text nicht verfügbar, und die Ankunftszeiten der Textwörter haben in keiner Weise eine Beziehung zur richtigen Synchronisation der gesprochenen Sprache. Zusätzlich sind die Verarbeitungszeiten im Prozessor 15 nicht a priori bekannt, so daß der Zeitverlauf der Ausgangssignale des Prozessors 15 nicht dem Zeitverlauf der Eingangssignals folgt. Darüber hinaus kann der Zustand auftreten, bei welchen ein zeitlich genau ankommender Text so viel Verarbeitungszeit erfordert, daß ein Eingangspuffer bereitgestellt werden muß, wohingegen in anderen Situationen der Text langsam ankommen kann und eine wesentliche Lücke bei der vom Prozessor 15 benötigten Verarbeitungszeit auftrat. Keine der Situationen sollte erlaubt sein, um die zeitliche Korrektheit des synthetisierten Ausgangssignals zu beeinträchtigen.
Zu diesem Zwecke umfaßt der intelligente Parser 10 einen FIFO-Speicher 16, der zwischen dem Wortdetektor 11 und dem "Wortspeicher" 12 angeordnet ist, und einen FIFO-Speicher 17, der zwischen dem Prozessor 15 und dem Synthesizer 10 angeordnet ist. Der FIFO-Speicher 16 arbeitet unter Steuerung des Wortdetektors 11 und des Prozessors 15. Sobald ein Ausdruck erkannt wird, wird er im FIFO 16 gespeichert; und sobald das Verarbeiten des Ausdrucks im "Wortspeicher 14" beendet ist, wird der älteste Ausdruck des FIFO 16 in den Wortspeicher 12 eingelesen.
Der FIFO 17 wird auch vom Prozessor 15 gesteuert; er arbeitet jedoch in einer geringfügig anderen Weise. Sobald der Ausdruck vom Prozessor 15 verändert wird, wird er in den FIFO 17 eingelesen. Veränderte Ausdrücke werden weiter eingelesen, bis der Prozessor 15 feststellt, daß eine Pause im Gespräch angefordert wird. Zu dieser Zeit werden alle im FIFO 17 sortierten Ausdrücke der Reihe nach ausgeschrieben und an den Synthesizer 20 übermittelt. Auf diese Weise wird das vollständig willkürliche Zeitverhalten der eingehenden Wörter durch ein Zeitverhalten ersetzt, das zum Rhythmus der natürlichen Sprache paßt.
Der Aufbau nach Fig. 1 zeigt eine unterschiedliche Hardware zum Ausführen der Funktionen des intelligenten Parser-Synthesizers der Erfindung. Ein derartiger Parser- Synthesizer kann in jeder lokalen Telefonzentrale oder in einigen regionalen Zentralen angeordnet werden, oder einem bestimmten Servicetyp zugeordnet werden (z. B. dem "800- Dienst", bei dem der angerufene Teilnehmer zahlt, oder dem "900-Dienst", bei dem der anrufende Teilnehmer zahlt).
Derartige Hardware kann auch in einer sehr kompakten Anordnung verwirklicht werden, die in einem oder ganz wenigen zusammenwirkenden Schaltkreisen implementiert ist. Wenn dies verwirklicht ist, und wenn die Kosten gering genug sind, kann der intelligente Parser-Synthesizer nach Fig. 1 in einer Vorrichtung im Gebäude eines Kunden enthalten sein. Fig. 2 zeigt eine derartige Anordnung, die ein Subsystem im Gebäude des Kunden umfaßt, das mit dem Telefonnetz verbunden ist. Das Subsystem nach Fig. 2 umfaßt den intelligenten Parser- Synthesizer für den abgehenden Pfad und einen Sprach-zu-Text- Umsetzer 30 für den eingehenden Pfad. Beide Pfade sind mit dem Telefonnetz verbunden, wobei der Teilnehmer am linken Abschnitt der Zeichnung über das Telefonnetz mit einigen weiteren Teilnehmern im rechten Abschnitt der Zeichnung verbunden ist.
Sprach-zu-Text-Umsetzer 30 arbeiten bis jetzt nicht stabil genug, um frei fließende Sprache beliebiger Sprecher zu erkennen und zu erfassen; aber einige Systeme sind verfügbar, die zum Erkennen von bis zu 5000 Wörtern trainiert werden können, wenn die Systeme für einen bestimmten Sprecher ausgebildet werden. Andere Systeme erkennen ein kleineres Vokabular, jedoch von beliebigen Sprechern. Sogar diese mäßige Fähigkeit ist nützlich, weil der sprach- oder hörbehinderte Teilnehmer, wenn ein Erkennungssystem für 5000 Wörter verwendet wird, in einigen Fällen die Hilfe eines Operators überhaupt nicht benötigt, beispielsweise dann, wenn er über Telefon mit bestimmten Personen(z. B. dem Ehegatten) spricht.
Es gibt einen weiteren Gesichtspunkt zur Ausbildung der Hardware, die der intelligente Parser-Synthesizer annehmen kann. Das heißt, der Aufbau nach Fig. 1 kann einen programmgesteuerten Prozessor aufweisen, der alle Elemente nach Fig. 1 oder wenigstens alle Elemente des Blocks 10 umfaßt.
Fig. 3 zeigt ein Flußdiagramm für das Verarbeiten, das in der beispielhaften Hardware nach Fig. 1 ausgeführt wird, während Fig. 4 ein Flußdiagramm für das Verarbeiten zeigt, welcher mit einem programmgesteuerten Prozessor, der alle Elemente von Block 10 umfaßt, ausgeführt wird.
Der erste Block in Fig. 3 (Block 100) wandelt jeden Ausdruck, der in den "Wortspeicher" 12 eingeschrieben wird, in eine Datenstruktur um. Das heißt, jeder Ausdruck wird Teil eines zugeordneten Satzes von Informationen, wie etwa der Schreibweise des Ausdrucks, dem Gesprächsabschnitt, zu dem der Ausdruck gehört, und ob der Ausdruck eine Abkürzung ist etc. (Da die in den "Wortspeichern" 13 und 14 gespeicherten Ausdrücke vorher im "Wortspeicher" 12 gespeichert waren, sind deren Datenstrukturen bereits im Prozessor 15 gespeichert).
Wenn die Datenstrukturen für die Ausdrücke in den Wortspeichern erzeugten sind, werden im nächsten Schritt (Block 110) die Wortanpassungsregeln angewendet. Die Ergebnisse der Wortanpassungsregeln werden in den Datenstrukturen gespeichert. Als nächstes werden im Block 120 die syntaktischen Regeln angewendet, um festzustellen, ob Pausen- oder Deemphasis-Flags gesetzt werden sollen. Die Ergebnisse dieser Analysen werden ebenfalls in den Datenstrukturen gespeichert. Zuletzt wird im Block 130 der verarbeitete Ausdruck des "Wortspeichers" im FIFO 17 gespeichert.
Der Block 140 führt die Abfrage aus, die zu einem Ausgangssignal führt, das dem Synthesizer bereitgestellt wird. Wenn festgestellt wird, daß der im FIFO 17 gespeicherte Ausdruck ein "Pause-vorher"-Flag umfaßt, wird der FIFO geleert (die gespeicherte Information wird zum Synthesizer übertragen) und der Ausdruck wird danach im FIFO gespeichert. Wenn ein "Pause-nachher"-Flag gefunden wird, wird der Ausdruck zuerst gespeichert und nach dem Speichervorgang wird der FIFO geleert. Wenn kein Flag gefunden wird, wird der Ausdruck nur gespeichert. In jedem Fall, wie in Fig. 3 dargestellt, wird der Prozeß in Block 100 fortgesetzt, um den nächsten Ausdruck vom FIFO 16 zu erhalten, und zwar so, wie der Ausdruck in den "Wortspeicher" 12 geladen wurde.
Fig. 4 stellt den Vorgang dar, bei dem der intelligente Parser der Erfindung durch einen programmgesteuerten Prozessor realisiert wird. Der Block 200 speichert die Eingabetextfolge in einen Speicher und setzt eine Variable "Eingangs-Folge" (Terminal-String) als Eingabetextfolge. Der Block 210 wandelt jedes Wort in einer "Eingangs-Folge" in eine Ausdrucksdatenstruktur mit den nachfolgenden Feldern um:
Schreibweise: Die Schreibweise des Wortes oder die geschriebene Form des Wortes minus jeder Interpunktion (?, !, ;). Man beachte, daß der Punkt (.) nicht als Interpunktionszeichen enthalten ist, weil einige gewöhnliche TDD- Wörter periodisch enden.
Kategorie: Wenn das erste Zeichen eines Wortes eine Ziffer ist (1, 2, 3, 4, 5, 6, 7, 8, 9, 0) wird NUM als Kategorie ausgegeben, andernfalls ist die Kategorie des Ausdrucks die lexikalische Kategorie des Ausdrucks, die dem Gesprächsabschnitt des bekannten gegebenen englischen Wort oder den TDD-Dialektwort entspricht. Unbekannte Wörter werden der Kategorie NIL zugeordnet.
Spezielle Kategorien: Einige "Wörter" gehören zusätzlich zu den "Gesprächsabschnitten" zu einer oder mehreren Wortklassen. Dieses Feld identifiziert diese speziellen Kategorien (siehe unten).
Vorher: Zeiger auf das vorherige Wort in der Liste, das eine "Eingangs-Folge" bildet, wenn vorhanden; sonst NIL.
nachher: Zeiger auf das nächste Wort in der Liste, wenn vorhanden; sonst NIL.
Pause vorher Anfänglich leer (NIL), kann später belegt werden, um eine Pause durch die geeignete Zeichenfolge einzufügen, die vom Synthesizer erkannt wird.
Pause-nachher: Anfänglich leer (NIL); kann später belegt werden, um eine Pause, durch die geeignete Zeichenfolge einzufügen, die vom Synthesizer erkannt wird.
unbetont-: Anfänglich leer (NIL); kann später belegt werden, um die Standard-Sprachparameter des Synthesizers für dieses Wort zu verändern.
Interpunktion: Enthält die Interpunktion, die ein Wort abschließt (entweder; , oder ?).
Die vorstehende Struktur ist lediglich beispielhaft; selbstverständlich können weitere Strukturen verwendet werden.
Die speziellen Kategorien eines Wortes (das dritte Feld in der vorstehenden Datenstruktur) können enthalten:
Ende-des-Textmarkers: go.ahead.l -- e.g.,
go.ahead.2 -- e.g.
stop.keying --e. g.
q.go.ahead -- e.g.,
grammatische Wortklassen
interjection.l -- e.g.,
interjection.mod -- e.g.,
oneof.and.or.nor -- e.g.,
nom.pronouns -- e.g.,
subord.1 -- e.g.,
subord.2 -- e.g.,
subord mod -- e.g.,
destress.pronouns -- e.g.,
1-Wort-Abkürzungen -- z. B.,
Ausdrücke aus 2 Wörtern -- z. B.,
Ausdrücke aus 3 Wörtern -- z. B.
(Da die Erfindung anhand der englischen Sprache und deren Eigentümlichkeiten beschrieben wird, sind einige Begriffe nicht übersetzt worden.)
Wir betrachten wieder Fig. 4. Der Block setzt 220 die Variable "erster Ausdruck", um auf den ersten Ausdruck in der vom Block 210 erzeugten Liste zu zeigen. Dieser setzt den Zustand für den Anfangspunkt vor, bei dem die Ausdrücke zum Synthesizer übertragen werden. Danach setzt der Block 230 das Feld "Pause-vorher" des ersten Ausdrucks (auf den über den "ersten Ausdruck" gezeigt wird) auf "wahr".
Der Block 240 startet die aktuelle Verarbeitungsphase durch Anwenden der Regeln zum Identifizieren von falschen Schreibweisen und Rauscheingaben. Der Verarbeitungsschritt des Blocks 240 ist insoweit ganz gewöhnlich, daß er beim Überprüfen der Schreibweise Lösungsansätze anwenden kann, die von einem oder zahlreichen Textverarbeitungsprodukten stammen, die käuflich verfügbar sind, wie etwa Word, Word Perfect etc. Diese Produkte weisen Funktionen auf, die bestimmen, ob ein Wort in einem Wörterbuch gefunden wird, und in "Fällen", in denen das Wort nicht gefunden wird, welche korrekt geschriebenen Wörter dem falsch geschriebenen Wort am ähnlichsten sind. Auch ein Verfahren zum Finden der besten Übereinstimmung kann verwendet werden, wie es beispielsweise in der US-Anmeldung mit dem Titel "A Method for Correcting Spelling using Error Frequencies", eingereicht am 14. Juni, 1990 beschrieben ist. Wenn das richtig geschriebene Wort in einer Tabelle erst einmal gefunden wird, kann die Wortkategorie als auch dessen spezielle Kategorien aus derselben Tabelle entnommen werden.
Der Block 250 setzt mit die Worterveränderungs- Verarbeitung fort. Durch Schieben eines 3-Wörter-Fensters entlang der Ausdrucksliste in der "Eingangs-Folge" werden Abkürzungen und unübliche Kurzworte herausgefiltert, und es wird versucht, den Text von Mehrdeutigkeiten zu befreien. Das heißt, der Block versucht, den verkürzten Eingabetext durch den richtigen vollständig geschriebenen Worttext zu ersetzen, der synthetisiert werden würde. Der Block 250 führt auch die reziproke Funktion durch, einige Zweiwort- und Dreiwortausdrücke zusammenzuziehen, damit sie als einzelne Worte dienen; und zwar wenigstens zum Zwecke der syntaktischen Analyse. Da diese Regeln die Anzahl der Wörter in den Ausdruckslisten ändern können, führen sie oft ein Zusammenfügen der vorherigen mit der nächsten Liste sowie das Aktualisieren der Variablen "erster Ausdruck" durch. (Einige Regeln beziehen sich auch auf den Ausdruck vor dem "ersten Ausdruck"). Nachfolgend sind einige Beispiele von Abkürzungen, ungewöhnlichen Kurzworten und Verbindungen aus zwei und drei Wörtern aufgeführt. (Diese Ausdrücke wurden nicht übersetzt, da es sich heribei um spezielle Fälle der englischen Sprache handelt.)
Gewöhnliche Abkürzungen Ungewöhnliche Kurzwörter
("min""minute") (":-)""haha")
("pm" "PM") ("agt" "agent")
("yrs" "years") (bcuz" "because")
("ans" "answer") ("bec""because")
("asap" "assoonaspossible") ("fone" "phone")
("att" "AT & T") ("fwd" "forward")
("avg" "average") ("hld" "hold")
("bldg" "building") ("nyrc" "NewYorkRelayCenter")
("doc" "doctor") ("pblm" "problem")
("ext"extension") ("ph" "phone")
("fig" "figure") ("pls" "please")
("hrs " "hours ") ("qq" "?"
("r" "are")
("wudnt" "wouldn't")
("yur" "your")
Ausdrücke aus zwei Wörtern Ausdrücke aus drei Wörtern
(("a" "while") "awhile" (("a" "little" "while")"alittlewhile")
(("believe" "so")"believeso") (("as" "far" "as")"asfaras")
(("byebye")"byebye") (("as" "long" "as")"aslongas")
(("for" "example")"forexample") (("as" "well" "as")"aswellas")
(("ga" "sk")"gask") (("by" "the" "way")"bytheway")
(("hang" "down")"hangdown") (("ga" "or" "sk")"gaorsk")
(("hope" "so")"hopeso") (("ga" "to" "sk")"gatosk")
(("ily" "smile")"ILoveyou,smile") (("ha" "ha" "ha")"hahaha")
(("instead" "of") "insteadof") (("just" "ok" "enough") "justokenough")
(("it" "s")"it" "S") (("mother" "in""law") "mother-in-law")
(("just" "ok")"justok") (("other" "than" "that") "otherthanthat")
(("ok" "bye")"okbye") (("over" "n" "over") "overandover")
(("ok" "enough")"okenough")
((open" "up")"openup")
(("opened" "up")"openedup")
(("put" "off")"putoff")
(("thlnk" "so")"thinkSO")
(("u" "ll" ")"you"ll")
(("u" "sie") "re")"you're")
(("un" "ven)"you've")
(("went" "on")"wenton")
Die von Block 250 ausgeführten Regeln können manuell nach Kundenwünschen an die Anwendung angepaßt und aufgrund der gewonnenen Erfahrung verändert werden. Nachfolgend ist ein Beispiel derartiger Regeln dargestellt, (beschrieben in der verwendeten Reihenfolge).

Regel 1 3-Wortausdruck, der aus Term1 Term2 Term3 gebildet wird

Wenn Term1-Schreibweise + Term2-Schreibweise + Term3- Schreibweise in der 3-Wörter-Ausdrücke-Tabelle gefunden wird
dann
ERSETZE die Schreibweise von Term3 durch eine kanonische Schreibweise
ERRECHNE ERNEUT die Kategorie und die speziellen Kategorien für die neue Schreibweise
LÖSCHE Term1 und Term2 aus der Ausdrucksliste AKTUALISIERE die Ausdrucksliste

Regel 2 - 2-Wort-Ausdrücke - Term1 Term2

Wenn Term1-Schreibweise + Term2-Schreibweise in der Tabelle für 3-Wörter-Ausdrücke gefunden wird dann
ERSETZE die Betonung von Term² durch die kanonische Betonung
ERRECHNE ERNEUT die Kategorie und die speziellen Kategorien der neuen Schreibweise
LÖSCHE Term1 aus der Ausdrucksliste
AKTUALISIERE die Ausdrucksliste

Regel 3 - 1-Wort-Abkürzung term1

Wenn die speziellen Kategorien von Term1 in der Abkürzungstabelle gefunden werden
dann
ERSETZE die Schreibweise von Term1 durch die kanonische Betonung
ERRECHNE ERNEUT die Kategorie und die speziellen Kategorien für die neue Schreibweise

Regel 4 - Eindeutig machen Term1 Term2 Term3 (Beispiel)

Wenn die Kategorie von Term1 "num" ist und die Schreibweise von Term² "am" ist)
dann
ERSETZE die Schreibweise von Term² durch "AM" Auf den Block 250 folgen Block 260, der die Verarbeitung durch Einfügen von Wortverbindungsregeln fortsetzt, die prosodische Stichwörter dem Sprachsynthesizer zuführt, indem die Pause-vorher-, Pause-nachher und Unbetont-Felder der ausgewählten Ausdrücke aufgeführt werden. Bei den ausgeführten Regeln kann es sich um folgende Regeln handeln:

Regel 5 - Gesprächsschlüssel Term1 Term2 Term3

(1) Wenn die speziellen Kategorien des Term2 interjection 1 enthalten,
dann
wenn die speziellen Kategorien von Term1 interjection_mod enthalten),
dann
SETZE Pause-vorher von Term1 auf "wahr"
SETZE Pause-nachher von Term2 auf "wahr" sonst SETZE Pause-vorher von Term2 auf "wahr"
SETZE Pause-nachher von Term2 auf "wahr"
(2) Wenn die speziellen Kategorien von Term2 interjection 2 enthalten,
dann
wenn die speziellen Kategorien von Term1 interjection mod enthalten,
dann
SETZE Pause-nachher von Term1 auf "wahr"
SETZE Pause-nachher von Term2 auf "wahr"
(3) Wenn das vorherige Feld von Term1 NULL ist und die speziellen Kategorien von Term1 entweder interjection 1 oder interjection 2 enthalten
dann
SETZE Pause-nachher von Term1 auf "wahr"

Regel 6 - Verbindung Term1 Term2 Term3

Wenn die speziellen Kategorien von Term2 oneof_and_or_nor enthalten),
dann
wenn die Schreibweise von Term1 nicht identisch mit der Schreibweise von Term3 ist, oder
die Kategorie von Term1 nicht identisch zur Kategorie von Term3 ist
dann
SETZE Pause-nachher von Term1 auf "wahr"

Regel 7 - Nominativpronomen Term1 Term2 Term3

(1) wenn die speziellen Kategorien von Term3 nom pronouns enthalten, und
die speziellen Kategorien von Term2 aux_verb.1 enthalten
dann
wenn die Kategorie von Term1 WH ist
dann
SETZE Pause-vorher von Term1 auf "wahr" sonst
SETZE Pause-vorher von Term2 auf "wahr"
(2) Wenn die speziellen Kategorien von Term3 nom pronouns umfassen, und
die speziellen Kategorien von Term2 pre np 1 enthalten
oder die Kategorien von Term2 = ADV sind dann
wenn die Kategorie von Term1 NICHT gleich CONJ oder PREP ist, und
die Schreibweise von Term1 NICHT "that's", "thats", "its" oder "its" enthält
dann
SETZE Pause-vorher von Term2 auf "wahr" (3) Wenn die speziellen Kategorien von Term2 nom pronouns umfassen,
dann
wenn die Kategorie von Term1 NICHT gleich CONJ oder PREP ist, und
die speziellen Kategorien von Term2 NICHT (subord 1, subord 2, pre np I oder aux verb 1)umfassen dann
SETZE Pause-vorher von Term2 auf "wahr"

Regel 8 - There is Term1 Term2 Term3

(1) wenn die Schreibweise von Term3 "there" ist und die speziellen Kategorien von Term2 aux verb 1 umfassen
dann
wenn die Kategorie von Term1 = WH ist
dann
SETZE Pause-vorher von Term1 auf "wahr"
(2) wenn die Schreibweise von Term2
"theres" "theres" "that's" "thats" oder "there" ist und
die speziellen Kategorien von Term3 aux verb 1 umfassen) dann
wenn die Kategorie von Term1 NICHT gleich CONJ oder PREP ist, oder
die speziellen Kategorien von Term1 NICHT subord 1, subord 2 oder pre np 1 umfassen
dann
SETZE Pause-vorher von Term2 auf "wahr"

Regel 9 - Unterordnen conj Term1 Term2 Term3

(1) wenn die speziellen Kategorien von Term3 subord 1 umfassen
dann
wenn die Ausdruckskategorie von Term2 NICHT gleich NUM ist und die Schreibweise von Term3 NICHT gleich "till", "tll" oder "untll" ist,
dann
wenn die speziellen Kategorien von Term2 subord mod, umfassen, oder die Kategorie von Term2 gleich CONJ ist dann
SETZE Pause-nachher von Term1 auf "wahr" SONST
SETZE Pause-nachher von Term2 auf "wahr"
(2) Wenn die speziellen Kategorien von Term3 subord 2 und subord mod umfassen oder
die Kategorie von Term2 gleich CONJ oder PREP ist dann
SETZE Pause-nachher von Term1 auf "wahr"

Regel 10 - letzter unbetonter Term1 Term2

Wenn die speziellen Kategorien von Term1 destress pronouns umfassen
dann
(1) wenn Pause-vorher von Term2 "wahr" ist dann
SETZE unbetont von Term1 auf "wahr"
(2) Wenn Pause-nacher von Term1 "wahr" ist dann
SETZE unbetont von Term1 auf "wahr".

Regel 11 - Finde ga Term1

(1) Wenn die speziellen Kategorien von Term1 q go ahead umfassen
dann
a) ERSETZE die Schreibweise von Term1 durch "vorangehen"
SETZE die speziellen Kategorien von Term1 auf 0
(b) wenn der Vorgänger von Term1 NICHT gleich 0 ist
SETZE die Interpunktion des Vorgängers des Term1 auf "?"
(2) Wenn die speziellen Kategorien des Term1 go ahead 2 enthalten),
dann
ERSETZE die Schreibweise von Term1 durch "vorangehen"
SETZE die speziellen Kategorien von Term1 auf 0 (3) Wenn die speziellen Kategorien von Term1 "go ahad 1 umfassen
dann
ERSETZE die Schreibweise von Term1 durch "fortfahren bis zum Eingabestop"
SETZE die speziellen Kategorien von Term1 auf 0
(4) Wenn die speziellen Kategorien des Term1 "Eingabe stoppen" umfassen
dann
ERSETZE die Schreibweise von Term1 durch "Eingabe stoppen"
SETZE die speziellen Kategorien von
Term1 auf 0
Zuletzt erzeugt der Block 260 eine Ausgangsdatei für die letzte Aussprachefolge. Der Block verarbeitet die Lste von Ausdrücken vom ersten bis zum letzten Ausdruck wie folgt:
Wenn Pause-vorher-Feld = WAHR
dann schreibe eine Pausensteuerfolge
wenn unbetont = WAHR
dann schreibe eine Unbetont-Steuerfolge) schreibe den Inhalt der Schreibweisefelder wenn Pause-nachher = WAHR
dann schreibe eine Pausensteuerfolge
schreibe den Inhalt des Interpunktionsfeldes

Claims

1. Umsetzer (10) zum Zusammensetzen eines frei gebildeten Textes zu einem Sprachsignal mit folgenden Merkmalen:

ein Wortdetektor (11), der unter Ansprechen auf ein frei gebildetes Textsignal einzelne Wörter in dem Textsignal erfaßt und damit eine zusammenhängende Wortfolge bildet,

eine auf die vom Wortdetektor erfaßten Wörter ansprechende Wortkategorisierungseinrichtung (15) zum Analysieren jedes Wortes in der Wortfolge, die von der Wortkategorisierungseinrichtung (15) in Bezug auf N Nachbarwörter der empfangenen Folge empfangen werden, wobei N eine ganze Zahl ist, und zum Festlegen der Kategorien, in die jedes der analysierten Wörter gehört,

eine Einrichtung zur Syntax-Vergrößerung (15), die unter Ansprechen auf die Wortkategorisierungseinrichtung (15) Pausenerzeugungssignale vor oder nach ausgewählten Wörtern einfügt, die von der Wortkategorisierungseinrichtung (15) klassifiziert werden, wobei die Wörter auf der Grundlage ihrer Kategorien ausgewählt werden, gekennzeichnet durch

eine Wortmodifikationseinrichtung in der Wortkategorisierungseinrichtung (15) zum Erkennen des Fehlens von Wörtern, die für einen gewählten Verständlichkeitsgrad notwendig sind, und zum Einfügen der fehlenden Wörter.

2. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wörter auf der Grundlage ihrer Kategorien und auf der Grundlage der Kategorien von benachbarten Wörtern ausgewählt werden.

3. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wörter auf der Grundlage ihrer Kategorien und der Grundlage der Kategorien von Wörtern, die den gewählten Wörtern folgen, ausgewählt werden.

4. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Einrichtung zur Syntax- Vergrößerung (15) Signale zur Erzeugung einer Nachentzerrung ausgewählten Wörtern zuordnet, die von der Wortkategorisierungseinrichtung (15) basierend auf den Kategorien der gewählten Wörter und auf der Grundlage der Kategorien von Wörtern, die den gewählten Wörtern benachbart sind, kategorisiert werden

5. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wortkategorisierungseinrichtung (15) ein N-Wort- Schieberegister (12, 13, 14) zum Schieben von Wörtern durch das Schieberegister (12, 13, 14) umfasst, um ein N-Wort-Schiebefenster zum Analysieren der Wörter in der Wortfolge, die von der Kategorisierungseinrichtung (15) empfangen wird, zu bilden.

6. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wortkategorisierungseinrichtung (15) eine Einrichtung zur Wortspeicherung (12, 13, 14) und eine Wortzugriffseinrichtung (12, 13, 14) zum Erzeugen eines N-Wort-Fensters umfasst, das über die Wortfolge gleitet, um eine Analyse der von der Kategorisierungseinrichtung (15) empfangenen Wörter zu ermöglichen.

7. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass der Umsetzer weiterhin einen Sprachsynthesizer (20) umfasst, der unter Ansprechen auf vom Wortdetektor (11) erfasste Wörter und auf Signale zur Pausenerzeugung ein Sprachsignal erzeugt.

8. Umsetzer (10) nach Anspruch 4, dadurch gekennzeichnet, dass der Umsetzer weiterhin einen Synthesizer (20) umfasst, der unter Ansprechen auf vom Wortdetektor (11) erfasste Wörter, auf Signale zur Pausenerzeugung und auf Nachentzerrungssignale ein Sprachsignal erzeugt.

9. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass der Umsetzer weiterhin einen FIFO-Speicher (16) umfasst, der zwischen dem Wortdetektor (11) und der Wortkategorisierungseinrichtung (15) zum Speichern von vom Wortdetektor (11) erfassten Wörtern angeordnet ist.

10. Umsetzer (10) nach Anspruch 9, dadurch gekennzeichnet, dass der FIFO-Speicher (16) Wörter unter Steuerung des Wortdetektors (11) speichert und Wörter unter Steuerung der Wortkategorisierungseinrichtung (15) ausgibt.

11. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass der Umsetzer weiterhin einen Ausgangs-FIFO-Speicher (17) zum Speichern der vom Wortdetektor (11) erfassten Wörter und zum Speichern der Signale zur Pausenerzeugung, die von der Einrichtung zur Syntax-Vergrößerung erzeugt werden, umfasst.

12. Umsetzer (10) nach Anspruch 7, dadurch gekennzeichnet, dass der Umsetzer weiterhin einen Ausgangs-FIFO-Speicher (17) umfasst, der vor dem Synthesizer (20) angeordnet ist und die vom Wortdetektor (11) erfassten Wörter sowie die Signale zur Pausenerzeugung, die von der Einrichtung zur Syntax- Vergrößerung (15) gebildet werden, speichert.

13. Umsetzer (10) nach Anspruch 7, dadurch gekennzeichnet, dass der Ausgangs-FIFO-Speicher (17) Signale zum Synthesizer (20) unter Steuerung der Signale zur Pausenerzeugung übermittelt.

14. Umsetzer (10) nach Anspruch 7, dadurch gekennzeichnet, dass der Ausgang des Synthesizers (20) mit einem Kommunikationsnetz zum Senden von Sprachsignalen zum Kommunikationsnetz verbunden ist.

15. Umsetzer (10) nach Anspruch 14, dadurch gekennzeichnet, dass der Umsetzer weiterhin einen Sprach-zu-Text-Umsetzer (30) umfasst, der mit dem Kommunikationsnetz zum Empfangen von Sprachsignalen und zum Umwandeln empfangener Sprachsignale in Text verbunden ist.

16. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wortmodifikationseinrichtung (15) in der Wortkategorisierungseinrichtung (15) Wörter erkennt, die Abkürzungen vollständiger Wörter sind, und die Abkürzungen durch ihre entsprechenden vollständigen Wörter ersetzt.

17. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wortmodifikationseinrichtung (15) in der Wortkategorisierungseinrichtung Wörter erkennt und entfernt, die verrauscht sind.

18. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wortmodifikationseinrichtung (15) in der Wortkategorisierungseinrichtung Wortverbindungen erkennt und jede Wortverbindung als eine einzelne Einheit klassifiziert.