DE69131549T2 - Parsingsystem für geschriebene Sprache - Google Patents

Parsingsystem für geschriebene Sprache

Info

Publication number
DE69131549T2
DE69131549T2 DE69131549T DE69131549T DE69131549T2 DE 69131549 T2 DE69131549 T2 DE 69131549T2 DE 69131549 T DE69131549 T DE 69131549T DE 69131549 T DE69131549 T DE 69131549T DE 69131549 T2 DE69131549 T2 DE 69131549T2
Authority
DE
Germany
Prior art keywords
word
words
converter
speech
categorization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69131549T
Other languages
English (en)
Other versions
DE69131549D1 (de
Inventor
Joan C. Bachenko
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE69131549D1 publication Critical patent/DE69131549D1/de
Publication of DE69131549T2 publication Critical patent/DE69131549T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

  • Die Erfindung bezieht sich auf Sprachsynthese eines frei erzeugten Textes und insbesondere auf die Synthese eines von einer akustisch behinderten (hör- oder sprachbehinderten) Person frei erzeugten Textes.
  • Der Übertragungsdienst für zwei Teilnehmer (Dual Party Relay Service) ist ein Dienst, der es Sprach- oder Hörbehinderten ermöglicht, mit Personen zu kommunizieren, die nicht auf diese Weise behindert sind. Durch Wählen einer bestimmten Rufnummer werden solche Personen mit einem Operator zusammengeschaltet, der den rufenden Teilnehmer mit dem gerufenen Teilnehmer verbindet und das zustande gekommene Gespräch überträgt.
  • Insbesondere werden eingehende Rufe von Sprach- oder Hörbehinderten über eine digitale Einrichtung geführt, wie etwa eine Telekommunikationseinrichtung für Taube (Telecommunications Device for the Deaf, TDD) oder ein Computerterminal und ein Modem. Der sprach- oder hörbehinderte Nutzer gibt Text über die TDD (oder ähnliches) ein, der empfangen und dem Operator angezeigt wird. Über eine getrennte Verbindung spricht der Operator die angezeigten Textwörter zum nicht behinderten Teilnehmer, hört die gesprochene Antwort des nicht behinderten Teilnehmers und übermittelt eine geschriebene Textnachricht, die der vom Operator gehörten, gesprochenen Antwort entspricht, an den sprach- oder hörbehinderten Teilnehmer. Der hörbehinderte Teilnehmer empfängt die geschriebene Textnachricht auf einer Anzeigeeinrichtung.
  • Das vorstehend beschriebene Verfahren leidet an einem Mangel an Privatsphäre. Es ist zudem sehr langsam, schwerfällig und stark arbeitsaufwendig. Es wäre sowohl für die Nutzer als auch für die Telefongesellschaft sehr nützlich, die Beteiligung des Operators an Rufen zu und von sprach- oder hörbehinderten Teilnehmern zu vermeiden oder wenigstens zu verringern.
  • Die Möglichkeit zum Beseitigen des Bedarfs nach der Unterstützung durch einen Operator besteht eindeutig in der Richtung, in der Text zu Sprache umgewandelt wird. Ein Beispiel ist der "Telefoninformationsdienst" von AT & T und den Beil Operating Companies. Als Reaktion auf eine Anfrage greift der Telefoninformations-Operator auf eine Datenbank zu, identifiziert die gewünschte Nummer und aktiviert einen Synthesizer. Dieser und alle weiteren bekannten Text-zu- Sprache-Synthesizersysteme beschäftigen sich jedoch ausschließlich mit "konservierter" Sprache, das heißt mit einer Sprache (oder Text) mit vordefinierter Syntax und vordefiniertem Vokabular.
  • Prinzipiell sollte es möglich sein, den Text, der von einem TDD-Benutzer erzeugt wurde, in einen Sprachsynthesizer einzugeben und den Synthesizer die gesprochenen Wörter erzeugen zu lassen, die an eine nicht sprach- oder hörbehinderte Person übermittelt werden können. In der Praxis ist dies nicht einfach zu erreichen. Sprachsynthesizer wandeln Text in Sprache exakt so um, wie der Text erscheint. Dies erfordert einen korrekten, fehlerfreien, richtig interpunktierten Text in einer Standardsyntax. Die geschriebene Sprache der Tauben jedoch offenbart viele Abweichungen von erwarteten Muster der englischen Syntax (oder anderer Sprachen). Die nachfolgenden drei Sätze sind Beispiele geschriebener Sprache von Tauben (WLD), die von verschiedenen Schreibern erzeugt wurden:
  • They tend refusing to communicate. Some people have strong based on knowledges. I have many appointment from my childrens.
  • In einer Studie der WLD im Deaf English Technical Report 236, Institute for Mathematical Studies in the Social Sciences, Stanford University, 1974, behauptet V. R. Charrow, daß die Veränderlichkeit von WLD systematisch ist und Regeln unterliegt. Sie schreibt:
  • Ich vermute, daß Taube eine unterschiedliche Vielfalt der englischen Sprache bilden, basierend auf einer Verinnerlichung bestimmter Regeln der englischen Sprache, aber keine anderem Regeln, und in manchen Fällen durch Störungen von ASL, deren Regeln sich fundamental von denen der englischen Sprache unterscheiden, beeinflußt werden. Das Ergebnis ist das hypothetische "Tauben-Englisch".
  • Eine Untersuchung der WLD-Syntax unterstützt Charrows Behauptung. Obwohl syntaktische Veränderungen in WLD-Texten zufällig auftreten, zeigt eine nähere Betrachtung, daß die Veränderungen übereinstimmen. WLD offenbart eine Sammlung von Nicht-Standardmerkmalen, die identifiziert und beschrieben werden können. Einige anekdotische Beweise für diese Schlußfolgerung stammen aus der Tatsache, daß sich Sprecher von Standardenglisch nach Lesen einer Anzahl von WLD-Texten gewöhnlich diesem Stil anpassen. Ernsthafte Verständigungsprobleme scheinen nur aufzutauchen, wenn Sätze extrem telegrafisch, die Wörterordnung außergewöhnlich frei oder die lexikalische Auswahl undurchsichtig ist.
  • Laurreur et al. offenbaren in, "Linguistic and Prosodic Processing For a Text-To-Speech Synthesis System", Eurospeech 89, September 1989, Seiten 590 bis 593, ein Text-zu-Sprache- System, das das automatische prosodische Parsing refomiert, das auf der Erkennung einer kleinen Anzahl grammatikalischer Wörter beruht. Laurreur beschreibt einen prosodischen Parsing-Algorithmus, der eine rekursive, morphosyntaktische links-nach-rechts-Analyse umfaßt, die jedem Wort im Text einen grammatikalischen Wert zuordnet und den Text phonetisch umschreibt. Einhundertvierzig (140) hierarchische Parsingregeln teilen die Nachricht dann in eine Folge prosodischer Gruppen. Prosodische Muster werden jedem Wort durch Abfragen einer Datenbank prosodischer Ereignisse automatisch zugeordnet.
  • US-A-4 872 202 offenbart ein Umsetzungssystem, das ein Wort nach Ausnahmen überprüft, das Wort in Phoneme unter Verwendung der Satz- und Wortstruktur und die Phoneme in LCP- Parameter umwandelt.
  • EP-A-327 266 offenbart ein Verfahren zum Bestimmen von Sprachabschnitten und zum Parsing von Substantivverbindungen. Das Bestimmen von Sprachabschnitten verbessert das Produkt lexikalischer Wahrscheinlichkeiten von einzelnen Wörtern bei normalisierten Wahrscheinlichkeiten im Kontext von drei Wörtern.
  • Van Coile et al., beschreibt in "Dutch Text-To-Speech Aids For the Vocally Handicapped", Eurospeech 89, September 1989, Seiten 590 bis 593, zwei niederländisch sprechende Kommunikationshilfen. Dieses Text-zu-Sprache-System umfaßt einen linguistischen, einen phonetischen und einen Synthesizer-Abschnitt. Der linguistische Abschnitt erzeugt die phonetische Übertragung des Eingabetextes, der phonetische Abschnitt verwendet die durch den linguistischen Abschnitt verfügbar gemachte Information zum Erzeugen von Sprachparametern und ein Synthesizer-Abschnitt verwendet die Sprachparameter zum Ansteuern eines Sprachsynthesizers.
  • Kurz gesagt wird für den Übertragungsdienst für zwei Teilnehmer die Fähigkeit zur Annahme und zum Synthetisieren eines frei erzeugten Textes benötigt. Die Beschaffenheit von WLD deutet darauf hin, daß eine Computeranalyse dieser · Sprachart durchführbar sein könnte.
  • Die Erfindung ist in Anspruch 1 umschrieben, bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen angegeben.
  • Motiviert durch den Bedarf, den Übertragungsdienst für zwei Teilnehmer zu verbessern, stellt die Erfindung eine Text-zu-Sprache-Synthese frei erzeugten Textes bereit. Insbesondere stellt die Erfindung einen Text-zu-Sprache- Synthesizer bereit, der eine frei erzeugte Textsequenz von Wörtern annimmt und die Sequenz mit richtiger Betonung und mit richtig gesetzten Pausen synthetisiert. In Kombination mit weiteren Elementen sorgt die Erfindung für einen verbesserten Übertragungsdienst für zwei Teilnehmer, bei dem der vom sprach- oder hörbehinderten Teilnehmer erzeugte Text ohne Beteiligung eines Operators synthetisiert wird. Die Synthese kann in dem Gebäude der sprach- oder hörbehinderten Person, in der lokalen Telefonzentrale oder an einigen vorbestimmten lokalen Orten stattfinden.
  • In Kombination mit weiteren zusätzlichen Elementen sorgt die Erfindung für eine vollständig automatische Zweiwege- Kommunikation mit sprach- oder hörbehinderten Teilnehmern durch Einfügen eines Sprach-zu-Text-Umsetzers.
  • Gemäß den Prinzipien der Erfindung wird ein von einem sprach- oder hörbehinderten Teilnehmer erzeugter Text durch Interpretieren von Abkürzungen, Korrigieren von Fehlern (falsche Schreibweise und "Rauschen"), Übersetzen bestimmter Ausdrucke, die gewöhnlich von sprach- oder hörbehinderten Personen verwendet werden, durch Übersetzen nicht standardisierter Wortfolgen oder kurzer Sätze und im Wesentlichen durch Umwandeln der Textnachrichten in standardisiertes Englisch verständlicher. Zusätzlich werden Pausen zum Erhöhen der Verständlichkeit eingefügt.
  • Bei einer bevorzugten erfindungsgemäßen Ausführungsform wird Text einem Prozessor zugeführt, der eine ausgewählte Anzahl von Wörtern gleichzeitig analysiert. Basierend auf vordefinierten Regeln werden Signale an einen gewöhnlichen Synthesizer zum Erzeugen des Sprachsignals angelegt. Es zeigen:
  • Fig. 1 ein Blockschaltbild eines Text-zu-Sprache- Schallwandlungssystems;
  • Fig. 2 die Verwendung des Text-zu-Sprache- Umwandlungssystems in einem Telefonnetz zusammen mit einem Sprach-zu-Text-Umwandlungssystems;
  • Fig. 3 ein Flußdiagramm für eine Art einer Signalverarbeitung des Systems nach Fig. 1; und
  • Fig. 4 ein Flußdiagramm für eine weitere Art einer Signalverarbeitung des Systems nach Fig. 1.
  • Fig. 1 stellt in Form eines Blockschaltbildes eine Ausführungsform für den frei erzeugten-Text-zu-Sprache- Synthesizer der Erfindung dar. Block 10 ist ein intelligenter Parser und Block 20 ist ein Synthesizer. Der Synthesizer 20 ist ein gewöhnlicher Synthesizer, wie etwa der "Olive- Libermann Synthesizer", J. P. Olive und M. Y. Libermann, 1985, Text-zu-Sprache - An Overview, Journal of the Acoustic Society of America, Supplement 1 78, Seite 6. Dessen Eingangssignal auf der Leitung 21 ist Text, der gleichzeitig mit speziellen Befehlen kommentiert wird. Dessen Ausgangssingal auf der Leitung 22 ist das analoge Sprachsignal.
  • Der intelligente Synthesizer 10 umfaßt einen Wortdetektor 11, "Wortspeicherblöcke" 12, 13 und 14 und einen regelbasierten Prozessor 15. Text wird in den Wortdetektor 11 eingegeben, in dem Wörter oder Ausdrücke identifiziert werden. Typischerweise kennzeichnet ein Leerzeichen, ein Interpunktionszeichen oder das Zeilenende das Ende eines Ausdrucks. Die Interpunktionszeichen sind an sich selbst Ausdrücke. Die erkannten Ausdrücke werden in die in Reihe geschalteten Wortspeicher 12, 13 und 14 in der Art eines Schieberegisters eingefügt. Obwohl die Fig. 1 die Verwendung von drei Wortspeichern (12, 13 und 14) darstellt, ist verständlich, daß jede Anzahl solcher Speicher verwendet werden kann. Die in jedem Wortspeicher gespeicherten Ausdrücke werden vom regelbasierten Prozessor 15 empfangen.
  • Die Funktion des Prozessors 15 liegt darin, die angelegten Ausdrücke zu analysieren und zu verändern, Betonungen und Pausen an syntaktisch richtige Stellen einzufügen und die veränderten Ausdrucke dem Synthesizer 20 zu geeigneten Zeiten zuzuführen.
  • Die im Prozessor 15 ausgeführten Regeln können in zwei Klassen eingeteilt werden: Regeln, die Ausdrücke identifizieren und verändern, und Regeln, die relevante syntaktische Informationen erkennen.
  • Die Regeln, die Ausdrücke identifizieren und verändern, achten auf das Erkennen von Abkürzungen, das Erkennen spezieller Ausdrücke, die vom relevanten Teilnehmerkreis verwendet werden, das Erkennen von Wortverbindungen, die eine Anzahl von Wörter umfassen, die gleich der Anzahl der Wortspeicher ist (in Fig. 1, ist die Anzahl 3), und Erkennen von falschen Schreibweisen, typografischen Fehlern und weiteren "Rauscheingaben". Eine gewöhnliche "Rauscheingabe" ist beispielsweise "XXXXX", die typischerweise das Streichen von Buchstaben kennzeichnet (in diesem Fall fünf Buchstaben) Zusätzlich zu den vorstehenden Wortveränderungen führen die Regeln, die Ausdrücke identifizieren und verändern, auch eine Funktion zur Entfernung von Mehrdeutigkeiten durch, um einen genaueren und verständlicheren Text zu erzeugen. Dies umfaßt das Hinzufügen von Wörtern (z. B. Präpositionen), um einen Text mit einer höher standardisierten englischen Syntax zu erzeugen.
  • Nachdem die Regeln, die Ausdrücke identifizieren und verändern, angewendet wurden, werden die syntaktischen Regeln angewendet. Diese Regeln verwenden lokale syntaktische Einschränkungen, um festzustellen, ob eine Pause vor oder nach einem Wort im Wortspeicher auftreten soll.
  • In Verbindung mit Pausen muß das Problem der Eingabe und Verarbeitungs-Synchronisation betrachtet werden. Die Synchronisation gesprochener Sprache ist ziemlich wichtig für die Verständlichkeit, oder genauer gesagt, die relative Synchronisation von Wortgruppen ist kritisch. Die Synchronisation-Information jedoch ist in einem vom TDD bereitgestellten Text nicht verfügbar, und die Ankunftszeiten der Textwörter haben in keiner Weise eine Beziehung zur richtigen Synchronisation der gesprochenen Sprache. Zusätzlich sind die Verarbeitungszeiten im Prozessor 15 nicht a priori bekannt, so daß der Zeitverlauf der Ausgangssignale des Prozessors 15 nicht dem Zeitverlauf der Eingangssignals folgt. Darüber hinaus kann der Zustand auftreten, bei welchen ein zeitlich genau ankommender Text so viel Verarbeitungszeit erfordert, daß ein Eingangspuffer bereitgestellt werden muß, wohingegen in anderen Situationen der Text langsam ankommen kann und eine wesentliche Lücke bei der vom Prozessor 15 benötigten Verarbeitungszeit auftrat. Keine der Situationen sollte erlaubt sein, um die zeitliche Korrektheit des synthetisierten Ausgangssignals zu beeinträchtigen.
  • Zu diesem Zwecke umfaßt der intelligente Parser 10 einen FIFO-Speicher 16, der zwischen dem Wortdetektor 11 und dem "Wortspeicher" 12 angeordnet ist, und einen FIFO-Speicher 17, der zwischen dem Prozessor 15 und dem Synthesizer 10 angeordnet ist. Der FIFO-Speicher 16 arbeitet unter Steuerung des Wortdetektors 11 und des Prozessors 15. Sobald ein Ausdruck erkannt wird, wird er im FIFO 16 gespeichert; und sobald das Verarbeiten des Ausdrucks im "Wortspeicher 14" beendet ist, wird der älteste Ausdruck des FIFO 16 in den Wortspeicher 12 eingelesen.
  • Der FIFO 17 wird auch vom Prozessor 15 gesteuert; er arbeitet jedoch in einer geringfügig anderen Weise. Sobald der Ausdruck vom Prozessor 15 verändert wird, wird er in den FIFO 17 eingelesen. Veränderte Ausdrücke werden weiter eingelesen, bis der Prozessor 15 feststellt, daß eine Pause im Gespräch angefordert wird. Zu dieser Zeit werden alle im FIFO 17 sortierten Ausdrücke der Reihe nach ausgeschrieben und an den Synthesizer 20 übermittelt. Auf diese Weise wird das vollständig willkürliche Zeitverhalten der eingehenden Wörter durch ein Zeitverhalten ersetzt, das zum Rhythmus der natürlichen Sprache paßt.
  • Der Aufbau nach Fig. 1 zeigt eine unterschiedliche Hardware zum Ausführen der Funktionen des intelligenten Parser-Synthesizers der Erfindung. Ein derartiger Parser- Synthesizer kann in jeder lokalen Telefonzentrale oder in einigen regionalen Zentralen angeordnet werden, oder einem bestimmten Servicetyp zugeordnet werden (z. B. dem "800- Dienst", bei dem der angerufene Teilnehmer zahlt, oder dem "900-Dienst", bei dem der anrufende Teilnehmer zahlt).
  • Derartige Hardware kann auch in einer sehr kompakten Anordnung verwirklicht werden, die in einem oder ganz wenigen zusammenwirkenden Schaltkreisen implementiert ist. Wenn dies verwirklicht ist, und wenn die Kosten gering genug sind, kann der intelligente Parser-Synthesizer nach Fig. 1 in einer Vorrichtung im Gebäude eines Kunden enthalten sein. Fig. 2 zeigt eine derartige Anordnung, die ein Subsystem im Gebäude des Kunden umfaßt, das mit dem Telefonnetz verbunden ist. Das Subsystem nach Fig. 2 umfaßt den intelligenten Parser- Synthesizer für den abgehenden Pfad und einen Sprach-zu-Text- Umsetzer 30 für den eingehenden Pfad. Beide Pfade sind mit dem Telefonnetz verbunden, wobei der Teilnehmer am linken Abschnitt der Zeichnung über das Telefonnetz mit einigen weiteren Teilnehmern im rechten Abschnitt der Zeichnung verbunden ist.
  • Sprach-zu-Text-Umsetzer 30 arbeiten bis jetzt nicht stabil genug, um frei fließende Sprache beliebiger Sprecher zu erkennen und zu erfassen; aber einige Systeme sind verfügbar, die zum Erkennen von bis zu 5000 Wörtern trainiert werden können, wenn die Systeme für einen bestimmten Sprecher ausgebildet werden. Andere Systeme erkennen ein kleineres Vokabular, jedoch von beliebigen Sprechern. Sogar diese mäßige Fähigkeit ist nützlich, weil der sprach- oder hörbehinderte Teilnehmer, wenn ein Erkennungssystem für 5000 Wörter verwendet wird, in einigen Fällen die Hilfe eines Operators überhaupt nicht benötigt, beispielsweise dann, wenn er über Telefon mit bestimmten Personen(z. B. dem Ehegatten) spricht.
  • Es gibt einen weiteren Gesichtspunkt zur Ausbildung der Hardware, die der intelligente Parser-Synthesizer annehmen kann. Das heißt, der Aufbau nach Fig. 1 kann einen programmgesteuerten Prozessor aufweisen, der alle Elemente nach Fig. 1 oder wenigstens alle Elemente des Blocks 10 umfaßt.
  • Fig. 3 zeigt ein Flußdiagramm für das Verarbeiten, das in der beispielhaften Hardware nach Fig. 1 ausgeführt wird, während Fig. 4 ein Flußdiagramm für das Verarbeiten zeigt, welcher mit einem programmgesteuerten Prozessor, der alle Elemente von Block 10 umfaßt, ausgeführt wird.
  • Der erste Block in Fig. 3 (Block 100) wandelt jeden Ausdruck, der in den "Wortspeicher" 12 eingeschrieben wird, in eine Datenstruktur um. Das heißt, jeder Ausdruck wird Teil eines zugeordneten Satzes von Informationen, wie etwa der Schreibweise des Ausdrucks, dem Gesprächsabschnitt, zu dem der Ausdruck gehört, und ob der Ausdruck eine Abkürzung ist etc. (Da die in den "Wortspeichern" 13 und 14 gespeicherten Ausdrücke vorher im "Wortspeicher" 12 gespeichert waren, sind deren Datenstrukturen bereits im Prozessor 15 gespeichert).
  • Wenn die Datenstrukturen für die Ausdrücke in den Wortspeichern erzeugten sind, werden im nächsten Schritt (Block 110) die Wortanpassungsregeln angewendet. Die Ergebnisse der Wortanpassungsregeln werden in den Datenstrukturen gespeichert. Als nächstes werden im Block 120 die syntaktischen Regeln angewendet, um festzustellen, ob Pausen- oder Deemphasis-Flags gesetzt werden sollen. Die Ergebnisse dieser Analysen werden ebenfalls in den Datenstrukturen gespeichert. Zuletzt wird im Block 130 der verarbeitete Ausdruck des "Wortspeichers" im FIFO 17 gespeichert.
  • Der Block 140 führt die Abfrage aus, die zu einem Ausgangssignal führt, das dem Synthesizer bereitgestellt wird. Wenn festgestellt wird, daß der im FIFO 17 gespeicherte Ausdruck ein "Pause-vorher"-Flag umfaßt, wird der FIFO geleert (die gespeicherte Information wird zum Synthesizer übertragen) und der Ausdruck wird danach im FIFO gespeichert. Wenn ein "Pause-nachher"-Flag gefunden wird, wird der Ausdruck zuerst gespeichert und nach dem Speichervorgang wird der FIFO geleert. Wenn kein Flag gefunden wird, wird der Ausdruck nur gespeichert. In jedem Fall, wie in Fig. 3 dargestellt, wird der Prozeß in Block 100 fortgesetzt, um den nächsten Ausdruck vom FIFO 16 zu erhalten, und zwar so, wie der Ausdruck in den "Wortspeicher" 12 geladen wurde.
  • Fig. 4 stellt den Vorgang dar, bei dem der intelligente Parser der Erfindung durch einen programmgesteuerten Prozessor realisiert wird. Der Block 200 speichert die Eingabetextfolge in einen Speicher und setzt eine Variable "Eingangs-Folge" (Terminal-String) als Eingabetextfolge. Der Block 210 wandelt jedes Wort in einer "Eingangs-Folge" in eine Ausdrucksdatenstruktur mit den nachfolgenden Feldern um:
  • Schreibweise: Die Schreibweise des Wortes oder die geschriebene Form des Wortes minus jeder Interpunktion (?, !, ;). Man beachte, daß der Punkt (.) nicht als Interpunktionszeichen enthalten ist, weil einige gewöhnliche TDD- Wörter periodisch enden.
  • Kategorie: Wenn das erste Zeichen eines Wortes eine Ziffer ist (1, 2, 3, 4, 5, 6, 7, 8, 9, 0) wird NUM als Kategorie ausgegeben, andernfalls ist die Kategorie des Ausdrucks die lexikalische Kategorie des Ausdrucks, die dem Gesprächsabschnitt des bekannten gegebenen englischen Wort oder den TDD-Dialektwort entspricht. Unbekannte Wörter werden der Kategorie NIL zugeordnet.
  • Spezielle Kategorien: Einige "Wörter" gehören zusätzlich zu den "Gesprächsabschnitten" zu einer oder mehreren Wortklassen. Dieses Feld identifiziert diese speziellen Kategorien (siehe unten).
  • Vorher: Zeiger auf das vorherige Wort in der Liste, das eine "Eingangs-Folge" bildet, wenn vorhanden; sonst NIL.
  • nachher: Zeiger auf das nächste Wort in der Liste, wenn vorhanden; sonst NIL.
  • Pause vorher Anfänglich leer (NIL), kann später belegt werden, um eine Pause durch die geeignete Zeichenfolge einzufügen, die vom Synthesizer erkannt wird.
  • Pause-nachher: Anfänglich leer (NIL); kann später belegt werden, um eine Pause, durch die geeignete Zeichenfolge einzufügen, die vom Synthesizer erkannt wird.
  • unbetont-: Anfänglich leer (NIL); kann später belegt werden, um die Standard-Sprachparameter des Synthesizers für dieses Wort zu verändern.
  • Interpunktion: Enthält die Interpunktion, die ein Wort abschließt (entweder; , oder ?).
  • Die vorstehende Struktur ist lediglich beispielhaft; selbstverständlich können weitere Strukturen verwendet werden.
  • Die speziellen Kategorien eines Wortes (das dritte Feld in der vorstehenden Datenstruktur) können enthalten:
  • Ende-des-Textmarkers: go.ahead.l -- e.g.,
  • go.ahead.2 -- e.g.
  • stop.keying --e. g.
  • q.go.ahead -- e.g.,
  • grammatische Wortklassen
  • interjection.l -- e.g.,
  • interjection.mod -- e.g.,
  • oneof.and.or.nor -- e.g.,
  • nom.pronouns -- e.g.,
  • subord.1 -- e.g.,
  • subord.2 -- e.g.,
  • subord mod -- e.g.,
  • destress.pronouns -- e.g.,
  • 1-Wort-Abkürzungen -- z. B.,
  • Ausdrücke aus 2 Wörtern -- z. B.,
  • Ausdrücke aus 3 Wörtern -- z. B.
  • (Da die Erfindung anhand der englischen Sprache und deren Eigentümlichkeiten beschrieben wird, sind einige Begriffe nicht übersetzt worden.)
  • Wir betrachten wieder Fig. 4. Der Block setzt 220 die Variable "erster Ausdruck", um auf den ersten Ausdruck in der vom Block 210 erzeugten Liste zu zeigen. Dieser setzt den Zustand für den Anfangspunkt vor, bei dem die Ausdrücke zum Synthesizer übertragen werden. Danach setzt der Block 230 das Feld "Pause-vorher" des ersten Ausdrucks (auf den über den "ersten Ausdruck" gezeigt wird) auf "wahr".
  • Der Block 240 startet die aktuelle Verarbeitungsphase durch Anwenden der Regeln zum Identifizieren von falschen Schreibweisen und Rauscheingaben. Der Verarbeitungsschritt des Blocks 240 ist insoweit ganz gewöhnlich, daß er beim Überprüfen der Schreibweise Lösungsansätze anwenden kann, die von einem oder zahlreichen Textverarbeitungsprodukten stammen, die käuflich verfügbar sind, wie etwa Word, Word Perfect etc. Diese Produkte weisen Funktionen auf, die bestimmen, ob ein Wort in einem Wörterbuch gefunden wird, und in "Fällen", in denen das Wort nicht gefunden wird, welche korrekt geschriebenen Wörter dem falsch geschriebenen Wort am ähnlichsten sind. Auch ein Verfahren zum Finden der besten Übereinstimmung kann verwendet werden, wie es beispielsweise in der US-Anmeldung mit dem Titel "A Method for Correcting Spelling using Error Frequencies", eingereicht am 14. Juni, 1990 beschrieben ist. Wenn das richtig geschriebene Wort in einer Tabelle erst einmal gefunden wird, kann die Wortkategorie als auch dessen spezielle Kategorien aus derselben Tabelle entnommen werden.
  • Der Block 250 setzt mit die Worterveränderungs- Verarbeitung fort. Durch Schieben eines 3-Wörter-Fensters entlang der Ausdrucksliste in der "Eingangs-Folge" werden Abkürzungen und unübliche Kurzworte herausgefiltert, und es wird versucht, den Text von Mehrdeutigkeiten zu befreien. Das heißt, der Block versucht, den verkürzten Eingabetext durch den richtigen vollständig geschriebenen Worttext zu ersetzen, der synthetisiert werden würde. Der Block 250 führt auch die reziproke Funktion durch, einige Zweiwort- und Dreiwortausdrücke zusammenzuziehen, damit sie als einzelne Worte dienen; und zwar wenigstens zum Zwecke der syntaktischen Analyse. Da diese Regeln die Anzahl der Wörter in den Ausdruckslisten ändern können, führen sie oft ein Zusammenfügen der vorherigen mit der nächsten Liste sowie das Aktualisieren der Variablen "erster Ausdruck" durch. (Einige Regeln beziehen sich auch auf den Ausdruck vor dem "ersten Ausdruck"). Nachfolgend sind einige Beispiele von Abkürzungen, ungewöhnlichen Kurzworten und Verbindungen aus zwei und drei Wörtern aufgeführt. (Diese Ausdrücke wurden nicht übersetzt, da es sich heribei um spezielle Fälle der englischen Sprache handelt.)
  • Gewöhnliche Abkürzungen Ungewöhnliche Kurzwörter
  • ("min""minute") (":-)""haha")
  • ("pm" "PM") ("agt" "agent")
  • ("yrs" "years") (bcuz" "because")
  • ("ans" "answer") ("bec""because")
  • ("asap" "assoonaspossible") ("fone" "phone")
  • ("att" "AT & T") ("fwd" "forward")
  • ("avg" "average") ("hld" "hold")
  • ("bldg" "building") ("nyrc" "NewYorkRelayCenter")
  • ("doc" "doctor") ("pblm" "problem")
  • ("ext"extension") ("ph" "phone")
  • ("fig" "figure") ("pls" "please")
  • ("hrs " "hours ") ("qq" "?"
  • ("r" "are")
  • ("wudnt" "wouldn't")
  • ("yur" "your")
  • Ausdrücke aus zwei Wörtern Ausdrücke aus drei Wörtern
  • (("a" "while") "awhile" (("a" "little" "while")"alittlewhile")
  • (("believe" "so")"believeso") (("as" "far" "as")"asfaras")
  • (("byebye")"byebye") (("as" "long" "as")"aslongas")
  • (("for" "example")"forexample") (("as" "well" "as")"aswellas")
  • (("ga" "sk")"gask") (("by" "the" "way")"bytheway")
  • (("hang" "down")"hangdown") (("ga" "or" "sk")"gaorsk")
  • (("hope" "so")"hopeso") (("ga" "to" "sk")"gatosk")
  • (("ily" "smile")"ILoveyou,smile") (("ha" "ha" "ha")"hahaha")
  • (("instead" "of") "insteadof") (("just" "ok" "enough") "justokenough")
  • (("it" "s")"it" "S") (("mother" "in""law") "mother-in-law")
  • (("just" "ok")"justok") (("other" "than" "that") "otherthanthat")
  • (("ok" "bye")"okbye") (("over" "n" "over") "overandover")
  • (("ok" "enough")"okenough")
  • ((open" "up")"openup")
  • (("opened" "up")"openedup")
  • (("put" "off")"putoff")
  • (("thlnk" "so")"thinkSO")
  • (("u" "ll" ")"you"ll")
  • (("u" "sie") "re")"you're")
  • (("un" "ven)"you've")
  • (("went" "on")"wenton")
  • Die von Block 250 ausgeführten Regeln können manuell nach Kundenwünschen an die Anwendung angepaßt und aufgrund der gewonnenen Erfahrung verändert werden. Nachfolgend ist ein Beispiel derartiger Regeln dargestellt, (beschrieben in der verwendeten Reihenfolge).
  • Regel 1 3-Wortausdruck, der aus Term1 Term2 Term3 gebildet wird
  • Wenn Term1-Schreibweise + Term2-Schreibweise + Term3- Schreibweise in der 3-Wörter-Ausdrücke-Tabelle gefunden wird
  • dann
  • ERSETZE die Schreibweise von Term3 durch eine kanonische Schreibweise
  • ERRECHNE ERNEUT die Kategorie und die speziellen Kategorien für die neue Schreibweise
  • LÖSCHE Term1 und Term2 aus der Ausdrucksliste AKTUALISIERE die Ausdrucksliste
  • Regel 2 - 2-Wort-Ausdrücke - Term1 Term2
  • Wenn Term1-Schreibweise + Term2-Schreibweise in der Tabelle für 3-Wörter-Ausdrücke gefunden wird dann
  • ERSETZE die Betonung von Term² durch die kanonische Betonung
  • ERRECHNE ERNEUT die Kategorie und die speziellen Kategorien der neuen Schreibweise
  • LÖSCHE Term1 aus der Ausdrucksliste
  • AKTUALISIERE die Ausdrucksliste
  • Regel 3 - 1-Wort-Abkürzung term1
  • Wenn die speziellen Kategorien von Term1 in der Abkürzungstabelle gefunden werden
  • dann
  • ERSETZE die Schreibweise von Term1 durch die kanonische Betonung
  • ERRECHNE ERNEUT die Kategorie und die speziellen Kategorien für die neue Schreibweise
  • Regel 4 - Eindeutig machen Term1 Term2 Term3 (Beispiel)
  • Wenn die Kategorie von Term1 "num" ist und die Schreibweise von Term² "am" ist)
  • dann
  • ERSETZE die Schreibweise von Term² durch "AM" Auf den Block 250 folgen Block 260, der die Verarbeitung durch Einfügen von Wortverbindungsregeln fortsetzt, die prosodische Stichwörter dem Sprachsynthesizer zuführt, indem die Pause-vorher-, Pause-nachher und Unbetont-Felder der ausgewählten Ausdrücke aufgeführt werden. Bei den ausgeführten Regeln kann es sich um folgende Regeln handeln:
  • Regel 5 - Gesprächsschlüssel Term1 Term2 Term3
  • (1) Wenn die speziellen Kategorien des Term2 interjection 1 enthalten,
  • dann
  • wenn die speziellen Kategorien von Term1 interjection_mod enthalten),
  • dann
  • SETZE Pause-vorher von Term1 auf "wahr"
  • SETZE Pause-nachher von Term2 auf "wahr" sonst SETZE Pause-vorher von Term2 auf "wahr"
  • SETZE Pause-nachher von Term2 auf "wahr"
  • (2) Wenn die speziellen Kategorien von Term2 interjection 2 enthalten,
  • dann
  • wenn die speziellen Kategorien von Term1 interjection mod enthalten,
  • dann
  • SETZE Pause-nachher von Term1 auf "wahr"
  • SETZE Pause-nachher von Term2 auf "wahr"
  • (3) Wenn das vorherige Feld von Term1 NULL ist und die speziellen Kategorien von Term1 entweder interjection 1 oder interjection 2 enthalten
  • dann
  • SETZE Pause-nachher von Term1 auf "wahr"
  • Regel 6 - Verbindung Term1 Term2 Term3
  • Wenn die speziellen Kategorien von Term2 oneof_and_or_nor enthalten),
  • dann
  • wenn die Schreibweise von Term1 nicht identisch mit der Schreibweise von Term3 ist, oder
  • die Kategorie von Term1 nicht identisch zur Kategorie von Term3 ist
  • dann
  • SETZE Pause-nachher von Term1 auf "wahr"
  • Regel 7 - Nominativpronomen Term1 Term2 Term3
  • (1) wenn die speziellen Kategorien von Term3 nom pronouns enthalten, und
  • die speziellen Kategorien von Term2 aux_verb.1 enthalten
  • dann
  • wenn die Kategorie von Term1 WH ist
  • dann
  • SETZE Pause-vorher von Term1 auf "wahr" sonst
  • SETZE Pause-vorher von Term2 auf "wahr"
  • (2) Wenn die speziellen Kategorien von Term3 nom pronouns umfassen, und
  • die speziellen Kategorien von Term2 pre np 1 enthalten
  • oder die Kategorien von Term2 = ADV sind dann
  • wenn die Kategorie von Term1 NICHT gleich CONJ oder PREP ist, und
  • die Schreibweise von Term1 NICHT "that's", "thats", "its" oder "its" enthält
  • dann
  • SETZE Pause-vorher von Term2 auf "wahr" (3) Wenn die speziellen Kategorien von Term2 nom pronouns umfassen,
  • dann
  • wenn die Kategorie von Term1 NICHT gleich CONJ oder PREP ist, und
  • die speziellen Kategorien von Term2 NICHT (subord 1, subord 2, pre np I oder aux verb 1)umfassen dann
  • SETZE Pause-vorher von Term2 auf "wahr"
  • Regel 8 - There is Term1 Term2 Term3
  • (1) wenn die Schreibweise von Term3 "there" ist und die speziellen Kategorien von Term2 aux verb 1 umfassen
  • dann
  • wenn die Kategorie von Term1 = WH ist
  • dann
  • SETZE Pause-vorher von Term1 auf "wahr"
  • (2) wenn die Schreibweise von Term2
  • "theres" "theres" "that's" "thats" oder "there" ist und
  • die speziellen Kategorien von Term3 aux verb 1 umfassen) dann
  • wenn die Kategorie von Term1 NICHT gleich CONJ oder PREP ist, oder
  • die speziellen Kategorien von Term1 NICHT subord 1, subord 2 oder pre np 1 umfassen
  • dann
  • SETZE Pause-vorher von Term2 auf "wahr"
  • Regel 9 - Unterordnen conj Term1 Term2 Term3
  • (1) wenn die speziellen Kategorien von Term3 subord 1 umfassen
  • dann
  • wenn die Ausdruckskategorie von Term2 NICHT gleich NUM ist und die Schreibweise von Term3 NICHT gleich "till", "tll" oder "untll" ist,
  • dann
  • wenn die speziellen Kategorien von Term2 subord mod, umfassen, oder die Kategorie von Term2 gleich CONJ ist dann
  • SETZE Pause-nachher von Term1 auf "wahr" SONST
  • SETZE Pause-nachher von Term2 auf "wahr"
  • (2) Wenn die speziellen Kategorien von Term3 subord 2 und subord mod umfassen oder
  • die Kategorie von Term2 gleich CONJ oder PREP ist dann
  • SETZE Pause-nachher von Term1 auf "wahr"
  • Regel 10 - letzter unbetonter Term1 Term2
  • Wenn die speziellen Kategorien von Term1 destress pronouns umfassen
  • dann
  • (1) wenn Pause-vorher von Term2 "wahr" ist dann
  • SETZE unbetont von Term1 auf "wahr"
  • (2) Wenn Pause-nacher von Term1 "wahr" ist dann
  • SETZE unbetont von Term1 auf "wahr".
  • Regel 11 - Finde ga Term1
  • (1) Wenn die speziellen Kategorien von Term1 q go ahead umfassen
  • dann
  • a) ERSETZE die Schreibweise von Term1 durch "vorangehen"
  • SETZE die speziellen Kategorien von Term1 auf 0
  • (b) wenn der Vorgänger von Term1 NICHT gleich 0 ist
  • SETZE die Interpunktion des Vorgängers des Term1 auf "?"
  • (2) Wenn die speziellen Kategorien des Term1 go ahead 2 enthalten),
  • dann
  • ERSETZE die Schreibweise von Term1 durch "vorangehen"
  • SETZE die speziellen Kategorien von Term1 auf 0 (3) Wenn die speziellen Kategorien von Term1 "go ahad 1 umfassen
  • dann
  • ERSETZE die Schreibweise von Term1 durch "fortfahren bis zum Eingabestop"
  • SETZE die speziellen Kategorien von Term1 auf 0
  • (4) Wenn die speziellen Kategorien des Term1 "Eingabe stoppen" umfassen
  • dann
  • ERSETZE die Schreibweise von Term1 durch "Eingabe stoppen"
  • SETZE die speziellen Kategorien von
  • Term1 auf 0
  • Zuletzt erzeugt der Block 260 eine Ausgangsdatei für die letzte Aussprachefolge. Der Block verarbeitet die Lste von Ausdrücken vom ersten bis zum letzten Ausdruck wie folgt:
  • Wenn Pause-vorher-Feld = WAHR
  • dann schreibe eine Pausensteuerfolge
  • wenn unbetont = WAHR
  • dann schreibe eine Unbetont-Steuerfolge) schreibe den Inhalt der Schreibweisefelder wenn Pause-nachher = WAHR
  • dann schreibe eine Pausensteuerfolge
  • schreibe den Inhalt des Interpunktionsfeldes

Claims (18)

1. Umsetzer (10) zum Zusammensetzen eines frei gebildeten Textes zu einem Sprachsignal mit folgenden Merkmalen:
ein Wortdetektor (11), der unter Ansprechen auf ein frei gebildetes Textsignal einzelne Wörter in dem Textsignal erfaßt und damit eine zusammenhängende Wortfolge bildet,
eine auf die vom Wortdetektor erfaßten Wörter ansprechende Wortkategorisierungseinrichtung (15) zum Analysieren jedes Wortes in der Wortfolge, die von der Wortkategorisierungseinrichtung (15) in Bezug auf N Nachbarwörter der empfangenen Folge empfangen werden, wobei N eine ganze Zahl ist, und zum Festlegen der Kategorien, in die jedes der analysierten Wörter gehört,
eine Einrichtung zur Syntax-Vergrößerung (15), die unter Ansprechen auf die Wortkategorisierungseinrichtung (15) Pausenerzeugungssignale vor oder nach ausgewählten Wörtern einfügt, die von der Wortkategorisierungseinrichtung (15) klassifiziert werden, wobei die Wörter auf der Grundlage ihrer Kategorien ausgewählt werden, gekennzeichnet durch
eine Wortmodifikationseinrichtung in der Wortkategorisierungseinrichtung (15) zum Erkennen des Fehlens von Wörtern, die für einen gewählten Verständlichkeitsgrad notwendig sind, und zum Einfügen der fehlenden Wörter.
2. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wörter auf der Grundlage ihrer Kategorien und auf der Grundlage der Kategorien von benachbarten Wörtern ausgewählt werden.
3. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wörter auf der Grundlage ihrer Kategorien und der Grundlage der Kategorien von Wörtern, die den gewählten Wörtern folgen, ausgewählt werden.
4. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Einrichtung zur Syntax- Vergrößerung (15) Signale zur Erzeugung einer Nachentzerrung ausgewählten Wörtern zuordnet, die von der Wortkategorisierungseinrichtung (15) basierend auf den Kategorien der gewählten Wörter und auf der Grundlage der Kategorien von Wörtern, die den gewählten Wörtern benachbart sind, kategorisiert werden
5. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wortkategorisierungseinrichtung (15) ein N-Wort- Schieberegister (12, 13, 14) zum Schieben von Wörtern durch das Schieberegister (12, 13, 14) umfasst, um ein N-Wort-Schiebefenster zum Analysieren der Wörter in der Wortfolge, die von der Kategorisierungseinrichtung (15) empfangen wird, zu bilden.
6. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wortkategorisierungseinrichtung (15) eine Einrichtung zur Wortspeicherung (12, 13, 14) und eine Wortzugriffseinrichtung (12, 13, 14) zum Erzeugen eines N-Wort-Fensters umfasst, das über die Wortfolge gleitet, um eine Analyse der von der Kategorisierungseinrichtung (15) empfangenen Wörter zu ermöglichen.
7. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass der Umsetzer weiterhin einen Sprachsynthesizer (20) umfasst, der unter Ansprechen auf vom Wortdetektor (11) erfasste Wörter und auf Signale zur Pausenerzeugung ein Sprachsignal erzeugt.
8. Umsetzer (10) nach Anspruch 4, dadurch gekennzeichnet, dass der Umsetzer weiterhin einen Synthesizer (20) umfasst, der unter Ansprechen auf vom Wortdetektor (11) erfasste Wörter, auf Signale zur Pausenerzeugung und auf Nachentzerrungssignale ein Sprachsignal erzeugt.
9. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass der Umsetzer weiterhin einen FIFO-Speicher (16) umfasst, der zwischen dem Wortdetektor (11) und der Wortkategorisierungseinrichtung (15) zum Speichern von vom Wortdetektor (11) erfassten Wörtern angeordnet ist.
10. Umsetzer (10) nach Anspruch 9, dadurch gekennzeichnet, dass der FIFO-Speicher (16) Wörter unter Steuerung des Wortdetektors (11) speichert und Wörter unter Steuerung der Wortkategorisierungseinrichtung (15) ausgibt.
11. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass der Umsetzer weiterhin einen Ausgangs-FIFO-Speicher (17) zum Speichern der vom Wortdetektor (11) erfassten Wörter und zum Speichern der Signale zur Pausenerzeugung, die von der Einrichtung zur Syntax-Vergrößerung erzeugt werden, umfasst.
12. Umsetzer (10) nach Anspruch 7, dadurch gekennzeichnet, dass der Umsetzer weiterhin einen Ausgangs-FIFO-Speicher (17) umfasst, der vor dem Synthesizer (20) angeordnet ist und die vom Wortdetektor (11) erfassten Wörter sowie die Signale zur Pausenerzeugung, die von der Einrichtung zur Syntax- Vergrößerung (15) gebildet werden, speichert.
13. Umsetzer (10) nach Anspruch 7, dadurch gekennzeichnet, dass der Ausgangs-FIFO-Speicher (17) Signale zum Synthesizer (20) unter Steuerung der Signale zur Pausenerzeugung übermittelt.
14. Umsetzer (10) nach Anspruch 7, dadurch gekennzeichnet, dass der Ausgang des Synthesizers (20) mit einem Kommunikationsnetz zum Senden von Sprachsignalen zum Kommunikationsnetz verbunden ist.
15. Umsetzer (10) nach Anspruch 14, dadurch gekennzeichnet, dass der Umsetzer weiterhin einen Sprach-zu-Text-Umsetzer (30) umfasst, der mit dem Kommunikationsnetz zum Empfangen von Sprachsignalen und zum Umwandeln empfangener Sprachsignale in Text verbunden ist.
16. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wortmodifikationseinrichtung (15) in der Wortkategorisierungseinrichtung (15) Wörter erkennt, die Abkürzungen vollständiger Wörter sind, und die Abkürzungen durch ihre entsprechenden vollständigen Wörter ersetzt.
17. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wortmodifikationseinrichtung (15) in der Wortkategorisierungseinrichtung Wörter erkennt und entfernt, die verrauscht sind.
18. Umsetzer (10) nach Anspruch 1, dadurch gekennzeichnet, dass die Wortmodifikationseinrichtung (15) in der Wortkategorisierungseinrichtung Wortverbindungen erkennt und jede Wortverbindung als eine einzelne Einheit klassifiziert.
DE69131549T 1990-06-28 1991-06-20 Parsingsystem für geschriebene Sprache Expired - Lifetime DE69131549T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/546,127 US5157759A (en) 1990-06-28 1990-06-28 Written language parser system

Publications (2)

Publication Number Publication Date
DE69131549D1 DE69131549D1 (de) 1999-09-30
DE69131549T2 true DE69131549T2 (de) 2000-07-13

Family

ID=24178991

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69131549T Expired - Lifetime DE69131549T2 (de) 1990-06-28 1991-06-20 Parsingsystem für geschriebene Sprache

Country Status (5)

Country Link
US (1) US5157759A (de)
EP (1) EP0465058B1 (de)
JP (1) JP3323519B2 (de)
CA (1) CA2043667C (de)
DE (1) DE69131549T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558732B2 (en) 2002-09-23 2009-07-07 Infineon Technologies Ag Method and system for computer-aided speech synthesis

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5450470A (en) * 1990-12-13 1995-09-12 Dirad Technologies, Inc. Script generator and process for programming automated TDD telephone system application
DE69231266T2 (de) * 1991-08-09 2001-03-15 Koninklijke Philips Electronics N.V., Eindhoven Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium
EP0527527B1 (de) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus
EP0598598B1 (de) * 1992-11-18 2000-02-02 Canon Information Systems, Inc. Prozessor zur Umwandlung von Daten in Sprache und Ablaufsteuerung hierzu
US5835690A (en) * 1992-12-15 1998-11-10 Microsoft Corporation Header/footer text string parsing using callback routines for additional processing
US5613038A (en) * 1992-12-18 1997-03-18 International Business Machines Corporation Communications system for multiple individually addressed messages
US5651095A (en) * 1993-10-04 1997-07-22 British Telecommunications Public Limited Company Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class
US5634084A (en) * 1995-01-20 1997-05-27 Centigram Communications Corporation Abbreviation and acronym/initialism expansion procedures for a text to speech reader
US5787231A (en) * 1995-02-02 1998-07-28 International Business Machines Corporation Method and system for improving pronunciation in a voice control system
US5761640A (en) * 1995-12-18 1998-06-02 Nynex Science & Technology, Inc. Name and address processor
USD385276S (en) * 1996-01-26 1997-10-21 Griggs Robert L Portable language translating machine
US6029508A (en) 1996-03-25 2000-02-29 Snap-On Technologies, Inc. Remote portable display unit with wireless transceiver and engine analyzing system incorporating same
US6035273A (en) * 1996-06-26 2000-03-07 Lucent Technologies, Inc. Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes
US6411696B1 (en) * 1996-12-31 2002-06-25 Intel Corporation System for finding a user with a preferred communication mechanism
US5987447A (en) * 1997-05-20 1999-11-16 Inventec Corporation Method and apparatus for searching sentences by analyzing words
US6801763B2 (en) * 1997-10-29 2004-10-05 Metro One Telecommunications, Inc. Technique for effectively communicating travel directions
US6098042A (en) * 1998-01-30 2000-08-01 International Business Machines Corporation Homograph filter for speech synthesis system
US6076060A (en) * 1998-05-01 2000-06-13 Compaq Computer Corporation Computer method and apparatus for translating text to sound
US6735286B1 (en) * 1998-05-29 2004-05-11 Nortel Networks Limited Telephone system integrated text based communication processes, apparatus and systems
US6324689B1 (en) * 1998-09-30 2001-11-27 Compaq Computer Corporation Mechanism for re-writing an executable having mixed code and data
US6208968B1 (en) 1998-12-16 2001-03-27 Compaq Computer Corporation Computer method and apparatus for text-to-speech synthesizer dictionary reduction
US6400809B1 (en) * 1999-01-29 2002-06-04 Ameritech Corporation Method and system for text-to-speech conversion of caller information
US6377925B1 (en) 1999-12-16 2002-04-23 Interactive Solutions, Inc. Electronic translator for assisting communications
US7089541B2 (en) * 2001-11-30 2006-08-08 Sun Microsystems, Inc. Modular parser architecture with mini parsers
US8265931B2 (en) 2002-01-22 2012-09-11 At&T Intellectual Property Ii, L.P. Method and device for providing speech-to-text encoding and telephony service
US7027986B2 (en) * 2002-01-22 2006-04-11 At&T Corp. Method and device for providing speech-to-text encoding and telephony service
US7656861B2 (en) 2004-07-09 2010-02-02 Cisco Technology, Inc. Method and apparatus for interleaving text and media in a real-time transport session
TW200614010A (en) * 2004-10-28 2006-05-01 Xcome Technology Co Ltd Instant messenger system with transformation model and implementation method
US7599828B2 (en) * 2005-03-01 2009-10-06 Microsoft Corporation Grammatically correct contraction spelling suggestions for french
US7792143B1 (en) * 2005-03-25 2010-09-07 Cisco Technology, Inc. Method and apparatus for interworking dissimilar text phone protocols over a packet switched network
US20070143410A1 (en) * 2005-12-16 2007-06-21 International Business Machines Corporation System and method for defining and translating chat abbreviations
US8538743B2 (en) * 2007-03-21 2013-09-17 Nuance Communications, Inc. Disambiguating text that is to be converted to speech using configurable lexeme based rules
US20090083035A1 (en) * 2007-09-25 2009-03-26 Ritchie Winson Huang Text pre-processing for text-to-speech generation
US8165881B2 (en) * 2008-08-29 2012-04-24 Honda Motor Co., Ltd. System and method for variable text-to-speech with minimized distraction to operator of an automotive vehicle
US20100057465A1 (en) * 2008-09-03 2010-03-04 David Michael Kirsch Variable text-to-speech for automotive application
US9300796B2 (en) * 2009-02-16 2016-03-29 Microsoft Technology Licensing, Llc Telecommunications device for the deaf (TDD) interface for interactive voice response (IVR) systems
WO2023177145A1 (ko) * 2022-03-16 2023-09-21 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
BG24190A1 (en) * 1976-09-08 1978-01-10 Antonov Method of synthesis of speech and device for effecting same
US4674065A (en) * 1982-04-30 1987-06-16 International Business Machines Corporation System for detecting and correcting contextual errors in a text processing system
JPS59185395A (ja) * 1983-04-06 1984-10-20 日本電気株式会社 音声応答装置
JPS60195596A (ja) * 1984-03-19 1985-10-04 三洋電機株式会社 音声合成装置
US4872202A (en) * 1984-09-14 1989-10-03 Motorola, Inc. ASCII LPC-10 conversion
JPS61252596A (ja) * 1985-05-02 1986-11-10 株式会社日立製作所 文字音声通信方式及び装置
US4831654A (en) * 1985-09-09 1989-05-16 Wang Laboratories, Inc. Apparatus for making and editing dictionary entries in a text to speech conversion system
JPS63198154A (ja) * 1987-02-05 1988-08-16 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション つづり誤り訂正装置
US4873634A (en) * 1987-03-27 1989-10-10 International Business Machines Corporation Spelling assistance method for compound words
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
JPH01231167A (ja) * 1988-03-11 1989-09-14 Fujitsu Ltd 日本語文章処理方式
US4914590A (en) * 1988-05-18 1990-04-03 Emhart Industries, Inc. Natural language understanding system
JP2655703B2 (ja) * 1988-11-09 1997-09-24 富士通株式会社 日本語文推敲処理方法
US5060154A (en) * 1989-01-06 1991-10-22 Smith Corona Corporation Electronic typewriter or word processor with detection and/or correction of selected phrases
US4996707A (en) * 1989-02-09 1991-02-26 Berkeley Speech Technologies, Inc. Text-to-speech converter of a facsimile graphic image
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7558732B2 (en) 2002-09-23 2009-07-07 Infineon Technologies Ag Method and system for computer-aided speech synthesis

Also Published As

Publication number Publication date
CA2043667C (en) 1996-02-13
CA2043667A1 (en) 1991-12-29
EP0465058A2 (de) 1992-01-08
DE69131549D1 (de) 1999-09-30
EP0465058A3 (en) 1995-03-22
JPH04233598A (ja) 1992-08-21
EP0465058B1 (de) 1999-08-25
US5157759A (en) 1992-10-20
JP3323519B2 (ja) 2002-09-09

Similar Documents

Publication Publication Date Title
DE69131549T2 (de) Parsingsystem für geschriebene Sprache
DE69712216T2 (de) Verfahren und gerät zum übersetzen von einer sparche in eine andere
Auer Projection in interaction and projection in grammar
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE69922872T2 (de) Automatischer Hotelportier mit Spracherkennung
DE60000138T2 (de) Erzeugung von mehreren Aussprachen eines Eigennames für die Spracherkennung
DE3910467A1 (de) Verfahren und vorrichtung zur erzeugung von berichten
DE3115318A1 (de) "elektronisches uebersetzungsgeraet"
DE102007004684A1 (de) Verfahren und Datenverarbeitungssystem zum gesteuerten Abfragen strukturiert gespeicherter Informationen
Leung et al. HKCAC: the Hong Kong Cantonese adult language corpus
US20190121860A1 (en) Conference And Call Center Speech To Text Machine Translation Engine
McConvell To be or double be? Current changes in the English copula
DE3855426T2 (de) Korrekturunterstützungsgerät mit Dokumentenausgabe
Wagner Intralingual Speech-to-text conversion in real-time: Challenges and Opportunities
DE60312963T2 (de) Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen
JPH07129594A (ja) 自動通訳システム
Kostina et al. Abbreviational worldview as part of linguistic worldview
DE60025687T2 (de) Vorrichtung zum Spracherkennung mit Durchführung einer syntaktischen Permutationsregel
Meyer What transcriptions of authentic discourse can reveal about interpreting
Mergel et al. Construction of language models for spoken database queries
CN116504223A (zh) 语音翻译方法及装置、电子设备、存储介质
CN111652005B (zh) 汉语与乌尔都语同步互译系统及方法
Callegaro Parallel Corpora for the Investigation of (Variable) Article Use in English–A Construction Grammar Approach
JP2758851B2 (ja) 自動翻訳装置及び自動通訳装置
EP1518221A1 (de) Verfahren zur naturlichen spracherkennung auf basis einer generativen transformations-/phrasenstruktur-grammatik

Legal Events

Date Code Title Description
8364 No opposition during term of opposition