DE69131549T2 - Parsingsystem für geschriebene Sprache - Google Patents
Parsingsystem für geschriebene SpracheInfo
- Publication number
- DE69131549T2 DE69131549T2 DE69131549T DE69131549T DE69131549T2 DE 69131549 T2 DE69131549 T2 DE 69131549T2 DE 69131549 T DE69131549 T DE 69131549T DE 69131549 T DE69131549 T DE 69131549T DE 69131549 T2 DE69131549 T2 DE 69131549T2
- Authority
- DE
- Germany
- Prior art keywords
- word
- words
- converter
- speech
- categorization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000015654 memory Effects 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims 4
- 238000012986 modification Methods 0.000 claims 4
- 230000003416 augmentation Effects 0.000 claims 3
- 230000001427 coherent effect Effects 0.000 claims 1
- 230000014509 gene expression Effects 0.000 description 59
- 238000012545 processing Methods 0.000 description 15
- 208000032041 Hearing impaired Diseases 0.000 description 12
- 238000000034 method Methods 0.000 description 7
- 206010011878 Deafness Diseases 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000001771 impaired effect Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 241000989913 Gunnera petaloidea Species 0.000 description 1
- 101100227721 Rattus norvegicus Frk gene Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Description
- Die Erfindung bezieht sich auf Sprachsynthese eines frei erzeugten Textes und insbesondere auf die Synthese eines von einer akustisch behinderten (hör- oder sprachbehinderten) Person frei erzeugten Textes.
- Der Übertragungsdienst für zwei Teilnehmer (Dual Party Relay Service) ist ein Dienst, der es Sprach- oder Hörbehinderten ermöglicht, mit Personen zu kommunizieren, die nicht auf diese Weise behindert sind. Durch Wählen einer bestimmten Rufnummer werden solche Personen mit einem Operator zusammengeschaltet, der den rufenden Teilnehmer mit dem gerufenen Teilnehmer verbindet und das zustande gekommene Gespräch überträgt.
- Insbesondere werden eingehende Rufe von Sprach- oder Hörbehinderten über eine digitale Einrichtung geführt, wie etwa eine Telekommunikationseinrichtung für Taube (Telecommunications Device for the Deaf, TDD) oder ein Computerterminal und ein Modem. Der sprach- oder hörbehinderte Nutzer gibt Text über die TDD (oder ähnliches) ein, der empfangen und dem Operator angezeigt wird. Über eine getrennte Verbindung spricht der Operator die angezeigten Textwörter zum nicht behinderten Teilnehmer, hört die gesprochene Antwort des nicht behinderten Teilnehmers und übermittelt eine geschriebene Textnachricht, die der vom Operator gehörten, gesprochenen Antwort entspricht, an den sprach- oder hörbehinderten Teilnehmer. Der hörbehinderte Teilnehmer empfängt die geschriebene Textnachricht auf einer Anzeigeeinrichtung.
- Das vorstehend beschriebene Verfahren leidet an einem Mangel an Privatsphäre. Es ist zudem sehr langsam, schwerfällig und stark arbeitsaufwendig. Es wäre sowohl für die Nutzer als auch für die Telefongesellschaft sehr nützlich, die Beteiligung des Operators an Rufen zu und von sprach- oder hörbehinderten Teilnehmern zu vermeiden oder wenigstens zu verringern.
- Die Möglichkeit zum Beseitigen des Bedarfs nach der Unterstützung durch einen Operator besteht eindeutig in der Richtung, in der Text zu Sprache umgewandelt wird. Ein Beispiel ist der "Telefoninformationsdienst" von AT & T und den Beil Operating Companies. Als Reaktion auf eine Anfrage greift der Telefoninformations-Operator auf eine Datenbank zu, identifiziert die gewünschte Nummer und aktiviert einen Synthesizer. Dieser und alle weiteren bekannten Text-zu- Sprache-Synthesizersysteme beschäftigen sich jedoch ausschließlich mit "konservierter" Sprache, das heißt mit einer Sprache (oder Text) mit vordefinierter Syntax und vordefiniertem Vokabular.
- Prinzipiell sollte es möglich sein, den Text, der von einem TDD-Benutzer erzeugt wurde, in einen Sprachsynthesizer einzugeben und den Synthesizer die gesprochenen Wörter erzeugen zu lassen, die an eine nicht sprach- oder hörbehinderte Person übermittelt werden können. In der Praxis ist dies nicht einfach zu erreichen. Sprachsynthesizer wandeln Text in Sprache exakt so um, wie der Text erscheint. Dies erfordert einen korrekten, fehlerfreien, richtig interpunktierten Text in einer Standardsyntax. Die geschriebene Sprache der Tauben jedoch offenbart viele Abweichungen von erwarteten Muster der englischen Syntax (oder anderer Sprachen). Die nachfolgenden drei Sätze sind Beispiele geschriebener Sprache von Tauben (WLD), die von verschiedenen Schreibern erzeugt wurden:
- They tend refusing to communicate. Some people have strong based on knowledges. I have many appointment from my childrens.
- In einer Studie der WLD im Deaf English Technical Report 236, Institute for Mathematical Studies in the Social Sciences, Stanford University, 1974, behauptet V. R. Charrow, daß die Veränderlichkeit von WLD systematisch ist und Regeln unterliegt. Sie schreibt:
- Ich vermute, daß Taube eine unterschiedliche Vielfalt der englischen Sprache bilden, basierend auf einer Verinnerlichung bestimmter Regeln der englischen Sprache, aber keine anderem Regeln, und in manchen Fällen durch Störungen von ASL, deren Regeln sich fundamental von denen der englischen Sprache unterscheiden, beeinflußt werden. Das Ergebnis ist das hypothetische "Tauben-Englisch".
- Eine Untersuchung der WLD-Syntax unterstützt Charrows Behauptung. Obwohl syntaktische Veränderungen in WLD-Texten zufällig auftreten, zeigt eine nähere Betrachtung, daß die Veränderungen übereinstimmen. WLD offenbart eine Sammlung von Nicht-Standardmerkmalen, die identifiziert und beschrieben werden können. Einige anekdotische Beweise für diese Schlußfolgerung stammen aus der Tatsache, daß sich Sprecher von Standardenglisch nach Lesen einer Anzahl von WLD-Texten gewöhnlich diesem Stil anpassen. Ernsthafte Verständigungsprobleme scheinen nur aufzutauchen, wenn Sätze extrem telegrafisch, die Wörterordnung außergewöhnlich frei oder die lexikalische Auswahl undurchsichtig ist.
- Laurreur et al. offenbaren in, "Linguistic and Prosodic Processing For a Text-To-Speech Synthesis System", Eurospeech 89, September 1989, Seiten 590 bis 593, ein Text-zu-Sprache- System, das das automatische prosodische Parsing refomiert, das auf der Erkennung einer kleinen Anzahl grammatikalischer Wörter beruht. Laurreur beschreibt einen prosodischen Parsing-Algorithmus, der eine rekursive, morphosyntaktische links-nach-rechts-Analyse umfaßt, die jedem Wort im Text einen grammatikalischen Wert zuordnet und den Text phonetisch umschreibt. Einhundertvierzig (140) hierarchische Parsingregeln teilen die Nachricht dann in eine Folge prosodischer Gruppen. Prosodische Muster werden jedem Wort durch Abfragen einer Datenbank prosodischer Ereignisse automatisch zugeordnet.
- US-A-4 872 202 offenbart ein Umsetzungssystem, das ein Wort nach Ausnahmen überprüft, das Wort in Phoneme unter Verwendung der Satz- und Wortstruktur und die Phoneme in LCP- Parameter umwandelt.
- EP-A-327 266 offenbart ein Verfahren zum Bestimmen von Sprachabschnitten und zum Parsing von Substantivverbindungen. Das Bestimmen von Sprachabschnitten verbessert das Produkt lexikalischer Wahrscheinlichkeiten von einzelnen Wörtern bei normalisierten Wahrscheinlichkeiten im Kontext von drei Wörtern.
- Van Coile et al., beschreibt in "Dutch Text-To-Speech Aids For the Vocally Handicapped", Eurospeech 89, September 1989, Seiten 590 bis 593, zwei niederländisch sprechende Kommunikationshilfen. Dieses Text-zu-Sprache-System umfaßt einen linguistischen, einen phonetischen und einen Synthesizer-Abschnitt. Der linguistische Abschnitt erzeugt die phonetische Übertragung des Eingabetextes, der phonetische Abschnitt verwendet die durch den linguistischen Abschnitt verfügbar gemachte Information zum Erzeugen von Sprachparametern und ein Synthesizer-Abschnitt verwendet die Sprachparameter zum Ansteuern eines Sprachsynthesizers.
- Kurz gesagt wird für den Übertragungsdienst für zwei Teilnehmer die Fähigkeit zur Annahme und zum Synthetisieren eines frei erzeugten Textes benötigt. Die Beschaffenheit von WLD deutet darauf hin, daß eine Computeranalyse dieser · Sprachart durchführbar sein könnte.
- Die Erfindung ist in Anspruch 1 umschrieben, bevorzugte Ausführungsformen sind in den abhängigen Ansprüchen angegeben.
- Motiviert durch den Bedarf, den Übertragungsdienst für zwei Teilnehmer zu verbessern, stellt die Erfindung eine Text-zu-Sprache-Synthese frei erzeugten Textes bereit. Insbesondere stellt die Erfindung einen Text-zu-Sprache- Synthesizer bereit, der eine frei erzeugte Textsequenz von Wörtern annimmt und die Sequenz mit richtiger Betonung und mit richtig gesetzten Pausen synthetisiert. In Kombination mit weiteren Elementen sorgt die Erfindung für einen verbesserten Übertragungsdienst für zwei Teilnehmer, bei dem der vom sprach- oder hörbehinderten Teilnehmer erzeugte Text ohne Beteiligung eines Operators synthetisiert wird. Die Synthese kann in dem Gebäude der sprach- oder hörbehinderten Person, in der lokalen Telefonzentrale oder an einigen vorbestimmten lokalen Orten stattfinden.
- In Kombination mit weiteren zusätzlichen Elementen sorgt die Erfindung für eine vollständig automatische Zweiwege- Kommunikation mit sprach- oder hörbehinderten Teilnehmern durch Einfügen eines Sprach-zu-Text-Umsetzers.
- Gemäß den Prinzipien der Erfindung wird ein von einem sprach- oder hörbehinderten Teilnehmer erzeugter Text durch Interpretieren von Abkürzungen, Korrigieren von Fehlern (falsche Schreibweise und "Rauschen"), Übersetzen bestimmter Ausdrucke, die gewöhnlich von sprach- oder hörbehinderten Personen verwendet werden, durch Übersetzen nicht standardisierter Wortfolgen oder kurzer Sätze und im Wesentlichen durch Umwandeln der Textnachrichten in standardisiertes Englisch verständlicher. Zusätzlich werden Pausen zum Erhöhen der Verständlichkeit eingefügt.
- Bei einer bevorzugten erfindungsgemäßen Ausführungsform wird Text einem Prozessor zugeführt, der eine ausgewählte Anzahl von Wörtern gleichzeitig analysiert. Basierend auf vordefinierten Regeln werden Signale an einen gewöhnlichen Synthesizer zum Erzeugen des Sprachsignals angelegt. Es zeigen:
- Fig. 1 ein Blockschaltbild eines Text-zu-Sprache- Schallwandlungssystems;
- Fig. 2 die Verwendung des Text-zu-Sprache- Umwandlungssystems in einem Telefonnetz zusammen mit einem Sprach-zu-Text-Umwandlungssystems;
- Fig. 3 ein Flußdiagramm für eine Art einer Signalverarbeitung des Systems nach Fig. 1; und
- Fig. 4 ein Flußdiagramm für eine weitere Art einer Signalverarbeitung des Systems nach Fig. 1.
- Fig. 1 stellt in Form eines Blockschaltbildes eine Ausführungsform für den frei erzeugten-Text-zu-Sprache- Synthesizer der Erfindung dar. Block 10 ist ein intelligenter Parser und Block 20 ist ein Synthesizer. Der Synthesizer 20 ist ein gewöhnlicher Synthesizer, wie etwa der "Olive- Libermann Synthesizer", J. P. Olive und M. Y. Libermann, 1985, Text-zu-Sprache - An Overview, Journal of the Acoustic Society of America, Supplement 1 78, Seite 6. Dessen Eingangssignal auf der Leitung 21 ist Text, der gleichzeitig mit speziellen Befehlen kommentiert wird. Dessen Ausgangssingal auf der Leitung 22 ist das analoge Sprachsignal.
- Der intelligente Synthesizer 10 umfaßt einen Wortdetektor 11, "Wortspeicherblöcke" 12, 13 und 14 und einen regelbasierten Prozessor 15. Text wird in den Wortdetektor 11 eingegeben, in dem Wörter oder Ausdrücke identifiziert werden. Typischerweise kennzeichnet ein Leerzeichen, ein Interpunktionszeichen oder das Zeilenende das Ende eines Ausdrucks. Die Interpunktionszeichen sind an sich selbst Ausdrücke. Die erkannten Ausdrücke werden in die in Reihe geschalteten Wortspeicher 12, 13 und 14 in der Art eines Schieberegisters eingefügt. Obwohl die Fig. 1 die Verwendung von drei Wortspeichern (12, 13 und 14) darstellt, ist verständlich, daß jede Anzahl solcher Speicher verwendet werden kann. Die in jedem Wortspeicher gespeicherten Ausdrücke werden vom regelbasierten Prozessor 15 empfangen.
- Die Funktion des Prozessors 15 liegt darin, die angelegten Ausdrücke zu analysieren und zu verändern, Betonungen und Pausen an syntaktisch richtige Stellen einzufügen und die veränderten Ausdrucke dem Synthesizer 20 zu geeigneten Zeiten zuzuführen.
- Die im Prozessor 15 ausgeführten Regeln können in zwei Klassen eingeteilt werden: Regeln, die Ausdrücke identifizieren und verändern, und Regeln, die relevante syntaktische Informationen erkennen.
- Die Regeln, die Ausdrücke identifizieren und verändern, achten auf das Erkennen von Abkürzungen, das Erkennen spezieller Ausdrücke, die vom relevanten Teilnehmerkreis verwendet werden, das Erkennen von Wortverbindungen, die eine Anzahl von Wörter umfassen, die gleich der Anzahl der Wortspeicher ist (in Fig. 1, ist die Anzahl 3), und Erkennen von falschen Schreibweisen, typografischen Fehlern und weiteren "Rauscheingaben". Eine gewöhnliche "Rauscheingabe" ist beispielsweise "XXXXX", die typischerweise das Streichen von Buchstaben kennzeichnet (in diesem Fall fünf Buchstaben) Zusätzlich zu den vorstehenden Wortveränderungen führen die Regeln, die Ausdrücke identifizieren und verändern, auch eine Funktion zur Entfernung von Mehrdeutigkeiten durch, um einen genaueren und verständlicheren Text zu erzeugen. Dies umfaßt das Hinzufügen von Wörtern (z. B. Präpositionen), um einen Text mit einer höher standardisierten englischen Syntax zu erzeugen.
- Nachdem die Regeln, die Ausdrücke identifizieren und verändern, angewendet wurden, werden die syntaktischen Regeln angewendet. Diese Regeln verwenden lokale syntaktische Einschränkungen, um festzustellen, ob eine Pause vor oder nach einem Wort im Wortspeicher auftreten soll.
- In Verbindung mit Pausen muß das Problem der Eingabe und Verarbeitungs-Synchronisation betrachtet werden. Die Synchronisation gesprochener Sprache ist ziemlich wichtig für die Verständlichkeit, oder genauer gesagt, die relative Synchronisation von Wortgruppen ist kritisch. Die Synchronisation-Information jedoch ist in einem vom TDD bereitgestellten Text nicht verfügbar, und die Ankunftszeiten der Textwörter haben in keiner Weise eine Beziehung zur richtigen Synchronisation der gesprochenen Sprache. Zusätzlich sind die Verarbeitungszeiten im Prozessor 15 nicht a priori bekannt, so daß der Zeitverlauf der Ausgangssignale des Prozessors 15 nicht dem Zeitverlauf der Eingangssignals folgt. Darüber hinaus kann der Zustand auftreten, bei welchen ein zeitlich genau ankommender Text so viel Verarbeitungszeit erfordert, daß ein Eingangspuffer bereitgestellt werden muß, wohingegen in anderen Situationen der Text langsam ankommen kann und eine wesentliche Lücke bei der vom Prozessor 15 benötigten Verarbeitungszeit auftrat. Keine der Situationen sollte erlaubt sein, um die zeitliche Korrektheit des synthetisierten Ausgangssignals zu beeinträchtigen.
- Zu diesem Zwecke umfaßt der intelligente Parser 10 einen FIFO-Speicher 16, der zwischen dem Wortdetektor 11 und dem "Wortspeicher" 12 angeordnet ist, und einen FIFO-Speicher 17, der zwischen dem Prozessor 15 und dem Synthesizer 10 angeordnet ist. Der FIFO-Speicher 16 arbeitet unter Steuerung des Wortdetektors 11 und des Prozessors 15. Sobald ein Ausdruck erkannt wird, wird er im FIFO 16 gespeichert; und sobald das Verarbeiten des Ausdrucks im "Wortspeicher 14" beendet ist, wird der älteste Ausdruck des FIFO 16 in den Wortspeicher 12 eingelesen.
- Der FIFO 17 wird auch vom Prozessor 15 gesteuert; er arbeitet jedoch in einer geringfügig anderen Weise. Sobald der Ausdruck vom Prozessor 15 verändert wird, wird er in den FIFO 17 eingelesen. Veränderte Ausdrücke werden weiter eingelesen, bis der Prozessor 15 feststellt, daß eine Pause im Gespräch angefordert wird. Zu dieser Zeit werden alle im FIFO 17 sortierten Ausdrücke der Reihe nach ausgeschrieben und an den Synthesizer 20 übermittelt. Auf diese Weise wird das vollständig willkürliche Zeitverhalten der eingehenden Wörter durch ein Zeitverhalten ersetzt, das zum Rhythmus der natürlichen Sprache paßt.
- Der Aufbau nach Fig. 1 zeigt eine unterschiedliche Hardware zum Ausführen der Funktionen des intelligenten Parser-Synthesizers der Erfindung. Ein derartiger Parser- Synthesizer kann in jeder lokalen Telefonzentrale oder in einigen regionalen Zentralen angeordnet werden, oder einem bestimmten Servicetyp zugeordnet werden (z. B. dem "800- Dienst", bei dem der angerufene Teilnehmer zahlt, oder dem "900-Dienst", bei dem der anrufende Teilnehmer zahlt).
- Derartige Hardware kann auch in einer sehr kompakten Anordnung verwirklicht werden, die in einem oder ganz wenigen zusammenwirkenden Schaltkreisen implementiert ist. Wenn dies verwirklicht ist, und wenn die Kosten gering genug sind, kann der intelligente Parser-Synthesizer nach Fig. 1 in einer Vorrichtung im Gebäude eines Kunden enthalten sein. Fig. 2 zeigt eine derartige Anordnung, die ein Subsystem im Gebäude des Kunden umfaßt, das mit dem Telefonnetz verbunden ist. Das Subsystem nach Fig. 2 umfaßt den intelligenten Parser- Synthesizer für den abgehenden Pfad und einen Sprach-zu-Text- Umsetzer 30 für den eingehenden Pfad. Beide Pfade sind mit dem Telefonnetz verbunden, wobei der Teilnehmer am linken Abschnitt der Zeichnung über das Telefonnetz mit einigen weiteren Teilnehmern im rechten Abschnitt der Zeichnung verbunden ist.
- Sprach-zu-Text-Umsetzer 30 arbeiten bis jetzt nicht stabil genug, um frei fließende Sprache beliebiger Sprecher zu erkennen und zu erfassen; aber einige Systeme sind verfügbar, die zum Erkennen von bis zu 5000 Wörtern trainiert werden können, wenn die Systeme für einen bestimmten Sprecher ausgebildet werden. Andere Systeme erkennen ein kleineres Vokabular, jedoch von beliebigen Sprechern. Sogar diese mäßige Fähigkeit ist nützlich, weil der sprach- oder hörbehinderte Teilnehmer, wenn ein Erkennungssystem für 5000 Wörter verwendet wird, in einigen Fällen die Hilfe eines Operators überhaupt nicht benötigt, beispielsweise dann, wenn er über Telefon mit bestimmten Personen(z. B. dem Ehegatten) spricht.
- Es gibt einen weiteren Gesichtspunkt zur Ausbildung der Hardware, die der intelligente Parser-Synthesizer annehmen kann. Das heißt, der Aufbau nach Fig. 1 kann einen programmgesteuerten Prozessor aufweisen, der alle Elemente nach Fig. 1 oder wenigstens alle Elemente des Blocks 10 umfaßt.
- Fig. 3 zeigt ein Flußdiagramm für das Verarbeiten, das in der beispielhaften Hardware nach Fig. 1 ausgeführt wird, während Fig. 4 ein Flußdiagramm für das Verarbeiten zeigt, welcher mit einem programmgesteuerten Prozessor, der alle Elemente von Block 10 umfaßt, ausgeführt wird.
- Der erste Block in Fig. 3 (Block 100) wandelt jeden Ausdruck, der in den "Wortspeicher" 12 eingeschrieben wird, in eine Datenstruktur um. Das heißt, jeder Ausdruck wird Teil eines zugeordneten Satzes von Informationen, wie etwa der Schreibweise des Ausdrucks, dem Gesprächsabschnitt, zu dem der Ausdruck gehört, und ob der Ausdruck eine Abkürzung ist etc. (Da die in den "Wortspeichern" 13 und 14 gespeicherten Ausdrücke vorher im "Wortspeicher" 12 gespeichert waren, sind deren Datenstrukturen bereits im Prozessor 15 gespeichert).
- Wenn die Datenstrukturen für die Ausdrücke in den Wortspeichern erzeugten sind, werden im nächsten Schritt (Block 110) die Wortanpassungsregeln angewendet. Die Ergebnisse der Wortanpassungsregeln werden in den Datenstrukturen gespeichert. Als nächstes werden im Block 120 die syntaktischen Regeln angewendet, um festzustellen, ob Pausen- oder Deemphasis-Flags gesetzt werden sollen. Die Ergebnisse dieser Analysen werden ebenfalls in den Datenstrukturen gespeichert. Zuletzt wird im Block 130 der verarbeitete Ausdruck des "Wortspeichers" im FIFO 17 gespeichert.
- Der Block 140 führt die Abfrage aus, die zu einem Ausgangssignal führt, das dem Synthesizer bereitgestellt wird. Wenn festgestellt wird, daß der im FIFO 17 gespeicherte Ausdruck ein "Pause-vorher"-Flag umfaßt, wird der FIFO geleert (die gespeicherte Information wird zum Synthesizer übertragen) und der Ausdruck wird danach im FIFO gespeichert. Wenn ein "Pause-nachher"-Flag gefunden wird, wird der Ausdruck zuerst gespeichert und nach dem Speichervorgang wird der FIFO geleert. Wenn kein Flag gefunden wird, wird der Ausdruck nur gespeichert. In jedem Fall, wie in Fig. 3 dargestellt, wird der Prozeß in Block 100 fortgesetzt, um den nächsten Ausdruck vom FIFO 16 zu erhalten, und zwar so, wie der Ausdruck in den "Wortspeicher" 12 geladen wurde.
- Fig. 4 stellt den Vorgang dar, bei dem der intelligente Parser der Erfindung durch einen programmgesteuerten Prozessor realisiert wird. Der Block 200 speichert die Eingabetextfolge in einen Speicher und setzt eine Variable "Eingangs-Folge" (Terminal-String) als Eingabetextfolge. Der Block 210 wandelt jedes Wort in einer "Eingangs-Folge" in eine Ausdrucksdatenstruktur mit den nachfolgenden Feldern um:
- Schreibweise: Die Schreibweise des Wortes oder die geschriebene Form des Wortes minus jeder Interpunktion (?, !, ;). Man beachte, daß der Punkt (.) nicht als Interpunktionszeichen enthalten ist, weil einige gewöhnliche TDD- Wörter periodisch enden.
- Kategorie: Wenn das erste Zeichen eines Wortes eine Ziffer ist (1, 2, 3, 4, 5, 6, 7, 8, 9, 0) wird NUM als Kategorie ausgegeben, andernfalls ist die Kategorie des Ausdrucks die lexikalische Kategorie des Ausdrucks, die dem Gesprächsabschnitt des bekannten gegebenen englischen Wort oder den TDD-Dialektwort entspricht. Unbekannte Wörter werden der Kategorie NIL zugeordnet.
- Spezielle Kategorien: Einige "Wörter" gehören zusätzlich zu den "Gesprächsabschnitten" zu einer oder mehreren Wortklassen. Dieses Feld identifiziert diese speziellen Kategorien (siehe unten).
- Vorher: Zeiger auf das vorherige Wort in der Liste, das eine "Eingangs-Folge" bildet, wenn vorhanden; sonst NIL.
- nachher: Zeiger auf das nächste Wort in der Liste, wenn vorhanden; sonst NIL.
- Pause vorher Anfänglich leer (NIL), kann später belegt werden, um eine Pause durch die geeignete Zeichenfolge einzufügen, die vom Synthesizer erkannt wird.
- Pause-nachher: Anfänglich leer (NIL); kann später belegt werden, um eine Pause, durch die geeignete Zeichenfolge einzufügen, die vom Synthesizer erkannt wird.
- unbetont-: Anfänglich leer (NIL); kann später belegt werden, um die Standard-Sprachparameter des Synthesizers für dieses Wort zu verändern.
- Interpunktion: Enthält die Interpunktion, die ein Wort abschließt (entweder; , oder ?).
- Die vorstehende Struktur ist lediglich beispielhaft; selbstverständlich können weitere Strukturen verwendet werden.
- Die speziellen Kategorien eines Wortes (das dritte Feld in der vorstehenden Datenstruktur) können enthalten:
- Ende-des-Textmarkers: go.ahead.l -- e.g.,
- go.ahead.2 -- e.g.
- stop.keying --e. g.
- q.go.ahead -- e.g.,
- grammatische Wortklassen
- interjection.l -- e.g.,
- interjection.mod -- e.g.,
- oneof.and.or.nor -- e.g.,
- nom.pronouns -- e.g.,
- subord.1 -- e.g.,
- subord.2 -- e.g.,
- subord mod -- e.g.,
- destress.pronouns -- e.g.,
- 1-Wort-Abkürzungen -- z. B.,
- Ausdrücke aus 2 Wörtern -- z. B.,
- Ausdrücke aus 3 Wörtern -- z. B.
- (Da die Erfindung anhand der englischen Sprache und deren Eigentümlichkeiten beschrieben wird, sind einige Begriffe nicht übersetzt worden.)
- Wir betrachten wieder Fig. 4. Der Block setzt 220 die Variable "erster Ausdruck", um auf den ersten Ausdruck in der vom Block 210 erzeugten Liste zu zeigen. Dieser setzt den Zustand für den Anfangspunkt vor, bei dem die Ausdrücke zum Synthesizer übertragen werden. Danach setzt der Block 230 das Feld "Pause-vorher" des ersten Ausdrucks (auf den über den "ersten Ausdruck" gezeigt wird) auf "wahr".
- Der Block 240 startet die aktuelle Verarbeitungsphase durch Anwenden der Regeln zum Identifizieren von falschen Schreibweisen und Rauscheingaben. Der Verarbeitungsschritt des Blocks 240 ist insoweit ganz gewöhnlich, daß er beim Überprüfen der Schreibweise Lösungsansätze anwenden kann, die von einem oder zahlreichen Textverarbeitungsprodukten stammen, die käuflich verfügbar sind, wie etwa Word, Word Perfect etc. Diese Produkte weisen Funktionen auf, die bestimmen, ob ein Wort in einem Wörterbuch gefunden wird, und in "Fällen", in denen das Wort nicht gefunden wird, welche korrekt geschriebenen Wörter dem falsch geschriebenen Wort am ähnlichsten sind. Auch ein Verfahren zum Finden der besten Übereinstimmung kann verwendet werden, wie es beispielsweise in der US-Anmeldung mit dem Titel "A Method for Correcting Spelling using Error Frequencies", eingereicht am 14. Juni, 1990 beschrieben ist. Wenn das richtig geschriebene Wort in einer Tabelle erst einmal gefunden wird, kann die Wortkategorie als auch dessen spezielle Kategorien aus derselben Tabelle entnommen werden.
- Der Block 250 setzt mit die Worterveränderungs- Verarbeitung fort. Durch Schieben eines 3-Wörter-Fensters entlang der Ausdrucksliste in der "Eingangs-Folge" werden Abkürzungen und unübliche Kurzworte herausgefiltert, und es wird versucht, den Text von Mehrdeutigkeiten zu befreien. Das heißt, der Block versucht, den verkürzten Eingabetext durch den richtigen vollständig geschriebenen Worttext zu ersetzen, der synthetisiert werden würde. Der Block 250 führt auch die reziproke Funktion durch, einige Zweiwort- und Dreiwortausdrücke zusammenzuziehen, damit sie als einzelne Worte dienen; und zwar wenigstens zum Zwecke der syntaktischen Analyse. Da diese Regeln die Anzahl der Wörter in den Ausdruckslisten ändern können, führen sie oft ein Zusammenfügen der vorherigen mit der nächsten Liste sowie das Aktualisieren der Variablen "erster Ausdruck" durch. (Einige Regeln beziehen sich auch auf den Ausdruck vor dem "ersten Ausdruck"). Nachfolgend sind einige Beispiele von Abkürzungen, ungewöhnlichen Kurzworten und Verbindungen aus zwei und drei Wörtern aufgeführt. (Diese Ausdrücke wurden nicht übersetzt, da es sich heribei um spezielle Fälle der englischen Sprache handelt.)
- Gewöhnliche Abkürzungen Ungewöhnliche Kurzwörter
- ("min""minute") (":-)""haha")
- ("pm" "PM") ("agt" "agent")
- ("yrs" "years") (bcuz" "because")
- ("ans" "answer") ("bec""because")
- ("asap" "assoonaspossible") ("fone" "phone")
- ("att" "AT & T") ("fwd" "forward")
- ("avg" "average") ("hld" "hold")
- ("bldg" "building") ("nyrc" "NewYorkRelayCenter")
- ("doc" "doctor") ("pblm" "problem")
- ("ext"extension") ("ph" "phone")
- ("fig" "figure") ("pls" "please")
- ("hrs " "hours ") ("qq" "?"
- ("r" "are")
- ("wudnt" "wouldn't")
- ("yur" "your")
- Ausdrücke aus zwei Wörtern Ausdrücke aus drei Wörtern
- (("a" "while") "awhile" (("a" "little" "while")"alittlewhile")
- (("believe" "so")"believeso") (("as" "far" "as")"asfaras")
- (("byebye")"byebye") (("as" "long" "as")"aslongas")
- (("for" "example")"forexample") (("as" "well" "as")"aswellas")
- (("ga" "sk")"gask") (("by" "the" "way")"bytheway")
- (("hang" "down")"hangdown") (("ga" "or" "sk")"gaorsk")
- (("hope" "so")"hopeso") (("ga" "to" "sk")"gatosk")
- (("ily" "smile")"ILoveyou,smile") (("ha" "ha" "ha")"hahaha")
- (("instead" "of") "insteadof") (("just" "ok" "enough") "justokenough")
- (("it" "s")"it" "S") (("mother" "in""law") "mother-in-law")
- (("just" "ok")"justok") (("other" "than" "that") "otherthanthat")
- (("ok" "bye")"okbye") (("over" "n" "over") "overandover")
- (("ok" "enough")"okenough")
- ((open" "up")"openup")
- (("opened" "up")"openedup")
- (("put" "off")"putoff")
- (("thlnk" "so")"thinkSO")
- (("u" "ll" ")"you"ll")
- (("u" "sie") "re")"you're")
- (("un" "ven)"you've")
- (("went" "on")"wenton")
- Die von Block 250 ausgeführten Regeln können manuell nach Kundenwünschen an die Anwendung angepaßt und aufgrund der gewonnenen Erfahrung verändert werden. Nachfolgend ist ein Beispiel derartiger Regeln dargestellt, (beschrieben in der verwendeten Reihenfolge).
- Wenn Term1-Schreibweise + Term2-Schreibweise + Term3- Schreibweise in der 3-Wörter-Ausdrücke-Tabelle gefunden wird
- dann
- ERSETZE die Schreibweise von Term3 durch eine kanonische Schreibweise
- ERRECHNE ERNEUT die Kategorie und die speziellen Kategorien für die neue Schreibweise
- LÖSCHE Term1 und Term2 aus der Ausdrucksliste AKTUALISIERE die Ausdrucksliste
- Wenn Term1-Schreibweise + Term2-Schreibweise in der Tabelle für 3-Wörter-Ausdrücke gefunden wird dann
- ERSETZE die Betonung von Term² durch die kanonische Betonung
- ERRECHNE ERNEUT die Kategorie und die speziellen Kategorien der neuen Schreibweise
- LÖSCHE Term1 aus der Ausdrucksliste
- AKTUALISIERE die Ausdrucksliste
- Wenn die speziellen Kategorien von Term1 in der Abkürzungstabelle gefunden werden
- dann
- ERSETZE die Schreibweise von Term1 durch die kanonische Betonung
- ERRECHNE ERNEUT die Kategorie und die speziellen Kategorien für die neue Schreibweise
- Wenn die Kategorie von Term1 "num" ist und die Schreibweise von Term² "am" ist)
- dann
- ERSETZE die Schreibweise von Term² durch "AM" Auf den Block 250 folgen Block 260, der die Verarbeitung durch Einfügen von Wortverbindungsregeln fortsetzt, die prosodische Stichwörter dem Sprachsynthesizer zuführt, indem die Pause-vorher-, Pause-nachher und Unbetont-Felder der ausgewählten Ausdrücke aufgeführt werden. Bei den ausgeführten Regeln kann es sich um folgende Regeln handeln:
- (1) Wenn die speziellen Kategorien des Term2 interjection 1 enthalten,
- dann
- wenn die speziellen Kategorien von Term1 interjection_mod enthalten),
- dann
- SETZE Pause-vorher von Term1 auf "wahr"
- SETZE Pause-nachher von Term2 auf "wahr" sonst SETZE Pause-vorher von Term2 auf "wahr"
- SETZE Pause-nachher von Term2 auf "wahr"
- (2) Wenn die speziellen Kategorien von Term2 interjection 2 enthalten,
- dann
- wenn die speziellen Kategorien von Term1 interjection mod enthalten,
- dann
- SETZE Pause-nachher von Term1 auf "wahr"
- SETZE Pause-nachher von Term2 auf "wahr"
- (3) Wenn das vorherige Feld von Term1 NULL ist und die speziellen Kategorien von Term1 entweder interjection 1 oder interjection 2 enthalten
- dann
- SETZE Pause-nachher von Term1 auf "wahr"
- Wenn die speziellen Kategorien von Term2 oneof_and_or_nor enthalten),
- dann
- wenn die Schreibweise von Term1 nicht identisch mit der Schreibweise von Term3 ist, oder
- die Kategorie von Term1 nicht identisch zur Kategorie von Term3 ist
- dann
- SETZE Pause-nachher von Term1 auf "wahr"
- (1) wenn die speziellen Kategorien von Term3 nom pronouns enthalten, und
- die speziellen Kategorien von Term2 aux_verb.1 enthalten
- dann
- wenn die Kategorie von Term1 WH ist
- dann
- SETZE Pause-vorher von Term1 auf "wahr" sonst
- SETZE Pause-vorher von Term2 auf "wahr"
- (2) Wenn die speziellen Kategorien von Term3 nom pronouns umfassen, und
- die speziellen Kategorien von Term2 pre np 1 enthalten
- oder die Kategorien von Term2 = ADV sind dann
- wenn die Kategorie von Term1 NICHT gleich CONJ oder PREP ist, und
- die Schreibweise von Term1 NICHT "that's", "thats", "its" oder "its" enthält
- dann
- SETZE Pause-vorher von Term2 auf "wahr" (3) Wenn die speziellen Kategorien von Term2 nom pronouns umfassen,
- dann
- wenn die Kategorie von Term1 NICHT gleich CONJ oder PREP ist, und
- die speziellen Kategorien von Term2 NICHT (subord 1, subord 2, pre np I oder aux verb 1)umfassen dann
- SETZE Pause-vorher von Term2 auf "wahr"
- (1) wenn die Schreibweise von Term3 "there" ist und die speziellen Kategorien von Term2 aux verb 1 umfassen
- dann
- wenn die Kategorie von Term1 = WH ist
- dann
- SETZE Pause-vorher von Term1 auf "wahr"
- (2) wenn die Schreibweise von Term2
- "theres" "theres" "that's" "thats" oder "there" ist und
- die speziellen Kategorien von Term3 aux verb 1 umfassen) dann
- wenn die Kategorie von Term1 NICHT gleich CONJ oder PREP ist, oder
- die speziellen Kategorien von Term1 NICHT subord 1, subord 2 oder pre np 1 umfassen
- dann
- SETZE Pause-vorher von Term2 auf "wahr"
- (1) wenn die speziellen Kategorien von Term3 subord 1 umfassen
- dann
- wenn die Ausdruckskategorie von Term2 NICHT gleich NUM ist und die Schreibweise von Term3 NICHT gleich "till", "tll" oder "untll" ist,
- dann
- wenn die speziellen Kategorien von Term2 subord mod, umfassen, oder die Kategorie von Term2 gleich CONJ ist dann
- SETZE Pause-nachher von Term1 auf "wahr" SONST
- SETZE Pause-nachher von Term2 auf "wahr"
- (2) Wenn die speziellen Kategorien von Term3 subord 2 und subord mod umfassen oder
- die Kategorie von Term2 gleich CONJ oder PREP ist dann
- SETZE Pause-nachher von Term1 auf "wahr"
- Wenn die speziellen Kategorien von Term1 destress pronouns umfassen
- dann
- (1) wenn Pause-vorher von Term2 "wahr" ist dann
- SETZE unbetont von Term1 auf "wahr"
- (2) Wenn Pause-nacher von Term1 "wahr" ist dann
- SETZE unbetont von Term1 auf "wahr".
- (1) Wenn die speziellen Kategorien von Term1 q go ahead umfassen
- dann
- a) ERSETZE die Schreibweise von Term1 durch "vorangehen"
- SETZE die speziellen Kategorien von Term1 auf 0
- (b) wenn der Vorgänger von Term1 NICHT gleich 0 ist
- SETZE die Interpunktion des Vorgängers des Term1 auf "?"
- (2) Wenn die speziellen Kategorien des Term1 go ahead 2 enthalten),
- dann
- ERSETZE die Schreibweise von Term1 durch "vorangehen"
- SETZE die speziellen Kategorien von Term1 auf 0 (3) Wenn die speziellen Kategorien von Term1 "go ahad 1 umfassen
- dann
- ERSETZE die Schreibweise von Term1 durch "fortfahren bis zum Eingabestop"
- SETZE die speziellen Kategorien von Term1 auf 0
- (4) Wenn die speziellen Kategorien des Term1 "Eingabe stoppen" umfassen
- dann
- ERSETZE die Schreibweise von Term1 durch "Eingabe stoppen"
- SETZE die speziellen Kategorien von
- Term1 auf 0
- Zuletzt erzeugt der Block 260 eine Ausgangsdatei für die letzte Aussprachefolge. Der Block verarbeitet die Lste von Ausdrücken vom ersten bis zum letzten Ausdruck wie folgt:
- Wenn Pause-vorher-Feld = WAHR
- dann schreibe eine Pausensteuerfolge
- wenn unbetont = WAHR
- dann schreibe eine Unbetont-Steuerfolge) schreibe den Inhalt der Schreibweisefelder wenn Pause-nachher = WAHR
- dann schreibe eine Pausensteuerfolge
- schreibe den Inhalt des Interpunktionsfeldes
Claims (18)
1. Umsetzer (10) zum Zusammensetzen eines frei gebildeten
Textes zu einem Sprachsignal mit folgenden Merkmalen:
ein Wortdetektor (11), der unter Ansprechen auf ein
frei gebildetes Textsignal einzelne Wörter in dem
Textsignal erfaßt und damit eine zusammenhängende
Wortfolge bildet,
eine auf die vom Wortdetektor erfaßten Wörter
ansprechende Wortkategorisierungseinrichtung (15) zum
Analysieren jedes Wortes in der Wortfolge, die von der
Wortkategorisierungseinrichtung (15) in Bezug auf N
Nachbarwörter der empfangenen Folge empfangen werden,
wobei N eine ganze Zahl ist, und zum Festlegen der
Kategorien, in die jedes der analysierten Wörter gehört,
eine Einrichtung zur Syntax-Vergrößerung (15), die
unter Ansprechen auf die Wortkategorisierungseinrichtung
(15) Pausenerzeugungssignale vor oder nach ausgewählten
Wörtern einfügt, die von der
Wortkategorisierungseinrichtung (15) klassifiziert
werden, wobei die Wörter auf der Grundlage ihrer
Kategorien ausgewählt werden,
gekennzeichnet durch
eine Wortmodifikationseinrichtung in der
Wortkategorisierungseinrichtung (15) zum Erkennen des
Fehlens von Wörtern, die für einen gewählten
Verständlichkeitsgrad notwendig sind, und zum Einfügen
der fehlenden Wörter.
2. Umsetzer (10) nach Anspruch 1,
dadurch gekennzeichnet, dass die Wörter auf der
Grundlage ihrer Kategorien und auf der Grundlage der
Kategorien von benachbarten Wörtern ausgewählt werden.
3. Umsetzer (10) nach Anspruch 1,
dadurch gekennzeichnet, dass die Wörter auf der
Grundlage ihrer Kategorien und der Grundlage der
Kategorien von Wörtern, die den gewählten Wörtern
folgen, ausgewählt werden.
4. Umsetzer (10) nach Anspruch 1,
dadurch gekennzeichnet, dass die Einrichtung zur Syntax-
Vergrößerung (15) Signale zur Erzeugung einer
Nachentzerrung ausgewählten Wörtern zuordnet, die von
der Wortkategorisierungseinrichtung (15) basierend auf
den Kategorien der gewählten Wörter und auf der
Grundlage der Kategorien von Wörtern, die den gewählten
Wörtern benachbart sind, kategorisiert werden
5. Umsetzer (10) nach Anspruch 1,
dadurch gekennzeichnet, dass die
Wortkategorisierungseinrichtung (15) ein N-Wort-
Schieberegister (12, 13, 14) zum Schieben von Wörtern
durch das Schieberegister (12, 13, 14) umfasst, um ein
N-Wort-Schiebefenster zum Analysieren der Wörter in der
Wortfolge, die von der Kategorisierungseinrichtung (15)
empfangen wird, zu bilden.
6. Umsetzer (10) nach Anspruch 1,
dadurch gekennzeichnet, dass die
Wortkategorisierungseinrichtung (15) eine Einrichtung
zur Wortspeicherung (12, 13, 14) und eine
Wortzugriffseinrichtung (12, 13, 14) zum Erzeugen eines
N-Wort-Fensters umfasst, das über die Wortfolge gleitet,
um eine Analyse der von der Kategorisierungseinrichtung
(15) empfangenen Wörter zu ermöglichen.
7. Umsetzer (10) nach Anspruch 1,
dadurch gekennzeichnet, dass der Umsetzer weiterhin
einen Sprachsynthesizer (20) umfasst, der unter
Ansprechen auf vom Wortdetektor (11) erfasste Wörter und
auf Signale zur Pausenerzeugung ein Sprachsignal
erzeugt.
8. Umsetzer (10) nach Anspruch 4,
dadurch gekennzeichnet, dass der Umsetzer weiterhin
einen Synthesizer (20) umfasst, der unter Ansprechen
auf vom Wortdetektor (11) erfasste Wörter,
auf Signale zur Pausenerzeugung und auf
Nachentzerrungssignale ein Sprachsignal erzeugt.
9. Umsetzer (10) nach Anspruch 1,
dadurch gekennzeichnet, dass der Umsetzer weiterhin
einen FIFO-Speicher (16) umfasst, der zwischen dem
Wortdetektor (11) und der
Wortkategorisierungseinrichtung (15) zum Speichern von vom Wortdetektor (11)
erfassten Wörtern angeordnet ist.
10. Umsetzer (10) nach Anspruch 9,
dadurch gekennzeichnet, dass der FIFO-Speicher (16)
Wörter unter Steuerung des Wortdetektors (11) speichert
und Wörter unter Steuerung der
Wortkategorisierungseinrichtung (15) ausgibt.
11. Umsetzer (10) nach Anspruch 1,
dadurch gekennzeichnet, dass der Umsetzer weiterhin
einen Ausgangs-FIFO-Speicher (17) zum Speichern der vom
Wortdetektor (11) erfassten Wörter und zum Speichern der
Signale zur Pausenerzeugung, die von der Einrichtung zur
Syntax-Vergrößerung erzeugt werden, umfasst.
12. Umsetzer (10) nach Anspruch 7,
dadurch gekennzeichnet, dass der Umsetzer weiterhin
einen Ausgangs-FIFO-Speicher (17) umfasst, der vor dem
Synthesizer (20) angeordnet ist und die vom Wortdetektor
(11) erfassten Wörter sowie die Signale zur
Pausenerzeugung, die von der Einrichtung zur Syntax-
Vergrößerung (15) gebildet werden, speichert.
13. Umsetzer (10) nach Anspruch 7,
dadurch gekennzeichnet, dass der Ausgangs-FIFO-Speicher
(17) Signale zum Synthesizer (20) unter Steuerung der
Signale zur Pausenerzeugung übermittelt.
14. Umsetzer (10) nach Anspruch 7,
dadurch gekennzeichnet, dass der Ausgang des
Synthesizers (20) mit einem Kommunikationsnetz zum
Senden von Sprachsignalen zum Kommunikationsnetz
verbunden ist.
15. Umsetzer (10) nach Anspruch 14,
dadurch gekennzeichnet, dass der Umsetzer weiterhin
einen Sprach-zu-Text-Umsetzer (30) umfasst, der mit dem
Kommunikationsnetz zum Empfangen von Sprachsignalen und
zum Umwandeln empfangener Sprachsignale in Text
verbunden ist.
16. Umsetzer (10) nach Anspruch 1,
dadurch gekennzeichnet, dass die
Wortmodifikationseinrichtung (15) in der
Wortkategorisierungseinrichtung (15) Wörter erkennt, die
Abkürzungen vollständiger Wörter sind, und die
Abkürzungen durch ihre entsprechenden vollständigen
Wörter ersetzt.
17. Umsetzer (10) nach Anspruch 1,
dadurch gekennzeichnet, dass die
Wortmodifikationseinrichtung (15) in der
Wortkategorisierungseinrichtung Wörter erkennt und
entfernt, die verrauscht sind.
18. Umsetzer (10) nach Anspruch 1,
dadurch gekennzeichnet, dass die
Wortmodifikationseinrichtung (15) in der
Wortkategorisierungseinrichtung Wortverbindungen erkennt
und jede Wortverbindung als eine einzelne Einheit
klassifiziert.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/546,127 US5157759A (en) | 1990-06-28 | 1990-06-28 | Written language parser system |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69131549D1 DE69131549D1 (de) | 1999-09-30 |
DE69131549T2 true DE69131549T2 (de) | 2000-07-13 |
Family
ID=24178991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69131549T Expired - Lifetime DE69131549T2 (de) | 1990-06-28 | 1991-06-20 | Parsingsystem für geschriebene Sprache |
Country Status (5)
Country | Link |
---|---|
US (1) | US5157759A (de) |
EP (1) | EP0465058B1 (de) |
JP (1) | JP3323519B2 (de) |
CA (1) | CA2043667C (de) |
DE (1) | DE69131549T2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7558732B2 (en) | 2002-09-23 | 2009-07-07 | Infineon Technologies Ag | Method and system for computer-aided speech synthesis |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5450470A (en) * | 1990-12-13 | 1995-09-12 | Dirad Technologies, Inc. | Script generator and process for programming automated TDD telephone system application |
DE69228211T2 (de) * | 1991-08-09 | 1999-07-08 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals |
DE69231266T2 (de) * | 1991-08-09 | 2001-03-15 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium |
US5475796A (en) * | 1991-12-20 | 1995-12-12 | Nec Corporation | Pitch pattern generation apparatus |
EP0598598B1 (de) * | 1992-11-18 | 2000-02-02 | Canon Information Systems, Inc. | Prozessor zur Umwandlung von Daten in Sprache und Ablaufsteuerung hierzu |
US5835690A (en) * | 1992-12-15 | 1998-11-10 | Microsoft Corporation | Header/footer text string parsing using callback routines for additional processing |
US5613038A (en) * | 1992-12-18 | 1997-03-18 | International Business Machines Corporation | Communications system for multiple individually addressed messages |
US5651095A (en) * | 1993-10-04 | 1997-07-22 | British Telecommunications Public Limited Company | Speech synthesis using word parser with knowledge base having dictionary of morphemes with binding properties and combining rules to identify input word class |
US5634084A (en) * | 1995-01-20 | 1997-05-27 | Centigram Communications Corporation | Abbreviation and acronym/initialism expansion procedures for a text to speech reader |
US5787231A (en) * | 1995-02-02 | 1998-07-28 | International Business Machines Corporation | Method and system for improving pronunciation in a voice control system |
US5761640A (en) * | 1995-12-18 | 1998-06-02 | Nynex Science & Technology, Inc. | Name and address processor |
USD385276S (en) * | 1996-01-26 | 1997-10-21 | Griggs Robert L | Portable language translating machine |
US6029508A (en) | 1996-03-25 | 2000-02-29 | Snap-On Technologies, Inc. | Remote portable display unit with wireless transceiver and engine analyzing system incorporating same |
US6035273A (en) * | 1996-06-26 | 2000-03-07 | Lucent Technologies, Inc. | Speaker-specific speech-to-text/text-to-speech communication system with hypertext-indicated speech parameter changes |
US6411696B1 (en) * | 1996-12-31 | 2002-06-25 | Intel Corporation | System for finding a user with a preferred communication mechanism |
US5987447A (en) * | 1997-05-20 | 1999-11-16 | Inventec Corporation | Method and apparatus for searching sentences by analyzing words |
US6801763B2 (en) * | 1997-10-29 | 2004-10-05 | Metro One Telecommunications, Inc. | Technique for effectively communicating travel directions |
US6098042A (en) * | 1998-01-30 | 2000-08-01 | International Business Machines Corporation | Homograph filter for speech synthesis system |
US6076060A (en) * | 1998-05-01 | 2000-06-13 | Compaq Computer Corporation | Computer method and apparatus for translating text to sound |
US6735286B1 (en) * | 1998-05-29 | 2004-05-11 | Nortel Networks Limited | Telephone system integrated text based communication processes, apparatus and systems |
US6324689B1 (en) * | 1998-09-30 | 2001-11-27 | Compaq Computer Corporation | Mechanism for re-writing an executable having mixed code and data |
US6208968B1 (en) | 1998-12-16 | 2001-03-27 | Compaq Computer Corporation | Computer method and apparatus for text-to-speech synthesizer dictionary reduction |
US6400809B1 (en) * | 1999-01-29 | 2002-06-04 | Ameritech Corporation | Method and system for text-to-speech conversion of caller information |
US6377925B1 (en) | 1999-12-16 | 2002-04-23 | Interactive Solutions, Inc. | Electronic translator for assisting communications |
US7089541B2 (en) * | 2001-11-30 | 2006-08-08 | Sun Microsystems, Inc. | Modular parser architecture with mini parsers |
US8265931B2 (en) | 2002-01-22 | 2012-09-11 | At&T Intellectual Property Ii, L.P. | Method and device for providing speech-to-text encoding and telephony service |
US7027986B2 (en) * | 2002-01-22 | 2006-04-11 | At&T Corp. | Method and device for providing speech-to-text encoding and telephony service |
US7656861B2 (en) | 2004-07-09 | 2010-02-02 | Cisco Technology, Inc. | Method and apparatus for interleaving text and media in a real-time transport session |
TW200614010A (en) * | 2004-10-28 | 2006-05-01 | Xcome Technology Co Ltd | Instant messenger system with transformation model and implementation method |
US7599828B2 (en) * | 2005-03-01 | 2009-10-06 | Microsoft Corporation | Grammatically correct contraction spelling suggestions for french |
US7792143B1 (en) * | 2005-03-25 | 2010-09-07 | Cisco Technology, Inc. | Method and apparatus for interworking dissimilar text phone protocols over a packet switched network |
US20070143410A1 (en) * | 2005-12-16 | 2007-06-21 | International Business Machines Corporation | System and method for defining and translating chat abbreviations |
US8538743B2 (en) * | 2007-03-21 | 2013-09-17 | Nuance Communications, Inc. | Disambiguating text that is to be converted to speech using configurable lexeme based rules |
US20090083035A1 (en) * | 2007-09-25 | 2009-03-26 | Ritchie Winson Huang | Text pre-processing for text-to-speech generation |
US8165881B2 (en) * | 2008-08-29 | 2012-04-24 | Honda Motor Co., Ltd. | System and method for variable text-to-speech with minimized distraction to operator of an automotive vehicle |
US20100057465A1 (en) * | 2008-09-03 | 2010-03-04 | David Michael Kirsch | Variable text-to-speech for automotive application |
US9300796B2 (en) * | 2009-02-16 | 2016-03-29 | Microsoft Technology Licensing, Llc | Telecommunications device for the deaf (TDD) interface for interactive voice response (IVR) systems |
WO2023177145A1 (ko) * | 2022-03-16 | 2023-09-21 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
BG24190A1 (en) * | 1976-09-08 | 1978-01-10 | Antonov | Method of synthesis of speech and device for effecting same |
US4674065A (en) * | 1982-04-30 | 1987-06-16 | International Business Machines Corporation | System for detecting and correcting contextual errors in a text processing system |
JPS59185395A (ja) * | 1983-04-06 | 1984-10-20 | 日本電気株式会社 | 音声応答装置 |
JPS60195596A (ja) * | 1984-03-19 | 1985-10-04 | 三洋電機株式会社 | 音声合成装置 |
US4872202A (en) * | 1984-09-14 | 1989-10-03 | Motorola, Inc. | ASCII LPC-10 conversion |
JPS61252596A (ja) * | 1985-05-02 | 1986-11-10 | 株式会社日立製作所 | 文字音声通信方式及び装置 |
US4831654A (en) * | 1985-09-09 | 1989-05-16 | Wang Laboratories, Inc. | Apparatus for making and editing dictionary entries in a text to speech conversion system |
JPS63198154A (ja) * | 1987-02-05 | 1988-08-16 | インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション | つづり誤り訂正装置 |
US4873634A (en) * | 1987-03-27 | 1989-10-10 | International Business Machines Corporation | Spelling assistance method for compound words |
US4868750A (en) * | 1987-10-07 | 1989-09-19 | Houghton Mifflin Company | Collocational grammar system |
US5146405A (en) * | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
JPH01231167A (ja) * | 1988-03-11 | 1989-09-14 | Fujitsu Ltd | 日本語文章処理方式 |
US4914590A (en) * | 1988-05-18 | 1990-04-03 | Emhart Industries, Inc. | Natural language understanding system |
JP2655703B2 (ja) * | 1988-11-09 | 1997-09-24 | 富士通株式会社 | 日本語文推敲処理方法 |
US5060154A (en) * | 1989-01-06 | 1991-10-22 | Smith Corona Corporation | Electronic typewriter or word processor with detection and/or correction of selected phrases |
US4996707A (en) * | 1989-02-09 | 1991-02-26 | Berkeley Speech Technologies, Inc. | Text-to-speech converter of a facsimile graphic image |
US5258909A (en) * | 1989-08-31 | 1993-11-02 | International Business Machines Corporation | Method and apparatus for "wrong word" spelling error detection and correction |
-
1990
- 1990-06-28 US US07/546,127 patent/US5157759A/en not_active Expired - Lifetime
-
1991
- 1991-05-31 CA CA002043667A patent/CA2043667C/en not_active Expired - Lifetime
- 1991-06-20 EP EP91305601A patent/EP0465058B1/de not_active Expired - Lifetime
- 1991-06-20 DE DE69131549T patent/DE69131549T2/de not_active Expired - Lifetime
- 1991-06-25 JP JP17898291A patent/JP3323519B2/ja not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7558732B2 (en) | 2002-09-23 | 2009-07-07 | Infineon Technologies Ag | Method and system for computer-aided speech synthesis |
Also Published As
Publication number | Publication date |
---|---|
JP3323519B2 (ja) | 2002-09-09 |
EP0465058A2 (de) | 1992-01-08 |
CA2043667C (en) | 1996-02-13 |
US5157759A (en) | 1992-10-20 |
EP0465058A3 (en) | 1995-03-22 |
JPH04233598A (ja) | 1992-08-21 |
DE69131549D1 (de) | 1999-09-30 |
CA2043667A1 (en) | 1991-12-29 |
EP0465058B1 (de) | 1999-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69131549T2 (de) | Parsingsystem für geschriebene Sprache | |
DE69712216T2 (de) | Verfahren und gerät zum übersetzen von einer sparche in eine andere | |
DE69908047T2 (de) | Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern | |
DE69922872T2 (de) | Automatischer Hotelportier mit Spracherkennung | |
DE60000138T2 (de) | Erzeugung von mehreren Aussprachen eines Eigennames für die Spracherkennung | |
DE3910467C2 (de) | Verfahren und Vorrichtung zur Erzeugung von Berichten | |
DE3115318A1 (de) | "elektronisches uebersetzungsgeraet" | |
DE102007004684A1 (de) | Verfahren und Datenverarbeitungssystem zum gesteuerten Abfragen strukturiert gespeicherter Informationen | |
Leung et al. | HKCAC: the Hong Kong Cantonese adult language corpus | |
US20190121860A1 (en) | Conference And Call Center Speech To Text Machine Translation Engine | |
McConvell | To be or double be? Current changes in the English copula | |
DE3855426T2 (de) | Korrekturunterstützungsgerät mit Dokumentenausgabe | |
Wagner | Intralingual Speech-to-text conversion in real-time: Challenges and Opportunities | |
JPH07129594A (ja) | 自動通訳システム | |
Kostina et al. | Abbreviational worldview as part of linguistic worldview | |
Meyer | What transcriptions of authentic discourse can reveal about interpreting | |
DE10204924A1 (de) | Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen | |
Mergel et al. | Construction of language models for spoken database queries | |
CN116504223A (zh) | 语音翻译方法及装置、电子设备、存储介质 | |
CN111652005B (zh) | 汉语与乌尔都语同步互译系统及方法 | |
Callegaro | Parallel Corpora for the Investigation of (Variable) Article Use in English–A Construction Grammar Approach | |
JP2758851B2 (ja) | 自動翻訳装置及び自動通訳装置 | |
EP1518221A1 (de) | Verfahren zur naturlichen spracherkennung auf basis einer generativen transformations-/phrasenstruktur-grammatik | |
Zadrozny et al. | NL Understanding with a Grammar of Constructions | |
EP1193615A2 (de) | Elektronische Textübertragungsvorrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |