DE2212472A1 - Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte - Google Patents
Verfahren und Anordnung zur Sprachsynthese gedruckter NachrichtentexteInfo
- Publication number
- DE2212472A1 DE2212472A1 DE19722212472 DE2212472A DE2212472A1 DE 2212472 A1 DE2212472 A1 DE 2212472A1 DE 19722212472 DE19722212472 DE 19722212472 DE 2212472 A DE2212472 A DE 2212472A DE 2212472 A1 DE2212472 A1 DE 2212472A1
- Authority
- DE
- Germany
- Prior art keywords
- values
- word
- pause
- generator
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 25
- 230000015572 biosynthetic process Effects 0.000 title claims description 11
- 238000003786 synthesis reaction Methods 0.000 title claims description 10
- 230000006870 function Effects 0.000 claims description 16
- 238000011161 development Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000001427 coherent effect Effects 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 claims 1
- 238000001514 detection method Methods 0.000 claims 1
- 230000008859 change Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 230000000630 rising effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001944 accentuation Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000010189 synthetic method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
WESTERN ELECTRIC COMPANY Coker8-1
Incorporated
NEW YORK, N. Y., 10007, USA
Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte
Die Erfindung betrifft ein Verfahren und eine Anordnung zur Durchführung
dieses Verfahrens zur Sprachsynthese von gedrucktem Text, bei dem ein gedruckter Nachrichtentext in alpha-numerische Datensignale
umgesetzt wird.
Mit der zunehmenden Verwendung automatischer Einrichtungen zur Umsetzung zwischen den verschiedenen Formen, in'denen
Daten vorliegen können, ist es offensichtlich, daß eine direkte Umsetzung von hörbarer Sprache in die gedruckte Form oder von der
gedruckten Form in hörbare Sprache zahlreiche Zwischenumwandlungsschritte
vermeiden und eine große Vielseitigkeit bieten würde. Einrichtungen, wie automatische Informationsdienste, rechnergesteuerte
Anweisungssysteme, Lesemaschinen für Bline und gesprochene
ZuHtandsberiehte von Luft- und Raum fahrzeug-Systemen o.a., würden
hieraus großen Nutzen ziehen. Ferner würden beträchtliche Informationsmengen
übet· ein Telefon.sy.stem von flechnersystemen verfügbar
.sein.
209840/0 7 54
BAD ORIGINAL
2212^72
Für derartige Anwendungen muß ein Datenrechner über ein großes und flexibles Vokabular verfügen. Er muß daher Mengen von zugreifbaren
Sprachinformationen speichern und er muß die Information in einer Form verfügbar haben, um eine große Vielfalt von Nachrichten
zu erzeugen. Die von einer Maschine erzeugte Sprache muß aber auch so gut verständlich sein wie natürliche Sprache, obwohl sie nicht
notwendigerweise wie eine menschliche Stimme klingen muß, d.h.
sie darf auch ruhig einen "Maschinenakzent11 besitzen.
Sprachausgabeeinheiten werden bereits in zahlreichen Anwendungen mit beschränktem Vokabular benutzt, wie beispielsweise in automatischen
Telefonantwortsystemen. Die gegenwärtige Technik verwendet im allgemeinen voreingespeicherte Nachrichten, die auf Anforderung gespeichert
und abgerufen werden. Die Beschränkungen bezüglich der Speicher- und Vokabulargröße engen die Anwendbarkeit derartiger
Einrichtungen beträchtlich ein.
Auf dem Gebiet der Sprachsynthese wurden eine Reihe von Vorschlägen
bezüglich der Erregung eines Sprachsysthesators von Phonem-Eingangsdaten gemacht, dif: den gedruckten Text repräsentieren.
BAD
209840/0754
Es sei an dieser Stelle erwähnt, daß unter Phonem eine Gruppe von
Veränderlichen eines Spraclüautes verstanden wird, die gewöhnlich alle wie der gleiche oder äquivalente Btichsiabe ausgesprochen
werden und allgemein als der gleiche Laut betrachtet werden, jedoch mit einer geringen Variation entsprechend verschiedener
phonetischer Bedingungen {Naehbarlaute., Betonung, Länge., Intonation),
die die Wörter und »Sätze einer Sprache oder eines Dialektes unterscheiden. Da jedoch bei derartigen Systemen ein besonders
erfahrener Operator den Text manuell vor der Verarbeitung in Phonem-Form umsetzen muß, sind sie erheblich impraktisch.
Darüberhinaus ist selbst mit einer Eingabe, die von e.inem menschlichen
Operator bereits in die Phonem-Form umgesetzt wurde, eine zusätzliche Verarbeitung notwendig, um die Phoneme miteinander
zu verbinden, um ein Eingangssignal zu bilden , das für einen Sythesaior
verwendbar ist. Ein System, das eine derartige Verbindungsfähigkeit besitzt, ist beispielsweise in der US-Patentschrift
3 158 68 5 beschrieben. Etwas vorteilhafter ist die Speicherung
parametrischer Daten, die für ein Vokabular einer gesprochenen Information repräsentativ sind, und die von einem menschlichen
Operator passend gemacht wurde., wobei dann die gespeicherten
α 9-840/tfv-sV ·'"·■■ :··-:''
Daten dazu benutzt werden, auf ein Kommando hin die Synthesatorsignale
zu assemblieren. Wenn jedoch die parametrischen Daten in den zahlreichen textlichen Formen, die für eine menschlich
klingende Sprache erforderlich sind, gespeichert werden, ist eine enorme Speicherkapazität notwendig. So enthält beispielsweise
ein typisches, gekürztes Handlexikon mehr als 130.000 Wörter. Wenn die Speicherform impuls codierte oder formantcodierte
Wörter berücksichtigt und der Diktionär so ausgedehnt ist, daß er Variationen der meisten Stichwörter enthält, wie sie mit den verschiedenen
Endungen , Vorsilben und dergleichen ausgesprochen werden, dann kann der erforderliche Lexikonspeicher leicht
fünf- oder sechsmal mehr Stichwörter enthalten. Bei der Formantspeicherung ist der Diktionär noch groß und besitzt eine beschränkte
Anwendbarkeit.
Die bekannten Systeme enthalten jedoch nicht genügend Regeln der menschlichen Sprache, um die Natürlichkeit der synthesierten
Sprache zu erzeugen, die wichtig ist, wo Tonhöhe und Modulation die Bedeutung ähnlicher Laute oder Wörter verändern können.
209840/0754
Die Aufgabe der Erfindung besteht nun darin, den vorstehend
diskutierten Nachteil der bekannten Systeme zu vermeiden.
Für ein Verfahren zur Sprachsynthese von gedrucktem Text,
bei dem ein gedruckter Nachrichtentext in alpha-numerische Datensignale umgesetzt wird, ist die Erfindung gekennzeichnet
durch die folgenden weiteren Verfahrensschritte:
1.) Ableitung der Daten über die syntaktische Satzkategorie für die einzelnen, durch alpha-numerische Datensignale
dargestellten Wörter;
2.) Entwicklung der Pausen-, Betonungs-, Dauer-, Tonhöhen-
und Lautstärken-Werte für die einzelnen Wörter in alphanumerischer
Form aus den im Schritt 1.) gewonnenen syntaktischen Satzkategoriedaten;
3.) Entwicklung individueller phonetischer Werte aus den Wortintervallen, in Abhängigkeit von den im Schritt 2.)
entwickelten individuellen Wortwerten und
209840/0764
4.) Kombination des Produkts der Schritte 1.) und 3.) in eine zusammenhängende Beschreibung der ausgewählten
Nachricht, zur Übertragung zu einem Sprachsynthesator.
Für eine Anordnung zur Durchführung des vorstehenden Verfahrens mit einer Eingabevorrichtung zur Lieferung alpha-numerischer
Datensignale, die einen gedruckten Nachrichtentext darstellen, der synthesiert werden soll, und mit einer Ausgabevorrichtung für den
Sprachsynthesator besteht die Erfindung darin, daß die Anordnung fernher aus folgendem besteht:
einem Syntax-Analysator, der mit der Eingabevorrichtung für die
Ableitung syntaktischer Satzkategoriedaten für die einzelnen Wörter, die durch die Eingangsdatensignale repräsentiert sind, verbunden
ist;
einem Generator, der zwischen dem Syntax-Analysator und der
Ausgabevorrichtung für den Sprachsynthesator geschaltet ist und auf santaktische Satzkategoriedaten und Sprachregeln anspricht,
um folgendes zu erzeugen:
209840/0754
(a) parametrische Datenwerte, einschließlich Pausenwerten,
Betonungswerten, Dauerwerten und Tonhöhen- und Lautstärkenwerten der einzelnen Nachrichtenwörter,
(b) individuelle phonetische Werte für Wortintervalle,
in Abhängigkeit von den erzeugten parametrischen Daten
und
(c) kontinuierliche Steuersignale, die die Eingangsdatensignale repräsentieren, die ihrerseits von den erzeugten
individuellen phonetischen Werten modifiziert sind.
Weitere Merkmale, vorteilhafte Ausgestaltungen und Weiterbildungen
des Gegenstandes der Erfindung sind den Unteransprüchen zu entnehmen.
Hieraus ergeben sich mehrere Vorteile, da das Textsynthesesystem der vorliegenden Erfindung englischen Text von einem Eingabesystem,
wie beispielsweise einem Fernschreiber, einem Textabtaster oder dgl. empfängt, Betonungs- und Zeitwerte jedem festgestellten Wort
zuteilt, eine phonetische Beschreibung jedes Wortes aus einem
209840/0754
gespeicherten Diktionär aufsucht und die phonetischen Parameter errechnet, die für die Sprachsynthese erforderlich sind.
Beim vorliegenden Ausführungsbeispiel wurde die englische Sprache zur Erläuterung der Erfindung gewählt. An diesen Operationen ist
kein menschliches Sprachelement beteiligt. Es hängt jedoch von bestimmten prosodischen Informationen ab, d.h. von Regeln und
Vorschriften der menschlichen Spracherzeugung und Sprache, wie die Umwandlung von der gedruckten in die phonetische Form
gerichtet und gesteuert wird.
Ferner werden ein Syntax-Analysator und ein Diktionär, z.B. eine
gespeicherte Ansammlung von phonetischen Daten für ein großes Wortvokabular und seine Variationen verwendet, um eine Satzkategorie,
wie z.B. Subjekt, Verb, Objekt und dgl. jedem Wort des Eingangstextes zuzuteilen. Grenzen zwischen den Sätzen und
Absätzen werden lokalisiert und darüberhinaus wird die Wahrscheinlichkeit und die Möglichkeit für einen Absatz an jeder Satzgrenze
ausgewertet. Jedem Wort wird dann ein Betonungswert zugeteilt und dann eine Tonhöhenkontur, indem der zugeteilte Betonungswert
und die Daten über die Pausenwahrscheinlichkeit verwendet werden,
209840/0754
die der Syntax-Analysator liefert.
Im letzten Schritt der Prosödie-Erzeugung wird jedem Phonem
ein repräsentativer Wert der Dauer, Tonhöhe und Lautstärke zugeteilt, der bezüglich des im System verwendeten Sprachsynthesators
kompatibel ist»
Unter dem vorstehend genannten Begriff Prosodie sind Prinzipien und
Verfahren der Versbildung zu verstehen, wie sie von Silbengrößen, Akzenten und ihrer Ordnung abhängen.
Das System der vorliegenden Erfindung wandelt also in vorteilhafter
Weise gedruckten Text in Sprachlaute um, indem bestimmte manipulative
Operationen auf Texteingabedaten entsprechend der gespeicherten Regeln durchgeführt und dann eine detaillierte phonetische
Beschreibung der gewünschten Sprache in einer Form vorbereitet wird, die direkt dazu verwendet werden kann, einen Sprachsythesator
zu erregen. Derartige Sprachsynthesatoren sind an sich bekannt und in der Lage, hörbare Sprache zu erzeugen, deren Natürlichkeit
weitgehend von der Natur der eingegebenen phonetischen Be-
209840/0754
10
Schreibung abhängig ist.
Schreibung abhängig ist.
Im folgenden wird die Erfindung anhand eines durch Zeichnungen erläuterten Ausführungsbeispieles näher beschrieben. Es zeigen:
Fig. 1 ein schematisches Blockdiagramm des Systems zur
Umsetzung gedruckten englischsprachigen Textes in diskrete, phonetische Symbole für die Speicherung
oder die Synthese künstlicher Sprache gemäß der Erfindung;
Fig. 2 eine Darstellung von Vektorsignalen für die Kennzeichnung der Pausen in einem Satz;
Fig. 3 ein Diagramm zur Erläuterung der Kbnsonanten-Dauer als Funktion von Steuerzahlen;
Fig. 4 ein Diagramm zur Erläuterung der Vokaldauer als Funktion der Steuerzahlen;
Fig. 5 ein Diagramm, das sich auf die Konsonantendauerklasse
209840/0754
als Funktion der Dauersteuerzahlen und auf eine nähe rungs weise Änderung der durchschnittlichen
Dauerwerte bezieht;
Fig. 6 ein Diagramm, in dem die Vokaldauer als Funktion des folgenden Konsonanten dargestellt ist;
Fig. 7 eine Bezugstabelle der in den Fig. 9-15 dargestellten Dauerwerttabellen;
Fig. 8 eine Tabelle der Tonhöhen-Steuerwerte und
Fig. 9-15 Tabellen der Dauerwerte für verschiedene Textsituationen,
wie sie im Rahmen der Erfindung verwendet werden.
Fig. 1 zeigt als Blockdiagramm das System nach der Erfindung für die Umsetzung gedruckten englischsprachigen Textes in diskrete,
phonetische Symbole, die geordnet und verkettet und dann als Steuersignale zu einem Sprachsynthesator übertragen werden.
Die Signalgegenstücke des gedruckten Textes werden in einer
209840/0754
Eingabevorrichtung 10 von einer beliebigen Anzahl alternativer Textquellen entwickelt. Textsignale können beispielsweise
von einem Textleser 11 geliefert werden, der gedrucktes Material abtastet oder sonstwie analysiert, um elektrische Signalgegenstücke
zu erzeugen. Noch üblicher wird ein Fernschreiber 12 verwendet, um direkt elektrische Signaldarstellungen des gedruckten
Textmaterials zu erzeugen. Es ist auch möglich, die Eingabevorrichtung 10 mit einer Signalinformation zu beliefern, die von einer
numerischen Wortliste oder einer anderen kompakten Darstellung abgeleitet wird. Unabhängig von der Form der Eingangs signaldaten
liefert die Eingabevorrichtung 10 als Aus gangs signal eine Folge von Signalen, die für die Texteingangsdaten repräsentativ ist.
Diese Daten werden zu dem Syntax-Analysator 13 übertragen. Dieser
Syntax-Analysator- 13 befragt einen Phonemdiktionär 14 und wählt eine grammatische Kategorie aus, d. h. Substantiv, Verb, Präposition
oder dgl. und zwar für jedes Wort in der Eingangsfolge. Er teilt ferner eine Satzkategorie, d.h. die Rolle jedes Wortes in dem Satz,
wie beispielsweise Subjekt, Objekt oder dgl. zu. Der Phonemdiktionär 14 ist so ausgestattet, daß er äquivalente Signalinformation speichert,
209840/0754
die einem ausgewählten großen Vokabular von Wörtern oder Phrasen und deren Variationen entspricht. Daher kann jedes Wort
in mehreren unterschiedlichen Formen gespeichert werden, die alternative Aussprachen, Verwendungen und dgl. wiederspiqgeln.
Er enthält ferner eine phonetische Umschreibung für jedes Wort mit lexikalen Betonungsangaben und eine codierte Angabe der möglichen
Verwendung jedes Wortes in einem Satz. Wenn ein Wort von dem Phonemdiktionär 14 ausgewählt wurde, entnimmt der Satzanalysator
13 die geeignete Form des beschriebenen Wortes. \
Die Operationen des Syntaxanalysators 13 sind an sich bekannt. Mehrere
geeignete Analysatoren wurden bereits beschrieben. Ein typischer Analysator besteht beispielsweise aus einem logischen Baum, bei dem
Worte am Eingang untersucht werden und eine Zuteilung entsprechend der logischen Struktur der Einheit vorgenommen wird. Jeder Zustand
in einem Satz ist daher in dem gogischem Baum repräsentiert und jeder Zweig des Baumes paßt zu einem Wort in der Eingangsfolge
für die Identifizierung. Die Verbindung beispielsweise am Ende eines Subjekts bildet einen Zweig der Baumstruktur. Da jedes
Wort definiert ist, wird das nächste Wort untersucht, um zu be-
209840/0754
stimmen, ob es Teil eines Verbs ist, eine Fortsetzung oder wenn es keines von beidem ist - die nächste wahrscheinliche
Verwendung in der Wortgruppe.
Alternativ kann die Entscheidungslogik als ein relativ kleines Programm ausgeführt sein, das als eine Matrix arbeitet, indem
die Zeilen definierte Zustände und die Spalten die vorliegende Wortklasse darstellen, die in die Beschreibung des Satzes eingebaut
ist. Eine Zeile kann beispielsweise angeben, daß ein Subjekt gefunden wurde, und daß ein Verb als nächstes gefunden werden
muß. Mit ähnlich strukturierten , logischen Instruktionen wird jedes Wort in dem Satz gemäß seiner syntaktischen Verwendung
in dem Satz identifiziert. Basierend auf diesen zugeteilten, grammatikalischen Beziehungen wird eine Anzahl von syntaktischen
ZuteilungsSignalen von dem Analysator 13 entwickelt.
An der Grenze jedes Wortpaares, entwickelt als nächstes der Pausenwahrscheinlichkeitsanalysator 15 ein Signal, das die Wahrscheinlichkeit
oder die Möglichkeit einer Unterbrechung oder Pause zwischen jedem Wortpaar repräsentiert. Eins der Signale,
209840/07 54
das von diesem Analysator erzeugt wird, benennt die Satzkategorie.
So sind beispielsweise die folgenden 7 Kategorien aufgestellt worden:
Kategorie Erläuterung
E Einführender Ausruf; einführende Frage
angabe {Fragepronomen, Verb)
I Einleitender Absatz
S Subjekt mit allen Modifizierungen
V Verb mit modifizierenden Adverbien
O Objekt, direkt und indirekt; prädikative
Substantive und Adjektive
T Nachgestellte präpositioneile Sätze
P Interpunktion
Die Zuteilung einer Pausenwahrscheinlichkeit hängt von der Satzkategorie zweier Wörter ab. Wörteniin dem gleichen Satz
(oder der gleichen Phrase) wird eine Null-Wahrscheinlichkeit für eine Unterbrechung zugeteilt . Höhere Unterbrechungswahrschein-
209840/0754
lichkeiten als zwischen Verb und Objekt oder Komplement werden zwischen Subjekt und Prädikat zugeteilt. Eine Unterbrechungswährscheinlichkeit
wird zwischen einer einleitenden präpositioneilen Phrase und dem Subjekt relativ hoch gewählt. Jede umgekehrte
Ordnung des Auftretens zwischen Satzkategorien bewirkt eine Angabe einer Absatzgrenze an dem Unikehrpunkt. Absatzgrenzen
wird eine höhere Wahrscheinlichkeit einer Unterbrechung eingeräumt, als jeder Satzgrenze innerhalb des Absatzes. Schließlich
wird den Interpunktionszeichen die höchste Wahrscheinlichkeit einer Unterbrechung zugeteilt.
Diese Operationen werden beispielsweise dadurch implementiert,
daß gespeicherte numerische Werte für jede Satzkategorie, d.h. für jede Kategorie in der Tabelle (1) verwendet werden. Ein
Pausenwahrscheinlichkeitswert wird der Tabelle auf der Basis zweier Symbole entnommen, und zwar eins für das vorhergehende
und eins für das folgende Wort. Ein Beispiel einer solchen tabellarischen Darstellung zeigt die nachfolgende Tabelle (2).
209840/Ü75A
Tabelle (2)
Vorliegende Wortkategorie
V 0
0 0 0 0
Vorherge | I | 7 | 0 | 6 | 6 | 6 | 6 | 9 |
hende | ||||||||
Wort | S | 7 | 7 | 0 | 5 | 5 | 5 | 9 |
kategorie | V | 7 | 7 | 7 | 0 | 2 | 4 | 9 |
0 | 7 | 7 | 7 | 7 | 0 | 4 | 9 | |
T | 7 | 7 | 7 | 7 | 7 | 0 | 9 | |
P | 0 | 0 | 0 | 0 | 0 | 0 | 9 | |
Die Pausen in einem Satz basieren ferner auf der Länge des Satzes und seiner grammatikalischen Struktur.
Der Generator 16 arbeitet zusammen mit dem Analysator 17, um
eine Pause an dem geeignetsten Platz in dem Satz in Übereinstimmung mit der Wahrscheinlichkeit einer Pause, die von einem Signal des
Analysators 15 abgegeben wird, einzusetzen. Die Zuteilung erfolgt in zwei Stufen. Eine generelle Pause wird zuerst in dem Generator
16 zugeteilt und dann in spezielle Anforderungen für Tonhöhen-
209840/0754
änderungen und Vokkalverlängerungen in dem Analysator 17 umgesetzt. Diese Werte werden kann an den Analysator 19 und
die Generatoren 20 und 21 abgegeben, wo sie mit anderen Anforderungen kombiniert und zur Bestimmung der tatsächlichen
Tonhöhe, Dauer und Pause verwendet werden. Die nachfolgende Tabelle (3) faßt die beiden Schritte zusammen. Sie gibt die Orte
an, an denen Pausen zuzuteilen sind und zeigt einige Angaben, wo
sie liegen müssen, Schließlich schlägt sie akustische Merkmale vor, die verschiedenen Pausentypen zugeordnet sind.
Art der Pause
Satzende
Stärkste Fort-Setzung
Starke Fortsetzung
Mäßige Fortsetzung
Schwache Fortsetzung
Verfahren zur Ortsbestimmung
Periode
Fragezeichen bei einer Ja-Nein-Frage
Komma
Absatzgrenze, gefunden vom Analysator
Absatzgrenze, gefunden vom Analysator
Akustische Merkmale
Langer Vokal, Fallende Tonhöhe Stille
Sehr langer Vokal, Stark ansteigende Tonhöhe, Stille
Sehr langer Vokal, Ansteigende Tonhöhe, Stille
Langer Vokal, Ansteigende Tonhöhe
Mäßig andauernder Vokal, Gleichbleibende Tonhöhe
2Ü9840/Ü754
Die ersten drei in der Tabelle (3) angegebenen Pausenarten
werden in dem Syntax-Analysator 13 festgestellt. Signale, die sie klar als Pausen der Kategorie P definieren, d.h. Interpunktionspausen (von Tabelle (I)) sind am Ausgang des Analysators 13
verfügbar. Für diese Pausen werden am Ausgang des Wahrscheinlichkeitsanalysators 15 Signale erzeugt, die klar markiert sind, um einen Wahrscheinlichkeitswert 9 anzugeben. Die Wahrscheinlichkeitswerte 9 geben, wie Tabelle (2) anzeigt, eine bestimmte Pause in einer Äußerung an. Die übrigen zwei Arten von Pausen, nämlich mäßige Fortsetzungen und schwache Fortsetzungen müssen in einem Satz an solchen Punkten erzwungen werden, die nicht
klar durch die Interpunktion markiert sind. Dieses kann dadurch geschehen, daß'die Zuteilungswerte des Analysators 15 angepaßt werden gegen eine sich bewegende Schwelle oder Maske. Es
werden daher mehrere Schwellenwerte festgesetzt . Sie stellen
sicher, daß eine aktuelle Pause oder eine Unterbrechung mit ansteigender Tonhöhenkontur, ein Abschluß oder aktuelle Pause
zugeteilt wird, in Abhängigkeit von der Länge des Satzes und der Sprechgeschwindigkeit.
werden in dem Syntax-Analysator 13 festgestellt. Signale, die sie klar als Pausen der Kategorie P definieren, d.h. Interpunktionspausen (von Tabelle (I)) sind am Ausgang des Analysators 13
verfügbar. Für diese Pausen werden am Ausgang des Wahrscheinlichkeitsanalysators 15 Signale erzeugt, die klar markiert sind, um einen Wahrscheinlichkeitswert 9 anzugeben. Die Wahrscheinlichkeitswerte 9 geben, wie Tabelle (2) anzeigt, eine bestimmte Pause in einer Äußerung an. Die übrigen zwei Arten von Pausen, nämlich mäßige Fortsetzungen und schwache Fortsetzungen müssen in einem Satz an solchen Punkten erzwungen werden, die nicht
klar durch die Interpunktion markiert sind. Dieses kann dadurch geschehen, daß'die Zuteilungswerte des Analysators 15 angepaßt werden gegen eine sich bewegende Schwelle oder Maske. Es
werden daher mehrere Schwellenwerte festgesetzt . Sie stellen
sicher, daß eine aktuelle Pause oder eine Unterbrechung mit ansteigender Tonhöhenkontur, ein Abschluß oder aktuelle Pause
zugeteilt wird, in Abhängigkeit von der Länge des Satzes und der Sprechgeschwindigkeit.
209840/0754
Eine Folge dieser Wahrscheinlichkeitswertesignale können als Werte einer Tabelle gespeichert werden, beispielsweise als
Tabelle (2) oder sie können durch Vektorwerte dargestellt sein. In jedem Falle werden die Werte untersucht, um den Wert der
größten Wahrscheinlichkeit in einer Gruppe von Wortpaaren zu bestimmen, die einen vollständigen Satz repräsentieren. Daher
ist die Tabellen- und Vektortechnik alternativ. Eine andere zufriedenstellende Technik ist die Zuteilung der gleichen Art der
Pause zu einem gegebenen Pausenwahrscheinlichkeitswert. So
wird beispielsweise für einen Wahrscheinlichkeitswert 7 stets eine mäßige Fortsetzung zugeteilt. Bei einer Pausenwahrscheinlichkeit
von 5 oder 6 wird eine schwache Fortsetzung verwendet. Die tatsächliche Pausenzuteilung bei einem Wahrscheinlichkeitswert 5 oder
6 hängt weitgehend davon ab, ob der Satz lang oder kurz oder ob die Sprache schnell oder langsam ist.
Die Vektortechnik stellt eine Verfeinerung der Pausenzuteilung dar,-Wie
Fig. 2 zeigt, wird der Wahrscheinlichkeitswert, der jedem
Wort zugeteilt ist, angegeben als ein Vektor mit der Länge des Vektors, der den Wahrscheinlichkeitswert angibt. Die höchste
2098A0/0754
Wahrscheinlichkeit für den Satz wird durch einen Vektor angegeben,
der einen Schwellenwert überschreitet. Daher werden für mehrere Pausengrade bewegliche Schwellenwerte festgesetzt. Die Vektorhöhe
hängt von der Länge der Äußerung ab. Bei einer langen Äußerung wird der Schwellwert herabgesetzt, bei einer kurzen Äußerung
dagegen angehoben. Die Stärke der Pause, ob sie eine schwache oder
starke Fortsetzung ist, wird nach dem Umfang zugeteilt, mit dem ein Vektor den Schwellenwert überschreitet. Alternativ hierzu
wird die Höhe des Schwellenwertes mit Hilfe einer Amplitudenmaske oder dgl. untersucht oder er kann mit Hilfe anderer Längen-bezogener
Kriterien bestimmt werden, wie beispielsweise die Zahl der Wörter mit Inhalt, die sich in dem Satz befinden. Der Schwellwert wird
normalerweise an den Enden des Satzes verzerrt, da es wünschenswert
ist, die Zuteilung einer Pause in der Nähe des Satzendes zu verhindern. Pausen werden nämlich schon an den Satzenden mit
Hilfe der Perioden oder anderen Interpunktionszeichen zugeteilt. Eine derartige Sperr- oder Verzerrungstechnik entspricht der Festsetzung
der Krümmung an den Enden der Untersuchungsmaske, wie es die Fig. 2 zeigt.
209840/0754
Ferner ist nur einem einzigen Vektor gestattet, eine Pause in einer Untersuchung des Satzes anzugeben, d.h. nämlich die eine,
die den Schwellenwert übersteigt. Nachdem eine Pause angegeben wurde, wie Fig. 2A zeigt, werden die beiden Segmente erneut
untersucht, wie die Fig. 2B zeigt, durch eine Kürzung der Länge der Maske, um den neuen Segmenten zu genügen. Dieses Verfahren
wird fortwährend so lange durchgeführt, bis keine neuen Pausen mehr angegeben werden.
Es ist offensichtlich, daß auch eine andere Technik verwendet werden
kann, um die größte zugeteilte Wahrscheinlichkeit auszuwählen, die für jedes Wort in einem gesamten Satz definiert ist. Einrichtungen
für die Aufgreifen des größten Signals in einer Ansammlung von Signalen sind an sich bekannt.
Durch die Auswahl des größten Wahr scheinlichke its wertes durch ein
beliebiges Mittel ist es also offensichtlich, daß eine untere Grenze festgesetzt werden muß, um zu verhindern, daß eine Pause für
Spitzenwerte zugeteilt wird, die einen niedrigen Wahrscheinlichkeitswert besitzen, selbst dann, wenn sie andere niedrige Wahrschein-
209840/0754
lichkeitwerte übersteigen. Ein sehr einfaches Verfahren gestattet die Zuteilung der Pausen ohne Verschiebung des Schwellenwertes.
Durch diese alternative Lösung werden für Wahrscheinlichkeitswerte
unterhalb von 5 keine Pausenspezifiziert, selbst dann nicht, wenn sie als die größte in der Gruppe erkannt wurden. Pseudo-Pausen
werden für Wahrscheinlichkeitswerte von 6 und 7 zugeteilt und wirkliche Pausen für noch höhere Wahrscheinlichkeitswerte eingeschoben.
Eine Pseudo-Pause ist definiert als eine Veränderung im Ausgangs signal,
die gekennzeichnet ist durch eine schwache Tonhöhenmodulation am Ende eines Intervalls zusammen mit einer Vokalverlängerung und
anderen Pausenattributen. Es gibt jedoch kein tatsächliches Stille-Intervall, d.h. es gibt eine Verlangsamung , aber keinen wirklichen
Stop. Untersuchungen haben gezeigt, daß derartige Pseudo-Pausen
bei englisch-gesprochenen Äußerungen allgemein vorkommen. Diese Werte werden bestimmt und diesen Signale zugeteilt, die von
einem Pausengruppenende-Tonhöhenmodulationsanalysator 17 erzeugt
werden. Er bezieht sich auf Pausenzuteilungssignale des Generators
16, im Zusammenhang mit den gespeicherten Regeln der vorstehend diskutierten Art.
209840/0754
Die beiden folgenden Sätze illustrieren als Beispiel die Art und Weise, in der Pausen für einen englischen Satz bestimmt
werden. Bei diesem Beispiel werden die Pausenwahrscheinlichkeitswerte in dem Pausenwahrscheinlichkeitsanalysator 15 bestimmt,
und, wie oben angegeben, für Interpunktionswerte, die von dem Syntax-Analysator 13 zugeteilt werden, für jedes Wort in
dem englischen Satz dargestellt.
22 23456 666 6 7 On this page you see two examples of the seven categories.
13 4 5 6 6 7
Do you understand them after this?
Die Wahrscheinlichkeitswerte für eine Pause zwischen aufeinanderfolgenden
Worten, wobei die Werte der Tabelle (2) verwendet werden, sind über jedem Wort jedes Satzes angegeben. Durch die
Verwendung der oben definierten Regeln wird daher für jeden Satz die Pause angegeben. Wie vorstehend bereits diskutiert wurde.
2Q9840/07S4
erfolgt dieses dadurch, daß die Werte aus einer Tabelle ausgewählt
oder indem der größte Vektorwert bestimmt wird, der den verschiebbaren Schwellenwert überschreitet.
Redundanz- Untersuchung
Während der Analyse ist es freilich erforderlich zu wissen, ob ein Wort im vorhergehenden Absatz aufgetreten war oder nicht.
Der Redundanz-Analysator 23 liefert diese Information. Der Analysator 23 enthält zu diesem Zweck eine Liste von Worten,
in typischer Weise eine Liste mit einer maximalen Länge von 100 Wörtern. Jedesmal, wenn ein neues Wort während der
Analyse festgestellt wird, wird dieses Wort der Liste hinzugefügt. Wenn die Zahl der Wörter in der Liste dann 100 überschreitet,
wird das älteste Wort von der Liste gestrichen. Der Analysator überfliegt dann die Liste und sucht eine Anpassung zu dem Wort herzustellen,
das gerade hinzugefügt wurde. Wenn eine Anpassung, d. h. eine Übereinstimmung gefunden wird, dann wird das Wort
als in der vorhergehenden Liste von 100 Wörtern als vorliegend identifiziert. Zusätzlich zu der Aufbewahrung einer Wortliste, die zuvor in dem
2098A0/O754
Absatz auftrat, wird eine zweite Liste von Wörtern aufbewahrt, die im vorhergehenden Satz aufgetreten waren. Ein ähnliches
Anpassungs verfahr en schließt sich für die Wörter in der zweiten Liste an. Der Analysator 23 erzeugt auf diese Weise ein Ausgangssignal,
das den Status jedes neuen Wortes angibt, z.B. daß es vorher nicht aufgetreten war, daß es in den vorherigen 100 Wörtern
aufgetreten war, daß es in dem vorliegenden Satz aufgetreten ist oder daß daß es vorher in dem gleichen Satz aufgetreten war.
Diese Ausgangsangaben werden dazu benutzt, dem Textmaterial B etonungsangaben zuzuteilen.
Unabhängig von der Pausenzuteilung in einem Satz wird ein Informationswert
im Analysator 18 bezüglich des Diktionärs 14 zugeteilt, eine Information nämlich bezüglich des Hauptbestandteiles, den
jedes Wort in einem Satz enthält. Dieser Informationswert wird als "Betonung" bezeichnet. Dieser Term jedoch muß von der gewöhnlichen
Definition unterschieden werden, die auf der Relativität der Wahrnehmung basiert. Für die Spracherzeugung, insbesondere
2098 40/075 4
bei absatzlangem Material, hat sich eine subtile Unterscheidung der Betonung als notwendig erwiesen.
Die Wortbetonung wird daher hier als eine ziemlich spezialisierte Definition verwendet, die als "absolute Betonung*1 bezeichnet wird.
Die Betonung kann von der Verwendung des Wortes her zugeteilt werden, ob es beispielsweise ein Substantiv, ein Verb, eine Präposition
oder dergleichen ist oder von der Seltenheit des Wortes in dem Satz. Allgemeine und wiederholte Worte werden in der allgemeinen
Sprache weniger betont als nur selten benutzte, neue Worte. Für schwächere Worte, wie beispielsweise Funktionsworte, ist der
Grad der Betonung vorhersagbar von der Kenntnis des Wortes und im kleineren Umfang von der Syntax abhängig. Einige der
mehrsilbigen Funktionswörter wie "inside", im Gegensatz zu "in"; "beside" im Gegensatz zu "by", neigen dazu, mehr Betonung
für
zu erhalten - möglicherweise weil sie1 eine Hervorhebung gewählt werden, möglicherweise auch, weil sie mehrsilbig sind oder weil sie weniger häufig benutzt werden«
zu erhalten - möglicherweise weil sie1 eine Hervorhebung gewählt werden, möglicherweise auch, weil sie mehrsilbig sind oder weil sie weniger häufig benutzt werden«
209840/0754
Die Betonung von Bedeutungswörtern scheint von der Seltenheit des Wortes abzuhängen. Verben, als eine Klasse, sind leichter
vorherzusagen als Substantive, so daß sie weniger Betonung erhalten. Unter den Verben sind die selteneren stärker betont
als die häufig verwendeten, möglicherweise wieder, weil sie zur Hervorhebung verwendet werden oder weil sie möglicherweise
weniger häufig verwendet werden.
Bestimmte häufige, englische Verben werden verwendet und betont wie "be?'-Verben (Worte mit being) und Hilfszeitverben.
Beispielsweise Verben wie "seem", "look", "get", "turn"^ wgot! usw. werden sehr schwach betont, wenn sie sich auf das
Subjekt oder auf ein Kompliment beziehen. Beispielsweise: "The cake looks good." gegen "He looks out the window a lot."
Die Betonung eines Substantivs hängt davon ab, ob es in dem Absatz bereits zuvor erwähnt wurde, Wiederholungen eines Substantivs
innerhalb des Satzes werden oft als eine Funktion des Wortes betont, da es oft als Pronomen verwendet wird.
209840/0754
Bei allen diesen Beispielen wird die Betonung eines Wortes, das
aus dem Zusammenhang mehr vorhersagbar ist, verringert, aber
für gewöhnliche Wörter oder ungewöhnliche Verwendungen von gebräuchlichen Wörtern vergrößert.
Es gibt hierbei eine besondere Bedingung, die jedoch sehr unterschiedlich
ist» Dieses ist der Fall der Wörter wie beispielsweise "on" oder "off", "in" oder "out", die adjektivisch benutzt werden.
Obwohl diese Wörter vom Zusammenhang her wohl vorhersagbar sind, sind ihre entgegengesetzten Alternativen ebenso einigermaßen
wahrscheinlich und die Wahl zwischen den beiden dreht sich um die Bedeutung des Satzes. Diese Situation wird von dem Syntax-Analysator
13 festgestellt.
Obwohl die Betonung im allgemeinen zusammenhängend ist, kann auch eine verwendbare Näherung erzielt werden dadurch, daß
die absolute Betonung in drei primären Stufen quantisiert wird, wie beispielsweise Funktionswörter, Zwischenwörter und
Bedeutungswörter.
20984Q/0754
Bedeutungswörter werden weiterhin in Unterklassen eingeteilt,
nämlich (1) Substantiv oder Verb oder übrige und (2) neue oder wiederholte Worte. Funktionswörter sind gewöhnlich einsilbig
und dienen hauptsächlich zur Festlegung der grammatikalischen Beziehungen in dem Satz, so daß sie selten betont werden.
Funktionswörter enthalten Artikel, Präpositionen, Konjunktionen und Personalpronomen. Bedeutungswörter sind Wörter, die die
wesentliche Bedeutung in dem Satz tragen, so daß sie generell betont werden. Diese Bedeutungswörter beziehen sich auf Dinge,
Aktionen oder Attribute. Sie sind ebenfalls Zwischenwörter, die weder zur Funktions- noch zur B edeutungs gruppe zählen. Mehrsilbige,
weniger häufig verwendete Präpositionen, Konjunktionen und häufig verwendete Verben, wie beispielsweise "get", "take",
"give1' usw. fallen ebenso in diese Kategorie, wie einige Pronomen, Adverbien und Adjektive. Zwischen Wörter erfahren im allgemeinen
eine schwache Betonung.
Zusätzlich zu der B etonungs Zuteilung des Einzelwortes wird eines
der B edeutungs Wörter in jeder Pausengruppe im allgemeinen auf besondere Weise behandelt, um ihm eine stärkere Betonung und
eine spezielle fallende Tonhöhe am Ende seines Hauptvokals
209840/0754
zu geben. In den meisten Sätzen fällt diese besondere Betonung auf die Hauptidee des Satzes. Sie wird oft als "Fokus11 des Satzes
bezeichnet. In der englischen Sprache gibt es eine sehr starke Tendenz
für diese ll Fokussierung1* auf dem letzten Bedeutungswort des
Satzes, ganz besonders bei Tatsachenmaterial. Im Analysator Wird für jede Pausengruppe im letzten Wort mit absoluter Betonung
oberhalb der Stufe "wiederholter Substantive die Fokus-Betonung
zugeteilt, wenn nicht ein anderes Wort speziell für eine Hervorhebung
im Eihgangstext markiert ist (beispielsweise durch Unterstreichung
oder Kursivschrift).
Angaben absoluter Betonung, die in der Einheit 18 auf der Basis der
Information des Syntax-Analysators 13 bestimmt wird,* sind von der
Einheit 18 als Signale verfügbar^ die die Betonung jedes Wortes
angeben» In ähnlicher Weise wird der geeignete 15FOkUS*1 für den
Satz in dem Fokuswort -Analysator 19 bestimmt* Dieser Analysator 19 wird mit den Angaben der absoluten Betonung der Einheit 18
und mit einer Angabe einer Pausengruppenende-TonhöheriiHödulatiönsangabe
vom Analysator 17 beliefert. Der Analysator 19 erzeugt dann
ein Signal, das den Fokus jeder Pausengruppe angibt.
209840/Ö154
An dieser Stelle der Analyse wurden eine Anzahl von Signalen zugeteilt, die die Art anzeigen, in der ein Satz zu lesen ist.
Signale wurden vorbereitet, um anzugeben, wo Pausen angebracht werden sollen, die Art der Tonhöhenmodulation bei jeder Pause
angebracht werden soll, um anzugeben, welches Wort zu betonen ist und wieviel Betonung zuzuteilen ist. Während diese Darstellungen
für einen Menschen bedeutsam sind, besteht weiterhin das Problem der Interpretation dieser Zuteilungen in einer Weise, die eine
maschinelle Einrichtung verstehen kann. Es ist daher notwnedig, diese Signale in Zeitsteuerwerte, Tonhöhenwerte und Lautstärkewerte für jedes Phonem einer Wortfolge umzusetzen. Diese
Umsetzungen erfolgen durch die Signalgeneratoren 20, 21 und 22.
Die Dauerumsetzungen erfolgen nach zwei Grundregeln, Die erste ist eine Regel für Konsonanten-Dauerwerte, die eine besondere
Behandlung der Phoneme am Ende eines Wortes erfordert. Diese Regel wrd in dem Signalgenerator 22 realisiert. Die andere Regel
bezieht sich auf Dauerwerte der Vokale und deren Tonhöhenwerte,
209840/0754
wobei sie eine spezielle Behandlung der vorpausalen Hauptvokale
in einem. Wort angibt. Sie wird in den Generatoren 21 und 22 jeweils
verwirklicht.
Es ist bequem, bei den Dauer- und Tonhöhen-Zuteilungsgeneratoren
normalisierte Werte oder Steuerwerte festzusetzen, die von den tatsächlichen Werten unabhängig sind und danach diese Steuerzahlen
in tatsächliche Werte, beispielsweise in einem Parameter-Zuteilungs gerät
27 umzusetzen. Dieses Gerät 27 ist daher mit einer Tabelle ausgerüstet, die Auskunft über die Dauer und Tonhöhe gibt. Für die
Dauer von Phonemen werden für jedes Phonem zwei Zahlen verwendet, eine feste Dauerkomponente und eine variable Dauer komponente.
Die festen und variablen Nummern definieren einen Punkt und eine Neigung einer Geraden oder Dauer, wie es in den Fig. 3 und 4
dargestellt ist.
Konsonantendauer
Im Analysator 22 wird die Konsonantendauer am Ende der Wörter
abhängig von der dem Wort zugeteilten Betonung gemacht. Stark
209840/0754
betonte Wörter werden in dem Strom der Sprache von langen Konsonanten an ihren Grenzen beiseite gesetzt. Der Konsonanten-Dauer
generator 22 spricht auf die Identität eines Phonems von dem Diktionär 14 an. Wenn der Konsonant an beiden Enden des Wortes
liegt, dann wird die absolute Betonung des Wortes und die Betonung des entweder davor oder danach liegenden Wortes von dem Generator
18 zugeteilt. Diese drei Merkmale der Information dienen zur Findung einer Konsonantendauerklasse aus einer Datentafi. , beispielsweise
einer solchen, wie sie in Fig. 5 gezeigt ist. Die Drfinition dieser Klasse führt zu einer Dauer Steuer zahl, wie sie in Fig. 5
gezeigt ist, und letzlich zur tatsächlichen Dauer. Die angenäherte Daueränderung für jede Klasse ist ebenfalls in Fig. 5 dargestellt.
Exakte Dauerwerte werden dadurch erzielt, daß die Steuerdauer zahlen innerhalb von Millisekunden in tatsächliche Steuerwerte über Fig. 3
umgesetzt werden.
In Fig. 5 zeigt eine Bedingung A einen nachbetonten, intervokalischen
Zungenanstoßkonsonanten an, der innerhalb eines Wortes auftritt. Die Bedingung B bezieht sich auf andere Konsonanten innerhalb der
Wörter und auf Funktionswortgrenzen. Die Bedingung C bezeichnet
209840/0754
betonte Konsonanten innerhalb der· Wörter am Ende eines mittelbetonten
Wortes an d#r Grenze zwischen Worten einer Wortverbindung
oder bei einigen allgemeinen Ausdrücken und in Funktionswörtern, die an Bedeutungswörter angrenzen. Die Bedingung D
dagegen gibt eine Bedeutungswortgrenze an und die Bedingung E schließlich bezeichnet Silbenkonsonantenansatzgrenzen.
Daher wird ein Funktionswortkonsonant, der an ein Bedeutungswort angrenzt, verlängert, zeigt z. B. von der Dauer B auf die Dauer C
von den Daten in Fig. 5. Wenn zwei Substantive ein zusammengesetztes Wort bilden, dann werden die Konsonanten an ihren ßrenzen in ihrer
Dauer verringert.
Die obigen generellen Regeln lassen sich auf die meisten Fälle anwenden, obwohl weitere Verfeinerungen, verwendet werden können,
d. h. daß eine Anzahl von speziellen Fällen von dem System akkomodiert werden kann. So wird beispielsweise den Wörtern
in einer Kombination aus einem Verb, dem ein Artikel oder eines der Pronomen folgt, kürzere Konsonanten an ihren Grenzen gegeben,
als andere Bedeutungsfunktionskombinationen gemäß der Information,
0/Ü 7 5 A
die der Sy tax-Analysator 13 liefert. Andere spezielle Fälle der
Konsonantendauer wird im fügenden bei der Diskussion eines besonderen Falles von Vokalzuteilungen beschrieben, die von dem
Generator 21 vorgenommen werden.
Vokaldauer und Tonhöhe
Vokaldauer-und Vokaltonhöhen-Zuteilungen stellen zwei unterschiedliche
Aspekte bei der Steuerung der Spracherzeugung dar. Der Vokaldauer-Generator 21 und der Tonhöhen- und Lautstärkengenerator 20 sprechen
daher auf die gleichen Signale des Diktionärs 14 vom Betonungsgenerator 18, vom Fokusbetonungsanalysator 19 und vom Pausengruppenanalysator
17 an. Der gesamte Prozeß der Entwicklung der Dauer- und Tonhöhenwerte bezüglich der Vokale ist im wesentlichen ein Tabellten-Nachschlageprozeß,
bei dem die ankommende Information dazu benutzt wird, eine Adresse in der Tabelle zu generieren. Von den Adressen in
den Tabellen werden Dauerwerte, Tonhöhenwerte und Lautstärkewerte extrahiert.
Der Generator 21 umfaßt eine Anzahl von Tabellen mit Vokaldauerwerten.
209840/0754
Für jeden Vokal führen daher die Betonungs- und Pausensignale zur Zuteilung eines geeigneten Dauerwertes aus der gespeicherten
Tabelle. Die Tabellen selbst basieren auf Überlegungen bezüglich der Vokaldauer-Verwendung bei der üblichen Sprache.
Die Regeln der Vokaldauer sind wesentlich komplexer als diejenigen
für die Konsonanten. Die Dauer der Vokale wird von der Betonung noch mehr beeinflußt als die der Konsonanten.
Gleichzeitig werden sie von verschiedenen anderen Faktoren beeinflußt.
Die Vokalstärke (für die Betonung) und Tonhöhenänderung über dem Vokal (für die Beendigung) beeinflussen die Phonemdauer
sehr stark. Die lexikalische Betonung der Silbe, in der der Phonem auftritt, ist ein weiterer Faktor. Ein dritter Faktor
ist die Tatsache, welcher Phonem vorausgeht oder nachfolgt. Jeder Vokal spricht auf diese Faktoren unterschiedlich an.
Darüberhinaus wirken einzelne Phoneme mit speziellen Phonemen auf sehr spezielle Weise zusammen. So verkürzt beispielsweise
ein Silbenendennasal, wenn ihm ein Vorder- oder Mittelvokal - nachlässig gesprochen - vorausgeht, den Vokal und verlängert
209840/0754
sich selbst. Dieses Phonem der nasalen Assimilation ist an sich bekannt. Der Vokal 1V, wie in dem englischen Wort "hat"
ist, wenn ihm ein "s" nachfolgt, in einsilbigen Wörtern sehr lang,
nicht jedoch in mehrsilbigen Wörtern.
Der Vokaldauergenerator 21 trifft eine Anzahl von Zwischenentscheidungen
einschließlich der Bestimmung:
(1) des lexikalischen Betonungszustande des von dem
Diktionär 14 erhaltenen Vokals; ob er primär betont, sekundär oder unbetont ist;
(2) ob er sich in der Wortendsilbe befindet; und
(3) wenn dies der Fall ist, ob er sich in einer Vorpausen-Position
befindet.
Die Fig. 6 zeigt die Dauerwerte für eine Anzahl von Vokalen als Funktion der nachfolgenden Konsonanten, und zwar für eine reprädentative
Bedingung, wie betontes Wort, starke Betonung., starke
ansteigende Pausengruppenendung auf dem Hauptvokal des Wortes.
Die Dauer ist durch Konturlinien in einer räumlichen Anordnung von
2098A0/Ü754
Vokalen und Konsonanten dargestellt. Diese Konturen sind
sanfter als die entsprechenden Datentabellen, Fig. 6 stellt nur
eine aus einer Anzahl von Datengruppen dar. Diese Daten entsprechen
den Daten in der Tabelle in Fig* 7.
Die Zuteilung der Vokaldauer erfolgt auf folgende Weise:
Die Bedingungen der Pausengruppeneiidung, ob das Wort ein Fokus
ist oder nicht, und die absolute Betonung, die einem Wort zugeteilt
wurde, werden zum Auffinden einer Position in Fig. 7 verwendet,
was dann zu anderen gespeicherten Tabellen führt, die die Dauersteuerwerte als eine Funktion des Vokals und der Art des nachfolgenden
Konsonanten angibt. Diese Tabellen sind in den Fig. 9-15 dargestellt.
Die Tonhöhen- und Lautstärkewerte werden in dem Signalgenerator
20 zugeteilt, der im wesentlichen die gleiche Technik verwendet, die
bei der Zuteilung der Dauerwerte für die oben beschriebenen Vokale benutzt. Daher empfängt die Einheit 20 die gleichen Daten vom
Diktionär 14, dem Betonungsgenerator 18 und so weiter. Abhängig von den zu dem Signalgenerator 20 übertragenen Eingabedaten
209840/0754
wird ein Tonhöhen- und Lautstärkenwert für jedes Phonem aus den gespeicherten Tabellen zugeteilt. Fig. 8 zeigt das Verfahren
der Zuteilung der Tonhöhe.
Die vertikalen und horizontalen Achsen der Tabelle sind mit denen in Fig. 7 identisch. Die Werte innerhalb der Tabelle sind Steuerwerte der Tonhöhe oder Grundfrequenz in Schwingungen pro Sekunde
( Hz). Einige der Eingänge in der Tabelle haben einen Wert, einige haben zwei Werte und andere haben drei Werte. Wo der Eingang
einen Tonhöhenwert besitzt, wird dieser als Zieltonhöhe für die gesamte Dauer des Phonems ausgewählt. Wo zwei Werte vorliegen,
wird das Phonem in zwei Teile geteilt, und zwar mit einem höheren Tonhöhenwert für die erste Hälfte und einem niedrigeren für die
zweite Hälfte des Phonems. Wenn drei Eingänge in der Tabelle vorliegen vorliegen, gibt es zwei Alternativen. Wenn das Wort in einem
stimmlosen Konsonanten oder mit einer Lautstille endet, wird der Vokal in 3 Teile geteilt, und zwar mit den Tonhöhenwerten in der
Tabelle in der Reihenfolge oberer Wert zuerst, mittlerer Wert an zweiter Stelle und unterer Wert an dritter Stelle. Wenn jedoch ein
stimmhafter Phonem nachfolgt, wird der niedrigste Eingang als Tonhöhe
209840/0754
für den stimmhaften Phonem verwendet, der diesem Phonem folgt, selbst dann, wenn es sich um eine Konstante handelt.
Zwei Dauersteuerzahlen erscheinen in einigen Kästchen in den Fig. 9-15. Diese geben die Vokaldefinition für Tonhöhenwerte
an.
Zur Erzeugung des tatsächlichen Tonhöhensignals sind mehrere alternative Wege möglich. So haben beispielsweise einige Syntheseverfahren
eine gleichbleibende oder anhaltende Tonhöhe während der Dauer jedes Phonems mit einem kurzen, sanften Übergang zu
dem nächsten Phonem verwendet. Andere haben diese Verbindung mit einer gradlinigen Interpolation durchgeführt. Gemäß dieser
Erfindung wird vorzugsweise ein Tiefpaß verwendet, um die Tonhöhe zu plätten. Die Anstiegszeit des Filters wird im Vergleich zur mittleren
Dauer eines Phonems langsam gewählt, und zwar erfolgt die volle Änderung von 10 auf 90 % in typischer Weise innerhalb von 300 Millisekunden.
Die Tonhöhenwerte, die in Fig. 8 dargestellt sind, repräsentieren Zielwerte für die Tonhöhe. Die Filtercharakteristik ist jedoch so,
daß ein übertragende Signal nicht wirklich den Zielwert erreicht, sondern näherungsweise diesen Wert annimmt, bis der nächste
209840/0754
Tonhöhenwert angeliefert wird. Daraufhin bewegt sich der betrachtete
Signalwerflin Richtung auf den Zielwert.
Weiterhin gibt es mindestens zwei alternative Möglichkeiten, Tonstärkenwerte zuzuteilen. Die einfachste Technik besteht darin,
die Lautstärke der Tonhöhe proportional zu machen. Eine alternative Möglichkeit besteht darin, die Lautstärkenwerte aus eine Tabelle
abzulesen, die der in Fig. 8 dargestellten sehr ähnlich ist, bei der jedoch die Eingänge oder Stichworte Lautstärkewerte darstellen.
Im allgemeinen sind die Lautstärkewerte mit den Tonhöhenwerten korreliert, jedoch nicht notwendigerweise mit diesen proportional.
Nach der Zuteilung der Tonhöhen- und Lautstärkewerte und auch der Dauerwerte für alle Phoneme, in der Weise, wie es oben erwähnt
wurde, werden daraufhin die Signale, die im wesentlichen von gespeicherten Tabellen abgeleitet wurden, zusammen als ein Ausgangssignal
zusammen mit dem Signal, das den Phonem selbst repräsentiert, ausgeliefert. Diese Ausgangssignalkette, die Tonhöhe, Dauersteuerung,
Lautstärke und Phoneme repräsentiert, bildet eine detaillierte, phonetische Beschreibung, die ausreicht, um die Synthese der künstlichen
209840/0784
Sprache zu steuern. Diese Signalkette kann direkt für die Erzeugung
künstlicher Sprache Verwendung finden oder in einen Speicher für spätere Verwendung, beispielsweise auf ein Kommando hin, eingegeben
werden.
Daher werden diese Daten über den Schalter 24 entweder zu einem detaillierten phonetischen Speicher 25 oder zu der Synthese-Einrichtung
32 übertragen. Wenn die Information in den Speicher eingegeben wird, kann sie zu einem späteren Zeitpunkt in Abhängigkeit
von einem Nachrichtensignal der Einheit 26 ausgelesen und daraufhin zu dem Parameterzuteilunj.-sgerät 27 übertragen werden. Dieses
Gerät 27 spricht an und wählt Parametersymboldaten aus seinem internen Speicher aus und paßt die sich ergebenden Symboldaten
an die Parameterdaten in dem Speicher 28 an. Ein Gerät dieser Art, ein Synthesator, der gespeicherte Parametersymbole verwendet
und auf Fernschreiber-Eingangs signale anspricht, ist an sich bekannt. Zahlreiche Geräte dieser Art wurden bisher beschrieben.
Deshalb genügt es anzugeben, daß die detaillierte phonetische Beschreibung in der Einheit 27 assembliert wird,
um eine ausreichende Beschreibung der Kommandonachricht
209840/0764
zu bilden, um die Erzeugung von Synthesator-Steuersignalen
in der Steuereinheit 29 zu erzeugen. Der genaue Aufbau der Steuereinheit 29 hängt von der Form des verwendeten Synthesators
ab. Der Sprachsynthesator 30 setzt daraufhin die von der Steuereinheit 29 gelieferten Parameterdaten in analoge Sprachsignale
um, die beispielsweise wie gewünscht dazu verwendet werden können,
hörbare Ausgangssignale über einen Lautsprecher 31 zu erzeugen. Offensichtlich können diese akustischen analogen Signale aufgezeichnet
oder anders angezeigt werden, beispielsweise in spektrografischer Form für jeden gewünschten Zweck.
Die oben beschriebenen Anordnungen sind an sich nur Erläuterungen der Anwendung und Prinzipien der Erfindung.
Die Erfindung wurde daher im wesentlichen in den Grundzügen ihrer Realisierung beschrieben, wobei eine Kombination einzelner
elektronischer Elemente und Systeme verwendet wurde. Sie kann aber auch für praktische Anwendungen inform eines Allzweckrechners
verwirklicht werden, der in Übereinstimmung mit den beschriebenen Regeln und Operationen programmiert wurde. Bei
209840/0754
einer Programmrealisierung werden die in den Tabellen und Figuren dargestellten Datengruppen in dem Rechner gespeichert
und per Programm aufgerufen. Die Realisierung der Erfindung als Programm hat sich als sehr bequeme und ökonomische
Ausführungsform der Erfindung erwiesen. Einige andere Anordnungen können von dem Fachmann angegeben werden. So ist es
beispielsweise möglich, anstelle der Ableitung der Synthesator-Steuersignale von gespeicherten phonetischen Symbolen des
Diktionärs 14, gemäß der Erfindung diese auch von gespeicherten
Tabellen parametrischer Wortbeschreibungen, einschließlich der Formanten- oder Kanalvoköder-Signale abzuleiten. In diesem
Falle skaliert die Zuteilungs einheit 27 die Länge der Parametersignale, um die Gesamtwortdauer, die von den Genratoren 21
und 22 zugeteilt wurde, einzuhalten.
20984 0/07-5
Claims (8)
1. Verfahren zur Sprachsynthese von gedrucktem Text, bei
dem ein gedruckter Nachrichtentext in alpha-numerische Datensignale umgesetzt wird, gekennzeichnet durch folgende
weitere Verfahrensschritte:
1.) Ableitung der Daten über die syntaktische Satzkategorie
für die einzelnen, durch alpha-numerische Datensignale dargestellten Wörter;
2.) Entwicklung der Pausen-, Betonungs-, Dauer-, Tonhöhen-
und Lautstärkenwerte für die einzelnen Wörter in alphanumerischer Form aus den im Schritt 1.) gewonnenen
syntaktischen Satzkategoriedaten;
3.) Entwicklung individueller phonetischer Werte aus den
Wortintervallen, in Abhängigkeit von den im Schritt 2.) entwickelten individuellen Wortwerten und
4.) Kombination des Produktes der Schritte 1.) und 3.) zu einer zusammenhängenden Beschreibung der ausgewählten
Nachricht, zur Übertragung zu einem Sprachsynthesator.
209840/0754
ι 2. Anordnung zur Durchführung des Verfahrens nach Anspruch 1,
mit einer Eingabevorrichtung zur Lieferung alpha-numerischer
Datensignale, die einen gedruckten Nachrichtentext darstellen, der synthetisiert werden soll, und mit einer Ausgabevorrichtung
für den Sprachsynthesator,, dadurch gekennzeichnet, daß die
Anordnung ferner aus folgendem besteht:
einem Syntax-Analysator (13; Fig. 1), der mit der Eingabevorrichtung
(10) für die Ableitung syntaktischer Satzkategoriedaten für die einzelnen Wörter, die durch die Eingangsdatensignale
repräsentiert sind, verbunden ist;
einem Generator {15 - 22), der zwischen dem Syntax-Analysator
und der Ausgabevorrichtung für den Sprachsynthesator (32) geschaltet ist und auf syntaktische Satzkategoriedaten und
Sprachregeln anspricht, um folgendes zu erzeugen:
{h.} parametrische Datenwerte, einschließlich Pausenwerten
(15- 17), Betonungswerten (18, 19), Dauerwerten (21, 22)
und Tonhöhen- und Lautsärkewerten (20) der einzelnen Nachrichtenwörter;
(b) individuelle phonetische Werte (20 - 22) für Wortintervalle3
in Abhängigkeit von den erzeugten parametrischen
209840/0754
Daten und
(c) kontinuierliche Steuersignale, die die Eingangsdatensignale
repräsentieren, die ihrerseits von den erzeugten individuellen phonetischen Werten modifiziert
sind.
3. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß die
Anordnung ferner aus folgendem besteht:
einem Diktionär (14; Fig. 1) für die Speicherung sowohl von Signalinformation, die einem ausgewählten Vokabular von
Wörtern und Sätzen und deren unterschiedlichen Formen entspricht, einschließlich Aussprache und Verwendung und phonemischer
Umschreibungen jedes Worts mit Angaben der lexikalischen Betonung und möglichen Verwendung, wobei der
Diktionär auf Kommandosignale anspricht, die die Übertragung der gespeicherten Daten zu dem Syntax-Analysator (13) und
zu dem Generator (15- 22) für eine Modifizierung mit den erzeugten phonetischen Werten veranlassen.
209840/0754
4. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß
der Generator (15 - 22; Fig. 1) einen Pausenerzeugungsabschnitt
(15 - 17) für die Erzeugung parametrischer Datenwerte, die für die Pausen repräsentativ sind, besitzt, wobei dieser
Teil aus einem Pausenwahrscheinlichkeits-Analysätor (15) für die Erzeugung von Pausenwahrscheinlichkeitswerten für
jedes Wort oder Symbol als Proportionalwertsignal in Abhängigkeit von den Satzkategorie daten für zwei benachbarte Worte oder
Symbole, aus einem Pausenzuteilungssignal-Generator (16) für die Feststellung der größten Pausenwahrscheinlichkeitswerte
für jedes Wort in der Eingangsnachricht und aus einem Pausengruppenende-Tonhöhenmodulations-Analysator
(17) für die Ableitung eines Signals, das für Tonhöhenänderungen, Vokalverlängerungen
und Wortpausen repräsentativ ist, in Abhängigkeit von den vom Pausenzuteilungssignal-Generator (16) empfangenen
Werten, besteht.
5. Anordnung nach Anspruch 4, dadurch gekennzeichnet, daß der Pausenzuteilungssignal-Generator (16; Fig. 1) aus einer Vorrichtung
zur Erstellung eines variablen Schwellwertes, dessen
209840/0754
Wert umgekehrt proportional zur Länge der Eingangs datensignalfolge
ist und aus einer Vorrichtung zur Erstellung
eines pausenrepräsentativen Signals für das Wort, das von dem proportionalen Signalwert bezeichnet wird, der den
Schwellenwert überschreitet, besteht.
6. Anordnung nach einem oder mehreren der Ansprüche 2-5, dadurch gekennzeichnet, daß die Anordnung ferner aus
folgendem besteht:
einem Redundanz-Analysator (23; Fig. 1) für die Erzeugung
eines Ausgangs signals in Abhängigkeit von der Feststellung eines Wortes, das zuvor in beiden, nämlich dem gleichen
Absatz und dem gleichen Satz,für die Erzeugung der parametrischen Datenbetonungswerte in dem Generator (18, 19) verwendet wurde.
7. Anordnung nach Anspruch 6, dadurch gekennzeichnet, daß
der Generator (15 - 22; Fig. 1) einen Betonungserzeugungsabschnitt (18, 19) für die Erzeugung parametrischer Datenbetonungswerte
besitzt, der aus folgendem besteht:
einem Betonungssignalgenerator für die Erzeugung eines absoluten
209840/0754
Betonungswertes für jedes Wort in einem Satz, in Abhängigkeit
von den syntaktischen Satzkategoriedaten von dem Syntax Analysator (13) und dem Ausgangssignal des Redundanz-Analysators
(23) und aus einem Fokuswort-Analysator (19) für das Einsetzen besonderer Betonungen in eine Hauptidee
und ein Wort in einem Satz, in Abhängigkeit sowohl von dem absoluten Betonungswert, der in dem Betonungssignal-Generator
(18), als auch von dem Pausenwert, der in dem Generator (15-22) erzeugt wurde.
8. Anordnung nach einem oder mehreren der Ansprüche 2-7, dadurch gekennzeichnet, daß der Generator (15-22; Fig. 1)
einen Dauer- Tonhöhen- und Lautstärkenabschnitt (20-22) besitzt, der aus folgendem besteht:
einem Tonhöhen- und Lautstärken-Generator (20) für die
Zuteilung von Lautstärkenwerten an die Vokale in jedem Wort und von Tonhöhen- und Lautstärkenwerten für jedes
Phonem, in Abhängigkeit von den Eingangsdatensignalen und den Betonungs- und Pausenwerten, die in dem Generator
(15 - 22) erzeugt wurden;
209840/0754
einem Vokaldaaergenerator (21) für die Zuteilung von
Dauerwerten an die Vokale der Wörter in der vorgeschriebenen Nachricht, in Abhängigkeit von den Eingangsdaten-Signalen
und den Betonungs- und Pausenwerten, die von dem Generator (15-22) erzeugt wurden, und
einem Konsonantendauergenerator (22) für die Zuteilung von Dauerwerten an die Konsonanten in den Wörtern der vorgeschriebenen
Nachricht, abhängig von der Betonung, die den Wörtern von dem Generator (15-22) zugeteilt wurde, und
in Abhängigkeit von der Identität der Phoneme in der vorgeschriebenen Nachricht.
209840/0754
Leerseite
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12620071A | 1971-03-19 | 1971-03-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE2212472A1 true DE2212472A1 (de) | 1972-09-28 |
Family
ID=22423537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19722212472 Pending DE2212472A1 (de) | 1971-03-19 | 1972-03-15 | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte |
Country Status (10)
Country | Link |
---|---|
US (1) | US3704345A (de) |
JP (1) | JPS5514440B1 (de) |
BE (1) | BE780698A (de) |
CA (1) | CA969276A (de) |
DE (1) | DE2212472A1 (de) |
FR (1) | FR2129756A5 (de) |
GB (1) | GB1380502A (de) |
IT (1) | IT953975B (de) |
NL (1) | NL7203613A (de) |
SE (1) | SE381114B (de) |
Families Citing this family (262)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4060848A (en) * | 1970-12-28 | 1977-11-29 | Gilbert Peter Hyatt | Electronic calculator system having audio messages for operator interaction |
US3995116A (en) * | 1974-11-18 | 1976-11-30 | Bell Telephone Laboratories, Incorporated | Emphasis controlled speech synthesizer |
US4128737A (en) * | 1976-08-16 | 1978-12-05 | Federal Screw Works | Voice synthesizer |
US4301328A (en) * | 1976-08-16 | 1981-11-17 | Federal Screw Works | Voice synthesizer |
BG24190A1 (en) * | 1976-09-08 | 1978-01-10 | Antonov | Method of synthesis of speech and device for effecting same |
US4215240A (en) * | 1977-11-11 | 1980-07-29 | Federal Screw Works | Portable voice system for the verbally handicapped |
US4516260A (en) * | 1978-04-28 | 1985-05-07 | Texas Instruments Incorporated | Electronic learning aid or game having synthesized speech |
JPS5574600A (en) * | 1978-11-30 | 1980-06-05 | Sharp Kk | Speech annunciation control system |
JPS55111995A (en) * | 1979-02-20 | 1980-08-29 | Sharp Kk | Method and device for voice synthesis |
US4338490A (en) * | 1979-03-30 | 1982-07-06 | Sharp Kabushiki Kaisha | Speech synthesis method and device |
US4393462A (en) * | 1979-10-24 | 1983-07-12 | Sharp Kabushiki Kaisha | Electronic translator with means for pronouncing input words and translated words |
US4337375A (en) * | 1980-06-12 | 1982-06-29 | Texas Instruments Incorporated | Manually controllable data reading apparatus for speech synthesizers |
US4430005A (en) | 1980-07-28 | 1984-02-07 | Sharp Kabushiki Kaisha | Speech synthesizer timepiece with alarm function |
US4449829A (en) * | 1980-07-30 | 1984-05-22 | Sharp Kabushiki Kaisha | Speech synthesizer timepiece |
DE3104551C2 (de) * | 1981-02-10 | 1982-10-21 | Neumann Elektronik GmbH, 4330 Mülheim | Elektronischer Textgeber zur Abgabe von Kurztexten |
US4398059A (en) * | 1981-03-05 | 1983-08-09 | Texas Instruments Incorporated | Speech producing system |
US4685135A (en) * | 1981-03-05 | 1987-08-04 | Texas Instruments Incorporated | Text-to-speech synthesis system |
US4470150A (en) * | 1982-03-18 | 1984-09-04 | Federal Screw Works | Voice synthesizer with automatic pitch and speech rate modulation |
JPS58175074A (ja) * | 1982-04-07 | 1983-10-14 | Toshiba Corp | 構文分析方式 |
US4731847A (en) * | 1982-04-26 | 1988-03-15 | Texas Instruments Incorporated | Electronic apparatus for simulating singing of song |
US4624012A (en) | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
US4627001A (en) * | 1982-11-03 | 1986-12-02 | Wang Laboratories, Inc. | Editing voice data |
US4580241A (en) * | 1983-02-18 | 1986-04-01 | Houghton Mifflin Company | Graphic word spelling correction using automated dictionary comparisons with phonetic skeletons |
US4674066A (en) * | 1983-02-18 | 1987-06-16 | Houghton Mifflin Company | Textual database system using skeletonization and phonetic replacement to retrieve words matching or similar to query words |
US4771401A (en) * | 1983-02-18 | 1988-09-13 | Houghton Mifflin Company | Apparatus and method for linguistic expression processing |
US4527274A (en) * | 1983-09-26 | 1985-07-02 | Gaynor Ronald E | Voice synthesizer |
US4695962A (en) * | 1983-11-03 | 1987-09-22 | Texas Instruments Incorporated | Speaking apparatus having differing speech modes for word and phrase synthesis |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US4872202A (en) * | 1984-09-14 | 1989-10-03 | Motorola, Inc. | ASCII LPC-10 conversion |
US4783758A (en) * | 1985-02-05 | 1988-11-08 | Houghton Mifflin Company | Automated word substitution using numerical rankings of structural disparity between misspelled words & candidate substitution words |
DE3688749T2 (de) * | 1986-01-03 | 1993-11-11 | Motorola Inc | Verfahren und vorrichtung zur sprachsynthese ohne informationen über die stimme oder hinsichtlich stimmhöhe. |
US4829472A (en) * | 1986-10-20 | 1989-05-09 | Microlytics, Inc. | Spelling check module |
JP2623586B2 (ja) * | 1987-07-31 | 1997-06-25 | 国際電信電話株式会社 | 音声合成におけるピッチ制御方式 |
JPS6449022U (de) * | 1987-09-21 | 1989-03-27 | ||
US4908867A (en) * | 1987-11-19 | 1990-03-13 | British Telecommunications Public Limited Company | Speech synthesis |
US5146405A (en) * | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
US4994966A (en) * | 1988-03-31 | 1991-02-19 | Emerson & Stern Associates, Inc. | System and method for natural language parsing by initiating processing prior to entry of complete sentences |
DE68913669T2 (de) * | 1988-11-23 | 1994-07-21 | Digital Equipment Corp | Namenaussprache durch einen Synthetisator. |
JP2564641B2 (ja) * | 1989-01-31 | 1996-12-18 | キヤノン株式会社 | 音声合成装置 |
US5091931A (en) * | 1989-10-27 | 1992-02-25 | At&T Bell Laboratories | Facsimile-to-speech system |
AU632867B2 (en) * | 1989-11-20 | 1993-01-14 | Digital Equipment Corporation | Text-to-speech system having a lexicon residing on the host processor |
US5157759A (en) * | 1990-06-28 | 1992-10-20 | At&T Bell Laboratories | Written language parser system |
US5163081A (en) * | 1990-11-05 | 1992-11-10 | At&T Bell Laboratories | Automated dual-party-relay telephone system |
JPH05197389A (ja) * | 1991-08-13 | 1993-08-06 | Toshiba Corp | 音声認識装置 |
US5475796A (en) * | 1991-12-20 | 1995-12-12 | Nec Corporation | Pitch pattern generation apparatus |
US5806050A (en) * | 1992-02-03 | 1998-09-08 | Ebs Dealing Resources, Inc. | Electronic transaction terminal for vocalization of transactional data |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
EP0598598B1 (de) * | 1992-11-18 | 2000-02-02 | Canon Information Systems, Inc. | Prozessor zur Umwandlung von Daten in Sprache und Ablaufsteuerung hierzu |
US5796916A (en) * | 1993-01-21 | 1998-08-18 | Apple Computer, Inc. | Method and apparatus for prosody for synthetic speech prosody determination |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
SE500277C2 (sv) * | 1993-05-10 | 1994-05-24 | Televerket | Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk |
US5860064A (en) * | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
US5572625A (en) * | 1993-10-22 | 1996-11-05 | Cornell Research Foundation, Inc. | Method for generating audio renderings of digitized works having highly technical content |
SE516521C2 (sv) * | 1993-11-25 | 2002-01-22 | Telia Ab | Anordning och förfarande vid talsyntes |
JPH08512150A (ja) * | 1994-04-28 | 1996-12-17 | モトローラ・インコーポレイテッド | ニューラル・ネットワークを利用してテキストを可聴信号に変換する方法および装置 |
SE513456C2 (sv) * | 1994-05-10 | 2000-09-18 | Telia Ab | Metod och anordning vid tal- till textomvandling |
JPH086591A (ja) * | 1994-06-15 | 1996-01-12 | Sony Corp | 音声出力装置 |
US5633983A (en) * | 1994-09-13 | 1997-05-27 | Lucent Technologies Inc. | Systems and methods for performing phonemic synthesis |
US5832434A (en) * | 1995-05-26 | 1998-11-03 | Apple Computer, Inc. | Method and apparatus for automatic assignment of duration values for synthetic speech |
US5751907A (en) * | 1995-08-16 | 1998-05-12 | Lucent Technologies Inc. | Speech synthesizer having an acoustic element database |
US5761640A (en) * | 1995-12-18 | 1998-06-02 | Nynex Science & Technology, Inc. | Name and address processor |
WO1997035584A1 (en) * | 1996-03-25 | 1997-10-02 | Eli Lilly And Company | Method for treating pain |
US5884262A (en) * | 1996-03-28 | 1999-03-16 | Bell Atlantic Network Services, Inc. | Computer network audio access and conversion system |
US5832433A (en) * | 1996-06-24 | 1998-11-03 | Nynex Science And Technology, Inc. | Speech synthesis method for operator assistance telecommunications calls comprising a plurality of text-to-speech (TTS) devices |
US5878393A (en) * | 1996-09-09 | 1999-03-02 | Matsushita Electric Industrial Co., Ltd. | High quality concatenative reading system |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
US5950162A (en) * | 1996-10-30 | 1999-09-07 | Motorola, Inc. | Method, device and system for generating segment durations in a text-to-speech system |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
US6064960A (en) * | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
US6523006B1 (en) * | 1998-01-27 | 2003-02-18 | Intel Corporation | Three dimensional audio vision |
US6098042A (en) * | 1998-01-30 | 2000-08-01 | International Business Machines Corporation | Homograph filter for speech synthesis system |
US6029132A (en) * | 1998-04-30 | 2000-02-22 | Matsushita Electric Industrial Co. | Method for letter-to-sound in text-to-speech synthesis |
US6101470A (en) * | 1998-05-26 | 2000-08-08 | International Business Machines Corporation | Methods for generating pitch and duration contours in a text to speech system |
US6173263B1 (en) * | 1998-08-31 | 2001-01-09 | At&T Corp. | Method and system for performing concatenative speech synthesis using half-phonemes |
US6295529B1 (en) * | 1998-12-24 | 2001-09-25 | Microsoft Corporation | Method and apparatus for indentifying clauses having predetermined characteristics indicative of usefulness in determining relationships between different texts |
US6195640B1 (en) * | 1999-01-29 | 2001-02-27 | International Business Machines Corporation | Audio reader |
EP1083769B1 (de) * | 1999-02-16 | 2010-06-09 | Yugen Kaisha GM & M | Sprache umwandlung gerät und verfahren |
WO2000058964A1 (en) * | 1999-03-29 | 2000-10-05 | Trust & Obey Co., Ltd. | An apparatus for reproducing digital voice |
EP1045372A3 (de) * | 1999-04-16 | 2001-08-29 | Matsushita Electric Industrial Co., Ltd. | Sprachkommunikationsystem |
US6178402B1 (en) | 1999-04-29 | 2001-01-23 | Motorola, Inc. | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network |
US6385581B1 (en) | 1999-05-05 | 2002-05-07 | Stanley W. Stephenson | System and method of providing emotive background sound to text |
JP2001014306A (ja) * | 1999-06-30 | 2001-01-19 | Sony Corp | 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体 |
US6795807B1 (en) * | 1999-08-17 | 2004-09-21 | David R. Baraff | Method and means for creating prosody in speech regeneration for laryngectomees |
WO2001067293A1 (en) | 2000-03-07 | 2001-09-13 | Oipenn, Inc. | Method and apparatus for distributing multi-lingual speech over a digital network |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US6999932B1 (en) * | 2000-10-10 | 2006-02-14 | Intel Corporation | Language independent voice-based search system |
US6625576B2 (en) | 2001-01-29 | 2003-09-23 | Lucent Technologies Inc. | Method and apparatus for performing text-to-speech conversion in a client/server environment |
GB2377538B (en) * | 2001-03-28 | 2004-12-29 | Citysync Ltd | An automatic number plate recognition system |
US7043432B2 (en) * | 2001-08-29 | 2006-05-09 | International Business Machines Corporation | Method and system for text-to-speech caching |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US20040049391A1 (en) * | 2002-09-09 | 2004-03-11 | Fuji Xerox Co., Ltd. | Systems and methods for dynamic reading fluency proficiency assessment |
US7313523B1 (en) * | 2003-05-14 | 2007-12-25 | Apple Inc. | Method and apparatus for assigning word prominence to new or previous information in speech synthesis |
US8037102B2 (en) | 2004-02-09 | 2011-10-11 | Robert T. and Virginia T. Jenkins | Manipulating sets of hierarchical data |
US9646107B2 (en) | 2004-05-28 | 2017-05-09 | Robert T. and Virginia T. Jenkins as Trustee of the Jenkins Family Trust | Method and/or system for simplifying tree expressions such as for query reduction |
US7620632B2 (en) | 2004-06-30 | 2009-11-17 | Skyler Technology, Inc. | Method and/or system for performing tree matching |
US7627591B2 (en) | 2004-10-29 | 2009-12-01 | Skyler Technology, Inc. | Method and/or system for manipulating tree expressions |
US7801923B2 (en) | 2004-10-29 | 2010-09-21 | Robert T. and Virginia T. Jenkins as Trustees of the Jenkins Family Trust | Method and/or system for tagging trees |
US7630995B2 (en) | 2004-11-30 | 2009-12-08 | Skyler Technology, Inc. | Method and/or system for transmitting and/or receiving data |
US7636727B2 (en) | 2004-12-06 | 2009-12-22 | Skyler Technology, Inc. | Enumeration of trees from finite number of nodes |
US8316059B1 (en) | 2004-12-30 | 2012-11-20 | Robert T. and Virginia T. Jenkins | Enumeration of rooted partial subtrees |
US8615530B1 (en) | 2005-01-31 | 2013-12-24 | Robert T. and Virginia T. Jenkins as Trustees for the Jenkins Family Trust | Method and/or system for tree transformation |
US7681177B2 (en) | 2005-02-28 | 2010-03-16 | Skyler Technology, Inc. | Method and/or system for transforming between trees and strings |
US8356040B2 (en) | 2005-03-31 | 2013-01-15 | Robert T. and Virginia T. Jenkins | Method and/or system for transforming between trees and arrays |
US7899821B1 (en) | 2005-04-29 | 2011-03-01 | Karl Schiffmann | Manipulation and/or analysis of hierarchical data |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
CN1945693B (zh) * | 2005-10-09 | 2010-10-13 | 株式会社东芝 | 训练韵律统计模型、韵律切分和语音合成的方法及装置 |
KR100658869B1 (ko) * | 2005-12-21 | 2006-12-15 | 엘지전자 주식회사 | 음악생성장치 및 그 운용방법 |
US7870142B2 (en) * | 2006-04-04 | 2011-01-11 | Johnson Controls Technology Company | Text to grammar enhancements for media files |
EP2005319B1 (de) | 2006-04-04 | 2017-01-11 | Johnson Controls Technology Company | System und verfahren zur extraktion von metadaten aus einer digitalen medienspeicherungsvorrichtung zur medienauswahl in einem fahrzeug |
KR100699050B1 (ko) | 2006-06-30 | 2007-03-28 | 삼성전자주식회사 | 문자정보를 음성정보로 출력하는 이동통신 단말기 및 그방법 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US9087507B2 (en) * | 2006-09-15 | 2015-07-21 | Yahoo! Inc. | Aural skimming and scrolling |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US7977560B2 (en) * | 2008-12-29 | 2011-07-12 | International Business Machines Corporation | Automated generation of a song for process learning |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US20120309363A1 (en) * | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN105027197B (zh) | 2013-03-15 | 2018-12-14 | 苹果公司 | 训练至少部分语音命令系统 |
CN105144133B (zh) | 2013-03-15 | 2020-11-20 | 苹果公司 | 对中断进行上下文相关处理 |
AU2014227586C1 (en) | 2013-03-15 | 2020-01-30 | Apple Inc. | User training by intelligent digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278592B2 (en) | 2013-06-09 | 2017-09-07 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
EP3008964B1 (de) | 2013-06-13 | 2019-09-25 | Apple Inc. | System und verfahren für durch sprachsteuerung ausgelöste notrufe |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
JP5807921B2 (ja) * | 2013-08-23 | 2015-11-10 | 国立研究開発法人情報通信研究機構 | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10333696B2 (en) | 2015-01-12 | 2019-06-25 | X-Prime, Inc. | Systems and methods for implementing an efficient, scalable homomorphic transformation of encrypted data with minimal data expansion and improved processing efficiency |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN109493868B (zh) * | 2018-12-13 | 2024-04-09 | 中国平安财产保险股份有限公司 | 基于语音识别的保单录入方法和相关装置 |
CN111883103B (zh) * | 2020-06-19 | 2021-12-24 | 马上消费金融股份有限公司 | 语音合成的方法及装置 |
-
1971
- 1971-03-19 US US126200A patent/US3704345A/en not_active Expired - Lifetime
- 1971-10-25 CA CA125,973A patent/CA969276A/en not_active Expired
-
1972
- 1972-03-10 SE SE7203084A patent/SE381114B/xx unknown
- 1972-03-15 DE DE19722212472 patent/DE2212472A1/de active Pending
- 1972-03-15 BE BE780698A patent/BE780698A/xx unknown
- 1972-03-16 JP JP2619672A patent/JPS5514440B1/ja active Pending
- 1972-03-16 GB GB1224672A patent/GB1380502A/en not_active Expired
- 1972-03-17 NL NL7203613A patent/NL7203613A/xx not_active Application Discontinuation
- 1972-03-17 FR FR7209424A patent/FR2129756A5/fr not_active Expired
- 1972-03-17 IT IT67859/72A patent/IT953975B/it active
Also Published As
Publication number | Publication date |
---|---|
NL7203613A (de) | 1972-09-21 |
JPS5514440B1 (de) | 1980-04-16 |
GB1380502A (en) | 1975-01-15 |
IT953975B (it) | 1973-08-10 |
SE381114B (sv) | 1975-11-24 |
BE780698A (fr) | 1972-07-03 |
FR2129756A5 (de) | 1972-10-27 |
US3704345A (en) | 1972-11-28 |
CA969276A (en) | 1975-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE69821673T2 (de) | Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren | |
DE69917415T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE69519328T2 (de) | Verfahren und Anordnung für die Umwandlung von Sprache in Text | |
DE69620399T2 (de) | Sprachsynthese | |
DE69506037T2 (de) | Audioausgabeeinheit und Methode | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE69413052T2 (de) | Sprachsynthese | |
DE60035001T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
DE10042944C2 (de) | Graphem-Phonem-Konvertierung | |
DE69719654T2 (de) | Grundfrequenzmuster enthaltende Prosodie-Datenbanken für die Sprachsynthese | |
DE69622565T2 (de) | Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz | |
DE60118874T2 (de) | Prosodiemustervergleich für Text-zu-Sprache Systeme | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE69521244T2 (de) | System zur Text-Sprache-Umsetzung | |
DE3856146T2 (de) | Sprachsynthese | |
DE69925932T2 (de) | Sprachsynthese durch verkettung von sprachwellenformen | |
DE69908047T2 (de) | Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern | |
DE60020434T2 (de) | Erzeugung und Synthese von Prosodie-Mustern | |
DE69028072T2 (de) | Verfahren und Einrichtung zur Sprachsynthese | |
DE69427525T2 (de) | Trainingsmethode für ein tts-system, sich daraus ergebendes gerät und methode zur bedienung des gerätes | |
DE69220825T2 (de) | Verfahren und System zur Spracherkennung | |
DE69617581T2 (de) | System und Verfahren zur Bestimmung des Verlaufs der Grundfrequenz | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OD | Request for examination | ||
OHN | Withdrawal |