DE69420955T2 - Umwandlung von text in signalformen - Google Patents

Umwandlung von text in signalformen

Info

Publication number
DE69420955T2
DE69420955T2 DE69420955T DE69420955T DE69420955T2 DE 69420955 T2 DE69420955 T2 DE 69420955T2 DE 69420955 T DE69420955 T DE 69420955T DE 69420955 T DE69420955 T DE 69420955T DE 69420955 T2 DE69420955 T2 DE 69420955T2
Authority
DE
Germany
Prior art keywords
sequence
memory area
contained
bytes
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69420955T
Other languages
English (en)
Other versions
DE69420955D1 (de
Inventor
Margaret Gaved
James Hawkey
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=8214357&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE69420955(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of DE69420955D1 publication Critical patent/DE69420955D1/de
Application granted granted Critical
Publication of DE69420955T2 publication Critical patent/DE69420955T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Devices For Executing Special Programs (AREA)
  • Document Processing Apparatus (AREA)

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Umwandlung eines Textes in eine Wellenform. Insbesondere betrifft sie die Erzeugung einer Ausgabe in Form einer akustischen Welle, nämlich synthetischer Sprache, aus einer Eingabe in Form von Signalen, die einen herkömmlichen Text darstellen.
  • Diese Gesamtumwandlung ist sehr kompliziert und wird manchmal in mehreren Modulen durchgeführt, bei denen der Ausgang eines Moduls den Eingang für das nächste Modul bildet. Das erste Modul empfängt Signale, die einen herkömmlichen Text darstellen, und das Endmodul erzeugt an seinem Ausgang eine synthetische Sprache. Diese synthetische Sprache kann eine digitale Darstellung der Wellenform, der eine herkömmliche digital-analoge Umwandlung folgt, um eine akustische Ausgabe zu erzeugen. In vielen Fällen ist es erwünscht, die akustische Ausgabe über ein Telefonsystem zu realisieren. In diesem Fall kann es geeignet sein, die Digital-analog- Umwandlung nach dem Senden durchzuführen, so daß das Senden in digitaler Form stattfindet.
  • Der modulare Aufbau hat Vorteile; z. B. wird jedes Modul separat entwickelt und jedes beliebige der Module kann ersetzt oder geändert werden, um die Flexibilität, Verbesserungen oder eine Anpassung an geänderte Umstände zu erreichen.
  • Derartige Verfahren nutzen eine Folge von drei Modulen, nämlich
  • (A) Voreditieren,
  • (B) Umwandlung von Graphemen in Phoneme, und
  • (C) Umwandlung von Phonemen in (digitale) Wellenformen.
  • Nachfolgend werden diese Module kurz beschrieben.
  • Das Modul (A) empfängt Signale, die einen herkömmlichen Text darstellen, z. B. den Text dieser Beschreibung, und modifiziert ausgewählte Merkmale. Somit kann das Modul (A) bestimmen, welche Nummern verarbeitet werden. Zum Beispiel wird es entscheiden, ob
  • "1345"
  • zu eins, drei, vier, fünf dreizehn fünfundvierzig oder eintausenddreihundertfünfundvierzig werden.
  • Es ist ersichtlich, daß es relativ einfach ist, verschiedene Formen des Moduls (A) darzustellen, wobei jede von ihnen mit den nachfolgenden Modulen kompatibel ist, so daß verschiedene Formen der Ausgabe entstehen.
  • Das Modul (B) wandelt Grapheme in Phoneme um. Die "Grapheme" sind Datendarstellungen, die den Symbolen des gewöhnlichen Alphabets entsprechen, die auf gewöhnliche Art und Weise verwendet werden. Der Text dieser Beschreibung ist ein gutes Beispiel für die "Grapheme". Es ist ein Problem der synthetischen Sprache, daß die Grapheme nur geringen Bezug zu der Art haben können, wie Wörter ausgesprochen werden, insbesondere in Sprachen wie Englisch. Um Wellenformen zu erzeugen ist es deswegen angebracht, die Grapheme in ein anderes Alphabet umzuwandeln, das in dieser Beschreibung "Phoneme" genannt wird, das eine sehr enge Korrelation mit dem Klang der Wörter aufweist. Mit anderen Worten ist der Zweck des Moduls (B), das Problem zu lösen, daß das gewöhnliche Alphabet nicht phonetisch ist.
  • Das Modul (C) wandelt die Phoneme in eine digitale Wellenform um, die, wie oben erwähnt wurde, in ein Analogformat und somit in eine akustische Wellenform umgewandelt werden kann.
  • Die vorliegende Erfindung betrifft ein Verfahren und eine Einrichtung zur Verwendung im Modul (B), wobei dieses Modul jetzt ausführlicher beschrieben wird.
  • Das Modul (B) verwendet verknüpfte Datenbanken, die durch eine große Anzahl von unabhängigen Einträgen gebildet werden. Jeder Eintrag umfaßt Zugriffsdaten, die in Form von Darstellungen, z. B. Bytes, einer Folge von Graphemen vorhanden sind, und eine Ausgangskette, die Darstellungen, z. B. Bytes, der Phoneme umfaßt die den Graphemen entsprechen, die im Zugriffsbereich enthalten sind. Ein großes Problem der Umwandlung Grapheme/Phoneme besteht in der Größe der Datenbank, die notwendig ist, um mit einer Sprache fertig zu werden. Eine einfache und theoretisch ideale Lösung wäre, eine so große Datenbank vorzusehen, daß sie einen individuellen Eintrag für jedes mögliche Wort in der Sprache einschließlich sämtlicher möglichen Intonationen jedes möglichen Wortes in der Sprache aufweist. Selbstverständlich würde durch Verwendung einer kompletten Datenbank jedes Wort im Eingabetext individuell erkannt und ein hervorragendes Phonemäquivalent ausgegeben. Es ist jedoch ersichtlich, daß es nicht möglich ist, eine derart komplette Datenbank zu verwenden. In erster Linie ist es nicht möglich, jedes Wort in einer Sprache zu erfassen und selbst wenn ein solches Verzeichnis verfügbar wäre, wäre es für Computerzwecke zu umfangreich.
  • Obwohl die komplette Datenbank nicht realisierbar ist, ist es möglich, eine Datenbank von verwendbarer Größe vorzusehen, die z. B. gemeinsame Wörter und Wörter enthält, deren Aussprache bezüglich der Rechtsschreibung nicht einfach ist. Eine derartige Datenbank ermöglicht eine hervorragende Grapheme/Phoneme-Umwandlung der darin enthaltenen Wörter, fällt jedoch bei fehlenden Wörtern aus, d. h., erzeugt keine Ausgabe. Bei jeder praktischen Anwendung würde dies eine nicht vertretbar hohe Fehlerquote bedeuten.
  • Eine andere Möglichkeit verwendet eine Datenbank, in der die Zugriffsdaten kurzen Zeichenfolgen von Graphemen entsprechen, von denen jede Zeichenfolge mit ihrer äquivalenten Zeichenfolge von Phonemen verknüpft ist. Diese Alternative verwendet eine verwaltbare Größe der Datenbank; es hängt jedoch von der Analyse des Eingabetextes ab, ob die darin enthaltenen Zeichenfolgen den Zugriffsdaten in der Datenbank entsprechen. Systeme dieser Art können einen großen Anteil an hervorragenden Aussprachen mit leichten und einzelnen Aussprachefehlern gewährleisten. Auch ist ein Anteil an Ausfällen vorhanden, bei denen keine Ausgabe erzeugt wird, entweder auf Grund der fehlerhaften Analyse oder weil im Zugriffsbereich der Datenbank eine erforderliche Zeichenfolge von Graphemen fehlt.
  • Die letzte Möglichkeit ist üblicherweise als ein Standard- Verfahren bekannt, weil sie von n nur dann angewandt wird, wenn bevorzugte Verfahren versagen. Ein Standard-Verfahren besteht üblicherweise in der "Aussprache" der Symbole des Eingabetextes. Da der Bereich der Eingabesymbole nicht nur bekannt, sondern auch begrenzt ist (gewöhnlich weniger als 100 und in vielen Fällen weniger als 50), ist es nicht nur möglich, die Datenbank zu erzeugen, sondern ist auch deren Größe im Vergleich mit der Kapazität von modernen Datenspeichersystemen sehr klein. Deswegen gewährleistet dieses Standard-Verfahren eine Ausgabe selbst dann, wenn diese Ausgabe nicht die beste Lösung darstellt. Beispiele bilden Namen, in denen Initialen verwendet werden, akademische Grade und Ehrentitel, und Abkürzungen von Einheiten. Es wird geschätzt, daß es unter diesen Umständen üblich ist, die Buchstaben "auszusprechen", wobei das Standard-Verfahren in diesen Fällen die besten Ergebnisse liefert.
  • Bisher wurden drei verschiedene Strategien zur Umwandlung von Graphemen in Phoneme ermittelt und es ist wichtig, zu begreifen, daß diese Alternativen sich nicht gegenseitig ausschließen. Es ist sogar erwünscht, alle drei Alternativen gemäß einer strikten Prioritätsregel zu verwenden. So wird als erste die "Ganzwort"-Datenbank verwendet und wenn sie eine Ausgabe erzeugt, dann wird diese hervorragend sein. Wenn sie ausfällt, wird das "Analyse"-Verfahren verwendet, das eine kleine, aber annehmbare Anzahl von Aussprachefehlern umfaßt. Schließlich, wenn das "Analyse"- Verfahren versagt, wird die Standard-Option der Aussprache der "Buchstaben" verwendet, die garantiert eine Ausgabe erzeugt. Obwohl diese Lösung nicht ganz zufriedenstellend ist, bietet sie unter Berücksichtigung der oben erwähnten Fälle das beste Ergebnis.
  • Die vorliegende Erfindung betrifft die mittlere Option von der oben beschriebenen Reihenfolge. Das bedeutet, daß diese Erfindung die Analyse der Datendarstellungen betrifft, die den Eingabetextgraphemen entsprechen, um einen Ausgabesatz von Datendarstellungen zu erzeugen, die dem Eingabetext entsprechende Phoneme sind. Es wird betont, daß das Arbeitsgebiet dieser Erfindung eine vollständige Text-in- Wellenform-Umwandlung ist, wie ausführlicher oben beschrieben wurde. Das bedeutet, daß diese Erfindung eine besondere Komponente des Gesamtsystems betrifft.
  • Das Dokument von F. F. Lee (Seiten 333-338), veröffentlicht in "PROCEEDINGS OF THE SPRING JOINT COMPUTER CONFERENCE" am 30. April 1968 in Atlantic City, NJ, betrifft eine durch Computer erzeugte Sprache. Das Dokument beschreibt die Aufspaltung von Wörtern in "Morphe". Es wird erwähnt, daß wenn zwei Morphe kombiniert werden, die Änderungen in der Rechtschreibung lediglich im linken Morphen erfolgen, so daß es geeignet ist, ein gedrucktes Wort während des Aufspaltungsprozesses von rechts nach links abzutasten. Die "Morphe" werden als die kleinsten bedeutenden Einheiten in geschriebener Form definiert.
  • Gemäß der vorliegenden Erfindung wird eine Eingabefolge von Bytes, z. B. Datendarstellungen, die eine Folge von Zeichen darstellen, die aus einem ersten Zeichensatz, wie Graphemen ausgewählt werden, in Unterfolgen aufteilt, zur Umwandlung in eine Ausgabefolge von Bytes, z. B. Datendarstellungen, die eine Folge von Zeichen darstellen, die aus einem zweiten Zeichensatz, wie Phonemen, ausgewählt werden, wobei das Verfahren eine rückläufige Analyse umfaßt und dadurch gekennzeichnet ist, daß die Aufteilung in Verbindung mit Signalspeichermitteln durchgeführt wird, die einen ersten, einen zweiten, einen dritten und einen vierten Speicherbereich enthalten, wobei;
  • (i) der erste Speicherbereich mehrere Bytes enthält, die jeweils ein aus dem ersten Zeichensatz ausgewähltes Zeichen darstellen,
  • (ii) der zweite Speicherbereich mehrere Bytes enthält, die jeweils ein aus dem ersten Zeichensatz ausgewähltes Zeichen darstellen, wobei sich der Gesamtinhalt des zweiten Speicherbereiches von dem Gesamtinhalt des ersten Speicherbereiches unterscheidet,
  • (iii) der dritte Speicherbereich Folgen enthält, die jeweils aus einem oder mehreren Bytes bestehen, wobei das Byte oder das erste Byte jeder Folge im ersten Speicherbereich enthalten ist, und
  • (iv) der vierte Speicherbereich Folgen enthält, die jeweils aus einem oder mehreren im zweiten Speicher bereich enthaltenen Bytes bestehen.
  • Die im ersten Bereich gespeicherten Bytes stellen vorzugsweise Vokale dar, während die Bytes des zweiten Bereichs vorzugsweise Konsonanten darstellen. Überlappungen, z. B. der Buchstabe "y", sind möglich. Die Folgen im dritten Speicherbereich stellen vorzugsweise "Reime" dar, während die Folgen des vierten Speicherbereichs vorzugsweise Wortanfänge darstellen. Die Konzepte von Vokalen, Konsonanten, Reimen und Wortanfängen werden nachfolgend ausführlich erläutert.
  • Die Aufteilung umfaßt das Vergleichen von Unterfolgen des Eingabesignals mit Folgen, die im dritten und vierten Speicherbereich enthalten sind. Die Unterfolgen für den Vergleich werden durch Verwendung des ersten und des zweiten Speicherbereichs gebildet.
  • Die rückläufige Analyse erfordert, daß später vorkommende Unterfolgen vor früher vorkommenden Unterfolgen ausgewählt werden. Sobald eine Unterfolge ausgewählt wurde, stehen die darin enthaltenen Bytes nicht mehr zur Verfügung für die Auswahl oder Wiederauswahl, so daß sie eine früher vorkommende Unterfolge bilden. Diese Nicht-Verfügbarkeit begrenzt die Wahl für Bildung der Unterfolge, und deswegen bestimmt die vorausgehende Auswahl zumindest teilweise die spätere Auswahl der früheren Unterfolge.
  • Das erfindungsgemäße Verfahren ist besonders geeignet für die Verarbeitung einer Eingabefolge, die in Blöcke aufgeteilt ist, z. B. Blöcke, die Wörtern entsprechen, wobei ein Block in Segmenten analysiert wird, die am Ende beginnen und zum Beginn hin verarbeitet werden und wobei die Auswahl der Segmente vom Ende der restlichen nicht verarbeiteten Folge erfolgt.
  • Die Erfindung, die in den Patentansprüchen offenbart wird, umfaßt die Verfahren und eine Einrichtung zur Durchführung der Verfahren.
  • Die Datendarstellungen, z. B. Bytes, die beim erfindungsgemäßen Verfahren verwendet werden, nehmen jede beliebige Signalform an, die für Verwendung in Computerschaltungen geeignet sind. So können die Datendarstellungen durch Signale in Form von elektrischem Strom (Ampere), elektrischem Potential (Volt), magnetischem Feld, elektrischem Feld oder elektromagnetischer Strahlung gebildet werden. Zusätzlich können die Datendarstellungen gespeichert werden, einschließlich eines vorübergehenden Speicherns als Bestandteil der Verarbeitung, in einem geeigneten Speichermedium, z. B. als Grad und/oder Orientierung der Magnetisierung in einem magnetischen Medium.
  • Nachfolgend werden die theoretische Grundlage und einige vorteilhafte Ausführungen der Erfindung beschrieben. Bei den vorteilhaften Ausführungen werden die Eingangssignale in Blöcke aufgeteilt, die den einzelnen Wörtern des Textes entsprechen und die Erfindung arbeitet separat mit jedem Block, so daß der Prozess als "Wort-für-Wort"-Verarbeitung angesehen werden kann.
  • Nun ist es angebracht, die Anforderung zu wiederholen, daß es nicht erforderlich ist, für jeden der Blöcke eine Ausgabe zu erzeugen, da, wie oben erwähnt wurde, das gesamte System weitere Module umfaßt, die mit derartigen Ausfällen fertig werden.
  • Als eine Vorprüfung ist es sinnvoll, die theoretische Grundlage der Erfindung durch Betrachtung der Struktur von Wörtern in der englischen Sprache und durch Erklärung der Strukturen von wenigen spezifischen Wörtern darzustellen. Diese Analyse verwendet den Unterschied, der gewöhnlich als "Vokale" und "Konsonanten" dargestellt wird. Für mechanische Verarbeitung ist es notwendig, zwei Zeichenverzeichnisse zu speichern. Eines dieser Verzeichnisse enthält die Zeichen, die als "Vokale" bezeichnet werden, und das andere Verzeichnis enthält diejenigen Zeichen, die als "Konsonanten" bezeichnet werden. Alle Zeichen sind vorzugsweise in einem oder dem anderen Verzeichnis enthalten, aber bei der vorteilhaften Ausführung sind die Datendarstellungen, die einem "Y" entsprechen, in beiden Verzeichnissen enthalten. Der Grund dafür ist, daß die gewöhnliche englische Rechtsschreibung den Buchstaben "Y" manchmal als ein Vokal und machmal als ein Konsonant verwendet. Somit enthält das erste Verzeichnis (der Vokale) a, e, i, o, u und y, während das zweite Verzeichnis die Konsonanten b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, y, z enthält. Die Tatsache, daß "Y" in beiden Verzeichnissen vorkommt, bedeutet, daß sich die Bedingung "nicht Vokal" von der Bedingung "Konsonant" unterscheidet.
  • Der primäre Zweck der Analyse ist es, einen Block von Datendarstellungen, d. h., ein Wort, in Reime und Wortanfänge zu teilen. Es ist wichtig zu begreifen, daß die Analyse verknüpfte Datenbanken verwendet, die Graphemäqivalente von Reimen und "Wortanfängen" enthält, die mit ihren Phonemäquivalenten verknüpft sind. Der Zweck der Analyse ist nicht nur, die Daten in die Reime und die Wortanfänge darstellende willkürliche Folgen zu teilen, sondern in Folgen, die in der Datenbank enthalten sind.
  • Ein Reim bezeichnet eine Folge von einem oder mehreren Zeichen, von denen jedes im Verzeichnis der Vokale enthalten ist, oder eine Folge, der eine zweite Folge von Zeichen folgt, die im Verzeichnis der Vokale nicht enthalten sind.
  • Eine alternative Erklärung dieser Anforderung ist, daß ein Reim aus einer ersten Folge besteht, der eine zweite Folge folgt, wobei alle in der ersten Folge enthaltenen Zeichen im Verzeichnis der Vokale enthalten sind und die erste Folge nicht leer sein darf und die zweite Folge vollständig aus Zeichen besteht, die im Verzeichnis der Vokale nicht enthalten sind mit dem Vorbehalt, daß die zweite Folge leer sein kann.
  • Ein Wortanfang ist eine Folge von Zeichen, von denen alle im Verzeichnis der Konsonanten enthalten sind.
  • Die Analyse erfordert, daß das Ende eines Wortes ein Reim sein soll. Es ist erlaubt, daß das Wort benachbarte Reime enthält, aber es ist nicht erlaubt, daß es benachbarte Wortanfänge enthält. Es wurde erwähnt, daß das Ende des Wortes ein Reim sein muß, aber es sollte erwähnt werden, daß der Anfang des Wortes entweder ein Reim oder ein Wortanfang sein kann; z. B. fängt das Wort "orange" mit einem Reim an, während das Wort "pear" mit einem Wortanfang beginnt.
  • Um die grundlegende Theorie der Erfindung zu erklären werden vier aus der englischen Sprache willkürlich ausgewählte Probewörter dargestellt und bezüglich ihrer Reime und Wortanfänge analysiert:
  • Erste Probe
  • CATS
  • Reim "ats"
  • Wortanfang "c"
  • Es ist zu erwarten, daß "ats" als ein Reim und "c" als ein Wortanfang aufgeführt werden. Deswegen wird jedes Ersetzen durch sein Phonemäquivalent "cats" in Phoneme umwandeln.
  • Es soll erwähnt werden, daß der Reim "ats" eine erste Folge, die aus dem einzelnen Vokal "a" besteht, und eine zweite Folge aufweist, die aus zwei Nicht-Vokalen, nämlich "t und "s" besteht.
  • Zweite Probe
  • STREET
  • Reim "eet"
  • Wortanfang "str"
  • In diesem Fall enthält die erste Folge des Reims zwei Buchstaben, nämlich "ee", während die zweite Folge durch ein einziges Nicht-Vokal "t" gebildet ist. Der Wortanfang besteht aus einer Folge von drei Konsonanten.
  • Der Wortanfang "str" und der Reim "eet" sollten beide in der Datenbank enthalten sein, so daß Phonemäquivalente vorhanden sind.
  • Dritte Probe
  • HIGH
  • Reim "igh"
  • Wortanfang "h"
  • Bei diesem Beispiel ist der Reim "igh" einer der beliebigen Klänge der englischen Sprache, aber die Datenbank kann eine korrekte Umwandlung in Phoneme gewährleisten.
  • Vierte Probe
  • HIGHSTREET
  • zweiter Reim "eet"
  • zweiter Wortanfang "str"
  • erster Reim "igh"
  • erster Wortanfang "h"
  • Es ist klar, daß das Wort "highstreet" eine Verbindung der vorhergehenden zwei Beispiele ist und seine Analyse diesen zwei Beispielen sehr ähnlich ist. Es existiert jedoch eine wichtige Sonderanforderung, daß es notwendig ist, zu erkennen, daß eine Unterbrechung zwischen dem vierten und dem fünften Buchstaben vorhanden ist, um das Wort in "high" und "street" aufzuteilen. Diese Aufteilung wird durch den Inhalt der Datenbank erkannt. Somit ist die Konsonantenfolge "ghstr" kein Wortanfang in der englischen Sprache und ist deswegen in der Datenbank nicht enthalten, so daß sie nicht erkannt werden kann. Weiter ist auch die Folge "hstr" in der Datenbank nicht vorhanden. "str" ist jedoch im Englischen ein gewöhnlicher Wortanfang und sollte in der Datenbank vorhanden sein.
  • Deswegen kann "str" als ein Wortanfang erkannt werden und "str" ist der letzte Teil der Folge "ghstr". Sobald das Ende der Folge als ein Wortanfang erkannt wurde, wird der vordere Teil als Teil des vorhergehenden Reim identifiziert und das Wort "high" kann aufgeteilt werden, wie vorhin beschrieben wurde. Der Zweck dieses Beispiels ist darzustellen, daß die Aufteilung einer internen Konsonantenfolge manchmal wichtig ist und daß die Aufteilung durch Verwendung der Datenbank erreicht wird.
  • Nachdem nun die den erfindungsgemäßen Verfahren zugrundeliegende Theorie beschrieben wurde, ist es angebracht aufzuzeigen, wie sie durch Verwendung einer automatischen Computereinrichtung realisiert wird, die in der beliegenden diagrammatischen Zeichnung dargestellt ist.
  • Die Computereinrichtung arbeitet mit Folgen von Signalen, z. B., elektrischen Impulsen. Die kleinste Einheit der Computerverarbeitung ist eine Signalfolge, die einem einzigen Graphemen des Originaltextes entspricht. Zur Vereinfachung wird eine derartige Signalfolge als ein "Byte" bezeichnet, wobei es unerheblich ist, wieviel Bit im Byte enthalten sind. Der Begriff "Byte" bezeichnet normalerweise eine Folge von 8 Bit. Da 8 Bit eine Zahl von 255 darstellen können, reicht diese Zahl aus, die meisten Alphabete unterzubringen. Das "Byte" enthält jedoch nicht unbedingt 8 Bit.
  • Die nachfolgend beschriebene Verarbeitung wird blockweise durchgeführt, wobei ein Block durch eine Folge von einem oder mehreren Bytes gebildet ist. Jeder Block entspricht einem individuellen Wort (oder einem potentiellen Wort, da es möglich ist, daß die Daten Blöcke enthalten, die nicht übersetzbar sind, so daß die Umwandlung ausfallen muß). Der Zweck des Verfahrens ist es, einen Eingabeblock, dessen Bytes Grapheme darstellen, in einen Ausgabeblock umzuwandeln, dessen Bytes Phoneme darstellen. Das Verfahren teilt den Eingabeblock in Unterfolgen auf, wandelt jede Unterfolge in eine Nachschlagetabelle um und bildet dann Ketten, um den Ausgabeblock zu erzeugen.
  • Der Betriebsmodus der Computereinrichtung weist zwei Arbeitsvorgänge auf. So weist er einen ersten Vorgang, der zwei Phasen umfaßt und zum Identifizieren von Bytefolgen verwendet wird, die den Reimen entsprechen. Der zweite Vorgang hat nur eine Phase und wird zum Identifizieren von Bytefolgen verwendet, die den Wortanfängen entsprechen.
  • Wie in der Zeichnung gezeigt ist, enthält die Computereinrichtung einen Eingabe-Puffer-Speicher 10, der Blöcke von der vorhergehenden Verarbeitung so lange hält, bis sie in der Lage sind, verarbeitet zu werden. Der Eingabe-Puffer- Speicher 10 ist mit einem Datenspeicher 11 verbunden und stellt dem Datenspeicher 11 auf Anforderung einzelne Blöcke zur Verfügung.
  • Ein wichtiges Teil der Computereinrichtung ist der Speicher 12. Dieser enthält Programmbefehle und auch die Datenbanken und Verzeichnisse, die zur Durchführung der Verarbeitung erforderlich sind. Wie im nachfolgenden Text ausführlich erläutert wird, ist der Speicher 12 in mehrere Funktionsbereiche unterteilt.
  • Die Datenverarbeitungseinrichtung umfaßt auch einen Arbeitsspeicher 14, der erforderlich ist, Untersätze von Bytes zu halten, die vom Datenspeicher 11 erhalten werden, zur Verarbeitung und zum Vergleich mit Bytefolgen, die in im Speicher 12 enthaltenen Datenbanken gehalten werden. Einzelne Bytes, d. h. Signalfolgen, die einzelnen Graphemen entsprechen, werden vom Eingabe-Puffer-Speicher 10 in den Arbeitsspeicher 14 über einen Kontrollspeicher 13 übertragen, der eine Kapazität von einem Byte aufweist. Vor der Übertragung in den Arbeitsspeicher 14 wird das Byte im Kontrollspeicher 13 mit Verzeichnissen verglichen, die im Datenspeicher 12 enthalten sind.
  • Nach dem erfolgreichen Vergleich mit den im Arbeitsspeicher 12 enthaltenen Datenfeldern werden die Folgen von dem Arbeitsspeicher 12 in den Ausgabespeicher 15 übertragen. Für den Fall, daß die Übereinstimmung nicht stattfindet, enthält die Einrichtung Mittel zur Rückführung eines Bytes vom Arbeitsspeicher 14 in den Datenspeicher 11.
  • Zusätzlich zu anderen Bereichen, z. B. für Programmbefehle, weist der Speicher 12 vier Hauptspeicherbereiche auf. Diese Bereiche werden nun erläutert.
  • Zunächst weist der Speicher Bereiche für zwei verschiedene Verzeichnisse von Bytes auf. Dies sind ein erster Speicherbereich 12.1, der ein Verzeichnis von Bytes enthält, die den Vokalen entsprechen, und ein zweiter Speicherbereich 12.2, der ein Verzeichnis von Bytes enthält, die den Konso nanten entsprechen. (Die Vokale sowie die Konsonanten wurden bereits in dieser Beschreibung erläutert).
  • Der Speicher 12 enthält auch zwei Speicherbereiche, die zwei verschiedene und wichtige verknüpfte Datenbanken bilden. Die erste ist die "Reim"-Datenbank 12.3, die weiter in Bereiche unterteilt ist, die mit 12.31, 12.32, 12.33 usw. bezeichnet sind. Jeder Bereich hat einen Eingabeteil, der Bytefolgen enthält, die den Reimen in Graphemen entsprechen, wobei, wie in der Zeichnung dargestellt ist, 12.31 "ALS" enthält, 12.32 "EET" enthält, 12.33 "IGH" enthält, sowie mehrere Teile, die in der Zeichnung nicht dargestellt sind.
  • Der Speicher 12 enthält auch einen zweiten Hauptbereich 12.4, der Bytefolgen enthält, die den Wortanfängen entsprechen. Wie bei den Reimen ist die Wortanfang-Datenbank 12.4 auch in mehrere Bereiche unterteilt. So zum Beispiel umfaßt sie 12.41, die "C" enthält, 12.42, die "STR" enthält und 12.43, die "H" enthält.
  • Jeder der Eingabeteile (von 12.3 und 12.4) ist mit einem Ausgabeteil verknüpft, der eine Folge von Bytes enthält, die dem Inhalt seines Eingabeteiles entsprechen.
  • Es wurde bereits erwähnt, daß das Arbeitsverfahren zwei verschiedene Vorgänge umfaßt. Der erste Vorgang benutzt die Speicherbereiche 12.1 und 12.3, während der zweite Vorgang die Speicherbereiche 12.2 und 12.4 benutzt. Es wird betont, daß die Datenbankbereiche, die derzeit verwendet werden, vollständig durch den laufenden Vorgang definiert werden. Die Vorgänge werden abwechselnd verwendet und der Vorgang Nr. 1 wird als erstes verwendet.
  • TYPISCHES BEISPIEL Analyse des Wortes "HIGHSTREET"
  • Es wird bemerkt, daß dieses typische Beispiel das Wort betrifft, das als die vierte Probe in der vorhergehenden Beschreibung ausgewählt wurde. Deswegen wurden seine Reime und Wortanfänge bereits festgelegt und das typische Beispiel erklärt, wie diese durch mechanische Berechnung erreicht wurden.
  • Die Analyse beginnt, wenn der Eingabe-Puffer-Speicher 10 die dem Wort "HIGHSTREET" entsprechende Bytefolge in den Datenspeicher 12 überträgt. Somit sehen die Inhalte der wichtigen Speicher zu Beginn des Prozesses wie folgt aus:
  • SPEICHER INHALT
  • 11 HIGHSTREET
  • 13 --
  • 14 --
  • 15 --
  • (Das Zeichen "--" bedeutet, daß der entsprechende Speicher leer ist).
  • Die Analyse beginnt mit dem ersten Vorgang, weil eine Analyse immer mit dem ersten Vorgang beginnt. Wie oben erwähnt wurde, benutzt der erste Vorgang die Speicherbereiche 12.1 und 12.3. Der erste Vorgang hat zwei Phasen, während derer Bytes vom Datenspeicher 11 in den Arbeitsspeicher 14 über den Kontrollspeicher 13 übertragen werden. Die erste Phase wird so lange fortgesetzt, bis im Speicherbereich 12.1 keine Bytes gefunden werden.
  • Der Vorgang läuft rückwärts ab, was bedeutet, daß er am Ende des Wortes beginnt, so daß als erstes das "T" über tragen wird, das im Bereich 12.1 nicht enthalten ist. Als zweites wird das "E" übertragen, das im Bereich 12.1 enthalten ist, wodurch die zweite Phase des ersten Vorgangs eingeleitet wird. Dies wird so lange fortgesetzt, bis das Byte im Arbeitsspeicher 14 mit 12.1 übereinstimmt, so daß das zweite "E" übertragen wird, aber die Überprüfung ausfällt, wenn das nächste Byte "R" durchläuft. In diesem Stadium sieht der Zustand der Speicher wie folgt aus.
  • SPEICHER INHALT
  • 11 HIGHST
  • 13 R
  • 14 EET
  • 15 - - - -
  • Die Inhalte des Arbeitsspeichers 14 werden zum Zugriff auf den Speicherbereich 12.3 verwendet, wobei eine Übereinstimmung im Bereich 12.32 stattfindet. Somit hat die Übereinstimmung stattgefunden und der Inhalt des Arbeitsspeichers 14, nämlich "EET" wird in einen Bereich des Ausgangsspeichers 15 übertragen, so daß der Zustand der Speicher folgendermaßen aussieht.
  • SPEICHER INHALT
  • 11 HIGHST
  • 13 R
  • 14 - - -
  • 15 EET
  • Es wird gemerkt, daß das erste Reim mechanisch gefunden wurde.
  • Wie oben erwähnt wurde, wurde durch die Nicht-Übereinstimmung von "R" im Kontrollspeicher 13 die erste Durchführung des ersten Vorgangs beendet. Die Analyse wird fort gesetzt, aber nun wird der zweite Vorgang verwendet, weil die zwei Vorgänge immer abwechselnd durchgeführt werden. Der zweite Vorgang verwendet die Speicherbereiche 12.2 und 12.4. Das dem "R" entsprechende Byte im Kontrollspeicher 13 stimmt nun überein, da nun der Bereich 12.2 benutzt wird und dieses Byte darin enthalten ist. Deswegen wird "R" in den Arbeitsspeicher 14 übertragen und der zweite Vorgang wird so lange fortgesetzt, bis eine Übereinstimmung des Bytes im Kontrollspeicher 13 stattfindet. Somit werden alle Buchstaben "T", "S", "H" und "G" über den Kontrollspeicher 13 übertragen. In diesem Augenblick kommt das dem "I" entsprechende Byte in den Kontrollspeicher 13 und die Überprüfung entfällt, da das dem "I" entsprechende Byte nicht im Speicherbereich 12.2 enthalten ist. Da die Überprüfung entfällt, wird die Durchführung des zweiten Vorgangs beendet. Die Inhalte der Speicher sehen folgendermaßen aus.
  • SPEICHER INHALT
  • 11 "H"
  • 13 "I"
  • 14 "GHSTR"
  • 15 "EET"
  • Der zweite Vorgang wird versuchen, den Inhalt des Arbeitsspeichers 14 mit der in 12.4 enthaltenen Datenbank zu vergleichen; es wird jedoch keine Übereinstimmung erreicht. Deswegen wird der zweite Vorgang mit seinem Bedarfsteil fortgesetzt, wobei die Bytes über den Kontrollspeicher 13 zurück in den Datenspeicher 11 übertragen werden. Bei jeder Übertragung wird versucht, den Inhalt des Arbeitsspeichers 14 in den Speicherbereich 12.4 zu bringen. Eine Übereinstimmung wird erreicht, wenn die Buchstaben G und H zurückgeführt wurden, weil die dem "STR" äquivalente Folge im Bereich 12.42 enthalten ist. Nachdem eine Übereinstimmung erreicht wurde, wird der Inhalt des Arbeitsspeichers in einen Bereich des Ausgabespeichers 15 ausgegeben. Zu diesem Zeitpunkt sieht der Inhalt der Speicher folgendermaßen aus.
  • SPEICHER INHALT
  • 11 "HIG"
  • 13 "H"
  • 14 - -
  • 15 "STR" und "EET"
  • Der zweite Vorgang wurde durch Erreichen der Übereinstimmung beendet, so daß die Analyse nun zum ersten Vorgang zurückkehrt, insbesondere zur ersten Phase des ersten Vorgangs. Auf diese Weise werden die Buchstaben "H" und "G" in den Arbeitsspeicher 14 übertragen und die erste Phase endet. Die zweite Phase läßt "I" durch und wird beendet, wenn "H" in den Kontrollspeicher 13 übertragen wurde. In diesem Stadium weisen die Speicher die folgenden Inhalte auf.
  • SPEICHER INHALT
  • 11 - -
  • 13 "H"
  • 14 "IGH"
  • 15 "STR" und "EET".
  • Der erste Vorgang versucht nun, den Inhalt des Arbeitsspeichers 14 mit der Datenbank im Speicherbereich 12.3 zu vergleichen, wobei eine Übereinstimmung im Bereich 12.33 erreicht wird. Deswegen wird der Inhalt des Arbeitsspeichers 14 in einen Bereich des Ausgabespeichers 15 übertragen. Die Analyse wird nun mit dem zweiten Vorgang fortgesetzt und der Buchstabe "H" (im Kontrollspeicher 13) wird in den Speicherbereich 12.2 gebracht (merke, daß dieser Bereich nun verwendet wird, da die Analyse zum zweiten Vorgang zurückgekehrt ist). Die Analyse kann jetzt beendet werden, da der Datenspeicher 11 keine weiteren Bytes zur Übertragung beinhaltet und der Inhalt des Arbeitsspeichers, nämlich "H", im Bereich 12.43 des Hauptspeichers 12 gefunden wird. Somit wird "H" zum Ausgabespeicher 15 übertragen, der die korrekten vier Folgen enthält, die durch mechanische Analyse gefunden wurden.
  • Nachdem die erforderlichen Ausgabefolgen in die richtige Lage gebracht wurden, ist es lediglich notwendig, sie auf Grund der Tatsache umzuwandeln, daß die Speicherbereiche 12.3 und 12.4 verknüpfte Datenbanken sind. Jeder Bereich enthält nicht nur die Folgen, die nun im Ausgabespeicher enthalten sind, sondern sind mit jedem Bereich Ausgabebereiche verknüpft, die Folgen enthalten, die den geeigneten Phonemen entsprechen. Deswegen wird jede Folge im Ausgabespeicher zum Zugriff auf ihren geeigneten Bereich verwendet und erzeugt somit die erforderliche Ausgabe. Der Endschritt verwendet lediglich eine Nachschlagetabelle und dies ist deswegen möglich, weil die wichtige Analyse beendet wurde.
  • Wie oben erwähnt wurde, dienen die identifizierten Folgen als Zugriff auf die verknüpfte Datenbank und in einem einfachen System existiert für jede Zugriffsfolge eine Ausgabefolge. Die Aussprache hängt jedoch manchmal vom Kontext ab und eine bessere Umwandlung kann durch Verwendung mehrerer Ausgaben für mindestens einige der Zugriffsfolgen erreicht werden. Die Auswahl des geeigneten Ausgabestroms hängt von der Analyse des Kontextes des Zugriffsstroms ab, d. h., von der Berücksichtigung der Position im Wort oder davon, was folgt oder was fortgesetzt wird. Diese weitere Komplikation beeinflußt die Erfindung nicht, die sich lediglich mit der Aufteilung in geeignete Bereiche befaßt. Sie kompliziert lediglich den Nachschlageprozess.
  • Wie oben erläutert wurde, ist die Erfindung nicht unbedingt erforderlich, um eine Ausgabe zu erzeugen, weil in einem Fehlerfall das ganze System ein Standard-Verfahren enthält, das z. B. ein Phonem zur Verfügung stellt, das jedem Graphem äquivalent ist. Um die Beschreibung des Verfahrens zu ergänzen ist es erwünscht, eine kurze Erläuterung des Umstands zu geben, bei dem der Fehlerfall eintritt und die Verwendung des Standard-Verfahrens erforderlich ist.
  • Fehlermodus 1.
  • Der erste Fehlermodus tritt auf, wenn der Inhalt des Datenspeichers kein Vokal enthält, was darauf schließen läßt, daß der Inhalt kein Wort darstellt. Wie immer beginnt die Analyse mit dem ersten Vorgang und insbesondere mit der ersten Phase des ersten Vorgangs und wird so lange fortgesetzt werden, bis keine Übereinstimmung mit dem ersten Verzeichnis 12.1 stattfindet. Da die Folge und der Datenspeicher 11 keine Übereinstimmung enthalten, wird die erste Phase bis zum Anfang des Wortes fortgesetzt und dies bedeutet, daß ein Fehler auftritt.
  • Zweiter Fehlermodus
  • Dieser Fehler tritt auf, wenn:
  • (i) der zweite Vorgang läuft;
  • (ii) der Anfang des Wortes erreicht wird und;
  • (iii) keine Übereinstimmung für den Inhalt des Arbeitsspeichers 14 in der Datenbank 12.4 existiert.
  • Dies steht im Gegensatz zum Übereinstimmungsfehler in der Mitte des Wortes, der darauf schließen läßt, daß im Kontrollspeicher 13 ein Vokal enthalten ist. Ein Fehler in diesem Stadium ermöglicht eine Rückführung von Bytes für eine spätere Analyse durch den ersten Vorgang und wird, zumindest in diesem Punkt der Analyse, nicht als Fehler angesehen. Wenn der Anfang des Wortes erreicht ist, besteht keine Möglichkeit einer weiteren Analyse, so daß die Analyse entfallen muß.
  • Dritter Fehlermodus
  • Der dritte Fehlermodus tritt auf, wenn der erste Vorgang läuft und wenn es nicht möglich ist, die Inhalte des Arbeitsspeichers 14 mit einer in der Datenbank 12.3 enthaltenen Folge in Übereinstimmung zu bringen. Unter diesen Umständen wird der erste Vorgang Bytes zurück zum Kontrollspeicher 13 und zum Datenspeicher 11 übertragen und diese Übertragung kann so lange fortgesetzt werden, bis der Arbeitsspeicher 14 leer ist und die Analyse somit entfällt.
  • Im zweiten Fehlermodus wurde erläutert, daß der zweite Ablauf in der Lage ist, Bytes zur späteren Analyse durch den zweiten Vorgang an den Eingang zurück zu bringen. Die übertragenen Bytes müssen jedoch zu einem bestimmten Zeitpunkt, d. h., während der nächsten Durchführung des ersten Vorgangs übereinstimmen. Der dritte Fehlermodus entspricht dem Fall, in dem es nicht möglich ist, die spätere Übereinstimmung zu erreichen.
  • Das erfindungsgemäße Verfahren führt somit eine Aufteilung einer Datenfolge in Segmente durch, die durch Verwendung von Nachschlagetabellen umgewandelt werden können. Es ist nicht notwendig, daß die Aufteilung in jedem Fall zu erfolgen hat, aber unter der Vorausetzung, daß hochwertige Datenbanken verwendet werden, das Verfahren sehr schnell arbeiten und die Leistung des gesamten Systems erhöhen wird, das andere Module aufweist, die für die Umwandlung eines Textes in eine Sprache erforderlich sind.

Claims (8)

1. Verfahren zur Verarbeitung eines Eingangssignals, das aus einer Folge von Bytes besteht, die jeweils einem Zeichen aus einem ersten Zeichensatz entsprechen, um Unterfolgen für eine Umwandlung in ein Ausgangssignal zu identifizieren, das eine Folge von Zeichen darstellt, die aus einem sich von dem ersten Zeichensatz unterscheidenden zweiten Zeichensatz ausgewählt werden, wobei das Verfahren das Eingangssignal durch eine rückläufige Analyse in Unterfolgen aufteilt,
dadurch gekennzeichnet, daß
die Aufteilung in Verbindung mit einer Datenbank in Form von Signalen durchgeführt wird, die in einem ersten, zweiten, dritten und vierten Speicherbereich gespeichert sind, wobei:
(i) der erste Speicherbereich (12.1) mehrere Bytes enthält, die jeweils ein aus dem ersten Zeichensatz ausgewähltes Zeichen darstellen,
(ii) der zweite Speicherbereich (12.2) mehrere Bytes enthält, die jeweils ein aus dem ersten Zeichensatz ausgewähltes Zeichen darstellen, wobei sich der Gesamtinhalt des zweiten Speicherbereiches von dem Gesamtinhalt des ersten Speicherbereiches unterscheidet,
(iii) der dritte Speicherbereich (12.3) Folgen enthält, die jeweils aus einem oder mehreren Bytes bestehen, wobei das Byte oder das erste Byte jeder Folge im ersten Speicherbereich enthalten ist, und
(iv) der vierte Speicherbereich (12.4) Folgen enthält, die jeweils aus einem oder mehreren im zweiten Speicherbereich enthaltenen Bytes bestehen, die Aufteilung das Vergleichen von Unterfolgen (12.3, 12.4, 14) des Eingangssignals mit Folgen aufweist, die in dem dritten und vierten Bereich der Signalspeichereinrichtung enthalten sind, und Auswählen von später vorkommenden Unterfolgen vor früher vorkommenden Unterfolgen, wobei die vorherige Auswahl einer späteren Unterfolge zumindest teilweise die Auswahl einer früheren Unterfolge definiert,
die Unterfolgen für den Vergleich durch Vergleichen (12.1, 12.2, 13) von Bytes des Eingangssignals mit den Inhalten des ersten und des zweiten Speicherbereiches gebildet werden, um Unterfolgen, die mit einem im ersten Speicherbereich enthaltenen Byte anfangen oder aus diesem bestehen, und andere Folgen zu bilden, die vollständig aus im zweiten Speicherbereich enthaltenen Bytes bestehen.
2. Verfahren nach Anspruch 1, bei dem das Eingangssignal in Blöcke aufgeteilt wird und die Verarbeitung von zumindest einigen dieser Blöcke aufweist:
(a) Identifizieren einer inneren Folge von aufeinanderfolgenden Bytes, die jeweils im zweiten Speicherbereich enthalten sind, wobei die Folge unmittelbar an ein im ersten Speicherbereich enthaltenes vorangehendes Byte anschließt, und unmittelbar einem im ersten Speicherbereich enthaltenen nachfolgenden Byte vorausgeht,
(b) Identifizieren der Folge mit dem längsten Ende aus der inneren Folge mit einer Folge, die im vierten Speicherbereich enthalten ist,
(c) Definieren eines Anfangsteils der inneren Folge als den nach der in (b) definierten Abtrennung der Endfolge verbleibenden Rest,
(d) Identifizieren einer Folge aus einem oder mehreren aufeinanderfolgenden Bytes, die jeweils im ersten Speicherbereich enthalten sind, wobei die Folge das in (a) identifizierte vorangehende Byte enthält, und (a) Verbinden des in (e) identifizierten Anfangsteils mit der in (d) identifizierten Folge, um eine im dritten Speicherbereich gespeicherte Folge zu erzeugen.
3. Verfahren nach Anspruch 1 oder 2, bei dem jede im dritten Speicherbereich enthaltene Folge aus einer Primärfolge und einer nachfolgenden Sekundärfolge besteht, wobei die Primärfolge aus im ersten Speicherbereich enthaltenen Bytes besteht und die zweite Folge entweder leer ist oder aus im zweiten Speicherbereich enthaltenen Bytes besteht.
4. Verfahren zur Umwandlung eines Eingangssignals, das eine Folge von aus dem ersten Zeichensatz ausgewählten Zeichen darstellt, in ein äquivalentes Signal, das eine Folge von aus dem zweiten Zeichensatz ausgewählten Zeichen darstellt, mit Identifizieren von Unterfolgen durch ein Verfahren nach einem der vorangehenden Ansprüche, und Umwandeln der Unterfolgen mittels einer verbundenen Datenbank, die Eingangsabschnitte mit jeweils einer der Unterfolgen enthält, wobei jeder Eingangsabschnitt mit einem Ausgangsabschnitt verbunden ist, der die zum Inhalt des Eingangsabschnitts äquivalente Ausgabe enthält.
5. Verfahren nach Anspruch 4, bei dem das Eingangssignal in Eingangsblöcke aufgeteilt wird und bei dem jeder Block für sich umgewandelt wird, wobei zumindest einige der Blöcke als Ganzes ohne Unterteilung umgewandelt werden und zumindest einige der Blöcke durch ein Verfahren nach Anspruch 4 umgewandelt werden.
6. Zweiteilige Datenbank zum Einfügen in eine Sprachmaschine zur Durchführung eines Verfahrens nach Anspruch 4 oder 5, wobei die Datenbank als in Signalspeichereinrichtungen gespeicherte Signale ausgebildet ist und aufweist:
(i) einen ersten Speicherbereich (12.1), der mehrere Bytes enthält, die jeweils ein aus dem ersten Zeichensatz ausgewähltes Zeichen darstellen,
(ii) einen zweiten Speicherbereich (12.2) der mehrere Bytes enthält, die jeweils ein aus dem ersten Zeichensatz ausgewähltes Zeichen darstellen, wobei sich der Gesamtinhalt des zweiten Speicherbereiches von dem Gesamtinhalt des ersten Speicherbereiches unterscheidet,
(iii) einen dritten Speicherbereich (12.3), der aus einem oder mehreren Bytes bestehende Zeichen enthält, wobei das Byte oder das erste Byte jeder Folge im ersten Speicherbereich enthalten ist, jede im dritten Speicherbereich (12.3) enthaltene Folge mit einem Ausgangsregister verbunden ist, das eine Folge aus einem oder mehreren Bytes enthält, die jeweils ein Zeichen des zweiten Zeichensatzes darstellen, und das Zeichen im Ausgangsregister eine Umwandlung der im dritten Speicherbereich (12.3) enthaltenen verbundenen Folge darstellt, und
(iv) einen vierten Speicherbereich (12.4), der aus einem oder mehreren, im zweiten Speicherbereich enthaltenen Bytes bestehende Folgen enthält, die mit einem Ausgangsregister verbunden sind, das eine Folge aus einem oder mehreren Bytes enthält, die jeweils ein Zeichen des zweiten Zeichensatzes darstellen, wobei die Folge im Ausgangsregister eine Umwandlung der im vierten Speicherbereich (12.4) enthaltenen verbundenen Folge darstellt.
7. Zweiteilige Datenbank nach Anspruch 6, bei der jede im dritten Speicherbereich enthaltene Folge aus einer Primärfolge und einer nachfolgenden Sekundärfolge besteht, wobei die Primärfolge aus im ersten Speicherbereich enthaltenen Bytes besteht und die Sekundärfolge entweder leer ist oder aus im zweiten Speicherbereich enthaltenen Bytes besteht.
8. Sprachmaschine, die eine zweiteilige Datenbank nach Anspruch 6 oder 7 enthält.
DE69420955T 1993-03-26 1994-03-07 Umwandlung von text in signalformen Expired - Lifetime DE69420955T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP93302383 1993-03-26
PCT/GB1994/000430 WO1994023423A1 (en) 1993-03-26 1994-03-07 Text-to-waveform conversion

Publications (2)

Publication Number Publication Date
DE69420955D1 DE69420955D1 (de) 1999-11-04
DE69420955T2 true DE69420955T2 (de) 2000-07-13

Family

ID=8214357

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69420955T Expired - Lifetime DE69420955T2 (de) 1993-03-26 1994-03-07 Umwandlung von text in signalformen

Country Status (8)

Country Link
US (1) US6094633A (de)
EP (1) EP0691023B1 (de)
JP (1) JP3836502B2 (de)
CA (1) CA2158850C (de)
DE (1) DE69420955T2 (de)
ES (1) ES2139066T3 (de)
SG (1) SG47774A1 (de)
WO (1) WO1994023423A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10042943A1 (de) * 2000-08-31 2002-03-14 Siemens Ag Zuordnen von Phonemen zu den sie erzeugenden Graphemen
DE10042942A1 (de) * 2000-08-31 2002-03-28 Siemens Ag Verfahren zur Sprachsynthese
DE10042944C2 (de) * 2000-08-31 2003-03-13 Siemens Ag Graphem-Phonem-Konvertierung

Families Citing this family (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2189574C (en) * 1994-05-23 2000-09-05 Andrew Paul Breen Speech engine
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
EP0952531A1 (de) * 1998-04-24 1999-10-27 BRITISH TELECOMMUNICATIONS public limited company Linguistik-Umformer
US7369994B1 (en) * 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2001358602A (ja) * 2000-06-14 2001-12-26 Nec Corp 文字情報受信装置
US7805307B2 (en) 2003-09-30 2010-09-28 Sharp Laboratories Of America, Inc. Text to speech conversion system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7991615B2 (en) * 2007-12-07 2011-08-02 Microsoft Corporation Grapheme-to-phoneme conversion using acoustic data
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8523574B1 (en) * 2009-09-21 2013-09-03 Thomas M. Juranka Microprocessor based vocabulary game
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
DE102012202391A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (de) 2013-06-13 2019-09-25 Apple Inc. System und verfahren für durch sprachsteuerung ausgelöste notrufe
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
RU2632137C2 (ru) * 2015-06-30 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10643600B1 (en) * 2017-03-09 2020-05-05 Oben, Inc. Modifying syllable durations for personalizing Chinese Mandarin TTS using small corpus
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN110335583B (zh) * 2019-04-15 2021-08-03 浙江工业大学 一种带隔断标识的复合文件生成及解析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4811400A (en) * 1984-12-27 1989-03-07 Texas Instruments Incorporated Method for transforming symbolic data

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10042943A1 (de) * 2000-08-31 2002-03-14 Siemens Ag Zuordnen von Phonemen zu den sie erzeugenden Graphemen
DE10042942A1 (de) * 2000-08-31 2002-03-28 Siemens Ag Verfahren zur Sprachsynthese
DE10042943C2 (de) * 2000-08-31 2003-03-06 Siemens Ag Zuordnen von Phonemen zu den sie erzeugenden Graphemen
DE10042944C2 (de) * 2000-08-31 2003-03-13 Siemens Ag Graphem-Phonem-Konvertierung
DE10042942C2 (de) * 2000-08-31 2003-05-08 Siemens Ag Verfahren zur Sprachsynthese
US7107216B2 (en) 2000-08-31 2006-09-12 Siemens Aktiengesellschaft Grapheme-phoneme conversion of a word which is not contained as a whole in a pronunciation lexicon
US7171362B2 (en) 2000-08-31 2007-01-30 Siemens Aktiengesellschaft Assignment of phonemes to the graphemes producing them
US7333932B2 (en) 2000-08-31 2008-02-19 Siemens Aktiengesellschaft Method for speech synthesis

Also Published As

Publication number Publication date
EP0691023B1 (de) 1999-09-29
DE69420955D1 (de) 1999-11-04
WO1994023423A1 (en) 1994-10-13
ES2139066T3 (es) 2000-02-01
EP0691023A1 (de) 1996-01-10
SG47774A1 (en) 1998-04-17
CA2158850C (en) 2000-08-22
US6094633A (en) 2000-07-25
JPH08508346A (ja) 1996-09-03
JP3836502B2 (ja) 2006-10-25
CA2158850A1 (en) 1994-10-13

Similar Documents

Publication Publication Date Title
DE69420955T2 (de) Umwandlung von text in signalformen
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69726499T2 (de) Verfahren und Vorrichtung zur Kodierung von Aussprache-Prefix-Bäumen
DE68913669T2 (de) Namenaussprache durch einen Synthetisator.
DE69427525T2 (de) Trainingsmethode für ein tts-system, sich daraus ergebendes gerät und methode zur bedienung des gerätes
DE69129163T2 (de) Verfahren und Vorrichtung zur Texteingabe
DE69607601T2 (de) System und verfahren zur spracherkennung mit automatischer erzeugung einer syntax
DE69829389T2 (de) Textnormalisierung unter verwendung einer kontextfreien grammatik
DE69715784T2 (de) Verfahren und Vorrichtung zur automatischen Erzeugung eines Spracherkennungswörterbuchs aus einer Telefonauskunftsliste
DE3545125C2 (de)
DE69710525T2 (de) Verfahren und Vorrichtung zur Sprachsynthese
EP0590173A1 (de) Computersystem zur Spracherkennung
DE2809623A1 (de) Verfahren und vorrichtung zur assoziativen informationswiedergewinnung
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
DE69934195T2 (de) Identifikation einer Wortgruppe durch modifizierte Schlüsselwörter, die aus Transformationen von aufeinanderfolgenden Suffixen erzeugt sind
DE2854837A1 (de) Uebersetzungsvorrichtung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
EP1214703B1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
EP0533261A2 (de) Verfahren und Anordnung zum Erkennen gesprochener Wörter in einem Sprachsignal
DE68927625T2 (de) Folgenkollationierungssystem zum Suchen nach einer Charakterfolge willkürlicher Länge innerhalb eines gegebenen Abstands einer Referenzfolge
DE3742142C2 (de)
DE102012202391A1 (de) Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
DE69700472T2 (de) Automatische spracherkennung
EP0814457B1 (de) Verfahren zur automatischen Erkennung eines gesprochenen Textes
EP1184838B1 (de) Phonetische Übersetzung für die Sprachsynthese

Legal Events

Date Code Title Description
8364 No opposition during term of opposition