DE60219943T2 - Verfahren zum komprimieren von wörterbuchdaten - Google Patents

Verfahren zum komprimieren von wörterbuchdaten Download PDF

Info

Publication number
DE60219943T2
DE60219943T2 DE60219943T DE60219943T DE60219943T2 DE 60219943 T2 DE60219943 T2 DE 60219943T2 DE 60219943 T DE60219943 T DE 60219943T DE 60219943 T DE60219943 T DE 60219943T DE 60219943 T2 DE60219943 T2 DE 60219943T2
Authority
DE
Germany
Prior art keywords
units
sequence
phoneme
entry
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60219943T
Other languages
English (en)
Other versions
DE60219943D1 (de
Inventor
Jilei Tian
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of DE60219943D1 publication Critical patent/DE60219943D1/de
Application granted granted Critical
Publication of DE60219943T2 publication Critical patent/DE60219943T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Description

  • Hintergrund der Erfindung
  • Die Erfindung bezieht sich auf eine sprecherunabhängige Spracherkennung und genauer auf die Komprimierung eines Aussprachelexikons.
  • Verschiedene Einsatzgebiete für die Spracherkennung wurden während der letzten Jahre entwickelt, zum Beispiel Fahrzeugnutzer-Schnittstellen und mobile Endgeräte, wie Mobiltelefone, PDA-Vorrichtungen und tragbare Computer. Bekannte Verfahren für mobile Endgeräte umfassen Verfahren zum Anrufen einer bestimmten Person durch lautes Aussprechen ihres Namens in das Mikrofon des mobilen Endgeräts und durch Aufbauen eines Anrufs zu der Nummer entsprechend des durch den Benutzer gesagten Namens. Gegenwärtige sprecherunabhängige Verfahren erfordern jedoch üblicherweise, dass das Spracherkennungssystem trainiert wird, um die Aussprache jedes Namens zu erkennen. Eine sprecherunabhängige Spracherkennung verbessert die Nutzbarkeit einer sprachgesteuerten Benutzerschnittstelle, da die Trainingsstufe weggelassen werden kann. Bei einer sprecherunabhängigen Namenauswahl kann die Aussprache von Namen vorher gespeichert werden und kann der durch den Benutzer gesprochene Name mit der vordefinierten Aussprache identifiziert werden, wie beispielsweise durch eine Phonemsequenz. Obwohl in vielen Sprachen die Aussprache vieler Worte durch Regeln oder sogar Modelle dargestellt werden kann, kann die Aussprache einiger Worte nach wie vor nicht korrekt durch diese Regeln oder Modelle erzeugt werden. In vielen Sprachen jedoch kann die Aussprache nicht durch allgemeine Ausspracheregeln dargestellt werden, sondern hat jedes Wort eine spezifische Aussprache. In diesen Sprachen beruht die Spracherkennung auf der Verwendung so genannter Aussprachelexika, in welchen eine geschriebene Form jedes Wortes der Sprache und die phonetische Darstellung seiner Aussprache in einer listenartigen Struktur gespeichert sind.
  • In Mobiltelefonen ist die Speichergröße häufig aus Gründen der Kosten und der Hardwaregröße beschränkt. Dies legt auch den Einsatzgebieten der Spracherkennung Beschränkungen auf. In einer Vorrichtung, die geeignet ist, mehrere Sprachen für die Benutzerschnittstelle zu haben, verwendet die Lösung für die sprecherunabhängige Spracherkennung häufig Aussprachelexika. Weil ein Aussprachelexikon üblicherweise groß ist, zum Beispiel 37 KB für zweitausend Namen, muss dieses für die Speicherung komprimiert werden. Grob gesagt, fallen die meisten Textkomprimierungsverfahren in zwei Klassen: lexikonbasiert und statistikbasiert. Es gibt mehrere unterschiedliche Implementierungen bei der lexikonbasierten Komprimierung, zum Beispiel LZ77/78 und LZW (Lempel-Ziv-Welch). Durch Kombinieren eines statistischen Verfahrens, zum Beispiel einer arithmetischen Kodierung, mit leistungsfähigen Modellbildungstechniken, kann eine bessere Leistungsfähigkeit erreicht werden als mit lexikonbasierten Verfahren alleine. Das Problem mit dem statistisch basierten Verfahren besteht jedoch darin, dass dieses einen großen Arbeitsspeicher (Puffer) während des Dekomprimierungsverfahrens benötigt. Deshalb ist diese Lösung nicht geeignet für die Verwendung in kleinen tragbaren elektronischen Vorrichtungen, wie mobilen Endgeräten. Die Druckschrift US-A-5,930,754 offenbart ein Verfahren zum Bearbeiten eines Aussprachelexikons für die Komprimierung. Das Aussprachelexikon besteht aus Orthografien paarweise zusammen mit entsprechenden phonetischen Darstellungen. Die Sequenz von Buchstaben ist mit ihrer entsprechenden Folge von Phonen ausgerichtet. Ein neurales Netzwerk wird mit den ausgerichteten Sequenzen trainiert.
  • Obwohl die bestehenden Komprimierungsverfahren allgemein gut sind, ist die Komprimierung der Aussprachelexika nicht effizient genug für tragbare Vorrichtungen.
  • Kurzbeschreibung der Erfindung
  • Die Aufgabe der Erfindung ist, ein effizienteres Komprimierungsverfahren zum Komprimieren eines Aussprachelexikons zu schaffen. Die Aufgabe der Erfindung wird mit einem Verfahren, mit elektronischen Vorrichtungen, einem System und Computerprogrammprodukten gelöst, die gekennzeichnet sind, durch das, was in den unabhängigen Ansprüchen offenbart ist. Die bevorzugten Ausführungsformen der Erfindung sind in den abhängigen Ansprüchen angegeben.
  • Gemäß einem ersten Aspekt der Erfindung wird das Aussprachelexikon vor der Komprimierung vorbearbeitet. Die Vorbearbeitung kann zusammen mit einem Verfahren zum Komprimieren eines Lexikons verwendet werden. In der Vorbearbeitung wird jeder Eintrag in das Aussprachelexikon unter Verwendung eines statistischen Algorithmus ausgerichtet. Während der Ausrichtung werden eine Sequenz von Zeicheneinheiten und eine Sequenz von Phonemeinheiten so modifiziert, dass sie eine gleiche Anzahl von Einheiten in den Sequenzen haben. Die ausgerichteten Sequenzen von Zeicheneinheiten und von Nebeneinheiten werden dann verschachtelt, so dass jede Phonemeinheit an einer vorbestimmten Stelle relativ zu der entsprechenden Zeicheneinheit eingefügt wird.
  • Eine Sequenz von Zeicheneinheiten ist typischerweise eine Buchstaben enthaltende Textsequenz. In Abhängigkeit von der Sprache kann der Alphabetsatz erweitert werden, so dass dieser mehr Buchstaben oder Symbole enthält, als das herkömmliche englische Alphabet.
  • Eine Sequenz von Phonemeinheiten repräsentiert die Aussprache des Wortes und sie enthält gewöhnlich Buchstaben und Symbole, zum Beispiel '@','A:', '{'in SAMPA (Seeach Assessment Methods Phonetic Alphabet)-Schreibweise. Das phonetische Alphabet kann auch bestimmte nicht druckfähige Zeichen enthalten. Weil ein Phonem mit mehr als einem Buchstaben oder Symbol repräsentiert werden kann, werden die Phoneme durch ein Leerzeichen getrennt.
  • Gemäß einem zweiten Aspekt der Erfindung, wie im unabhängigen Anspruch 8 beansprucht, ist eine elektronische Vorrichtung so konfiguriert, dass diese eine Textfolge-Eingabe in eine Sequenz von Phonemeinheiten umwandelt. Ein komprimiertes und vorbearbeitetes Aussprachelexikon mit Einträgen, wobei die Einträge eine erste Gruppe von Einheiten mit Zeicheneinheiten und eine zweite Gruppe von Einheiten mit Phonemeinheiten umfassen, wobei die Einheiten der ersten Gruppe und die Einheiten der zweiten Gruppe durch Einfügen jeder Phonemeinheit an einer vorbestimmten Stelle in Bezug zu der entsprechenden Zeicheneinheit ausgerichtet und verschachtelt sind, ist in dem Speicher der Vorrichtung gespeichert. Ein übereinstimmender Eintrag für die Textfolgeeingabe wird in dem vorbearbeiteten Aussprachelexikon gefunden, indem die Einheiten der ersten Gruppe von Einheiten des Eintrags von dem vorbestimmten Stellen verwendet werden. Aus dem übereinstimmenden Eintrag werden Einheiten der zweiten Gruppe von Einheiten ausgewählt und zu einer Folge von Phonemeinheiten verknüpft. Auch die Leerstellen aus der Folge von Phonemeinheiten entfernt.
  • Gemäß einem dritten Aspekt der Erfindung, wie dieser im unabhängigen Anspruch 11 beansprucht wird, ist eine elektronische Vorrichtung so konfiguriert, dass diese eine Sprachinformations-Eingabe in eine Sequenz von Zeicheneinheiten umwandelt. Ein komprimiertes und vorbearbeitetes Aussprachelexikon mit Einträgen, wobei die Einträge eine erste Gruppe von Einheiten mit Zeicheneinheiten und eine zweite Gruppe von Einheiten mit Phonemeinheiten umfassen, wobei die Einheiten der ersten Gruppe und die Einheiten der zweiten Gruppe durch Einfügen jeder Phonemeinheit an einer vorbestimmten Stelle in Bezug zu der korrespondierenden Zeicheneinheit ausgerichtet und verschachtelt sind, ist in dem Speicher der Vorrichtung gespeichert. Aussprachemodelle für jede phonetische Darstellung des Eintrags sind entweder in dem Speicher zusammen mit dem Aussprachelexikon gespeichert oder werden während des Prozesses erzeugt. Ein übereinstimmender Eintrag für die Sprachinformation wird gefunden, indem die Sprachinformation mit den Aussprachemodellen verglichen wird und der am besten korrespondierende Eintrag gewählt wird. Aus dem übereinstimmenden Eintrag werden Einheiten der ersten Gruppe von Einheiten ausgewählt und zu einer Folge von Zeicheneinheiten verkettet. Schließlich werden die Leerstellen aus der Folge von Zeicheneinheiten entfernt.
  • Ein Vorteil der Erfindung besteht daran, dass mit der beschriebenen Bearbeitung die Entropie (H) des Lexikons vermindert wird. Gemäß der Informationstheorie weist eine niedrige Entropierate (H) daraufhin, dass eine effektivere Komprimierung erreicht werden kann, da die Entropierate die Untergrenze für die Komprimierung bestimmt (die Komprimierungsrate mit der bestmöglichen verlustfreien Komprimierung). Dies ermöglicht eine bessere Komprimierung und die Speicheranforderung ist kleiner. Darüber hinaus ist das Aussprachelexikon relativ einfach und schnell für die Spracherkennung anzuwenden.
  • In einer Ausführungsform der Erfindung ist der HMM-Viterbi Algorithmus so angepasst, dass dieser für die Ausrichtung verwendet werden kann. Der HMM-Viterbi Algorithmus gewährleistet, dass die Ausrichtung in einer im statistischen Sinne optimalen Weise durchgeführt wird und somit die verbleibende Entropie des Lexikoneintrags minimiert. Ferner besteht ein Vorteil der Verwendung des HMM-Viterbi Algorithmus für die Ausrichtung darin, dass eine im statistischen Sinne optimalere Ausrichtung erreicht werden kann.
  • In einer weiteren Ausführungsform der Erfindung wird der Vorbearbeitung ein Abbildungsschritt hinzugefügt. Das Abbilden kann entweder vor oder nach der Ausrichtung durchgeführt werden. In diesem Schritt wird jede Phonemeinheit als ein Symbol abgebildet, und anstelle der durch viele Zeichen repräsentierten Phonemeinheiten wird ein einziges Symbol verwendet, um die Phonemeinheiten zu bezeichnen. Durch Verwenden der Abbildungstechnik können die Leerzeichen aus dem Eintrag entfernt werden, und auch ein Dekodieren der verschachtelten Sequenz ist noch möglich. Die Entfernung der Leerzeichen verbessert das Komprimierungsverhältnis weiter. Zudem besteht ein Vorteil des Abbildens darin, dass das Verfahren an viele Sprachen angepasst werden kann, oder es kann sogar eine große Abbildungstabelle für alle Sprachen in der Vorrichtung verwendet werden.
  • Kurzbeschreibung der Zeichnungen
  • Im Folgenden wird die Erfindung in weiterem Detail mithilfe bevorzugter Ausführungsformen und mit Bezug auf die beigefügten Zeichnungen beschrieben, in welchen
  • 1 ein Blockdiagramm ist, welches eine Datenbearbeitungsvorrichtung zeigt, welche die Vorbearbeitung und Komprimierung des Aussprachelexikons gemäß einer bevorzugten Ausführungsform der Erfindung unterstützt;
  • 2 ein Flussdiagramm eines Verfahrens gemäß einer bevorzugten Ausführungsform der Erfindung ist;
  • 3 die Verwendung des HMM-Algorithmus für die Ausrichtung des Aussprachelexikons zeigt;
  • 4 die Vorbearbeitungsschritte für einen Lexikoneintrag zeigt;
  • 5 ein Blockdiagramm ist, das eine elektronische Vorrichtung zeigt, welche das vorbearbeitete Aussprachelexikon verwendet;
  • 6 ein Flussdiagramm ist, das die Verwendung des vorbearbeiteten Aussprachelexikons zeigt, wenn eine Textfolge in eine Aussprachemodell gemäß einer bevorzugten Ausführungsform der Erfindung umgewandelt ist; und
  • 7 ein Flussdiagramm ist, das die Verwendung des vorbearbeiteten Aussprachelexikons zeigt, wenn eine Sprachinformation in einer Folge von Texteinheiten gemäß einer bevorzugten Ausführungsform der Erfindung umgewandelt ist.
  • Detaillierte Beschreibung der Erfindung
  • 1 zeigt eine Datenbearbeitungsvorrichtung (TE) nur in den Teilen, die für eine bevorzugte Ausführungsform der Erfindung relevant sind. Die Datenbearbeitungseinrichtung (TE) kann zum Beispiel ein Personalcomputer (PC) oder ein mobiles Endgerät sein. Die Datenbearbeitungseinheit (TE) umfasst eine I/O-Einrichtung (I/O), eine zentrale Bearbeitungseinheit (CPU) und einen Speicher (MEM). Der Speicher (MEM) umfasst einen schreibgeschützten ROM-Bereich und einen wieder beschreibbaren Bereich, wie einen Direktzugriffsspeicher RAM und Flash-Speicher. Die Information, die verwendet wird, um mit verschiedenen externen Beteiligten zu kommunizieren, zum Beispiel einer CD-ROM, anderen Einrichtungen und dem Benutzer, wird durch die I/O-Einrichtung (I/O) zu der zentralen Bearbeitungseinheit (CPU) und von dieser übertragen. Die zentrale Bearbeitungseinheit (CPU) liefert einen Bearbeitungsblock (PRE) und einen Komprimierungsblock (COM). Die Funktionalität dieser Blocks wird typischerweise implementiert, indem ein Softwarekode in einem Prozessor ausgeführt wird, sie kann aber auch mit einer Hardwarelösung (zum Beispiel einer ASIC) oder als eine Kombination dieser beiden implementiert sein.
  • Der Vorbearbeitungsblock (PRE) liefert die Vorbearbeitungsschritte einer bevorzugten Ausführungsform, die in 2 im Detail dargestellt ist. Der Komprimierungsblock (COM) liefert die Komprimierung des Aussprachelexikons, wobei für diesen Zweck mehrere unterschiedliche Komprimierungsverfahren, zum Beispiel LZ77, LZW oder eine arithmetische Kodierung, verwendet werden können. Die Vorbearbeitung kann mit einem der anderen Komprimierungsverfahren kombiniert werden, um die Komprimierungseffizienz zu verbessern.
  • Das Aussprachelexikon, das vorbearbeitet und komprimiert werden muss, wird in dem Speicher (MEM) gespeichert. Das Lexikon kann auch unter Verwendung der I/O-Einrichtung (I/O) von einer externen Speichereinrichtung, zum Beispiel von einer CD-ROM oder einem Netzwerk, heruntergeladen werden. Das Aussprachelexikon umfasst Einträge, die wiederum jeweils ein Wort in einer Sequenz von Zeicheneinheiten (Textsequenz) und in einer Sequenz von Phonemeinheiten (Phonemsequenz) enthält. Die Sequenz aus Phonemeinheiten repräsentiert die Aussprache der Sequenz von Zeicheneinheiten. Die Repräsentation der Phonemeinheiten ist abhängig von dem verwendeten Phonem-Notationssystem. Mehrere unterschiedliche Phonem-Notationssysteme können verwendet werden, zum Beispiel SAMPA und IPS. SAMPA (Seeach Assessment Methods Phonetic Alphabet) ist ein maschinenlesbares phonetisches Alphabet. Die International Phonetic Association liefert einen nationalen Standard, das International Phonetic Alphabet (IPA) für die phonetische Repräsentation zahlreicher Sprachen. Ein Lexikoneintrag, der das SAMPA-Phonem-Notationssystem verwendet, könnte zum Beispiel sein:
    Textsequenz Phonemsequenz Eintrag
    Father F A: D @ Father f A: D @
  • Die Entropie, mit H bezeichnet, ist ein grundlegendes Attribut, welches den Datengehalt des Signals kennzeichnet. Es ist möglich, den kürzesten Weg zu finden, um ein Signal (komprimiert) ohne Verlust von Daten zu präsentieren. Die Länge der kürzesten Repräsentation ist durch die Entropie des Signals angegeben. Statt den exakten Entropiewert einzeln für jedes Signal zu zählen, wurde durch Shannon ein Verfahren etabliert, diesen zu schätzen (siehe zum Beispiel C.E.Shannon, A Mathematical Theory of Communication, The Bell System Technical Journal, Band 27, Seiten 379-423, 623-656, Juli, Oktober 1948). Dies wird im Folgenden kurz beschrieben.
  • P(lj|li) sei die bedingte Wahrscheinlichkeit, dass das vorliegende Zeichen der jth Buchstabe im Alphabet ist, angenommen, dass das vorherige Zeichen der ith Buchstabe ist und P(li) die Wahrscheinlichkeit ist, dass das vorherige Zeichen der ith Buchstabe des Alphabets ist. Die Entropierate H2 der Statistiken zweiter Ordnung ist
    Figure 00090001
  • Die Entropierate H in einem allgemeinen Fall ist gegeben durch
    Figure 00090002
  • In welcher Bn die ersten Zeichen repräsentiert. Es ist praktisch unmöglich, die Entropierate gemäß der obigen Gleichung (2) zu berechnen. Unter Verwendung dieses Voraussageverfahrens der Gleichung (1) ist es möglich, abzuschätzen, dass die Entropierate eines Englischtextes mit 27 Zeichen in etwa 2,3 Bits/Zeichen beträgt.
  • Um die Komprimierung eines Aussprachelexikons zu verbessern, wird die Vorbearbeitung des Textes dazu verwendet, die Entropie zu senken.
  • 2 zeigt ein Verfahren gemäß einer bevorzugten Ausführungsform der Erfindung. Das Verfahren konzentriert sich auf die Vorbearbeitung des Aussprachelexikons, um die Entropierate (H) zu senken.
  • Jeder Eintrag wird ausgerichtet (200), das heißt, die Text- und Phonemsequenzen werden modifiziert, um so viele Phonemeinheiten in der Phonemsequenz zu haben, wie es Zeicheneinheiten in der Textsequenz gibt. In der englischen Sprache kann zum Beispiel ein Buchstabe mit null, einem oder zwei Phonemen korrespondieren. Die Ausrichtung wird erhalten, indem graphemische oder phonemische Epsilons (Nullen) zwischen die Buchstaben in der Textfolge oder zwischen die Phoneme in den Phonemsequenzen eingefügt werden. Die Verwendung von graphemischen Epsilons kann durch Einführen einer kurzen Liste von Pseudophonemen, die durch Verketten von zwei Phonemen erhalten werden, die dafür bekannt sind, mit einem einzigen Buchstaben zu korrespondieren, zum Beispiel „x → k s" vermieden werden. Um die Einträge auszurichten, muss die Gruppe erlaubter Phoneme für jeden Buchstaben definiert sein. Die Phonemliste umfasst die Pseudophoneme für den Buchstaben und das mögliche phonemische Epsilon. Der allgemeine Grundsatz ist, eine graphemische Null (definiert als Epsilon) in die Textsequenz und/oder eine phonemische Null (auch Epsilon bezeichnet) in die Phonemsequenz einzufügen, wenn dies notwendig ist. Unten wird das oben verwendete Wort als ein Beispiel nach der Ausrichtung verwendet.
    Textsequenz Phonemsequenz Ausgerichteter Eintrag
    Father f A: D @ father f A: D ε ε @
  • Hier hat das Wort „father" 6 Einheiten und nach dem Ausrichten gibt es 6 Phoneme in der Phonemsequenz; 'f A: D ε ε @'. Das Ausrichten kann auf mehreren unterschiedlichen Wegen erfolgen. Gemäß einer Ausführungsform der Erfindung wird die Ausrichtung mit HMM-Viterbi Algorithmus durchgeführt. Das Prinzip der Ausrichtung ist in größerem Detail in 3 dargestellt und beschrieben.
  • Nach dem Ausrichten (200) wird jedes in dem Phonem-Notationssystem verwendete Phonem vorzugsweise als ein einzelnes Symbol abgebildet (202), zum Beispiel ein Byte ASCII-Kode. Das Abbilden ist jedoch nicht notwendig, um die Vorteile der Erfindung zu erhalten, kann dieser aber weiter verbessern. Das Abbilden kann zum Beispiel in einer Abbildungstabelle dargestellt werden. Unten ist ein Beispiel dafür, wie die Phoneme in dem als Beispiel verwendeten Wort abgebildet sein könnten:
    Phonemsymbol ASCII Zahl ASCII Symbol
    F 0 × 66 F
    A: 0 × 41 A
    D 0 × 44 D
    @ 0 × 40 @
    ε 0 × 5F
  • Durch Darstellen jedes Phonems mit einem Symbol können die ein Phonem repräsentierenden zwei Zeichen durch nur ein 8-bit ASCII Symbol ersetzt werden. Als Ergebnis ist das Beispiel:
    Phonem-Sequenz Abgebildete Sequenz (ASCII Zahlen) Abgebildete Sequenz (Symbole)
    f A: D ε ε @ 0 × 66 0 × 41 0 × 44 0 × 5F 0 × 5F 0 × 40 F A D_ _ @
  • Nach dem Darstellen der Phoneme durch ein Symbol können die Leerstellen zwischen den Einheiten entfernt werden. Auch die Leerstelle zwischen der Textfolge und der abgebildeten und ausgerichteten Phonemsequenz kann entfernt werden, da es eine gleiche Anzahl von Einheiten in beiden Sequenzen gibt und es klar ist, welche Zeichen zum Text gehören und welche zu der phonetischen Repräsentation.
  • Ausgerichteter und abgebildeter Eintrag
  • fatherAD_@
  • Das Abbilden der Phonemeinheiten zu einzelnen Symbolen (202) ist ein wichtiger Schritt die Verschachtelung, da die Leerzeichen vermieden werden können. Das Abbilden verbessert das Endergebnis in sich auch weiter, da einzelne Zeichen weniger Platz einnehmen im Vergleich zu zum Beispiel Zwei-Zeichenkombinationen, und die Korrelation des korrespondierenden Textzeichens wird gesteigert. Die Reihenfolge des Ausrichtens (200) und des Abbildens (202) beeinflusst nicht das Endergebnis, das Abbilden (202) kann auch vor dem Ausrichten durchgeführt werden.
  • Die Abbildungstabelle ist nur abhängig von dem in dem Aussprachelexikon verwendeten Phonemnotationsverfahren. Es kann so implementiert sein, dass es sprachenabhängig ist, so dass verschiedene Systeme oder Implementierungen für unterschiedliche Dialekte oder Sprachen nicht erforderlich sind. Falls eine Mehrzahl von Aussprachelexika in verschiedenen Phonemnotationsverfahren benutzt würde, bestände ein Bedarf für separate Abbildungstabellen für jedes Phonemnotationsverfahren.
  • Nach dem Ausrichten (200) und Abbilden (202) werden die Einträge verschachtelt (204). Da das Zeichen → Phonemmuster eine höhere Wahrscheinlichkeit (geringe Entropie) als das fortlaufende Buchstabenmuster, insbesondere dann, wenn die Ausrichtung optimal ausgeführt worden ist, wird die Redundanz erhöht. Dies kann durch Einfügen von Aussprachephonemen zwischen die Buchstaben des Wortes gemacht werden, um ein einzelnes Wort zu bilden. Mit anderen Worten, die Phonemeinheiten werden neben die korrespondierenden Zeicheneinheiten eingefügt. Nach dem Ausrichten (200) haben die Textsequenz und die Phonemsequenz eine gleiche Anzahl von Symbolen, und das Zeichen-Phonempaar ist leicht zu finden. Zum Beispiel:
    Textsequenz Phonemsequenz Verschachtelter Eintrag
    father FAD_ _@ ffaAtDh_e_e@
    in welcher kursive und fette Symbole für Aussprachephoneme stehen. Aus dem Beispiel wird deutlich, dass das Zusammenbringen und Zerlegen eines Eintrags zwischen die ursprünglichen und neuen Formate eindeutig definiert ist, die Textsequenz und die Phonemsequenz, die verschachtelt sind, eine gleiche Anzahl von Einheiten enthalten.
  • Nach der Vorbearbeitung kann die Komprimierung (206) des vorbearbeiteten Phonemlexikons durchgeführt werden.
  • 3 zeigt das Graphem HMM zum Ausrichten der inhaltlichen und phonetischen Repräsentationen eines Eintrags.
  • Das Hidden Markov Modell (HMM) ist ein allgemein bekanntes und weit verbreitetes statistisches Verfahren, das zum Beispiel in der Spracherkennung angewendet wurde. Diese Modelle werden auch als Markov-Quellen oder Wahrscheinlichkeitsfunktionen der Markovkette bezeichnet. Die dem HMM unterliegende Vermutung ist, dass ein Signal gut als ein parametrischer Zufallsprozess gekennzeichnet werden kann und dass die Parameter des stochastischen Prozesses in einer präzisen, gut definierten Weise bestimmt/geschätzt werden können. Die HMMs können in diskrete und kontinuierliche Modelle klassifiziert werden, je nachdem, ob jedem Zustand zugewiesene, zu beobachtende Ereignisse diskret sind, Kodewörter, oder ob sie kontinuierlich sind. In beiden Fällen ist die Beobachtung probalistisch. Das Modell in dem zugrunde liegenden stochastischen Prozess ist nicht direkt beobachtbar (es ist verborgen), es kann aber nur durch eine andere Gruppe von stochastischen Prozessen sichtbar werden, welche die Sequenz von Beobachtungen produzieren. Das HMM wird aus unsichtbaren Zuständen mit einem Übergang zwischen den Zuständen zusammengesetzt. Die mathematische Darstellung umfasst drei Dinge: Zustandsübergangswahrscheinlichkeit zwischen den Zuständen, Beobachtungswahrscheinlichkeit jedes Zustands und Anfangszustandsverteilung. Bei einem gegebenen HMM und einer Beobachtung wird der Viterbi Algorithmus verwendet, um die Beobachtungszustands-Ausrichtung durch Verfolgung des besten Weges zu geben.
  • Es wird in der vorliegenden Erfindung bestätigt, dass das HMM dazu verwendet werden kann, das Problem einer optimalen Ausrichtung einer Beobachteten Sequenz mit den Zuständen des Hidden Markov Modell zu lösen. Darüber hinaus kann der Viterbi Algorithmus in Verbindung mit dem HMM dazu verwendet werden, die optimale Ausrichtung zu finden. Mehr Informationen über die Hidden Markov Modelle und ihre Anwendungen sind zu finden zum Beispiel in dem Buch „Speech Recognition System Design and Implementation Issues", Seiten 322-342.
  • Zuerst werden für ein gegebenes Buchstaben-Phonempaar die Gewichtungen p(f|ll) mit Null eröffnet, falls das Phonem f in der Liste der zugelassenen Phoneme des Buchstaben l gefunden werden kann, andernfalls werden sie mit großen positiven Werten eröffnet. Mit den anfänglichen Gewichtungswerten wird das Lexikon in zwei Schritten ausgerichtet. Im ersten Schritt werden alle möglichen Ausrichtungen für jeden Eintrag im Lexikon erzeugt. Basierend auf all den ausgerichteten Einträgen werden die Gewichtungswerte dann nachbewertet. In dem zweiten Schritt wird nur eine einzige beste Ausrichtung für jeden Eintrag gefunden.
  • Für jeden Eintrag wird die optimale Ausrichtung mit dem Viterbi Algorithmus auf dem Graphem HMM gefunden. Das Graphem HMM hat den Eintrag (ES), einen Ausgang (EXS) und Buchstabenzustände (S1, S2 und S3). Die Buchstaben, die zu Pseudophonemen abgebildet werden können, werden gehandhabt als hätten sie einen Dauerzustand (EPS). Die Zustände 1 bis 3 (S1, S2, S3) sind Zustände, die den Buchstaben in dem Wort entsprechen. Der Zustand 2 (S2) entspricht einem Buchstaben, der ein Pseudophonem produzieren kann. Sprünge von allen vorherigen Zuständen zum gegenwärtigen Zustand sind erlaubt, um die phonemischen Epsilons zu unterstützen.
  • Jeder Zustand und der Dauerzustand halten einen Token, der eine kumulative Gewichtung (als Summe logarithmischer Wahrscheinlichkeiten) der Ausrichtung der Phonemsequenz gegenüber dem Graphem HMM und den Zustandssequenzen, die der kumulativen Wertung entsprechen, enthält. Die Phonemsequenz wird gegenüber Buchstaben abgestimmt, indem phonemweise vom Beginn zum Ende durch die Phonemsequenz hindurchgegangen wird. Um die Viterbi-Ausrichtung zwischen den Buchstaben und den Phonemen zu finden, wird ein Token-Durchgang ausgeführt. Wenn die Token von einem Zustand zu einem anderen gelangen, nehmen sie die Gewichtung jedes Zustands auf. Das Passierenlassen von Token kann auch das Abspalten von Token und Kombinieren oder Auswählen von Token, um in den nächsten Zustand einzutreten, umfassen. Der Token, der am Ende den geringsten kumulativen Strafwert hat, befindet sich über allen Zuständen des HMM. Basierend auf der Zustandssequenz des Token kann die Ausrichtung zwischen den Buchstaben des Wortes und der Phoneme bestimmt werden.
  • Die Ausrichtung arbeitet für die meisten Einträge richtig, es gibt aber einige spezielle Einträge, die nicht ausgerichtet werden können. In solchen Fällen wird eine andere einfache Ausrichtung angewendet: graphemische oder phonemische Epsilons werden dem Ende der Buchstaben- oder Phonemsequenzen hinzugefügt.
  • 4 zeigt in größerem Detail die Vorbearbeitung des als ein Beispiel gemäß einer bevorzugten Ausführungsform der Erfindung verwendeten Eintrags.
  • Der ursprüngliche Eintrag (400) hat die zwei Teile, eine Textsequenz 'father' und eine Phonemsequenz 'f A: D @'. Diese zwei Sequenzen sind mit einem Leerzeichen getrennt und auch die Phonemeinheiten sind mit Leerzeichen getrennt.
  • Beim Ausrichten (402) werden die phonemischen und graphemischen Epsilons hinzugefügt, um eine gleiche Anzahl von Einheiten in beiden Sequenzen zu haben. In dem Beispielwort werden zwei phonemische Epsilons benötigt, und das Ergebnis der Phonemsequenz lautet 'f A: D ε ε @'.
  • Das Abbilden (404) der Phonemeinheiten in eine Symboldarstellung verändert nur die Phonemsequenz. Nach dem Abbilden lautet die Phonemsequenz des Beispielwortes 'f A D _ _@'.
  • Wenn der Eintrag abgebildet wird (404) ist es möglich, die Leerzeichen (406) zu entfernen. Daraus ergibt sich eine Folge 'fatherfAD_@'.
  • Der letzte Schritt ist die Verschachtelung (408), und der Beispieleintrag lautet 'ffaAtDh_e_r@'. Nun kann der Eintrag weiter bearbeitet werden, zum Beispiel kann er komprimiert werden.
  • All diese Schritte sind in größerem Detail in 2 beschrieben.
  • Das oben beschriebene Vorbearbeitungsverfahren, einschließlich auch der Abbildung (202), wurde experimentell getestet. Das Experiment wurde unter Verwendung des Carnegie Mellon University Pronouncing Dictionary durchgeführt, welches ein Aussprachelexikon für nordamerikanisches Englisch ist, das mehr als 100.000 Worte und ihre Lautschriften enthält. In dem Experiment wurde die Leistungsfähigkeit zuerst durch Verwenden typischer auf Lexika basierender Komprimierungsverfahren, LZ77 und LZW, und eines auf Statistik basierenden Komprimierungsverfahrens, der arithmetischen Komprimierung zweiter Ordnung, ausgewertet.
  • Die Leistungsfähigkeit wurde dann mit dem Bearbeitungsverfahren zusammen mit den Komprimierungsverfahren (LZ77, LZW und Arithmetik) getestet. In Tabelle 1 zeigen die Ergebnisse, in Kilobytes angegeben, dass das Bearbeitungsverfahren in allen Fällen besser abschneidet. Ganz allgemein kann es mit jeden Komprimierungsalgorithmen verwendet werden. Tabelle 1: Komprimierungs-Leistungsvergleich, getestet unter Verwendung des CMU Englisch-Aussprachelexikons. Die Ergebnisse sind in Kilobytes angegeben.
    Verfahren Vorkomprimierung Komprimierung ohne Vorbearbeitung Komprimierung mit Vorbearbeitung Verbesserung
    LZ77 2580 1181 940 20,4%
    LZW 2580 1315 822 37,5%
    Arithmetik 2580 899 501 44,3%
  • Wie wir aus Tabelle 1 ersehen können, verbessert die Vorbearbeitung die Komprimierung mit allen Komprimierungsverfahren. Kombiniert mit dem LZ77 Komprimierungsverfahren verbesserte die Vorbearbeitung die Komprimierung mit über 20%. Die Verbesserung ist sogar größer, wenn die Vorbearbeitung mit dem LZW-Verfahren oder mit dem Arithmetik-Verfahren kombiniert wurde, was eine etwa um 40% bessere Komprimierung lieferte.
  • Es sollte so zu verstehen sein, dass die Erfindung für jedes Universallexikon angewendet werden, das bei der Spracherkennung oder Sprachsynthese oder all die Anwendungen, bei denen ein Aussprachelexikon mit effizienter Speichernutzung gespeicherte werden muss, verwendet wird. Es ist auch möglich, die Erfindung für die Komprimierung jeder anderen Liste mit Gruppen von Texteinträgen anzuwenden, die eine hohe Korrelation zu dem Zeichenlevel haben, zum Beispiel übliche Wörterbücher, die alle Formen eines Wortes zeigen und Spell-Checkerprogramme.
  • 5 zeigt eine elektronische Vorrichtung (ED), nur in den Teilen, die für eine bevorzugte Ausführungsform der Erfindung relevant sind. Die elektronische Vorrichtung (ED) kann zum Beispiel eine PDA-Vorrichtung, ein mobiles Endgerät, ein Personalcomputer (PC) oder sogar irgendeine Zubehöreinrichtung sein, die für die Verwendung mit diesen vorgesehen ist, zum Beispiel ein intelligentes Headset oder eine Fernsteuereinrichtung. Die elektronische Vorrichtung (ED) umfasst eine I/O-Einrichtung (IO), eine zentrale Bearbeitungseinheit (PRO) und einen Speicher (ME). Der Speicher (ME) umfasst einen schreibgeschützten ROM-Bereich und einen wieder beschreibbaren Bereich, wie einen Speicher mit wahlfreiem Zugriff RAM und einen FLASH-Speicher. Die für die Kommunikation mit verschiedenen externen Beteiligten, zum Beispiel dem Netzwerk, anderen Vorrichtungen oder dem Benutzer, verwendete Information wird durch die I/O-Einrichtung (IO) zu der Zentralbearbeitungseinheit (PRO) und von dieser aus übertragen. Die Benutzerschnittstelle, wie ein Mikrofon oder eine Tastatur, die es ermöglichen, eine Zeichensequenz in die Vorrichtung einzugeben, ist somit Teil der I/O-Einrichtung (IO). Ein vorbearbeitetes Aussprachelexikon kann von der Datenbearbeitungseinrichtung (TE) in die elektronische Vorrichtung (ED) durch die I/O-Einrichtung (IO), zum Beispiel als Download von dem Netzwerk heruntergeladen werden. Das Lexikon wird dann in dem Speicher (ME) für die weitere Verwendung gespeichert.
  • Die in den 6 und 7 gezeigten Schritte können mit einem Computerprogrammkode implementiert sein, der in der zentralen Bearbeitungseinheit (PRO) der elektronischen Vorrichtung (ED) ausgeführt wird. Das Computerprogramm kann in die zentrale Bearbeitungseinheit (PRO) durch die I/O-Einrichtung (IO) geladen werden. Die Implementierung kann auch mit einer Hardwarelösung (zum Beispiel ASIC) oder mit einer Kombination von diesen beiden durchgeführt werden. Gemäß einer bevorzugten Ausführungsform wird das in dem Speicher (ME) der Vorrichtung (ED) gespeicherte Phonemlexikon vorbearbeitet, wie dies in 2 beschrieben ist.
  • In 6 empfängt die zentrale Bearbeitungseinheit (PRO) der elektronischen Vorrichtung (ED) eine Textfolgeeingabe, die in ein Aussprachemodell umgewandelt werden muss. Die eingegebene Textfolge kann zum Beispiel ein Name sein, den der Benutzer unter Verwendung I/O-Einrichtung (IO) einer Kontaktdatenbank der elektronischen Vorrichtung (ED) hinzugefügt hat. Zuerst muss ein übereinstimmender Eintrag in dem vorbearbeiteten Aussprachelexikon gefunden werden (600), der in dem Speicher (ME) gespeichert ist. Das Finden des übereinstimmenden Eintrag basiert auf einem Vergleich der eingegebenen Textfolge mit den Zeicheneinheiten der Einträge. Weil die Einträge verschachtelt sind, ist eine Eintragsfolge eine Kombination aus Zeichen- und Phonemeinheiten. Falls die Verschachtelung entsprechend der in 2 beschriebenen bevorzugten Ausführungsform erfolgt ist, wird, wenn die eingegebene Folge mit dem Eintrag verglichen wird, nur jede zweite Einheit verwendet. Die Zeicheneinheiten des Eintrags können durch Auswählen von ungeraden Einheiten gefunden werden, startend mit der ersten. Der Vergleich wird mit der ursprünglichen Zeichenfolge des Eintrags durchgeführt, und deshalb werden leere Stellen, zum Beispiel graphemische Epsilons, ignoriert. Es gibt mehrere Verfahren und Algorithmen zum Finden des übereinstimmenden Eintrags, die einem Fachmann als solche bekannt sind, und es gibt keinen Bedarf, diese hier zu beschreiben, da sie nicht Teil der Erfindung sind. Wenn die Zeicheneinheiten mit den Einheiten der eingegebenen Textfolge exakt übereinstimmen, ist der überstimmende Eintrag gefunden. Es sollte jedoch so zu verstehen sein, dass es in einigen Anwendungen vorteilhaft sein könnte, einen nicht genau übereinstimmenden Algorithmus anstelle zum Beispiel eines sogenannte Wildcards Nutzenden zu verwenden.
  • Wenn der übereinstimmende Eintrag gefunden ist, werden die Phonemeinheiten des Eintrags ausgewählt (602). Wegen der Verschachtelung (erfolgt entsprechend der in 2 beschriebenen bevorzugten Ausführungsform) wird jede zweite Einheit der Eintragsfolge verwendet. Um die Phonemeinheiten zu bestimmen, wird die Auswahl von der zweiten Einheit aus gestartet. Die ausgewählten Einheiten können dann verkettet werden, um die Sequenz von Phonemeinheiten zu erzeugen.
  • Wenn die Einheiten ausgerichtet sind, kann die Sequenz von Phonemeinheiten Leerstellen umfassen, zum Beispiel phonemische Epsilons. Die Leerstellen werden entfernt, um eine Sequenz bestehend nur aus Phonemen (604) zu erzeugen.
  • Falls die Vorbearbeitung des Phonemlexikons auch ein Abbilden umfasst, wird eine Umkehrabbildung benötigt (606). Das umgekehrte Abbilden kann unter Verwendung einer ähnlichen Abbildungstabelle, wie derjenigen, die während der Vorbearbeitung verwendet wurde, aber in umgekehrter Reihenfolge durchgeführt werden. Dieser Schritt verändert das erste Darstellungsverfahren, zum Beispiel eine Zeichendarstellung, der Phonemeinheiten in dem zweiten Darstellungsverfahren, zum Beispiel SAMPA, das in dem System verwendet wird.
  • Wenn die Sequenz von Phonemeinheiten erzeugt wird, wird diese typischerweise weiterbearbeitet, zum Beispiel wird ein Aussprachemodell der Sequenz erzeugt. Gemäß einer Ausführungsform wird ein Aussprachemodell für jedes Phonem unter Verwendung zum Beispiel eines HMM-Algorithmus erzeugt. Die Phonem-Aussprachemodelle werden in dem Speicher (ME) gespeichert. Um ein Aussprachemodell eines Eintrags zu erzeugen, wird ein Aussprachemodell für jedes Phonem der Phonemsequenz aus dem Speicher (608) zurückgeladen. Diese Phonemmodelle werden dann verkettet (610), und das Aussprachemodell für die Phonemsequenz wird erzeugt.
  • Das Umwandeln einer Textfolgeeingabe in ein oben beschriebenes Aussprachemodell kann auch zwischen zwei elektronischen Vorrichtungen verteilt werden. Zum Beispiel wird das vorbearbeitete Lexikon in der ersten elektronischen Vorrichtung, zum Beispiel in Netzwerk gespeichert, in welchem das Auffinden eines übereinstimmenden Eintrags (600) durchgeführt wird. Der übereinstimmende Eintrag wird dann zu der zweiten elektronischen Vorrichtung erschickt, zum Beispiel einem mobilen Endgerät, in welchem der Rest des Prozesses (Schritte 602 bis 610) durchgeführt wird.
  • 7 zeigt eine bevorzugte Ausführungsform einer Umwandlung einer Sprachinformation in eine Sequenz von Zeicheneinheiten in einer elektronischen Vorrichtung (ED), die ein vorbearbeitetes Aussprachelexikon verwendet. Die zentrale Bearbeitungseinheit (PRO) der elektronischen Vorrichtung (ED) empfängt eine Sprachinformationseingabe über die I/O-Einrichtung (IO). Diese Sprachinformation muss in eine Sequenz aus Zeicheneinheiten für die weitere Verwendung umgewandelt werden, zum Beispiel um diese als Text auf dem Display anzuzeigen oder um diese mit einer Textfolge eines vorbestimmten Sprachbefehls einer sprachgesteuerten Vorrichtung zu vergleichen.
  • Das Auffinden eines übereinstimmenden Eintrags (702) basiert auf einem Vergleich der eingegebenen Sprachinformation mit den Aussprachemodellen jedes Eintrags in dem Aussprachelexikon. Deshalb wird vor dem Vergleich die Aussprache jedes Eintrags modelliert (700). Gemäß einer bevorzugten Ausführungsform werden die Modelle in der elektronischen Vorrichtung (ED) erzeugt. Das Phonemlexikon ist bereits verschachtelt und ausgerichtet, so dass das Modellieren, wie in 6 beschrieben, den Schritten 602 bis 610 folgend durchgeführt werden kann. Wenn das Modellieren in der elektronischen Vorrichtung (ED) durchgeführt wird, ist der Bedarf an Bearbeitungskapazität und Arbeitsspeicher erhöht. Stattdessen kann der Speicherverbrauch zum Speichern des Aussprachelexikons niedrig gehalten werden.
  • Gemäß einer zweiten bevorzugten Ausführungsform werden die Modelle vor dem Vorbearbeiten des Aussprachelexikons in der Datenbearbeitungsvorrichtung (TE) erzeugt. Das Modellieren kann, wie in 6 beschrieben, den Schritten 608 bis 610 folgend durchgeführt werden. Weil das Modellieren vor dem Vorbearbeiten durchgeführt wird und das Lexikon noch nicht verschachtelt, ausgerichtet oder abgebildet ist, werden die Schritte 602 bis 606 nicht benötigt. Die Aussprachemodell wird dann in dem Speicher (MEM) zusammen mit dem Eintrag gespeichert. Wenn das Lexikon zu der elektronischen Vorrichtung (ED) übertragen wird, werden auch die Modelle übertragen. In dieser Lösung wird weniger Bearbeitungskapazität und Arbeitsspeicher für das Umwandeln von Sprachinformation in eine Textsequenz benötigt. Stattdessen wird der Speicherverbrauch des Speichers (ME) erhöht.
  • Das Auffinden eines übereinstimmenden Eintrags (702) wird unter Verwendung der eingegebenen Sprachinformation und der Aussprachemodelle der Einträge durchgeführt, die in dem Speicher (ME) gespeichert sind. Die Sprachinformation wird mit jedem Eintrag verglichen, und eine Wahrscheinlichkeit, wie gut die eingegebene Sprachinformation mit jedem Aussprachemodell eines Eintrags übereinstimmt, wird berechnet. Nach dem Berechnen der Wahrscheinlichkeiten kann der übereinstimmende Eintrag durch Auswahl des Eintrags mit der höchsten Wahrscheinlichkeit gefunden werden.
  • Die Zeicheneinheiten werden dann aus dem übereinstimmenden Eintrag (704) ausgewählt. Wegen der Verschachtelung, die so erfolgt, wie dies in 2 beschrieben ist, wird jede zweite Einheit der Eintragsfolge verwendet. Das Auswählen muss von der ersten Einheit aus starten, um die Zeicheneinheiten zu erhalten. Diese ausgewählten Einheiten können dann verkettet werden, um eine Sequenz aus graphemischen Einheiten zu bilden.
  • Wegen des Ausrichtens kann die Sequenz der graphemischen Einheiten Leerstellen umfassen, zum Beispiel graphemische Epsilons. Um eine Sequenz zu erzeugen, die nur Grapheme aufweist, werden Leerstellen entfernt (706). Als Ergebnis haben wir eine Textfolge, die in dem System weiter verwendet werden kann.
  • Eine elektronische Vorrichtung, zum Beispiel ein Mobiltelefon mit einer Fahrzeugnutzerschnittstelle, hat eine sprecherunabhängige Spracherkennung für Sprachbefehle. Jeder Sprachbefehl ist ein Eintrag in dem Aussprachelexikon. Der Benutzer möchte während des Fahrens einen Anruf tätigen. Wenn die Spracherkennung aktiv ist, sagt der Benutzer 'CALL'. Das Telefon empfängt den Sprachbefehl mit einem Mikrofon und überträgt die Sprachinformation über die I/O-Einrichtung an die zentrale Bearbeitungseinheit. Die zentrale Bearbeitungseinheit wandelt die Spracheingabe in eine Textsequenz um, wie dies in 7 beschrieben ist. Die Textsequenz wird über die I/O-Einrichtung zu dem Display übertragen, um dem Benutzer eine Rückkopplung von dem zu geben, was die Vorrichtung gerade macht. Neben dem Text auf dem Schirm gibt die Vorrichtung auch eine Audio-Rückkopplung. Das Aussprachemodell des übereinstimmenden Eintrags, welches als ein Teil des Sprache-in-Text-Umwandlungsprozess erzeugt wurde, wird über die I/O-Einrichtung zu dem Lautsprecher übertragen. Das Telefon führt dann den Anruf der Nummer durch, welche der Benutzer ausgewählt hat.
  • Figurenbeschreibung
  • 2
    • Aligning 200 = Ausrichten 200
    • Mapping 202 = Abbilden 202
    • Interleaving 204 = Verschachteln 204
    • Compressing 206 = Komprimieren 206
  • 4
    • Original Entry 400 = Ursprünglicher Eintrag 400
    • Aligned Entry 402 = Ausgerichteter Eintrag 402
    • Mapped Entry 404 = Abgebildeter Eintrag 404
    • Spaces removed 406 = Leerstellen entfernt 406
    • Interleaved Entry 408 = Verschachtelter Eintrag 408
  • 6
    • Text string = Textfolge
    • Find the match entry 600 = Finde den übereinstimmenden Eintrag 600
    • Select the phoneme units 602 = Wähle die Phonemeinheiten 602
    • Remove phonemic epsilons 604 = Entferne phonemische Epsilons 604
    • Reversed mapping 606 = Umgekehrtes Abbilden 606
    • Pick phoneme models 608 = Nehme Phonemmodelle 608
    • Concatenate phonemes 610 = Verkette Phoneme 610
    • Pronunciation model = Aussprachemodell
  • 7
    • Pronunciation dictionary = Aussprachelexikon
    • Create the pronunciation 700 = Erzeuge die Aussprachemodels Modelle 700
    • Speech information = Sprachinformation
    • Find the match entry 702 = Finde den übereinstimmendenEintrag 702
    • Select the character 704 = Wähle die Zeicheneinheitenunits 704
    • Remove graphemic epsilons 706 = Entferne graphemische Epsilons 706
    • Character sequence = Zeichensequenz

Claims (16)

  1. Verfahren zum Vor-Verarbeiten eines Aussprache-Wörterbuchs zur Kompression in einer Daten-Verarbeitungsvorrichtung, wobei das Aussprache-Wörterbuch wenigstens einen Eintrag aufweist, wobei der Eintrag eine Sequenz von Zeicheneinheiten und eine Sequenz von Phonem-Einheiten aufweist, dadurch gekennzeichnet, dass das Verfahren die Schritte aufweist: Ausrichten (200) der Sequenz von Zeicheneinheiten und der Sequenz von Phonem-Einheiten unter Verwendung eines statistischen Algorithmus; und Verschachteln (204) der ausgerichteten Sequenz von Zeicheneinheiten und der ausgerichteten Sequenz von Phonem-Einheiten durch Einfügen jeder Phonem-Einheit an einer vorbestimmten Stelle bezüglich der entsprechenden Zeicheneinheit.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der statistische Algorithmus einen HMM-Viterbi Algorithmus einsetzt.
  3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Phonem-Einheiten neben den entsprechenden Zeichen-Einheiten angeordnet sind.
  4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die ausgerichtete Sequenz von Zeicheneinheiten und die ausgerichtete Sequenz von Phonem-Einheiten gemacht sind, um eine gleiche Anzahl von Einheiten aufzuweisen, durch Einsetzen graphischer bzw. graphemischer Epsilons in die Sequenz von Zeicheneinheiten und/oder phonemischer Epsilons in die Sequenz von Phonem-Einheiten.
  5. Verfahren gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Zeicheneinheiten Buchstaben oder Abstandszeichen sind.
  6. Verfahren gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Phonem-Einheiten Buchstaben oder Abstandszeichen sind, die ein einzelnes Phonem oder ein phonemisches Epsilon darstellen und wobei eine Einheit bezeichnet ist mit wenigstens einem Zeichen.
  7. Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass das Verfahren die Schritte aufweist: Abbilden (202) jeder Phonem-Einheit in ein Symbol.
  8. Elektronische Vorrichtung, konfiguriert, um eine Text string-Eingabe in eine Sequenz von Phonem-Einheiten umzuwandeln, gekennzeichnet durch Aufweisen: einer Einrichtung zum Speichern eines komprimierten und vor- verarbeitetem Aussprache-Wörterbuchs aufweisend Einheiten, wobei die Einheiten wenigstens eine Gruppe von Einheiten aufweisen, die Zeichen-Einheiten aufweisen und eine zweite Gruppe von Einheiten, die Phonem-Einheiten aufweisen, wobei die Einheiten der ersten Gruppe und die Einheiten der zweiten Gruppe ausgerichtet (200) und verschachtelt (204) sind durch Einsetzen jeder Phonem-Einheit an einer vorbestimmten Stelle relativ zu der entsprechenden Zeicheneinheit; einer Einrichtung zum Auffinden eines übereinstimmenden Eintrags für die Text string-Eingabe aus dem vor-verarbeiteten Aussprache-Wörterbuch unter Verwendung der ersten Gruppe von Einheiten des Eintrags aus vorbestimmten Orten; einer Einrichtung zum Auswählen von dem übereinstimmenden Eintrag von Einheiten der zweiten Gruppe von Einheiten aus vorbestimmten Orten und Verketten dieser in eine Sequenz von Phonem-Einheiten; einer Einrichtung zum Entfernen von Leerräumen aus der Sequenz von Phonem-Einheiten.
  9. Elektronische Vorrichtung gemäß Anspruch 8, dadurch gekennzeichnet, dass die elektronische Vorrichtung ein mobiles Endgerät in einem mobilen Kommunikationssystem ist.
  10. Elektronische Vorrichtung gemäß Anspruch 8, dadurch gekennzeichnet, dass sie ferner aufweist: eine Einrichtung zum Abbilden jeder Phonem-Einheit aus einem ersten phonemischen Darstellungsverfahren in ein zweites phonemisches Darstellungsverfahren.
  11. Elektronische Vorrichtung, konfiguriert, um eine Sprachinformations-Eingabe in eine Sequenz von Zeicheneinheiten zu wandeln, gekennzeichnet durch Aufweisen: einer Einrichtung zum Speichern eines komprimierten und vor-verarbeiteten Aussprache-Wörterbuchs, das Einträge aufweist, wobei die Einträge eine erste Gruppe von Einträgen aufweisen, die Zeicheneinheiten aufweisen und eine zweite Gruppe von Einheiten, die Phonem-Einheiten aufweisen, wobei die Einheiten der ersten Gruppe und die Einheiten der zweiten Gruppe ausgerichtet und verschachtelt sind durch Einsetzen jeder Phonem-Einheit an einen vorbestimmten Ort relativ zu den entsprechenden Zeicheneinheiten; einer Einrichtung zum Speichern oder Erzeugen von Aussprache Modellen der phonemischen Darstellung jedes Eintrags; einer Einrichtung zum Auffinden eines übereinstimmenden Eintrags für die Sprachinformation durch Vergleichen der Sprachinformation mit den Aussprache-Modellen und Auswählen des nächst kommenden Eintrags; einer Einrichtung zum Auswählen von dem übereinstimmenden Eintrag von Einheiten der ersten Gruppe von Einheiten von vorbestimmten Orten und Verketten dieser in eine Sequenz von Zeicheneinheiten; einer Einrichtung zum Entfernen von Leerräumen von der Sequenz von Zeicheneinheiten.
  12. System aufweisend eine erste elektronische Vorrichtung und eine zweite elektronische Vorrichtung, die angeordnet sind in einer Kommunikationsverbindung miteinander, wobei das System konfiguriert ist, eine Text string-Eingabe in eine Sequenz von phonetischen Einheiten zu wandeln, dadurch gekennzeichnet, dass die erst elektronische Vorrichtung eine Einrichtung aufweist zum Speichern eines komprimierten und vor-verarbeiteten Aussprache-Wörterbuchs, das aufweist Einheiten, wobei die Einheiten ausgerichtet und verschachtelt sind durch Einsetzen jeder Phonem-Einheit an einem vorbestimmten Ort relativ zu der entsprechenden Zeichen-Einheit, wobei die Einheiten eine erste Gruppe von Einheiten aufweisen, die Zeichen-Einheiten aufweisen, und eine zweite Gruppe von Einheiten, die Phonem-Einheiten aufweisen; wobei die erste elektronische Vorrichtung eine Einrichtung zum Auffinden eines übereinstimmenden Eintrags für die Text string-Eingabe von dem vor-verarbeiteten Aussprache-Wörterbuch aufweist, unter Verwendung der ersten Gruppe von Einheiten des Eintrags; die erste elektronische Vorrichtung eine Einrichtung aufweist zum Übertragen des übereinstimmenden Eintrags an die zweite elektronische Vorrichtung; die zweite elektronische Vorrichtung eine Einrichtung aufweist zum Empfangen des übereinstimmenden Eintrags von der ersten elektronischen Vorrichtung; die zweite elektronische Vorrichtung aufweist eine Einrichtung zum Auswählen von dem übereinstimmenden Eintrag von Einheiten der zweiten Gruppe von Einheiten und Verketten dieser in einer Sequenz von Phonem-Einheiten; die zweite elektronische Vorrichtung eine Einrichtung aufweist zum Entfernen von Leerräumen von der Sequenz von Phonem-Einheiten.
  13. Computer-Programm Produkt, ladefähig in den Speicher einer Daten-Verarbeitungsvorrichtung gekennzeichnet durch Aufweisen eines Codes, der ausführbar ist in einer Daten-Verarbeitungsvorrichtung, welche die Datenverarbeitungsvorrichtung veranlasst: aus dem Speicher ein Aussprache-Wörterbuch aufzurufen, das wenigstens einen Eintrag aufweist, wobei der Eintrag eine Sequenz von Zeicheneinheiten aufweist und eine Sequenz von Phonem-Einheiten; die Sequenz der Zeichen-Einheiten und der Sequenz der Phonem-Einheiten unter Verwendung eines statistischen Algorithmus auszurichten (200); und die ausgerichtete Sequenz von Zeichen-Einheiten und die ausgerichtete Sequenz von Phonem-Einheiten zu verschachteln durch Einsetzen jeder Phonem-Einheit an einer vorbestimmten Stelle relativ zu der entsprechenden Zeichen-Einheit.
  14. Computer-Programm Produkt, ladefähig in den Speicher einer elektronischen Vorrichtung, gekennzeichnet durch Aufweisen eines Codes, der ausführbar ist in der elektronischen Vorrichtung und die elektronische Vorrichtung veranlasst: aus dem Speicher ein vor-verarbeitetes Aussprache-Wörterbuch aufzufinden bzw. aufzurufen, das Einträge aufweist, wobei die Einträge eine erste Gruppe von Einheiten aufweist, die Zeichen-Einheiten aufweisen, und eine zweite Gruppe von Einheiten, die Phonem-Einheiten aufweisen, wobei die erste Gruppe von Einheiten und die zweite Gruppe von Einheiten ausgerichtet und verschachtelt sind durch Einsetzen jeder Phonem-Einheit einer vorbestimmten Stelle relativ zu der entsprechenden Zeichen-Einheit; auffinden (600) eines übereinstimmenden Eintrags aus dem vor-verarbeiteten Aussprache-Wörterbuch für eine Text string-Eingabe unter Verwendung der ersten Gruppe von Einheiten des Eintrags aus den vorbestimmten Stellen und Ignorieren von Leerräumen; auswählen (602) von dem übereinstimmenden Eintrag der Einheiten der zweiten Gruppe von Einheiten von den vorbestimmten Stellen und Verketten dieser in eine Sequenz von Phonem-Einheiten; und Entfernen (604) von Leerräumen aus der Sequenz von Phonem-Einheiten.
  15. Computer-Programm Produkt, ladefähig in den Speicher einer elektronischen Vorrichtung, gekennzeichnet durch Aufweisen eines Codes, der ausführbar ist in der elektronischen Vorrichtung, welche die elektronische Vorrichtung veranlasst: aus dem Speicher ein vor-verarbeitetes Aussprachewörterbuch aufzurufen, das Einträge aufweist, wobei die Einträge eine erste Gruppe von Einträgen aufweisen, die Zeicheneinheiten aufweisen und eine zweite Gruppe von Einheiten aufweisen, die Phonem-Einheiten aufweisen, wobei die erste Gruppe von der Einheit und die zweite Gruppe der Einheit ausgerichtet sind und verschachtelt durch Einsetzen jeder Phonem-Einheit an einer vorbestimmten Stelle relativ zu der entsprechenden Zeichen-Einheit; speichern oder Erzeugen (700) von Aussprache-Modellen der phonemischen Darstellung jedes Eintrags; auffinden (702) eines übereinstimmenden Eintrags für jede Sprachinformation durch Vergleichen der Sprachinformation mit den Aussprachemodellen und Auswählen des nächstkommenden Eintrags; auswählen aus dem übereinstimmenden Eintrag der Einheiten der ersten Gruppe von Einheiten von den vorbestimmten Stellen und Verketten dieser in eine Sequenz von Zeichen-Einheiten; entfernen (706) von Leerräumen aus der Sequenz von Zeichen-Einheiten.
  16. Daten-Verarbeitungsvorrichtung aufweisend einen Speicher zum Speichern eines Aussprachewörterbuchs, das wenigstens einen Eintrag aufweist, wobei der Eintrag eine Sequenz von Zeichen-Einheiten aufweist und eine Sequenz von Phonem-Einheiten, dadurch gekennzeichnet, dass die Vorrichtung aufweist: eine Einrichtung zum Auffinden aus dem Speicher eines Aussprachewörterbuchs, das wenigstens einen Eintrag aufweist, wobei der Eintrag eine Sequenz von Zeichen-Einheiten oder eine Sequenz von Phonem-Einheiten aufweist; eine Einrichtung zum Ausrichten der Sequenz von Zeichen-Einheiten und der Sequenz von Phonem-Einheiten unter Verwendung eines statistischen Algorithmus; eine Einrichtung zum Verschachteln der ausgerichteten Sequenz von Zeichen-Einheiten und der ausgerichteten Sequenz von Phonem-Einheiten durch Einsetzen jeder Phonem-Einheit an einer vorbestimmten Stell bezüglich der entsprechenden Zeichen-Einheit
DE60219943T 2001-11-12 2002-11-08 Verfahren zum komprimieren von wörterbuchdaten Expired - Lifetime DE60219943T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI20012193A FI114051B (fi) 2001-11-12 2001-11-12 Menetelmä sanakirjatiedon kompressoimiseksi
FI20012193 2001-11-12
PCT/FI2002/000875 WO2003042973A1 (en) 2001-11-12 2002-11-08 Method for compressing dictionary data

Publications (2)

Publication Number Publication Date
DE60219943D1 DE60219943D1 (de) 2007-06-14
DE60219943T2 true DE60219943T2 (de) 2008-01-17

Family

ID=8562237

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60219943T Expired - Lifetime DE60219943T2 (de) 2001-11-12 2002-11-08 Verfahren zum komprimieren von wörterbuchdaten

Country Status (12)

Country Link
US (2) US7181388B2 (de)
EP (1) EP1444685B1 (de)
JP (1) JP2005509905A (de)
KR (1) KR100597110B1 (de)
CN (1) CN1269102C (de)
AT (1) ATE361523T1 (de)
BR (1) BR0214042A (de)
CA (1) CA2466652C (de)
DE (1) DE60219943T2 (de)
ES (1) ES2284932T3 (de)
FI (1) FI114051B (de)
WO (1) WO2003042973A1 (de)

Families Citing this family (144)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20050120300A1 (en) * 2003-09-25 2005-06-02 Dictaphone Corporation Method, system, and apparatus for assembly, transport and display of clinical data
US8543378B1 (en) * 2003-11-05 2013-09-24 W.W. Grainger, Inc. System and method for discerning a term for an entry having a spelling error
US7783474B2 (en) * 2004-02-27 2010-08-24 Nuance Communications, Inc. System and method for generating a phrase pronunciation
US20050190895A1 (en) * 2004-03-01 2005-09-01 Lloyd Ploof Remotely programmable messaging apparatus and method thereof
JP2006047866A (ja) * 2004-08-06 2006-02-16 Canon Inc 電子辞書装置およびその制御方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
CN101385073A (zh) * 2006-02-14 2009-03-11 知识风险基金21有限责任公司 具有不依赖于说话者的语音识别的通信设备
US7480641B2 (en) * 2006-04-07 2009-01-20 Nokia Corporation Method, apparatus, mobile terminal and computer program product for providing efficient evaluation of feature transformation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
GB0704772D0 (en) * 2007-03-12 2007-04-18 Mongoose Ventures Ltd Aural similarity measuring system for text
US20090299731A1 (en) * 2007-03-12 2009-12-03 Mongoose Ventures Limited Aural similarity measuring system for text
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8078454B2 (en) * 2007-09-28 2011-12-13 Microsoft Corporation Two-pass hash extraction of text strings
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8352268B2 (en) * 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US20100082327A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for mapping phonemes for text to speech synthesis
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US7872596B2 (en) * 2009-02-26 2011-01-18 Red Hat, Inc. Dictionary-based compression
US8380507B2 (en) * 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
CN105340003B (zh) * 2013-06-20 2019-04-05 株式会社东芝 语音合成字典创建装置以及语音合成字典创建方法
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
EP3480811A1 (de) 2014-05-30 2019-05-08 Apple Inc. Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10127904B2 (en) * 2015-05-26 2018-11-13 Google Llc Learning pronunciations from acoustic sequences
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
KR102443087B1 (ko) 2015-09-23 2022-09-14 삼성전자주식회사 전자 기기 및 그의 음성 인식 방법
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10387543B2 (en) * 2015-10-15 2019-08-20 Vkidz, Inc. Phoneme-to-grapheme mapping systems and methods
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10706840B2 (en) 2017-08-18 2020-07-07 Google Llc Encoder-decoder models for sequence to sequence mapping
CN109982111B (zh) * 2017-12-28 2020-05-22 贵州白山云科技股份有限公司 基于直播网络系统的文本内容传输优化方法、装置
US10943580B2 (en) * 2018-05-11 2021-03-09 International Business Machines Corporation Phonological clustering
CN113707137B (zh) * 2021-08-30 2024-02-20 普强时代(珠海横琴)信息技术有限公司 解码实现方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4759068A (en) 1985-05-29 1988-07-19 International Business Machines Corporation Constructing Markov models of words from multiple utterances
US5845238A (en) * 1996-06-18 1998-12-01 Apple Computer, Inc. System and method for using a correspondence table to compress a pronunciation guide
US5861827A (en) * 1996-07-24 1999-01-19 Unisys Corporation Data compression and decompression system with immediate dictionary updating interleaved with string search
US5930754A (en) * 1997-06-13 1999-07-27 Motorola, Inc. Method, device and article of manufacture for neural-network based orthography-phonetics transformation
US6233553B1 (en) * 1998-09-04 2001-05-15 Matsushita Electric Industrial Co., Ltd. Method and system for automatically determining phonetic transcriptions associated with spelled words
US6208968B1 (en) * 1998-12-16 2001-03-27 Compaq Computer Corporation Computer method and apparatus for text-to-speech synthesizer dictionary reduction
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US7080005B1 (en) * 1999-07-19 2006-07-18 Texas Instruments Incorporated Compact text-to-phone pronunciation dictionary
DE19942178C1 (de) * 1999-09-03 2001-01-25 Siemens Ag Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
US6789066B2 (en) * 2001-09-25 2004-09-07 Intel Corporation Phoneme-delta based speech compression

Also Published As

Publication number Publication date
ATE361523T1 (de) 2007-05-15
KR20050044399A (ko) 2005-05-12
FI20012193A (fi) 2003-05-13
WO2003042973A1 (en) 2003-05-22
CA2466652C (en) 2008-07-22
EP1444685A1 (de) 2004-08-11
BR0214042A (pt) 2004-10-13
DE60219943D1 (de) 2007-06-14
US7181388B2 (en) 2007-02-20
US20030120482A1 (en) 2003-06-26
CN1269102C (zh) 2006-08-09
CN1585968A (zh) 2005-02-23
FI114051B (fi) 2004-07-30
ES2284932T3 (es) 2007-11-16
CA2466652A1 (en) 2003-05-22
KR100597110B1 (ko) 2006-07-04
JP2005509905A (ja) 2005-04-14
EP1444685B1 (de) 2007-05-02
US20070073541A1 (en) 2007-03-29
FI20012193A0 (fi) 2001-11-12

Similar Documents

Publication Publication Date Title
DE60219943T2 (de) Verfahren zum komprimieren von wörterbuchdaten
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69919842T2 (de) Sprachmodell basierend auf der spracherkennungshistorie
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE19721198C2 (de) Statistisches Sprachmodell für flektierende Sprachen
DE69726499T2 (de) Verfahren und Vorrichtung zur Kodierung von Aussprache-Prefix-Bäumen
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE19825205C2 (de) Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz
EP1184839A2 (de) Graphem-Phonem-Konvertierung
EP1611568A1 (de) Dreistufige einzelworterkennung
DE69917960T2 (de) Phonembasierte Sprachsynthese
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
EP0590173A1 (de) Computersystem zur Spracherkennung
WO2001018792A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
DE102007014405B4 (de) Verfahren zur Worterkennung in Zeichensequenzen
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
WO2000028527A1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
DE3105518A1 (de) Verfahren zur synthese von sprache mit unbegrenztem wortschatz und schaltungsanordnung zur durchfuehrung des verfahrens
DE4111781A1 (de) Computersystem zur spracherkennung
EP1554715B1 (de) Verfahren zur rechnergestützten sprachsynthese eines gespeicherten elektronischen textes zu einem analogen sprachsignal, sprachsyntheseeinrichtung und telekommunikationsgerät

Legal Events

Date Code Title Description
8364 No opposition during term of opposition