DE602005001125T2 - Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen - Google Patents

Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen Download PDF

Info

Publication number
DE602005001125T2
DE602005001125T2 DE602005001125T DE602005001125T DE602005001125T2 DE 602005001125 T2 DE602005001125 T2 DE 602005001125T2 DE 602005001125 T DE602005001125 T DE 602005001125T DE 602005001125 T DE602005001125 T DE 602005001125T DE 602005001125 T2 DE602005001125 T2 DE 602005001125T2
Authority
DE
Germany
Prior art keywords
phonetic
units
word
speech
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602005001125T
Other languages
English (en)
Other versions
DE602005001125D1 (de
Inventor
Mei-Yuh Redmond Hwang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of DE602005001125D1 publication Critical patent/DE602005001125D1/de
Application granted granted Critical
Publication of DE602005001125T2 publication Critical patent/DE602005001125T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • EFIXED CONSTRUCTIONS
    • E03WATER SUPPLY; SEWERAGE
    • E03CDOMESTIC PLUMBING INSTALLATIONS FOR FRESH WATER OR WASTE WATER; SINKS
    • E03C1/00Domestic plumbing installations for fresh water or waste water; Sinks
    • E03C1/12Plumbing installations for waste water; Basins or fountains connected thereto; Sinks
    • E03C1/22Outlet devices mounted in basins, baths, or sinks
    • E03C1/23Outlet devices mounted in basins, baths, or sinks with mechanical closure mechanisms
    • E03C1/2302Outlet devices mounted in basins, baths, or sinks with mechanical closure mechanisms the actuation force being transmitted to the plug via rigid elements
    • EFIXED CONSTRUCTIONS
    • E03WATER SUPPLY; SEWERAGE
    • E03CDOMESTIC PLUMBING INSTALLATIONS FOR FRESH WATER OR WASTE WATER; SINKS
    • E03C1/00Domestic plumbing installations for fresh water or waste water; Sinks
    • E03C1/12Plumbing installations for waste water; Basins or fountains connected thereto; Sinks
    • E03C1/30Devices to facilitate removing of obstructions in waste-pipes or sinks
    • E03C1/302Devices to facilitate removing of obstructions in waste-pipes or sinks using devices moved through the pipes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Hydrology & Water Resources (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Multimedia (AREA)
  • Environmental & Geological Engineering (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Mechanical Engineering (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf Spracherkennung (speech recognition). Insbesondere bezieht sich die vorliegende Erfindung auf die Verbesserung der Neu-Wortaussprache durch Kombinieren von sprach- (speech) und textbasierten phonetischen Beschreibungen, um eine Aussprache zu generieren.
  • In der Spracherkennung wird menschliche Sprache zu Text konvertiert. Das Spracherkennungssystem identifiziert eine höchst wahrscheinliche Sequenz von akustischen Einheiten, die das Sprachsignal erzeugt haben könnten, um diese Konvertierung durchzuführen. Die meisten Systeme beschränken diese Suche auf Sequenzen von akustischen Einheiten, die Worte in der Sprache (language) von Interesse repräsentieren, um die Anzahl der Berechnungen zu minimieren, die durchgeführt werden müssen.
  • Das Mapping (die Abbildung) zwischen den Sequenzen der akustischen Einheiten und der Worte wird in wenigstens einem Lexikon (manchmal als Wörterbuch bezeichnet) gespeichert. Unabhängig von der Größe des Lexikons werden manche Worte im Sprachsignal außerhalb des Lexikons sein. Diese nicht im Vokabular (out-of-vocabulary, OOV) befindlichen Worte können vom Spracherkennungssystem nicht erkannt werden, weil das System nicht weiß, dass sie existieren. Beispielsweise wird ein Benutzer manchmal während eines Diktats beobachten, dass ein diktiertes Wort vom System nicht erkannt wird. Dies kann auftreten, weil das System für ein bestimmtes Wort eine andere Aussprache definiert hat als die Benutzeraussprache, d.h. der Benutzer kann das Wort mit einem ausländischen Akzent aussprechen. Manchmal ist das Wort überhaupt nicht im Vokabular. Stattdessen wird das Erkennungssystem gezwungen, andere Worte anstelle des nicht im Vokabular befindlichen Wortes zu erkennen, was zu Erkennungsfehlern führt.
  • In einem früheren Spracherkennungssystem kann ein Benutzer ein Wort, das vom Spracherkennungssystem nicht erkannt wurde, durch Bereitstellen der Schreibweise des Wortes und einer akustischen Probe oder Aussprache des Wortes mit der Stimme des Benutzers hinzufügen.
  • Die Schreibweise des Wortes wird in eine Menge phonetischer Beschreibungen unter Verwendung von Buchstabe zu Laut Regeln konvertiert. Das Eingabewort wird als der einzige Eintrag einer kontextfreien Grammatik (Context Free Grammar, CFG) gespeichert. Es wird dann durch die Anwendung der akustischen Probe auf akustische Modelle der Phone in den phonetischen Beschreibungen bepunktet. Die Gesamtpunktzahl (total score) für jede der phonetischen Beschreibungen beinhaltet eine Sprachmodellpunktzahl (language model score). In einer CFG ist die Sprachmodellwahrscheinlichkeit gleich 1 über die Anzahl der Abzweigungen an jedem Knoten in der CFG. Da das Eingabewort jedoch der einzige Eintrag in der CFG ist, gibt es nur eine Abzweigung vom Startknoten (und der einzige andere Knoten in der CFG ist der Endknoten). Als Ergebnis hat jegliche phonetische Beschreibung aus den Buchstabe zu Laut Regeln immer eine Sprachmodellwahrscheinlichkeit von 1.
  • Die akustische Probe wird in einem gesonderten Dekodierpfad durch das Identifizieren einer Sequenz von silbenartigen Einheiten, die die beste kombinierte akustische und Sprachmodellpunktzahl bereitstellen basierend auf den akustischen Modellen für die Phone in den silbenartigen Einheiten und einem „silbenartigen Einheit" n-Gramm-Sprachmodell, in eine phonetische Beschreibung konvertiert.
  • Die Punktzahl für die phonetische Sequenz, die durch die Buchstabe zu Laut CFG identifiziert wird und die Punktzahl für die höchst wahrscheinliche Sequenz von silbenartigen Einheiten, die durch die „silbenartige Einheit" n-Gramm-Dekodierung identifiziert wird, werden dann verglichen. Die phonetische Sequenz mit der höchsten Punktzahl wird dann als die phonetische Sequenz für das Wort ausgewählt.
  • Also werden nach diesem „Stand der Technik"-System die Buchstabe zu Laut Dekodierung und die „silbenartige Einheit"-Dekodierung in zwei getrennten parallelen Pfaden durchgeführt. Dies ist aus etlichen Gründen alles andere als ideal gewesen.
  • Da erstens die beiden Pfade kein gemeinsames Sprachmodell benutzen, können die Punktzahlen zwischen den beiden Pfaden nicht immer sinnvoll verglichen werden. Da das Sprachmodell für die CFG insbesondere immer eine Wahrscheinlichkeit von 1 liefert, wird die Punktzahl für die Buchstabe zu Laut phonetische Beschreibung gewöhnlich höher sein als die „silbenartige Einheit"-Beschreibung, die auf einem n-Gramm-Sprachmodell beruht, das für gewöhnlich signifikant kleiner als 1 ist. (Die Sprachmodellwahrscheinlichkeit für die silbenartigen Einheiten ist von der Ordnung 10 – 4).
  • Deswegen tendiert das „Stand der Technik"-System dazu, die phonetische Sequenz aus den Buchstabe zu Laut Regeln zu favorisieren, selbst wenn die akustische Probe besser zu der phonetischen Beschreibung aus dem „silbenartigen Einheit"-Pfad passt.
  • Das zweite Genauigkeitsproblem tritt mit dem Generieren der Aussprachen für Kombinationsworte, wie etwa „voicexml", auf. Es ist wichtig anzumerken, dass der CFG-Pfad und der n-Gramm-Silbenpfad im „Stand der Technik"-System unabhängig voneinander sind. Also kann ein Kombinationswort wie „voicexml" zu Aussprachefehlern führen, da die ausgewählte Aussprache entweder die CFG-Aussprache oder die „n-Gramm-Silben"-Aussprache sein muss. Buchstabe zu Laut (letter-to-sound, LTS) Regeln jedoch, die mit einer CFG-Maschine benutzt werden, tendieren dazu, gut an relativ vorhersehbaren Worten, wie „voice" zu arbeiten, aber schlecht für unvorhersehbare Worte, wie „xml", wo die korrekte Aussprache fast ohne Bezug zur Buchstabierung ist.
  • Demgegenüber funktioniert das „n-Gramm-Silben"-Modell im Allgemeinen angemessen gut in der Generierung einer Aussprache für Worte wie "xml", da es unabhängig von der Schreibweise versucht, jegliche Sequenz von Lauten oder Silben in der akustischen Probe zu erfassen. Es funktioniert jedoch nicht so gut wie eine CFG-Maschine für ein vorhersehbares Wort wie „voice" (Stimme).
  • Aus diesen Gründen können Aussprachefehler aus Kombinationsworten resultieren, die z.B. ein vorhersehbares Wort mit einem Acronym kombinieren, wie etwa „voicexml", wenn die phonetischen Beschreibungen aus zwei Dekodiersystemen in zwei separaten Pfaden evaluiert werden.
  • Ein Spracherkennungssystem zur Verbesserung der Aussprache von Kombinationsworten, wie etwa „voicexml", würde bedeutsamen Nutzen haben.
  • Westendorf, C.M., et al, „Automatische Generierung von Aussprachewörterbüchern aus Signaldaten", Proceedings of the 4th Conference on Natural Language Processing – KONVENS-98, 5. – 7. Oktober 1998, bezieht sich auf das Lernen von Aussprachewörterbüchern direkt aus einem Sprachsignal und dessen jeweilige orthografische Repräsentierung. Ein „Phonem-Erkenner" generiert ein „Phonem-Hypothesengitter" (was ein Graph ist) aus dem Sprachsignal. Jede Ecke des „Phonem-Hypothesengitters" wird eine Hypothese über das Auftreten einer Phonemklasse k vom Zeitpunkt t1 zum Zeitpunkt t2 mit einer gewissen Gewichtung g zugewiesen. Zwei Hypothesen sind durch eine Kante verbunden, wenn gewisse Zeitbedingungen erfüllt sind. Ein „Wörterbuch-Kompilierer" konvertiert eine Tabellenrepräsentation des Wörterbuchs in eine Graph-Repräsentation und umgekehrt. In der Graph-Repräsentation werden den Phonemen Ecken zugewiesen und mögliche Phonem-Verbindungen entsprechen den Kanten des Graphs. Ein „Graph-Wörterbuch-Prozessor" kann Ecken und Kanten zum Graph hinzufügen. Dies wird mittels einer „Aktualisierungssequenz" realisiert. Die „Aktualisierungssequenz" wird mittels der besten gemeinsamen Sequenz von Ecken des „Phonem-Hypothesengitters" und des Graphs, der aus dem Wörterbuch gebildet wird, das der Äußerung entspricht, generiert. Dies wird durch eine Suche im „Graph-Produkt" beider Graphen realisiert. Jede Ecke des Graph-Produkts ist eine Kombination aus einer Ecke des „Phonem-Hypothesengitters" und einer Ecke der „Graph-Repräsentation" des Satzes (was der Graph, der vom Wörterbuch gebildet wird, ist). Zwei Ecken werden verbunden, wenn die jeweiligen Originalecken verbunden sind.
  • Übersicht über die Erfindung
  • Es ist die Aufgabe der Erfindung, ein verbessertes Verfahren und ein computerlesbares Medium, das Instruktionen enthält, die von einem Computer lesbar sind, die, wenn implementiert, ein verbessertes Verfahren zum Hinzufügen einer akustischen Beschreibung eines Wortes zu einem Spracherkennungslexikon durchführen, zur Verfügung zu stellen.
  • Diese Aufgabe wird von der Erfindung wie in den unabhängigen Ansprüchen beansprucht gelöst.
  • Bevorzugte Ausführungsformen werden von den abhängigen Ansprüchen definiert.
  • Ein Verfahren und ein computerlesbares Medium konvertieren den Text eines Wortes und eine Benutzeraussprache des Wortes in eine phonetische Beschreibung, die zu einem Spracherkennungslexikon hinzugefügt werden soll. Anfangs werden eine Vielzahl von wenigstens zwei möglichen phonetischen Beschreibungen generiert. Eine phonetische Beschreibung wird gebildet durch das Dekodieren eines Sprachsignals, das eine Benutzeraussprache des Wortes repräsentiert. Wenigstens eine andere phonetische Beschreibung wird aus dem Text des Wortes generiert. Die Vielzahl von möglichen Sequenzen, die die sprachbasierten und textbasierten phonetischen Beschreibungen umfassen, werden abgeglichen, um einen Aussprachegraph zu generieren. Der Aussprachegraph wird dann neu bepunktet (re-scored) durch die Wiederbenutzung (re-using) der Aussprachesprechweise des Benutzers. Die phonetische Beschreibung mit der höchsten Punktzahl (score) wird dann als Eintrag im Spracherkennungslexikon ausgewählt.
  • Ein Aspekt der Erfindung ist die Benutzung von silbenartigen Einheiten (SLUs), um die akustische Aussprache in eine phonetische Beschreibung zu dekodieren. Die silbenartigen Einheiten sind im Allgemeinen größer als ein einzelnes Phonem, aber kleiner als ein Wort. Die vorliegende Erfindung stellt Mittel zur Definierung dieser silbenartigen Einheiten zur Verfügung mittels eines auf beidseitiger Information (mutual information, Transinformation) basierenden Daten-getriebenen Ansatzes, der keine sprachspezifischen, linguistischen Regeln benötigt. Ein Sprachmodell basierend auf diesen silbenartigen Einheiten kann im Sprachdekodierungsprozess konstruiert und benutzt werden.
  • Ein anderer Aspekt der vorliegenden Erfindung ermöglicht es Benutzern, eine hörbare Aussprache eines Wortes einzugeben, die sehr verschieden zu einer typischen Aussprache ist, die mit der Schreibweise übereinstimmt. Beispielsweise kann ein Fremdwort hörbar ausgesprochen werden, während der Text eines englischen Wortes eingegeben wird. Nach diesem Aspekt der Erfindung kann eine phonetische Beschreibung eines „Neu-Wortes", das zum Lexikon hinzugefügt wird, aus dem Lexikon abgefragt werden und in ein hörbares Signal konvertiert werden, das beispielsweise eine Fremdwortübersetzung des englischen Wortes umfasst.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm einer allgemeinen Computerumgebung, in welcher die vorliegende Erfindung praktiziert werden kann.
  • 2 ist ein Blockdiagramm einer allgemeinen mobilen Computerumgebung, in welcher die vorliegende Erfindung praktiziert werden kann.
  • 3 ist ein Blockdiagramm eines Spracherkennungssystems gemäß der vorliegende Erfindung.
  • 4 ist ein Blockdiagram von Lexikonaktualisierungskomponenten einer Ausführungsform der vorliegenden Erfindung.
  • 5 ist ein Flussdiagramm eines Verfahrens zum Hinzufügen eines Wortes zum Spracherkennungslexikon gemäß der vorliegenden Erfindung.
  • 6 ist ein Flußdiagramm, das die Implementierung der vorliegenden Erfindung bezüglich eines bestimmten Wortes illustriert.
  • 7 ist ein Flussdiagramm zum Konstruieren einer Menge von silbenartigen Einheiten.
  • Detaillierte Beschreibung von erläuternden Ausführungsformen
  • 1 illustriert ein Beispiel einer geeigneten Computersystemumgebung 100, auf welcher die Erfindung implementiert werden kann. Die Computersystemumgebung 100 ist nur ein Beispiel einer geeigneten Computerumgebung und sie beabsichtigt nicht, irgendeine Limitierung bezüglich des Umfangs der Benutzung oder Funktionalität der Erfindung vorzuschlagen. Die Computerumgebung 100 sollte auch nicht dahingehend interpretiert werden als dass sie irgendeine Abhängigkeit oder Anforderung bezüglich irgendeiner oder einer Kombination von Komponenten, die in der exemplarischen Operationsumgebung 100 illustriert sind, hat.
  • Die Erfindung ist betriebsfähig mit zahlreichen anderen Mehrzweck- oder Sonderzweck-Computersystemumgebungen oder Konfigurationen. Beispiele wohlbekannter Computersysteme, Umgebungen und/oder Konfigurationen, die geeignet für die Benutzung mit der Erfindung sein können, beinhalten, aber sind nicht limitiert auf Personalcomputer, Servercomputer, tragbare (hand-held) oder Laptop-Geräte, Mulitprozessorsysteme, microprozessorbasierende Systeme, Settop-Boxen, programmierbare Unterhaltungselektronik (consumer electronics), Netzwerk-PCs, Minicomputer, Mainframe-Computer, Telefoniersysteme, verteilte Computerumgebungen, die irgendwelche der oberen Systeme oder Geräte beinhalten, und dergleichen.
  • Die Erfindung kann im allgemeinen Zusammenhang von computerausführbaren Instruktionen, wie etwa Programmmodulen, die von einem Computer ausgeführt werden, beschrieben werden. Im Allgemeinen beinhalten Programmmodule Routinen, Programme, Objekte, Komponenten, Datenstrukturen, etc., die bestimmte Aufgaben durchführen oder bestimmte abstrakte Datentypen implementieren. Die Erfindung kann auch in verteilten Computerumgebungen praktiziert werden, wo Aufgaben von Fernvearbeitungsgeräten durchgeführt werden, die durch ein Kommunikationsnetzwerk verbunden sind. In einer verteilten Computerumgebung können Programmmodule sowohl in lokalen als auch in entfernten Computerspeichermedien, die Datenspeichergeräte beinhalten, sich befinden.
  • Ein exemplarisches System zur Implementierung der Erfindung beinhaltet unter Bezugnahme auf 1 ein Mehrzweckcomputergerät in Form eines Computers 110. Die Komponenten des Computers 110 können beinhalten, sind aber nicht limitiert auf eine Prozessoreinheit 120, ein Systemspeicher 130 und ein Systembus 121, der verschiedene Systemkomponenten, einschließlich des Systemspeichers zur Prozessoreinheit 120, verbindet. Der Systembus 121 kann irgendeiner der verschiedenen Typen von Busstrukturen sein, einschließlich eines Speicherbusses oder Speichercontrollers, eines peripheren Busses und eines lokalen Busses, der irgendeine aus der Vielfalt von Busarchitekturen verwendet. Solche Architekturen beinhalten als Beispiel und nicht als Limitierung, den Industriestandard-Architektur (Industry Standard Architecture, ISA) Bus, den Mikro-Kanal-Architektur (Micro Channel Architecture, MCA) Bus, den erweiterten ISA (Enhanced ISA, EISA) Bus, den Video-Elektronik-Standard-Gemeinschaft (Video Electronic Standards Association, VESA) lokalen Bus, und den peripheren Komponenten-Zusammenschaltungs (Peripheral Component Interconnect, PCI) Bus, der auch als Mezzanine-Bus bekannt ist.
  • Der Computer 110 beinhaltet typischerweise eine Vielzahl von computerlesbaren Medien. Computerlesbare Medien können irgendwelche verfügbaren Medien sein, auf die der Computer 110 zugreifen kann und sie beinhalten sowohl flüchtige als auch nichtflüchtige Medien und entfernbare als auch nicht entfernbare Medien. Computerlesbare Medien können als Beispiel und nicht als Limitierung Computerspeichermedien und Kommunikationsmedien umfassen. Computerspeichermedien beinhalten sowohl flüchtige als auch nichtflüchtige und entfernbare als auch nicht entfernbare Medien, die nach irgendeinem Verfahren oder irgendeiner Technologie zur Speicherung von Informationen, wie etwa computerlesbaren Instruktionen, Datenstrukturen, Programmmodulen oder anderen Daten implementiert sind. Computerspeichermedien beinhalten, sind aber nicht limitiert auf RAM, ROM, EEPROM, Flash-Speicher oder eine andere Speichertechnologie, CD-ROM, Digital Versatile Disks (DVD) oder einen anderen optischen Scheibenspeicher, magnetische Kassetten, ein magnetisches Band, ein magnetischer Diskettenspeicher oder andere magnetische Speichergeräte, oder irgendein anderes Medium, das zum Speichern der gewünschten Information benutzt werden kann und auf das der Computer 110 zugreifen kann. Kommunikationsmedien enthalten typischerweise computerlesbare Instruktionen, Datenstrukturen, Programmmodule oder andere Daten in einem modulierten Datensignal, wie etwa einer Trägerwelle oder einem anderen Transportmechanismus und beinhalten jegliche Informationslieferungsmedien. Der Ausdruck "moduliertes Datensignal" meint ein Signal, das eine oder mehrere seiner Charakteristiken in solch einer Weise eingestellt oder verändert hat, um Information in dem Signal zu kodieren. Kommunikationsmedien beinhalten als Beispiel und nicht als Limitierung kabelgebundene Medien, wie etwa ein kabelgebundenes Netzwerk oder eine direkt verkabelte Verbindung, und kabellose Medien, wie etwa akustische, RF, Infrarot oder andere kabellose Medien. Jegliche Kombinationen von dem oberen sollte auch im Umfang der computerlesbaren Medien enthalten sein.
  • Der Systemspeicher 130 beinhaltet Computerspeichermedien in der Form von flüchtigen und/oder nichtflüchtigen Speicher, wie etwa Lesespeicher (read only memory, ROM) 131 und Schreiblesespeicher (random access memory, RAM) 132. Ein Basisdaten-Austauschsystem (basic input/output system, BIOS) 133, das die grundlegenden Routinen enthält, die helfen, Information zwischen den Elementen innerhalb des Computers 110 zu transferieren, wie etwa während der Inbetriebsetzung (start-up), ist typischerweise im ROM 131 gespeichert. Der RAM 132 enthält typischerweise Daten und/oder Programmmodule, die sofort zugänglich und/oder gerade von einer Prozesseinheit 120 angewandt werden. 1 illustriert als Beispiel und nicht als Limitierung ein Betriebssystem 134, Anwendungsprogramme 135, andere Programmmodule 136 und Programmdaten 137.
  • Der Computer 110 kann auch andere entfernbare/nicht entfernbare, flüchtige/nichtflüchtige Computerspeichermedien enthalten. 1 illustriert nur als Beispiel ein Festplattenlaufwerk 141, das von nicht entfernbaren, nichtflüchtigen, magnetischen Medien liest oder auf diese schreibt, ein magnetisches Diskettenlaufwerk 151, das von einer entfernbaren, nichtflüchtigen, magnetischen Diskette 152 liest oder auf diese schreibt, und ein optisches Scheibenlaufwerk 155, das von einer entfernbaren, nichtflüchtigen, optischen Scheibe 156 liest oder auf diese schreibt, wie etwa eine CD-ROM oder andere optische Medien. Andere entfernbare/nicht entfernbare, flüchtige/nichtflüchtige Computerspeichermedien, die in der exemplarischen Betriebsumgebung verwendet werden können, beinhalten, aber sind nicht limitiert auf magnetische Bandkassetten, Flash-Speicherkarten, Digital Versatile Disks (DVDs), ein digitales Videoband, ein Festkörper-RAM, ein Festkörper-ROM und dergleichen. Das Festplattenlaufwerk 141 ist typischerweise mit dem Systembus 121 durch eine Schnittstelle für nicht entfernbaren Speicher, wie etwa Schnittstelle 140 verbunden, und das magnetische Dis kettenlaufwerk 151 und das optische Scheibenlaufwerk 155 sind typischerweise mit dem Systembus 121 durch eine Schnittstelle für entfernbaren Speicher, wie etwa Schnittstelle 150, verbunden.
  • Die Laufwerke und ihre zugehörigen Computerspeichermedien, die oben diskutiert sind und in 1 illustriert sind, stellen Speicher für computerlesbare Instruktionen, Datenstrukturen, Programmmodule und andere Daten für den Computer 110 zur Verfügung. In 1 ist beispielsweise das Festplattenlaufwerk 141 dargestellt als das das Betriebssystem 144, Anwendungsprogramme 145, andere Programmmodule 146 und andere Programmdaten 147 speichernde Laufwerk. Es ist anzumerken, dass diese Komponenten entweder gleich oder verschieden vom Betriebssystem 134, den Anwendungsprogrammen 135, den anderen Programmmodulen 136 und den Programmdaten 137 sein können. Dem Betriebssystem 144, den Anwendungsprogramme 145, den anderen Programmmodule 146 und den Programmdaten 147 sind hier verschiedene Nummern gegeben worden, um zu illustrieren, dass sie zumindest verschiedene Kopien sind.
  • Ein Benutzer kann Kommandos und Information in den Computer 110 durch Eingabegeräte, wie etwa einer Tastatur 162, einem Mikrofon 163 und einem Zeigegerät 161, wie etwa einer Maus, einem Trackball oder einem Touchpad, eingeben. Andere Eingabegeräte (nicht gezeigt) können einen Joystick, ein Gamepad, eine Satellitenschüssel, einen Scanner oder dergleichen beinhalten. Diese und andere Eingabegeräte sind oft mit der Verarbeitungseinheit 120 durch eine Schnittstelle 160 für die Benutzereingabe verbunden, die mit dem Systembus verbunden ist, können aber auch durch eine andere Schnittstelle und Bus-Strukturen, wie etwa einem parallelen Port, einem Spiel-Port oder einem Universal Serial Bus (USB) verbunden sein. Ein Monitor 191 oder eine andere Art von Anzeigegerät ist ebenso mit dem Systembus 121 mittels einer Schnittstelle, wie etwa einer Videoschnittstelle 190, verbunden. Zusätzlich zu dem Monitor können die Computer auch andere periphere Ausgabegeräte, wie etwa Lautsprecher 197 und einen Drucker 196 beinhalten, die durch eine Schnittstelle zur peripheren Ausgabe 195 verbunden sein können.
  • Der Computer 110 kann in einer vernetzten Umgebung unter Verwendung von logischen Verbindungen zu einem oder mehreren entfernten Computern, wie etwa einem entfernten Computer 180, arbeiten. Der entfernte Computer 180 kann ein Personalcomputer, ein tragbares Gerät, ein Server, ein Router, ein Netzwerk-PC, ein Peer-Gerät oder ein anderer gemeinsamer Netzwerkknoten sein und beinhaltet typischerweise viele oder alle der oben, unter Bezug auf Computer 110, beschriebenen Elemente. Die logischen Verbindungen, die in 1 beschrieben sind, beinhalten ein Nahbereichsnetzwerk (local area network, LAN) 171 und ein Weitbereichsnetzwerk (wide area network, WAN) 173, können aber auch andere Netzwerke beinhalten. Solche netzwerkbetriebenen Umgebungen sind in Büros, unternehmensweiten Computernetzwerken, Intranets und dem Internet alltäglich.
  • Der Computer 110 ist mit dem LAN 171 durch eine Netzwerkschnittstelle oder einem Adapter 170 verbunden, wenn er in einer LAN-netzwerkbetriebenen Umgebung benutzt wird. Der Computer 110 beinhaltet typischerweise ein Modem 172 oder andere Mittel zur Herstellung von Kommunikationen über das WAN 173, wie etwa das Internet, wenn er in einer WAN-netzwerkbetriebenen Umgebung benutzt wird. Das Modem 172, welches intern oder extern sein kann, kann mit dem Systembus 121 über die Schnittstelle 160 für die Benutzereingabe oder einem anderen geeigneten Mechanismus verbunden sein. In einer netzwerkbetriebenen Umgebung können Programmmodule, die im Zusammenhang mit Computer 110 dargestellt sind, oder Teile davon, in einem entfernten Datenspeichergerät gespeichert sein. Als Beispiel und nicht als Beschränkung illustriert 1 entfernte Anwendungsprogramme 185 als im entfernten Computer 180 angesiedelt. Es wird anerkannt werden, dass die dargestellten Netzwerkverbindungen exemplarisch sind und andere Mittel zur Herstellung einer Kommunikationsverbindung zwischen den Computern benutzt werden können.
  • 2 ist ein Blockdiagramm eines mobilen Geräts 200, das eine alternative, exemplarische Computerumgebung ist. Das mobile Gerät 200 beinhaltet einen Mikroprozessor 202, einen Speicher 204, Eingabe/Ausgabe (I/O) Komponenten 206 und eine Kommunikationsschnittstelle 208 zur Kommunikation mit entfernten Computern oder anderen mobilen Geräten. In einer Ausführungsform sind die zuvor erwähnten Komponenten zur Kommunikation über einen geeigneten Bus 210 aneinander gekoppelt.
  • Der Speicher 204 ist als nichtflüchtiger, elektronischer Speicher, wie etwa ein Schreib-Lese-Speicher (random access memory, RAM), mit einem Batterie-Backup-Modul (nicht gezeigt) implementiert, so dass Information, die im Speicher 204 gespeichert ist, nicht verloren wird, wenn der allgemeine Strom für das mobile Gerät 200 heruntergefahren wird. Ein Teil des Speichers 204 wird vorzugsweise als adressierbarer Speicher für die Programmausführung bereitgestellt, während ein anderer Teil des Speichers 204 vor zugsweise zur Speicherung genutzt wird, wie etwa zum Simulieren von Speicher auf einem Diskettenlaufwerk.
  • Der Speicher 204 beinhaltet sowohl ein Betriebssystem 212, Anwendungsprogramme 214 als auch einen Objektspeicher 216. Das Betriebssystem 212 wird vorzugsweise vom Prozessor 202 aus dem Speicher 204 während des Betriebs ausgeführt. In einer bevorzugten Ausführungsform ist das Betriebssystem 212 ein Betriebssystem der Marke WINDOWS® CE, welches kommerziell von der Microsoft Corporation erhältlich ist. Das Betriebssystem 212 ist vorzugsweise für mobile Geräte ausgelegt und implementiert Datenbankfeature, die von Anwendung 214 durch eine Reihe von exponierten Programmierschnittstellen (application programming interfaces) und Verfahren genutzt werden können. Die Objekte im Objektspeicher 216 werden von den Anwendern 214 und dem Betriebssystem 212 wenigstens teilweise in Antwort auf Aufrufe an die exponierten Programmierschnittstellen und Verfahren gepflegt.
  • Die Schnittstelle zur Kommunikation 208 repräsentiert zahlreiche Geräte und Technologien, die es dem mobilen Gerät 200 erlauben, Information zu senden und zu empfangen. Die Geräte beinhalten kabelgebundene und kabellose Modems, Satellitenempfänger und Rundfunktuner, um nur einige zu nennen. Das mobile Gerät 200 kann auch direkt mit einem Computer verbunden werden, um mit diesem Daten auszutauschen. In solchen Fällen kann die Schnittstelle zur Kommunikation 208 ein Infrarotsender/-empfänger oder eine serielle oder parallele Kommunikationsverbindung sein, wobei alle Streaming-Information übertragen können.
  • Die Eingabe-/Ausgabekomponenten 206 beinhalten sowohl eine Vielzahl von Eingabegeräten, wie etwa einen berührungsempfindlichen Bildschirm, Knöpfe, Rollen und ein Mikrofon als auch eine Vielzahl von Ausgabegeräten, beinhaltend einen Audiogenerator, ein Vibrationsgerät und eine Anzeige. Die oben aufgeführten Geräte sind Beispiele und müssen nicht alle auf dem mobilen Gerät 200 zugegen sein. Zusätzlich können andere Eingabe-/Ausgabegeräte innerhalb des Umfangs der vorliegenden Erfindung am mobilen Gerät 200 angeschlossen sein oder am mobilen Gerät 200 vorgefunden werden.
  • 3 stellt ein detailliertes Blockdiagramm der Spracherkennungsmodule zur Verfügung, die im Speziellen für die vorliegende Erfindung relevant sind. In 3 wird ein Eingabesprachsignal in ein elektrisches Signal, wenn nötig von einem Mikrofon 300, umgewandelt. Das elektrische Signal wird dann von einem analog zu digital oder A/D-Wandler 302 in eine Serie von digitalen Werten umgewandelt. In einigen Ausführungs formen tastet der A/D-Wandler 302 das analoge Signal bei 16 kHz und 16 bits pro Abtastung (sample) ab und erstellt dadurch 32 Kilobytes Sprachdaten pro Sekunde.
  • Die digitalen Daten werden einer Frame-Kontruktionseinheit 304 zur Verfügung gestellt, die digitalen Werte in Frames (Rahmen) von Werten gruppiert. In einer Ausführungsform ist jeder Frame 25 Millisekunden lang und beginnt 10 Millisekunden nach dem Beginn des vorigen Frames.
  • Die Frames von digitalen Daten werden einem Feature-Extraktor (Eigenschaftsextraktor) 304 zur Verfügung gestellt, der ein Feature aus dem digitalen Signal extrahiert. Beispiele von Feature-Extraktionsmodulen beinhalten Module zur Durchführung der linear voraussagenden Kodierung (Linear Predicitve Coding, LPC), des LPC-abgeleiteten Cepstrum, der wahrnehmenden linearen Voraussage (Perceptive Linear Prediciton, PLP), der Feature-Extraktion nach einem auditiven Modell (Auditory model feature extraction) und der Mel-Frequenz Cepstrum Koeffizienten (Mel-Frequency Cepstrum Coefficients, MFCC) Feature-Extraktion. Es ist anzumerken, dass die Erfindung nicht auf diese Feature-Extraktionsmodule beschränkt ist und dass andere Module innerhalb des Kontext der vorliegenden Erfindung benutzt werden können.
  • Der Feature-Extraktor 306 kann einen einzelnen, vieldimensionalen Feature-Vektor pro Frame produzieren. Die Anzahl der Dimensionen oder Werte im Feature-Vektor ist abhängig vom Typ der Feature-Extraktion, die benutzt wird. Beispielsweise haben Mel-Frequenz-Cepstrum-Koeffizienten-Vektoren im Allgemein zwölf Koeffizienten plus einen Koeffizienten, der die Leistung (power) repräsentiert, für insgesamt 13 Dimensionen. In einer Ausführungsform wird ein Feature-Vektor aus den Mel-Koeffizienten berechnet, indem die erste und zweite Ableitung der Mel-Frequenz-Koeffizienten plus Leistung bezüglich der Zeit genommen wird. Jeder Frame steht also für solche Feature-Vektoren in Zusammenhang mit 39 Werten, die den Feature-Vektor bilden.
  • Während der Spracherkennung wird der Strom von Feature-Vektoren, der vom Feature-Extraktor 306 produziert wird, dem Decoder 308 zur Verfügung gestellt, der die höchst wahrscheinliche oder wahrscheinliche Sequenz von Worten, basierend auf dem Strom von Feature-Vektoren, dem Systemlexikon 310, gegebenenfalls dem Anwendungslexikon 312, dem Benutzerlexikon 314, dem Sprachmodell 316 und dem akustischen Modell 318 identifiziert.
  • In den meisten Ausführungsformen ist das akustische Modell 318 ein verborgenes Markov-Modell (Hidden Markov Modell), das aus einer Menge von verborgenen Zuständen mit einem Zustand pro Frame des Eingangssignals besteht. Jeder Zustand hat eine dazugehörige Menge von Wahrscheinlichkeitsverteilungen, die die Wahrscheinlichkeit beschreiben, dass ein Eingangsfeature-Vektor einem bestimmten Zustand entspricht. In einigen Ausführungsformen steht ein Gemisch von Wahrscheinlichkeiten (typischerweise 10 Gaußsche Wahrscheinlichkeiten) in Zusammenhang mit jedem Zustand. Das verborgene Markov-Modell beinhaltet also Wahrscheinlichkeiten sowohl für den Übergang zwischen zwei benachbarten Modellzuständen als auch für erlaubte Übergänge zwischen Zustände für bestimmende linguistische Einheiten. Die Größe der linguistischen Einheiten kann für verschiedene Ausführungsformen der vorliegenden Erfindung verschieden sein. Die linguistischen Einheiten können zum Beispiel Senone, Phoneme, Diphone (diphones), Triphone (triphones), Silben oder sogar ganze Worte sein.
  • Das Systemlexikon 310 besteht aus einer Liste von linguistischen Einheiten (typischerweise Worte oder Silben), die für eine bestimmende Sprache gültig sind. Der Decoder 308 benutzt das Systemlexikon 310, um seine Suche für mögliche linguistische Einheiten auf solche zu begrenzen, die tatsächlich Teil der Sprache sind. Das Systemlexikon 310 beinhaltet auch Ausspracheinformation (das heißt Mappings von jeder linguistischen Einheit zu einer Sequenz von akustischen Einheiten, die vom akustischen Modell 318 benutzt werden). Das optionale Anwendungslexikon 312 ist ähnlich zum Systemlexikon 310 außer dass das Anwendungslexikon 312 linguistische Einheiten enthält, die von einer bestimmten Anwendung hinzugefügt werden und dass das Systemlexikon 310 linguistische Einheiten enthält, die mit dem Spracherkennungssystem zur Verfügung gestellt wurden. Das Benutzerlexikon 314 ist ebenso ähnlich zum Systemlexikon 310, außer dass das Benutzerlexikon 314 linguistische Einheiten enthält, die vom Benutzer hinzugefügt worden sind. Gemäß der vorliegenden Erfindung wird ein Verfahren und eine Vorrichtung zum Hinzufügen neuer linguistischen Einheiten, insbesondere zum Benutzerlexikon 314, zur Verfügung gestellt.
  • Das Sprachmodell 316 stellt eine Menge von Wahrscheinlichkeiten oder Probabiltäten zur Verfügung, dass eine bestimmende Sequenz von linguistischen Einheiten in einer bestimmten Sprache auftreten wird. In vielen Ausführungsformen basiert das Sprachmodell 316 auf einer Textdatenbank, wie etwa den nordamerikanischen Wirtschaftsnachrichten (North American Business News, NAB), die in größerer Einzelheit in einer Publikation mit dem Titel „CSR-III Text Language Model", University of Penn., 1994 be schrieben wird. Das Sprachmodell 316 kann eine kontextfreie Grammatik, ein statistisches n-Gramm-Modell, wie etwa ein Trigramm, oder eine Kombination von beiden sein. In einer Ausführungsform ist das Sprachmodell 316 ein kompaktes Trigramm-Modell, das die Wahrscheinlichkeit einer Sequenz von Worten basierend auf den kombinierten Wahrscheinlichkeiten von Dreiwort-Segmenten der Sequenz bestimmt.
  • Der Decoder 308 identifiziert eine höchst wahrscheinliche Sequenz von linguistischen Einheiten aus allen möglichen „linguistischen Einheit"-Sequenzen basierend auf dem akustischen Modell 318, dem Sprachmodell 316 und den Lexika 310, 312 und 314. Diese Sequenz von linguistischen Einheiten repräsentiert eine Transkription des Sprachsignals.
  • Die Transkription wird einem Ausgabemodul 320 zur Verfügung gestellt, das den Overhead abarbeitet, der mit der Übertragung der Transkription zu einer oder mehreren Anwendungen im Zusammenhang steht. In einer Ausführungsform kommuniziert das Ausgabemodul 320 mit einer mittleren Schicht, die zwischen der Spracherkennungsmaschine von 3 und einer oder gegebenenfalls mehreren Anwendungen existiert.
  • Gemäß der vorliegenden Erfindung können neue Worte zu einem Benutzerlexikon 314 durch Eingabe des Textes des Wortes an der Benutzerschnittstelle 321 und durch Aussprechen des Wortes in das Mikrofon 300 hinzugefügt werden. Das ausgesprochene Wort wird vom A/D-Wandler 302, von der Frame-Konstruktion 304 und vom Feature-Extraktor 306 in Feature-Vektoren umgewandelt. Während des Prozesses des Hinzufügens eines Wortes werden diese Feature-Vektoren einer Lexikonaktualisierungseinheit 322 anstatt dem Decoder 308 zur Verfügung gestellt. Die Aktualisierungseinheit 322 empfängt auch den Text des neuen Wortes von der Benutzerschnittstelle 321. Die Lexikonaktualisierungseinheit 322 aktualisiert das Benutzerlexikon 314 und das Sprachmodell 316 durch einen Prozess, der weiter unter beschrieben wird, basierend auf den Feature-Vektoren und dem Text des neuen Wortes
  • 4 stellt ein Blockdiagramm der Komponenten in der Lexikonaktualisierungseinheit 322 zur Verfügung, die benutzt werden, um das Benutzerlexikon 314 und das Sprachmodell 316 zu aktualisieren. 5 stellt ein Flussdiagramm eines Verfahrens zur Aktualisierung des Benutzerlexikons zur Verfügung, das von den Komponenten der 4 implementiert ist.
  • Beim Schritt 502 gibt der Benutzer das neue Wort durch Aussprechen des Wortes in das Mikrofon 300 ein, um eine, vom Benutzer bereitgestellte, akustische Probe 401 zur Verfügung zu stellen. Die, vom Benutzer bereitgestellte, akustische Probe 401 wird zu Feature-Vektoren 403, wie oben beschrieben, umgewandelt, die der Lexikonaktualisierungseinheit 322 zur Verfügung gestellt werden. Im Besonderen werden die Feature-Vektoren 403 der „silbenartigen Einheit" (syllabel-like unit, SLU) Maschine 405 zur Verfügung gestellt, um eine höchst wahrscheinliche Sequenz von silbenartigen Einheiten zu generieren, die von den Feature-Vektoren 403 beim Schritt 504 der 5 repräsentiert werden können. Die SLU-Maschine 405 umfasst oder greift zu auf ein SLU-Wörterbuch 409 und ein akustisches Modell 318, um die höchst wahrscheinliche Sequenz von SLUs zu generieren, typischerweise basierend auf einer höchsten Wahrscheinlichkeitspunktzahl. Die SLU-Maschine 403 wandelt dann die höchst wahrscheinliche Sequenz von silbenartigen Einheiten in eine Sequenz von phonetischen Einheiten um, die einem Abgleichmodul 414 (alignment module) zur Verfügung gestellt wird. Das SLU-Wörterbuch 409 wird im größeren Detail in der Beschreibung entsprechend zu 7 unten beschrieben.
  • Es ist wichtig anzumerken, dass in einigen Fällen, die Benutzeraussprache eines neuen Wortes von einer typischen Aussprache sehr verschieden sein kann. Beispielsweise könnte ein Sprecher ein englisches Wort durch die Substitution einer ausländischen Übersetzung des englischen Wortes aussprechen. Diese Eigenschaft würde beispielsweise einem Spracherkennungslexikon erlauben, den Text oder die Schreibweise eines Wortes in einer Sprache und die akustische Beschreibung in einer zweiten Sprache verschieden von der ersten Sprache zu speichern.
  • Beim Schritt 506 gibt der Benutzer den Text eines neuen Wortes ein, um die, vom Benutzer bereitgestellte, Textprobe 402 zu produzieren. Es ist zu beachten, dass der Schritt 506 vor, nach oder gleichzeitig mit dem Schritt 502 durchgeführt werden kann. Die, vom Benutzer bereitgestellte, Textprobe 402 wird dem Grammatikmodul 404 zur Verfügung gestellt, das beim Schritt 508 den Text in eine Liste von möglichen textbasierten phonetischen Sequenzen umwandelt. Das Grammatikmodul 404 konstruiert im Speziellen eine Grammatik, wie etwa eine kontextfreie Grammatik, für die, vom Benutzer bereitgestellte, Textprobe 402. Das Grammatikmodul 404 umfasst oder greift zu auf das Lexikon 406 und die Buchstabe zu Laut (letter to sound, LTS) Maschine 408. Das Grammatikmodul 404 durchsucht zuerst Lexikon 406, das das Systemlexikon 310, das optionale Anwendungslexikon 312 und das Benutzerlexikon 314 umfasst, um mögliche phonetische Beschreibungen, Aussprachen oder Sequenzen für irgendwelche, vom Benutzer bereitgestellten, Textproben 402 abzufragen.
  • Die LTS-Maschine 408 wandelt die, vom Benutzer bereitgestellte, Textprobe 402 in eine oder mehrere mögliche phonetische Sequenzen um, insbesondere wenn das Wort nicht im Lexikon 406 gefunden wird. Diese Umwandlung wird durch die Ausnutzung einer Ansammlung von Ausspracheregeln 410 durchgeführt, die für eine bestimmende Sprache des Interesses geeignet sind. In den meisten Ausführungsformen werden die phonetischen Sequenzen aus einer Serie von Phonemen konstruiert. In anderen Ausführungsformen ist die phonetische Sequenz eine Sequenz von Triphonen. Das Grammatikmodul 404 generiert also eine oder mehrere mögliche textbasierte phonetische Sequenzen 412 aus dem Lexikon 406 und der LTS-Maschine 408.
  • Die beste phonetische Sequenz 407 von der SLU-Maschine 405 und eine Liste möglicher phonetischer Sequenzen 412 vom Grammatikmodul 404 werden einem Abgleichmodul 414 zur Verfügung gestellt, wieder Bezug nehmend auf 4. Beim Schritt 510 gleicht das Abgleichmodul 414 die phonetischen Sequenzen 407 und 412 in einer ähnlichen Weise wie wohlbekannte Abgleichmodule und/oder Verfahren zur Berechnung von Spracherkennungsfehlerraten, die beispielsweise von Substitutionsfehlern, Löschungsfehlern und Einfügungsfehlern herrühren, ab. In einigen Ausführungsformen kann der Abgleich mittels einer minimalen Distanz zwischen zwei Sequenzstrings (z.B. einer korrekten Referenz und einer Erkennungshypothese) durchgeführt werden. Das Abgleichmodul 414 generiert eine Liste, einen Graph oder eine Tabelle von abgeglichenen phonetischen Sequenzen.
  • Beim Schritt 511 platziert das Abgleichmodul 414 die abgeglichenen phonetischen Sequenzen in einen einzelnen Graph. Während dieses Prozesses werden identische phonetische Einheiten, die miteinander abgeglichen werden, auf einen einzelnen Pfad kombiniert. Sich unterscheidende phonetische Einheiten, die miteinander abgeglichen werden, werden auf parallele, alternative Pfade im Graph platziert.
  • Der einzelne Graph wird dem Neubepunktungsmodul (rescoring module) 416 zur Verfügung gestellt. Beim Schritt 512 werden die Feature-Vektoren 403 wieder benutzt, um mögliche Kombinationen von phonetischen Einheiten, die von Pfaden durch den einzelnen Graph repräsentiert werden, neu zu bepunkten. Gemäß einer Ausführungsform führt das Neubepunktungsmodul 416 eine Viterbi-Suche durch, um den besten Pfad durch den Graph mit Hilfe „akustischer Modell"-Punktzahlen zu identifizieren, die durch das Vergleichen der Feature-Vektoren 403, die durch die Benutzeraussprache des Wortes produziert werden, mit den Modellparametern, die im akustischen Modell 318 für jede phonetische Einheit entlang eines Pfades gespeichert sind, generiert werden. Diese Bepunktung ist ähnlich zu der Bepunktung, die vom Decoder 308 während der Spracherkennung durchgeführt wird.
  • Das Punktzahlauswahl- und Aktualisierungsmodul 418 wählt die phonetische Sequenz oder den Pfad durch den einzelnen Graph aus, die/der die höchste Bepunktung liefert. Die ausgewählte Sequenz wird zur Verfügung gestellt, um das Benutzerlexikon 314 beim Schritt 514 und das Sprachmodell 316 beim Schritt 516 zu aktualisieren.
  • 6 illustriert ein Beispiel, wie die vorliegende Erfindung eine Aussprache für ein Wort abarbeitet oder lernt. Block 602 illustriert die Benutzeraussprache des Wortes "voicexml" und Block 603 repräsentiert den eingegebenen Text für "voicexml". Das Wort "voicexml" ist illustrativ für Vorteile der vorliegenden Erfindung bei der Generierung einer Aussprache eines Kombinationswortes wie oben beschrieben. Ein erster Teil des Wortes "voicexml" oder "voice" ist ein relativ vorhersehbares Wort oder Wortsegment, das LTS-Maschinen, wie etwa LTS-Maschine 408 in 4, typischerweise genau abarbeiten können. Der zweite Teil des Wortes, nämlich "xml", ist jedoch ein unvorhersehbares oder atypisches Wort oder Abkürzung, mit welchem/welcher LTS-Maschinen Genauigkeitsprobleme bei der Abarbeitung haben können. Typische SLU-Maschinen jedoch, wie etwa die SLU-Maschine 405, können im Allgemeinen Worte oder Wortsegmente, wie etwa "xml", gut abarbeiten, da SLU-Maschinen auf die akustische Aussprache des Benutzers angewiesen sind.
  • Block 604 illustriert eine höchst wahrscheinliche phonetische Sequenz, die etwa von der SLU-Maschine 405 in 4 und Schritt 504 in 5 generiert wird. Die beste Aussprache für die akustische oder gesprochene Version des Wortes "voicexml" ist also wie folgt:
    ow-s-eh-k-s-eh-m-eh-l.
  • In diesem Fall hat der Benutzer entweder die phonetische Einheit "v" nicht ausgesprochen oder das SLU-Modell hat die phonetische Einheit "v" nicht gut vorhergesagt. Als Ergebnis wurde die phonetische Einheit "v", die erwartet worden wäre, vom Anfang der phonetischen Sequenz fallengelassen.
  • Beim Block 609 wird eine Liste von möglichen phonetischen Sequenzen 606 und 608 für die Schreibweise oder die Textversion des Wortes "voicexml" von der LTS-Maschine 408 generiert, was die folgenden Sequenzen von phonetischen Einheiten beinhaltet:
    v-oy-s-eh-k-s-m-ax-l.
    v-ow-s-g-z-m-ax-l
  • Die phonetischen Einheiten aus den Blocks 604 und 609 werden vom Abgleichmodul 414 in einer Abgleichstruktur kombiniert, die im Block 610 gezeigt ist. Dieses Abgleichen wird typischerweise mit Hilfe dynamischer Programmierung und einer Kostenfunktion durchgeführt, die auf den Differenzen zwischen den phonetischen Sequenzen in Anbetracht verschiedener Abgleiche basiert. Im Block 610 treten die abgeglichenen phonetischen Einheiten in der gleichen vertikalen Spalte auf. Es ist anzumerken, dass einige Spalten ein "–" haben, was einen leeren Pfad repräsentiert, mit dem keine phonetische Einheit in Zusammenhang steht, das heißt, dass die Spalte optional oder auslassbar ist.
  • Block 612 illustriert einen einzelnen Graph, der aus der abgeglichenen Struktur 610 konstruiert ist, umfassend mögliche phonetische Sequenzen, die aus der abgeglichenen Struktur gebildet werden können. Block 612 repräsentiert eine Suchstruktur in welcher phonetische Einheiten auf Pfaden zwischen Knoten platziert sind. Innerhalb der Struktur sind Übergänge zwischen phonetischen Einheiten, die von der SLU-Maschine identifiziert werden, sprachbasierte phonetische Einheiten, und phonetische Einheiten, die von der LTS-Maschine identifiziert werden, textbasierte phonetische Einheiten, erlaubt. Block 612 illustriert auch, dass ein ausgewählter Pfad "Sprünge" (skips) enthalten kann, wo keine phonetische Einheit aus einer bestimmten Spalte im Pfad enthalten ist.
  • Wie oben beschrieben wird die phonetische Sequenz oder der Pfad mit Hilfe der Benutzeraussprache des Wortes und dem akustischen Modell ausgewählt. Block 614 illustriert die ausgewählte phonetische Sequenz oder den Pfad in Übereinstimmung mit der vorliegenden Erfindung und ist unten zur Verfügung gestellt:
    v-oy-s-eh-k-s-eh-m-eh-l.
  • Es ist zu beachten, dass der endgültige Pfad mit einer phonetischen Sequenz beginnt, die von der LTS-Maschine vorhergesagt ist, aber mit einer phonetischen Sequenz endet, die von der SLU-Maschine vorhergesagt ist. Gemäß dem Stand der Technik würde dies nicht möglich sein. Die vorliegende Erfindung wählt also eine phonetische Sequenz aus einem einzelnen Graph aus, der sowohl mögliche Sequenzen aus einer sprachbasierten SLU-Maschine als auch einer textbasierten LTS-Maschine mit einbezieht, um eine exaktere Aussprache des Wortes zu generieren.
  • „Silbenähnliche Einheit" (Syllable-like-unit, SLU) Menge
  • 7 illustriert ein Verfahren zur Konstruktion einer Menge oder eines Wörterbuchs von silbenartigen Einheiten (SLUs) 409, die in einigen Ausführungsformen der vorliegenden Erfindung verwendet werden können. Das Verfahren von 7 kann im Allgemeinen vorteilhaft sein, da es ein datenbasierter Ansatz ist, der nicht auf sprachspezifische, linguistische Regeln angewiesen ist. Der Ansatz, der in 7 illustriert ist, kann also in jeglicher Sprache benutzt werden und ist relativ kostengünstig zu implementieren, da er keine ausgebildeten Linguisten benötigt, die für andere Ansätze notwendig sein können, insbesondere bei auf „linguistischer Regel" basierenden Ansätzen.
  • Das Verfahren von 7 setzt beidseitige Information (mutual information, MI) ein, um eine SLU-Menge zu konstruieren und benutzt einen Algorithmus ähnlich zu dem Algorithmus, der in der Doktorarbeit mit dem Titel "Modeling Out-of-vocabulary Words For Robust Speech Recognition" von Issam Bazzi, 2000, beschrieben wird, der in einem anderen Zusammenhang benutzt wurde. In der vorliegenden Erfindung wird eine Menge von silbenartigen Einheiten einer vorbestimmten oder begrenzten Größe, z.B. 10000 Einheiten, in Anbetracht eines großen phonetischen Wörterbuchs, z.B. eines Trainingswörterbuchs von vielleicht 50.000 oder mehr Worten mit phonetischen Beschreibungen, konstruiert.
  • Beim Block 702 ist die anfängliche SLU-Menge So gleich der Menge der Phone P = {p1, p2, ...pn}, was typischerweise die 40 Phone, die im englischen Spracherkennungssystem gefunden werden, sind, so dass So = {s1, s2, ...sm} = {p1, p2, ...pn}, wobei m und n die Anzahl von SLUs bzw. Phone ist und anfänglich m = n gilt.
  • Sei (u1, u2) irgendein Paar von SLUs in einer aktuellen Iteration. Beim Block 704 wird die beidseitige Information von Paaren von linguistischen Einheiten (u1, u2), die in Einträgen im Wörterbuch gefunden werden, mit der folgenden Gleichung berechnet.
    Figure 00200001
    wobei MI(u1,u2) die beidseitige Information des „silbenartigen Einheit"-Paars (u1,u2) ist, Pr(u1,u2) die gemeinsame Wahrscheinlichkeit von (u1,u2) ist und Pr(u1) und Pr(u2) die Unigrammwahrscheinlichkeiten von u1 bzw. u2 sind.
  • Die Unigrammwahrscheinlichkeiten Pr(u1) und Pr(u2) werden mit Hilfe der folgenden Gleichungen berechnet:
    Figure 00200002
    wobei Count(u1) und Count(u2) angeben, wie oft die silbenartigen Einheiten u1 bzw. u2 im Trainingswörterbuch gefunden werden, und Count(*) ist die Gesamtzahl der „silbenartigen Einheit"-Instanzen im Trainingswörterbuch. Die gemeinsame Wahrscheinlichkeit von (u1,u2) kann durch die folgende Gleichung berechnet werden:
    Figure 00200003
    wobei Count(u1,u2) angibt, wie oft das Paar (u1,u2) zusammen (d.h. angrenzend) im Trainingswörterbuch auftritt.
  • Beim Block 706 wird das Paar (u1,u2), das die maximale beidseitige Information hat, ausgewählt oder identifiziert. Beim Block 708 wird das Paar (u1,u2) mit der maximalen beidseitigen Information zu einer neuen und längeren silbenartigen Einheit u3 gemischt. Die neue silbenartige Einheit u3 ersetzt oder substituiert das Paar (u1,u2) in den Worten im Trainingswörterbuch.
  • Beim Block 710 wird eine Entscheidung getroffen, ob die Iterationen abgebrochen werden. In einigen Ausführungsformen können die Parameter, die die maximale Länge einer SLU kontrollieren, benutzt werden. Die maximale „silbenartige Einheit"-Länge kann beispielsweise auf vier Phone gesetzt werden. Falls die ausgewählte Länge erreicht wird, dann bricht das Mischen des ausgewählten Paares ab und das nächste Paar mit der höchsten beidseitigen Information wird stattdessen überprüft. Falls kein weiteres Paar verfügbar ist oder falls die Anzahl der SLUs (m) die gewünschte Anzahl erreicht, oder die maximale beidseitige Information unterhalb eines gewissen Schwellwertes fällt, schreitet das Verfahren der 7 zu Block 712 fort, wo die SLU-Menge S ausgegeben wird. Andernfalls kehrt das Verfahren zu Block 704 zurück, wo die beidseitige Information von silbenartigen Einheiten, nachdem die neue Einheit u3 generiert ist, neu berechnet wird und die Unigramm- und Bigramm-Zählungen (counts) der Betroffenen neu berechnet werden. In einer Ausführungsform wird nur ein Paar von silbenartigen Einheiten bei jeder Iteration gemischt. In anderen Ausführungsformen jedoch kann eine ausgewählte Anzahl von Paaren (z.B. 50 Paare) bei jeder Iteration gemischt werden, falls Geschwindigkeit eine Rolle spielt, wie etwa in der Arbeit von Bazzi.
  • Wenn der Algorithmus von 7 abbricht, wird die Eingabe oder das Trainingswörterbuch in die endgültige Menge von SLUs segmentiert. Ein „silbenartiges Einheit"-n-Gramm kann dann aus dem segmentierten Wörterbuch trainiert und mit der vorliegenden Erfindung implementiert werden. Es ist herausgefunden worden, dass dieser datengetriebene Ansatz leicht bessere Genauigkeit als die regelbasierten Silbifizierungsansätze liefert. Es ist jedoch viel wichtiger, dass dieser Ansatz in jeglicher Sprache ohne Code-Änderungen verwendet werden kann, da sprachspezifische, linguistische Regeln nicht benötigt werden.
  • Obwohl die vorliegende Erfindung mit Bezug zu bestimmten Ausführungsformen beschrieben worden ist, werden Fachleute erkennen, dass Änderungen in Form und Detail gemacht werden können, ohne vom Umfang der Erfindung abzuweichen.

Claims (21)

  1. Computerlesbares Medium, das von einem Computer lesbare Instruktionen enthält, die, wenn implementiert, Schritte durchführen umfassend: Generieren (504) einer sprachbasierten phonetischen Beschreibung eines Wortes ohne Referenz zum Text des Wortes; Generieren (508) einer textbasierten phonetischen Beschreibung des Wortes basierend auf dem Text des Wortes; Abgleichen (510) der sprachbasierten phonetischen Beschreibung und der textbasierten phonetischen Beschreibung auf einer Phon für Phon Basis, um einen einzelnen Graph zu bilden; und Auswählen (512) einer phonetischen Beschreibung aus dem einzelnen Graph, dadurch gekennzeichnet, dass das Auswählen einer phonetischen Beschreibung aus dem einzelnen Graph das Vergleichen einer Sprachprobe mit akustischen Modellen von phonetischen Einheiten im Graph umfasst.
  2. Computerlesbares Medium nach Anspruch 1, das ferner das Generieren der sprachbasierten phonetischen Beschreibung basierend auf einer Benutzeraussprache des Wortes umfasst.
  3. Computerlesbares Medium nach Anspruch 2, das ferner das Dekodieren eines Sprachsignals, das die Benutzeraussprache des Wortes repräsentiert, umfasst, um die sprachbasierte phonetische Beschreibung des Wortes zu generieren.
  4. Computerlesbares Medium nach Anspruch 3, worin das Dekodieren eines Sprachsignals das Identifizieren einer Sequenz silbenartiger Einheiten aus dem Sprachsignal umfasst.
  5. Computerlesbares Medium nach Anspruch 4, das ferner das Generieren einer Gruppe von silbenartigen Einheiten unter Verwendung von beidseitiger Information vor dem Dekodieren eines Sprachsignals zum Identifizieren einer Sequenz silbenartiger Einheiten umfasst.
  6. Computerlesbares Medium nach Anspruch 5, worin das Generieren einer silbenartigen Einheit unter Verwendung beidseitiger Information umfasst: Berechnen beidseitiger Informationswerte für Paare von Unterworteinheiten in einem Trainingswörterbuch; Auswählen eines Paars von Unterworteinheiten basierend auf den beidseitigen informationswerten; und Mischen des ausgewählten Paars von Unterworteinheiten in eine silbenartige Einheit.
  7. Computerlesbares Medium nach Anspruch 2, worin das Generieren der textbasierten phonetischen Beschreibung das Benutzen einer Buchstabe zu Laut Regel umfasst.
  8. Computerlesbares Medium nach Anspruch 3, worin die phonetischen Beschreibungen phonetische Sequenzen von phonetischen Einheiten sind und worin das Abgleichen der sprachbasierten phonetischen Sequenz und der textbasierten phonetischen Sequenz auf einer Phon für Phon Basis umfasst: Platzieren der phonetischen Einheiten der textbasierten phonetischen Sequenz und der sprachbasierten phonetischen Sequenz in einen einzelnen Graph, der Übergänge zwischen phonetischen Einheiten in der textbasierten phonetischen Sequenz und phonetischen Einheiten in der sprachbasierten phonetischen Beschreibung ermöglicht.
  9. Computerlesbares Medium nach Anspruch 8, worin das Abgleichen das Abgleichen der sprachbasierten phonetischen Sequenz und der textbasierten phonetischen Sequenz zum Identifizieren phonetischer Einheiten, die gegenseitige Alternativen sind, umfasst.
  10. Computerlesbares Medium nach Anspruch 9, worin das Abgleichen der sprachbasierten phonetischen Sequenz und der textbasierten phonetischen Sequenz das Berechnen einer minimalen Distanz zwischen zwei phonetischen Sequenzen umfasst.
  11. Computerlesbares Medium nach Anspruch 8, worin das Generieren einer sprachbasierten phonetischen Sequenz phonetischer Einheiten umfasst: Generieren einer Vielzahl von möglichen phonetischen Sequenzen phonetischer Einheiten; Benutzen wenigstens eines Modells, um eine Wahrscheinlichkeitspunktzahl für jede mögliche phonetische Sequenz zu generieren; und Auswählen der möglichen phonetischen Sequenz mit der höchsten Punktzahl als die sprachbasierte phonetische Sequenz phonetischer Einheiten.
  12. Computerlesbares Medium nach Anspruch 11, worin das Benutzen wenigstens eines Modells das Benutzen eines akustischen Modells und eines Sprachmodells umfasst.
  13. Computerlesbares Medium nach Anspruch 12, worin das Benutzen eines Sprachmodells das Benutzen eines Sprachmodells, das auf silbenartige Einheiten basiert, umfasst.
  14. Computerlesbares Medium nach Anspruch 9, worin der einzelne Graph einen einzelnen Pfad für eine phonetische Einheit beinhaltet, die sowohl in der textbasierten phonetischen Sequenz als auch in der sprachbasierten phonetischen Sequenz gefunden wird.
  15. Verfahren zum Hinzufügen einer akustischen Beschreibung eines Wortes zu einem Spracherkennungslexikon, das Verfahren umfassend: Generieren (508) einer textbasierten phonetischen Beschreibung basierend auf dem Text des Wortes; Generieren (504) einer sprachbasierten phonetischen Beschreibung ohne Referenz zum Text des Wortes; Abgleichen (510) der textbasierten phonetischen Beschreibung und der sprachbasierten phonetischen Beschreibung in einer Struktur, wobei die Struktur Pfade umfasst, die phonetische Einheiten repräsentieren und wobei wenigstens ein Pfad für eine phonetische Einheit aus der textbasierten phonetischen Beschreibung mit einem Pfad für eine phonetische Einheit aus der sprachbasierten phonetischen Beschreibung verbunden ist; Auswählen (512) einer Sequenz von Pfaden durch die Struktur, worin Auswählen einer Sequenz von Pfaden das Generieren einer Punktzahl für einen Pfad in der Struktur umfasst, dadurch gekennzeichnet, dass das Generieren einer Punktzahl eines Pfads das Vergleichen einer Sprachprobe einer Benutzeraussprache eines Wortes mit einem Modell für eine phonetische Einheit in der Struktur umfasst; und Generieren der akustischen Beschreibung des Wortes basierend auf der ausgewählten Sequenz von Pfaden.
  16. Verfahren nach Anspruch 15, das ferner das Generieren einer Vielzahl von textbasierten phonetischen Beschreibungen basierend auf dem Text des Wortes umfasst.
  17. Verfahren nach Anspruch 16, worin das Generieren der sprachbasierten phonetischen Beschreibung das Dekodieren eines Sprachsignals, das eine Benutzeraussprache umfasst, umfasst.
  18. Verfahren nach Anspruch 17, worin das Dekodieren eines Sprachsignals die Benutzung eines Sprachmodells silbenartiger Einheiten umfasst.
  19. Verfahren nach Anspruch 18, das ferner das Konstruieren des Sprachmodells silbenartiger Einheiten umfasst durch Schritte von: Berechnen beidseitiger Informationswerte für Paare silbenartiger Einheiten in einem Trainingswörterbuch; Auswählen eines Paars silbenartiger Einheiten basierend auf den beidseitigen Informationswerten; und Entfernen des ausgewählten Paars und Ersetzen einer neuen silbenartigen Einheit an Stelle des entfernten ausgewählten Paars im Trainingswörterbuch.
  20. Verfahren nach Anspruch 19, ferner umfassend: Neuberechnung beidseitiger Informationswerte für verbleibende Paare silbenartiger Einheiten im Trainingswörterbuch; Auswählen eines neuen Paars silbenartiger Einheiten basierend auf den neu berechneten beidseitigen Informationswerten; und Entfernen des neuen Paars silbenartiger Einheiten und Ersetzen einer zweiten neuen silbenartigen Einheit an Stelle des neuen Paars silbenartiger Einheiten im Trainingswörterbuch.
  21. Verfahren nach Anspruch 20, das ferner das Benutzen des Trainingswörterbuchs zum Generieren eines Sprachmodells silbenartiger Einheiten umfasst.
DE602005001125T 2004-03-10 2005-03-09 Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen Active DE602005001125T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/796,921 US7590533B2 (en) 2004-03-10 2004-03-10 New-word pronunciation learning using a pronunciation graph
US796921 2004-03-10

Publications (2)

Publication Number Publication Date
DE602005001125D1 DE602005001125D1 (de) 2007-06-28
DE602005001125T2 true DE602005001125T2 (de) 2007-09-13

Family

ID=34827622

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602005001125T Active DE602005001125T2 (de) 2004-03-10 2005-03-09 Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen

Country Status (7)

Country Link
US (1) US7590533B2 (de)
EP (1) EP1575030B1 (de)
JP (1) JP2005258443A (de)
KR (1) KR20060043845A (de)
CN (1) CN1667700B (de)
AT (1) ATE362633T1 (de)
DE (1) DE602005001125T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017006863A1 (de) * 2017-07-19 2019-01-24 INPRO Innovationsgesellschaft für fortgeschrittene Produktionssysteme in der Fahrzeugindustrie mbH Verfahren zur inline-Herstellung eines Leichtbauteils in Hybridbauweise wie einer mit hybriden Strukturen zu versehenen Fahrzeugkarosserie

Families Citing this family (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8954325B1 (en) * 2004-03-22 2015-02-10 Rockstar Consortium Us Lp Speech recognition in automated information services systems
DE602004024172D1 (de) * 2004-05-21 2009-12-31 Harman Becker Automotive Sys Automatische Erzeugung einer Wortaussprache für die Spracherkennung
US7962327B2 (en) * 2004-12-17 2011-06-14 Industrial Technology Research Institute Pronunciation assessment method and system based on distinctive feature analysis
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070124147A1 (en) * 2005-11-30 2007-05-31 International Business Machines Corporation Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US7966173B2 (en) * 2006-03-22 2011-06-21 Nuance Communications, Inc. System and method for diacritization of text
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US20070233490A1 (en) * 2006-04-03 2007-10-04 Texas Instruments, Incorporated System and method for text-to-phoneme mapping with prior knowledge
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7856503B2 (en) * 2006-10-19 2010-12-21 International Business Machines Corporation Method and apparatus for dynamic content generation
US9070363B2 (en) * 2007-10-26 2015-06-30 Facebook, Inc. Speech translation with back-channeling cues
US9128926B2 (en) 2006-10-26 2015-09-08 Facebook, Inc. Simultaneous translation of open domain lectures and speeches
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US11222185B2 (en) 2006-10-26 2022-01-11 Meta Platforms, Inc. Lexicon development via shared translation database
JP4741452B2 (ja) * 2006-11-21 2011-08-03 日本放送協会 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
US8135590B2 (en) * 2007-01-11 2012-03-13 Microsoft Corporation Position-dependent phonetic models for reliable pronunciation identification
WO2008083868A1 (en) * 2007-01-12 2008-07-17 Nokia Siemens Networks Gmbh & Co. Kg Apparatus and method for processing audio and/or video data
WO2008106655A1 (en) * 2007-03-01 2008-09-04 Apapx, Inc. System and method for dynamic learning
TW200926140A (en) * 2007-12-11 2009-06-16 Inst Information Industry Method and system of generating and detecting confusion phones of pronunciation
US20090240501A1 (en) * 2008-03-19 2009-09-24 Microsoft Corporation Automatically generating new words for letter-to-sound conversion
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
EP2315134A4 (de) * 2008-10-14 2012-12-26 Mitsubishi Electric Corp Sucheinrichtung, suchindexerzeugungseinrichtung und suchsystem
WO2010051542A2 (en) * 2008-10-31 2010-05-06 Melodis Corporation Melodis crystal decoder method and device
US20100198577A1 (en) * 2009-02-03 2010-08-05 Microsoft Corporation State mapping for cross-language speaker adaptation
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
KR101587866B1 (ko) 2009-06-03 2016-01-25 삼성전자주식회사 음성 인식용 발음사전 확장 장치 및 방법
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN102959601A (zh) * 2009-10-29 2013-03-06 加迪·本马克·马科维奇 使儿童适于不带口音地学习任何语言的系统
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
DE112010005168B4 (de) * 2010-01-22 2018-12-13 Mitsubishi Electric Corporation Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
US8949125B1 (en) * 2010-06-16 2015-02-03 Google Inc. Annotating maps with user-contributed pronunciations
US8527270B2 (en) 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
US9576570B2 (en) * 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8738375B2 (en) * 2011-05-09 2014-05-27 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US9396725B2 (en) 2011-05-09 2016-07-19 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
EP2747077A4 (de) * 2011-08-19 2015-05-20 Asahi Chemical Ind Spracherkennungssystem, protokollsystem für ein erkennungswörterbuch und vorrichtung zur erzeugung von audiomodell-identifikatorserien
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
US9324323B1 (en) 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US8775177B1 (en) * 2012-03-08 2014-07-08 Google Inc. Speech recognition process
KR101193362B1 (ko) * 2012-04-13 2012-10-19 최병기 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
KR101359718B1 (ko) 2012-05-17 2014-02-13 포항공과대학교 산학협력단 대화 관리 시스템 및 방법
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
CN110488991A (zh) 2012-06-25 2019-11-22 微软技术许可有限责任公司 输入法编辑器应用平台
US8959109B2 (en) 2012-08-06 2015-02-17 Microsoft Corporation Business intelligent in-document suggestions
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
KR101911999B1 (ko) 2012-08-30 2018-10-25 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 피처 기반 후보 선택 기법
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
LT6058B (lt) * 2012-10-22 2014-08-25 Mickaus kÅ«rybos studija, MB Sistema vizualiniam akustinės informacijos atvaizdavimui
US9542936B2 (en) 2012-12-29 2017-01-10 Genesys Telecommunications Laboratories, Inc. Fast out-of-vocabulary search in automatic speech recognition systems
US8959020B1 (en) * 2013-03-29 2015-02-17 Google Inc. Discovery of problematic pronunciations for automatic speech recognition systems
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (de) 2013-06-09 2016-04-20 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitaler assistenten
CN105580004A (zh) 2013-08-09 2016-05-11 微软技术许可有限责任公司 提供语言帮助的输入方法编辑器
US9589562B2 (en) 2014-02-21 2017-03-07 Microsoft Technology Licensing, Llc Pronunciation learning through correction logs
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
JP2016024212A (ja) * 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
CN105096945A (zh) * 2015-08-31 2015-11-25 百度在线网络技术(北京)有限公司 一种终端的语音识别方法和装置
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9787819B2 (en) * 2015-09-18 2017-10-10 Microsoft Technology Licensing, Llc Transcription of spoken communications
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
GB2544070B (en) * 2015-11-04 2021-12-29 The Chancellor Masters And Scholars Of The Univ Of Cambridge Speech processing system and method
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10089974B2 (en) * 2016-03-31 2018-10-02 Microsoft Technology Licensing, Llc Speech recognition and text-to-speech learning system
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
TWI610294B (zh) * 2016-12-13 2018-01-01 財團法人工業技術研究院 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
EP3745394B1 (de) * 2017-03-29 2023-05-10 Google LLC End-zu-end-text-zu-sprache-umwandlung
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
KR102075796B1 (ko) * 2017-11-14 2020-03-02 주식회사 엘솔루 자동 음성인식 장치 및 방법
CN109407946B (zh) * 2018-09-11 2021-05-14 昆明理工大学 基于语音识别的图形界面目标选择方法
CN109754778B (zh) * 2019-01-17 2023-05-30 平安科技(深圳)有限公司 文本的语音合成方法、装置和计算机设备
US10839792B2 (en) 2019-02-05 2020-11-17 International Business Machines Corporation Recognition of out-of-vocabulary in direct acoustics-to-word speech recognition using acoustic word embedding
CN112242144A (zh) * 2019-07-17 2021-01-19 百度在线网络技术(北京)有限公司 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质
CN112562675B (zh) 2019-09-09 2024-05-24 北京小米移动软件有限公司 语音信息处理方法、装置及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT390685B (de) * 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US6064957A (en) * 1997-08-15 2000-05-16 General Electric Company Improving speech recognition through text-based linguistic post-processing
DE60020504T2 (de) * 1999-07-08 2006-05-04 Koninklijke Philips Electronics N.V. Anpassung eines spracherkenners an korrigierte texte
JP3976959B2 (ja) * 1999-09-24 2007-09-19 三菱電機株式会社 音声認識装置、音声認識方法および音声認識プログラム記録媒体
US6263308B1 (en) * 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
JP2002014693A (ja) * 2000-06-30 2002-01-18 Mitsubishi Electric Corp 音声認識システム用辞書提供方法、および音声認識インタフェース
US6973427B2 (en) 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
JP2003044080A (ja) * 2001-05-02 2003-02-14 Sony Corp ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体
US7013276B2 (en) * 2001-10-05 2006-03-14 Comverse, Inc. Method of assessing degree of acoustic confusability, and system therefor
JP3911178B2 (ja) * 2002-03-19 2007-05-09 シャープ株式会社 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP2004053979A (ja) * 2002-07-22 2004-02-19 Alpine Electronics Inc 音声認識辞書の作成方法及び音声認識辞書作成システム
US7389228B2 (en) * 2002-12-16 2008-06-17 International Business Machines Corporation Speaker adaptation of vocabulary for speech recognition
JP2004294542A (ja) * 2003-03-25 2004-10-21 Mitsubishi Electric Corp 音声認識装置及びそのプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017006863A1 (de) * 2017-07-19 2019-01-24 INPRO Innovationsgesellschaft für fortgeschrittene Produktionssysteme in der Fahrzeugindustrie mbH Verfahren zur inline-Herstellung eines Leichtbauteils in Hybridbauweise wie einer mit hybriden Strukturen zu versehenen Fahrzeugkarosserie

Also Published As

Publication number Publication date
CN1667700A (zh) 2005-09-14
ATE362633T1 (de) 2007-06-15
DE602005001125D1 (de) 2007-06-28
CN1667700B (zh) 2010-10-06
US20050203738A1 (en) 2005-09-15
KR20060043845A (ko) 2006-05-15
EP1575030A1 (de) 2005-09-14
EP1575030B1 (de) 2007-05-16
JP2005258443A (ja) 2005-09-22
US7590533B2 (en) 2009-09-15

Similar Documents

Publication Publication Date Title
DE602005001125T2 (de) Erlernen der Aussprache neuer Worte unter Verwendung eines Aussprachegraphen
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60222093T2 (de) Verfahren, modul, vorrichtung und server zur spracherkennung
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
DE102006006069A1 (de) Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
Gallwitz et al. Integrated recognition of words and prosodic phrase boundaries
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
US20020087317A1 (en) Computer-implemented dynamic pronunciation method and system
Nagano et al. Data augmentation based on vowel stretch for improving children's speech recognition
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
Fetter Detection and transcription of OOV words
DE10229207B3 (de) Verfahren zur natürlichen Spracherkennung auf Basis einer Generativen Transformations-/Phrasenstruktur-Grammatik
DE102014010315B4 (de) Computer-implementiertes Verfahren und Vorrichtung zur Verarbeitung von Spracheingaben
Elshafei et al. Speaker-independent natural Arabic speech recognition system
Ferreiros et al. Improving continuous speech recognition in Spanish by phone-class semicontinuous HMMs with pausing and multiple pronunciations
Huang et al. Internet-accessible speech recognition technology
Delić et al. A Review of AlfaNum Speech Technologies for Serbian, Croatian and Macedonian
CN116386637B (zh) 雷达飞行指挥语音指令生成方法及系统

Legal Events

Date Code Title Description
8364 No opposition during term of opposition