DE69919842T2 - Sprachmodell basierend auf der spracherkennungshistorie - Google Patents

Sprachmodell basierend auf der spracherkennungshistorie Download PDF

Info

Publication number
DE69919842T2
DE69919842T2 DE69919842T DE69919842T DE69919842T2 DE 69919842 T2 DE69919842 T2 DE 69919842T2 DE 69919842 T DE69919842 T DE 69919842T DE 69919842 T DE69919842 T DE 69919842T DE 69919842 T2 DE69919842 T2 DE 69919842T2
Authority
DE
Germany
Prior art keywords
word
cache
sequence
words
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69919842T
Other languages
English (en)
Other versions
DE69919842D1 (de
Inventor
Volker Steinbiss
Dietrich Klakow
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Koninklijke Philips NV
Original Assignee
Philips Intellectual Property and Standards GmbH
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH, Koninklijke Philips Electronics NV filed Critical Philips Intellectual Property and Standards GmbH
Publication of DE69919842D1 publication Critical patent/DE69919842D1/de
Application granted granted Critical
Publication of DE69919842T2 publication Critical patent/DE69919842T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

  • Die Erfindung bezieht sich auf ein Mustererkennungssystem mit kleinem Vokabular zum Erkennen einer Wortfolge, wobei das Vokabular eine Darstellung einer Vielzahl von Bezugswörtern speichert und das System Folgendes umfasst:
    Eingabemittel zum Empfangen eines zeitsequentiellen Eingangsmusters, das eine gesprochene oder geschriebene Wortfolge darstellt;
    eine Mustererkennungseinheit, die eine Abgleicheinheit auf Wortebene zum Erzeugen einer Vielzahl von Wortfolgen durch statistischen Vergleich des Eingangsmusters mit den Darstellungen der Bezugswörter des Vokabulars umfasst.
  • Es werden zunehmend Mustererkennungssysteme mit kleinem Vokabular zum Erkennen von Wortfolgen wie Ziffernketten oder Befehlsfolgen eingesetzt. Derartige Systeme werden beispielsweise für die Sprachsteuerung von Kommunikations-, Rechner- oder Audio/Video-Ausrüstungen verwendet. Ein Benutzer kann beispielsweise einen Telefonanruf tätigen, indem er eine Telefonnummer sagt, möglicherweise gefolgt von einem gesprochenen Befehl „Wählen". Auch ein Rechnerbetriebssystem und die verschiedenen Anwendungsprogramme können über Sprachbefehle bedient werden. Außer der Verwendung zum Erkennen von Sprache darstellenden Eingaben deckt die Erfindung auch Zeichen-/Worterkennungssysteme mit kleinem Vokabular wie Handschrifterkennungssysteme ab, wobei das Eingabesignal ein geschriebenes oder gedrucktes Zeichen/Wort darstellt. Das System kann beispielsweise dazu verwendet werden, geschriebene/eingetippte Ziffernketten wie Kontonummern zu erkennen. Ein System mit kleinem Vokabular verfügt typischerweise über ein Vokabular im Bereich von bis zu ein paar hundert Einträgen, die als Wörter bezeichnet werden. In der Tat kann ein derartiges Wort ein einziges Zeichen wie eine Ziffer für die Ziffernkettenerkennung oder einen Befehl darstellen, der tatsächlich aus mehr als einem gesprochenen gedruckten Wort (wie „Datei speichern") zum Erkennen von Befehlsfolgen bestehen kann. Normalerweise erfolgt die Erkennung eines Eingangsmusters, wie abgetastete Sprache oder Handschrift, in zwei Schritten. Im ersten Schritt wird ein Segment des Eingangssignals, das ein Wort darstellt, mit gelerntem Material verglichen. Da beim Sprechen, Schreiben oder Drucken von Wörtern Schwankungen auftreten, ergibt sich aus dem Vergleich im ersten Schritt die Identifizierung mehrerer möglicher Wörter des Vokabulars, die statistisch gesehen mit dem Eingangssignalsegment übereinstimmen. Infolgedessen ergibt sich aus der Erkennung eines Eingangssignals im ersten Schritt die Identifizierung mehrerer Folgen von in Frage kommenden Wörtern. Diese Folgen können mit Hilfe eines Graphen dargestellt werden. Üblicherweise wurde den Folgen eine statistische Mutmaßlichkeit zugeordnet, die wiedergibt, wie genau das Eingangsmuster mit den einzelnen Bezugswörtern übereinstimmt. In einem zweiten Schritt wird eine Folge mit der größten Mutmaßlichkeit basierend auf der Mutmaßlichkeit der Folge (kombiniert mit der bereits ermittelten Mutmaßlichkeit der individuellen Übereinstimmung der Wörter) ausgewählt. Bei Systemen mit großem Vokabular basiert der zweite Schritt im Allgemeinen auf einem statistischen Sprachmodell, das statistische Informationen über das Auftreten eines Wortes oder einer Wortfolge in einem typischen Text liefert. Ein derartiges System wird von L. Rabiner und B.-H. Juang in „Fundamentals of speech recognition", erschienen 1993 in Prentice Hall, auf den Seiten 434 bis 454 beschrieben. Häufig werden so genannte Bigramme eingesetzt, die die Auftretensmutmaßlichkeit eines Wortpaares angeben. Das Sprachmodell wird im Voraus gebildet, indem große Textkörper mit mehreren Millionen Wörtern analysiert werden, die zu erkennende Wortfolgen darstellen. Bei einigen Systemen kann das eingebaute Sprachmodell während der Benutzung des Systems aktualisiert werden.
  • Bei Systemen mit kleinem Vokabular ist die anfängliche Identifizierung von in Frage kommenden Wörtern einfacher als bei Systemen mit großem Vokabular, da das Vokabular und die Menge gelernten Materials kleiner ist. Beispielsweise kann das Vokabular zum Erkennen einer Ziffernkette wie einer Telefonnummer klein sein, da es nur zehn Ziffern darstellen muss. Der zweite Schritt der Auswahl und Filterung zwischen möglichen Folgen ist jedoch für viele Anwendungen schwierig durchzuführen. Die Anzahl verschiedener Telefonnummern in einem Land oder sogar weltweit ist riesig. Außerdem werden neben ein paar häufig verwendeten Nummern viele Nummern mit der gleichen Häufigkeit verwendet, woraus sich ein geringer Grad der statistischen Unterscheidung ergibt. In ähnlicher Weise kann ein Benutzer für die Steuerung eines Rechners aus einer sehr großen Anzahl von gültigen Befehlsfolgen auswählen, und es existiert kaum a-priori-Wissen über häufig verwendete Folgen. Es ist daher schwierig, ein herkömmliches Sprachmodell mit großem Vokabular für die meisten Systeme mit kleinem Vokabular zu erstellen und zu verwenden. Stattdessen können Systeme mit kleinem Vokabular Finite-Zustand-Modelle verwenden, bei denen ein Zustand einem Wort entspricht, um die möglichen Wortfolgen auf Wechsel des Modells zu beschränken. Typischerweise wird allen Wörtern eine gleiche Mutmaßlichkeit zugeordnet, und es erfolgt keine Unterscheidung bezüglich der Mutmaßlichkeit zwischen gemäß dem Finite-Zustand-Modell zugelassenen Wortfolgen.
  • In „A Cache-Based Natural Language Model for Speech Recognition" von R. Kuhn, erschienen in IEEE Trans. on Pattern Analysis and Machine Intelligence im Juni 1990, wird die Verwendung von kurzfristigen Auftretenswahrscheinlichkeiten von Wörtern zur Ergänzung eines statistischen Sprachmodells beschrieben. Die Idee von Cachegestützten Sprachmodellen berücksichtigt nicht tatsächlich erkannte Wortfolgen.
  • Der Erfindung hat zur Aufgabe, ein Mustererkennungssystem mit kleinem Vokabular der dargelegten Art zu schaffen, das besser in der Lage ist, zwischen in Frage kommenden Wortfolgen auszuwählen.
  • Die Aufgabe wird erfindungsgemäß dadurch gelöst, dass das System, wie es in den unabhängigen Ansprüchen definiert ist, einen Cache zum Speichern einer Vielzahl von zuletzt erkannten Wörtern umfasst, und dass die Spracherkennungseinheit eine Abgleicheinheit auf Wortfolgenebene zum Auswählen einer Wortfolge aus der Vielzahl von Wortfolgen in Abhängigkeit von einem statistischen Sprachmodell umfasst, das eine Wahrscheinlichkeit einer Folge von M Wörtern, M ≥ 2, liefert, wobei die Wahrscheinlichkeit von einer Auftretenshäufigkeit der Folge im Cache abhängt. Durch die Verwendung eines Cache verfolgt das System das jüngste Verhalten des Benutzers. Auch wenn die Gesamtzahl von Wortfolgen wie Telefonnummern riesig sein kann und es schwierig sein kann, statistisch zwischen den Zahlen auf eine allgemeine Weise zu unterscheiden, ist das wohl für einzelne Benutzer nicht der Fall. Beispielsweise ist die Anzahl der von einer Einzelperson verwendeten Telefonnummern im Allgemeinen auf weniger als hundert beschränkt. Außerdem werden einige Nummern wesentlich häufiger verwendet als andere. In ähnlicher Weise kann es bei der Steuerung schwierig sein, allgemein verwendete Befehlsfolgen zu ermitteln. Viele einzelne Benutzer bevorzugen jedoch bestimmte Methoden, um Systeme zu bedienen. Dieses typische Benutzerverhalten kann in dem Cache effektiv „erfasst" werden. Beispielsweise gibt ein Benutzer, der regelmäßig eine Webseite über Lagerbestände besucht, wahrscheinlich regelmäßig die Befehlsfolge „,Explorer öffnen',,Favoriten',,Lagerbestand'" ein. Durch das Speichern dieser Folge von drei Befehlen im Cache kann diese Folge als wahrscheinlicher als die meisten anderen Folgen von drei Befehlen ausgewählt werden. Durch die Verwendung der im Cache für das Sprachmodell gespeicherten Daten wird ein Sprachmodell benutzt, das an den einzelnen Benutzer und das jüngste Verhalten des Benutzers angepasst ist. Vorzugsweise wird eine Wortfolge nur im Cache gespeichert, wenn die Wortfolge „erfolgreich" erkannt wurde, beispielsweise wenn die erkannte Telefonnummer zur Herstellung einer Telefonverbindung führte.
  • Bei einem Ausführungsbeispiel, wie es in dem abhängigen Anspruch 2 definiert ist, wird eine Backing-off-Strategie angewendet, bei der das Sprachmodell eine Wahrscheinlichkeit ungleich Null sowohl für Cache-Treffer als auch für Cache-Fehltreffer liefert. Auf diese Weise haben Wortfolgen, die zu einem Cache-Fehltreffer führen, noch eine angemessene Chance ausgewählt und nicht von einer Wortfolge unterdrückt zu werden, die im ersten Erkennungsschritt als weniger wahrscheinlich (beispielsweise phonetisch weniger ähnlich) identifiziert wurde, aber im Cache vorliegt (und infolgedessen eine erhöhte Mutmaßlichkeit erhält, indem das Sprachmodell verwendet wird). Dadurch wird auch die Verwendung eines relativ kleinen Cache möglich.
  • Bei einem Ausführungsbeispiel, wie es in dem abhängigen Anspruch 3 definiert ist, wird ein normierter Wert für Cache-Fehltreffer verwendet. Außerdem konvergiert die Mutmaßlichkeit von Cache-Treffern in dem Maße auf den normierten Wert, wie die Auftretenshäufigkeit im Cache abnimmt. Dadurch wird ein sanfter Übergang in der Mutmaßlichkeit zwischen Cache-Treffern und Cache-Fehltreffern geschaffen.
  • Bei einem Ausführungsbeispiel, wie es in dem abhängigen Anspruch 4 definiert wird, wird ein Abzugsparameter verwendet, um die Auswirkung von Cache-Treffern auf die Mutmaßlichkeit zu reduzieren und die Wahrscheinlichkeiten somit noch weiter zu glätten.
  • Bei einem Ausführungsbeispiel, wie es in dem abhängigen Anspruch 5 definiert ist, wird ein einfaches Sprachmodell verwendet, um zwischen Ketten (oder Teilketten) auszuwählen, indem die gesamte (Teil-)Kette mit einzelnen Wörtern im Cache verglichen wird. Die relative Anzahl von Cache-Treffern liefert kombiniert mit Glättungsoperationen die Wahrscheinlichkeit der (Teil-)Kette.
  • Bei einem Ausführungsbeispiel, wie es in dem abhängigen Anspruch 6 definiert ist, wird ein M-Gram-Sprachmodell verwendet, das den Vergleich von lediglich M Wörtern (oder weniger als M, wenn die Folge noch kürzer ist) anstelle der gesamten Folge mit dem Cache ermöglicht. Vorteilhafterweise wird im Fall eines Cache-Fehltreffers für die M-Wortfolge zu einer kürzeren Folge (von M-1 Wörtern) zurückgegangen ("backing-off). Insbesondere für Telefonnummern ermöglicht dies eine bessere Erkennung von lokalen Nummern, die mit derselben Ziffernfolge beginnen, auch wenn sich die spezielle Nummer noch nicht im Cache befindet.
  • Bei einem Ausführungsbeispiel, wie es in dem abhängigen Anspruch 7 definiert ist, wird ein spezielles Symbol verwendet (und vorzugsweise auch im Cache für jede erkannte Folge gespeichert), um Folgen voneinander zu trennen. Wenn beispielsweise ein spezielles Symbol für den Anfang einer Folge verwendet wird, führt eine neue Folge (mit diesem speziellen Symbol und einigen folgenden Wörtern) automatisch nur dann zu Treffern, wenn die Wörter tatsächlich an derselben Stelle in der Folge auftreten.
  • Vorzugsweise wird mindestens ein Trigram verwendet, das eine gute Unterscheidung der möglichen Wortfolgen erlaubt. Vorteilhafterweise wird ein Viergram oder Fünfgram verwendet, das ein gutes Gleichgewicht zwischen genauer Auswahl und Richtigkeit des Sprachmodells schafft und einen relativen kleinen Cache von beispielsweise 100 Einträgen nutzt.
  • Diese und andere Aspekte der Erfindung sind in den Zeichnungen dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
  • 1 ein Blockschaltbild eines erfindungsgemäßen Mustererkennungssystems;
  • 2 Wortmodelle, die für die akustische Erkennung verwendet werden;
  • 3 die Ergebnisse beim Einsatz eines Trigram-Cachemodells;
  • 4 die Ergebnisse beim Einsatz eines Viergram-Cachemodells und
  • 5 einen Vergleich der Ergebnisse eines M-Gram-Cachemodells mit einem Cachemodell für vollständige Folgen.
  • 1 zeigt ein Blockschaltbild eines erfindungsgemäßen Mustererkennungssystems 100 mit kleinem Vokabular zum Erkennen von Wortfolgen, wie Ziffernketten oder Befehlsfolgen. Das erfindungsgemäße Erkennungsverfahren kann sowohl in einem Spracherkennungssystem als auch in einem System zum Erkennen geschriebener oder eingetippter Wörter verwendet werden. Als Beispiel zeigt 1 ein kontinuierliches Spracherkennungssystem 100. Das erfindungsgemäße Verfahren kann genauso gut für diskrete Spracherkennungssysteme verwendet werden. Systeme mit ähnlichem Aufbau wie in 1 gezeigt sind für die Erkennung von Handschrift oder gedrucktem Text bekannt. Das Spracherkennungssystem 100 aus 1 umfasst ein Spektralanalyse-Teilsystem 110 und ein Teilsystem zum Einheitenabgleich 120. In dem Spektralanalyse-Teilsystem 110 wird das Spracheingangssignal (engl. speech input signal, SIS) spektral bzw. zeitlich analysiert, um einen repräsentativen Merkmalsvektor (Beobachtungsvektor, engl. observation vector, OV) zu berechnen. Typischerweise wird das Sprachsignal digitalisiert (beispielsweise mit einer Rate von 6,67 kHz abgetastet) und vorverarbeitet, indem beispielsweise eine Vorverzenung angewendet wird. Aufeinander folgende Abtastwerte werden gruppenweise (blockweise) zu Frames zusammengefasst, die beispielsweise 32 ms des Sprachsignals entsprechen. Aufeinander folgende Frames überlappen sich teilweise, beispielsweise um 16 ms. Häufig wird das LPC-Spektralanalyseverfahren (engl. Linear Predictive Coding) angewendet, um für jeden Frame einen repräsentativen Merkmalsvektor (Beobachtungsvektor) zu berechnen. Der Merkmalsvektor kann zum Beispiel 24, 32 oder 63 Komponenten aufweisen. Viele Spracherkennungssysteme setzen ein Wahrscheinlichkeitsmodell der Spracherzeugung voraus, wobei eine spezielle Wortfolge W = w1w2w3...wq eine Folge von akustischen Beobachtungsvektoren Y = y1y2y3...yT erzeugt. Der Erkennungsfehler kann statistisch minimiert werden, indem die Wortfolge w1w2w3...wq bestimmt wird, bei der die Wahrscheinlichkeit am größten ist, dass sie die beobachtete Folge von Beobachtungsvektoren y1y2y3...yT (über der Zeit t = 1,..., T) verursacht hat, wobei die Beobachtungsvektoren das Ergebnis des Spektralanalyse-Teilsystems 110 sind. Hieraus ergibt sich die Bestimmung der maximalen a-posteriori-Wahrscheinlichkeit:
    max P(W|Y) für alle möglichen Wortfolgen W
  • Durch die Anwendung des Bayesschen Satzes zu bedingten Wahrscheinlichkeiten ergibt sich P(W|Y) aus: P(W|Y) = P(Y|W).P(W)/P(Y)
  • Da P(Y) unabhängig von W ist, ergibt sich die Wortfolge mit der höchsten Wahrscheinlichkeit aus: arg max P(Y|W).P(W) für alle möglichen Wortfolgen W (1)
  • In dem Teilsystem zum Einheitenabgleich 120 liefert ein akustisches Modell den ersten Term der Gleichung (1). Das akustische Modell wird dazu verwendet, die Wahrscheinlichkeit P(Y|W) einer Folge von Beobachtungsvektoren Y für eine gegebene Wortkette W zu schätzen. Dies kann von dem Teilsystem zum Einheitenabgleich 120 durchgeführt werden, indem die Beobachtungsvektoren mit einem Verzeichnis von Spracherkennungseinheiten abgeglichen werden. Eine Spracherkennungseinheit wird durch eine Folge von akustischen Bezugswerten dargestellt. Es können verschiedene Formen von Spracherkennungseinheiten verwendet werden. Beispielsweise kann eine ganzes Wort oder sogar eine Gruppe von Worten, wie ein Befehl, der aus mehr als einem Wort besteht, durch eine einzelne Spracherkennungseinheit dargestellt werden. Ein Wortmodell (WM) liefert für jedes Wort eines gegebenen Vokabulars eine Transkription in eine Folge von akustischen Bezugswerten. Bei den meisten Systemen mit kleinem Vokabular wird ein ganzes Wort durch eine Spracherkennungseinheit dargestellt, wobei dann eine direkte Beziehung zwischen dem Wortmodell und der Spracherkennungseinheit besteht. Bei anderen Systemen mit kleinem Vokabular, die beispielsweise für das Erkennen einer relativ großen Anzahl (beispielsweise mehrere hundert) von Befehlen eingesetzt werden, können für die Spracherkennungseinheit Teilworteinheiten auf linguistischer Basis, wie Einzellaute, Doppellaute oder Silben, sowie abgeleitete Einheiten, wie Phenene und Phenone verwendet werden. Bei der letztgenannten Kategorie von Systemen können ein Wortmodell durch ein Lexikon 134, das die Folge von Teilworteinheiten beschreibt, die sich auf ein Wort des Vokabulars beziehen, und die Teilwortmodelle 132 vorgegeben werden, die Folgen von akustischen Bezugswerten der betreffenden Spracherkennungseinheit beschreiben. Eine Wortmodell-Zusammensetzungseinheit 136 setzt das Wortmodell basierend auf dem Teilwortmodell 132 und dem Lexikon 134 zusammen.
  • In 2A ist ein Wortmodell 200 für ein System dargestellt, das auf Ganzwort-Spracherkennungseinheiten basiert, wobei die Spracherkennungseinheit des gezeigten Wortes unter Verwendung einer Folge von zehn akustischen Bezugswerten (201 bis 210) modelliert wird. In 2B ist ein Wortmodell 220 für ein System dargestellt, das auf Teilworteinheiten basiert, wobei das gezeigte Wort durch eine Folge von drei Teilwortmodellen (250, 260 und 270) jeweils mit einer Folge von vier akustischen Bezugswerten (251, 252, 253, 254; 261 bis 264; 271 bis 274) modelliert wird. Die in 2 dargestellten Wortmodelle basieren auf Hidden-Markov-Modellen (HMM), die häufig verwendet werden, um Sprach- und Handschriftsignale stochastisch nachzubilden. Mit Hilfe dieses Modells ist jede Erkennungseinheit (Wortmodell oder Teilwortmodell) typischerweise durch ein HMM gekennzeichnet, dessen Parameter aus einem Trainingsdatensatz geschätzt werden. Im Allgemeinen wird ein begrenzter Satz von beispielsweise 40 Teilworteinheiten verwendet, da eine große Anzahl von Trainingsdaten erforderlich wäre, um ein HMM für größere Einheiten in geeigneter Weise zu trainieren. Ein HMM-Zustand entspricht einem akustischen Bezugswert (zur Spracherkennung) oder einem allografischen Bezugswert (zur Handschrifterkennung). Es sind zahlreiche Verfahren zum Modellieren eines Bezugswertes bekannt, einschließlich diskreter oder kontinuierlicher Wahrscheinlichkeitsdichten.
  • Ein Abgleichsystem auf Wortebene 130, wie es in 1 dargestellt ist, gleicht die Beobachtungsvektoren mit allen Folgen von Spracherkennungseinheiten ab und liefert die Mutmaßlichkeiten einer Übereinstimmung zwischen dem Vektor und einer Folge. Werden Teilworteinheiten verwendet, wird der Abgleich eingeschränkt, indem das Lexikon 134 benutzt wird, um die mögliche Folge von Teilworteinheiten auf Folgen im Lexikon 134 zu beschränken. Dadurch wird das Ergebnis auf mögliche Folgen von Wörtern reduziert. Erfindungsgemäß nutzt ein Abgleichsystem auf Folgenebene 140 ein Sprachmodell 150 (engl. language model, LM), um den Abgleich weiter einzuschränken, so dass die untersuchten Pfade diejenigen sind, die Wortfolgen entsprechen, welche wahrscheinliche Folgen sind, wie sie vom Sprachmodell definiert sind. Auf diese Weise ist das Ergebnis am Ausgang des Teilsystems zum Einheitenabgleich 120 eine erkannte Wortfolge (recognized word sequence, RS), wie eine Ziffernkette (beispielsweise eine Telefonnummer) oder ein aus mehreren Wörtern bestehender Befehl. In dem erfindungsgemäßen System, das auf Erkennung mit kleinem Vokabular mit vielen möglichen Wortfolgen abzielt, wird im Prinzip keine Wortfolge vom Sprachmodell ausgeschlossen. Da für einige Folgen keine zuverlässigen statistischen Daten zur Verfügung stehen (weder aus allgemeinen Quellen noch aus der speziellen Nutzung durch den Benutzer), werden diese Folgen einfach als weniger wahrscheinlich (aber noch möglich) angesehen. Im Gegensatz zu Systemen mit großem Vokabular ist die Erkennung nicht auf Wortfolgen beschränkt, die das Sprachmodell explizit kennt.
  • Erfindungsgemäß ist das Sprachmodell 150 ein statistisches Sprachmodell, das eine Wahrscheinlichkeit einer Folge von M Wörtern, M ≥ 2, liefert. Die Wahrscheinlichkeit einer Wortfolge hängt von einer Auftretenshäufigkeit der Folge im Cache ab. Durch die Verwendung eines Cache wird das System an einen speziellen Benutzer angepasst und verfolgt gleichzeitig das jüngste Verhalten des Benutzers. Die Spracherkennungseinheit 100 speichert die erkannte Wortfolge in dem Cache. Vorzugsweise wird eine Wortfolge nur im Cache gespeichert, wenn die Wortfolge „erfolgreich" erkannt wurde, beispielsweise wenn die erkannte Telefonnummer zur Herstellung einer Telefonverbindung führte. In den meisten Systemen mit kleinem Vokabular muss die Kapazität des Cache aus Kostengründen beschränkt werden (beispielsweise wenn er in einem Mobiltelefon verwendet wird). In derartigen Systemen wird der Cache vorzugsweise gemäß einem FIFO-Prinzip (engl. first-in, first-out)) betrieben. Ist der Cache einmal vollständig belegt, wird jedes Mal, wenn das System eine neu erkannte Wortfolge in den Cache lädt, die Wortfolge (oder mehrere Wortfolgen, wenn die neue Wortfolge länger ist), die am längsten im Cache gespeichert war, entfernt. Es ist vorteilhaft, wenn ein paar Speicherplätze im Cache für die permanente Nutzung reserviert werden. An derartigen Plätzen kann der Benutzer wichtige Wortfolgen speichern, die nicht häufig verwendet werden. Zum Beispiel könnte der Benutzer die Notfallrufnummer an einem derartigen Platz speichern. Im Besonderen für die sprachgesteuerte Wahl von Telefonnummern sollte es das System vorzugsweise auch ermöglichen, dass häufig verwendete Wortfolgen (beispielsweise Telefonnummern) mittels eines leichter zu merkenden oder kürzeren Wortes (oder Wortfolge) gewählt werden. Die Telefonnummern von Familienangehörigen und Freunden können beispielsweise zusammen mit einem Sprachbefehl, zum Beispiel mit einem Name des Familienangehörigen oder Freundes, gespeichert werden. Es ist vorzugsweise möglich, mehrere alternative Sprachbefehle zusammen mit einer Telefonnummer (oder allgemeiner einer Wortfolge) zu speichern. Es kann bei wichtigen, aber nicht häufig verwendeten Wortfolgen schwierig sein, sich an den gespeicherten zugehörigen Sprachbefehl zu erinnern. Es kann beispielsweise schwierig sein, sich daran zu erinnern, ob die Notfall-Telefonnummer zusammen mit dem Sprachbefehl „Notfall", „Polizei", „Feuerwehr", „Krankenwagen" oder „Krankenhaus" oder noch einem anderen Namen gespeichert wurde. Daher ist es vorteilhaft, die nicht häufig verwendete Wortfolge permanent im Cache zu speichern, so dass die Wortfolge vollständig gesprochen werden kann, was im Fall der Notfallnummer im Allgemeinen darauf hinausläuft, eine relativ kurze, wohlbekannte Telefonnummer zu sprechen.
  • Im Folgenden werden zwei bevorzugte Sprachmodelle dargelegt. Der Fachkundige wird in der Lage sein, alternative Sprachmodelle zu entwickeln, indem er die gegebenen Modelle variiert. Die gegebenen Modelle haben die folgenden Konzepte gemeinsam. Es ist zu beachten, dass alternative Modelle die gleichen Konzepte verwenden können, aber nicht unbedingt müssen.
    • • Die Wahrscheinlichkeit einer Wortfolge hängt davon ab, ob die Wortfolge im Cache auftritt oder nicht. In beiden Fällen wird eine Wahrscheinlichkeit ungleich Null verwendet. Auf diese Weise kann im Prinzip jedes Wort im Vokabular erkannt werden, selbst wenn es nicht im Cache vorliegt.
    • • Um einen sanften Übergang zwischen der Wahrscheinlichkeit der Wortfolge für den Fall, dass sich die Folge im Cache befindet, und Wahrscheinlichkeit der Wortfolge für den Fall, dass sich die Folge nicht im Cache befindet, sicherzustellen, ergibt sich die Wahrscheinlichkeit einer Wortfolge aus: – einem normierten Wert ungleich Null, wenn die Wortfolge nicht im Cache auftritt; und sonst – einer Summierung des normierten Wertes und eines sich auf die Häufigkeit beziehenden Terms, der von der Auftretenshäufigkeit der Wortfolge im Cache abhängt. Der Term, der sich auf die Häufigkeit bezieht, liefert vorzugsweise einen Beitrag zur Wahrscheinlichkeit, die bei Abnahme der Auftretenshäufigkeit auf Null gegen Null konvergiert und zunimmt, wenn die Auftretenshäufigkeit zunimmt (wahlweise, beschränkt auf eine maximale Wahrscheinlichkeit).
    • • Damit sichergestellt wird, dass die Wahrscheinlichkeit von Wortfolgen im Cache nicht überbewertet wird, wird in den häufigkeitsbezogenen Term ein Abzugsparameter D integriert, der von der Auftretenshäufigkeit der Wortfolge im Cache oder von der Wahrscheinlichkeit subtrahiert wird.
  • Das Sprachmodell 150 liefert die Wahrscheinlichkeit einer Wortfolge W = w1w2w3...wq, die sich im Prinzip ergibt aus: P(W) = P(w1)P(w2|w1).P(w3|w1w2)...P(wq|w1w2w3...wq).
  • Der Term P(W), der den zweiten Term der Gleichung (1) bestimmt, wird durch die beiden folgenden Modelle angenähert. Beide Modelle sind ausgerichtet auf die Erkennung von Ziffernketten (d. h. ein Wort stellt eine Ziffer dar), können jedoch genauso gut für andere Formen der Erkennung mit kleinem Vokabular von Wortfolgen eingesetzt werden.
  • Cache-Modell für vollständige Folgen
  • Bei diesem Modell ist der Cache so ausgelegt, dass er die letzten L erkannten Wortfolgen speichert. Die Wortfolgen im Cache können identifiziert werden. Jede Wortfolge ist begrenzt auf eine vorher festgelegte Folgenlänge MAX. Für die meisten Telefonnummern kann eine praktische Begrenzung auf 14 Ziffern in einer Folge verwendet werden. Der Cache kann einfach aufgebaut sein mit L Speicherplätzen, wobei jeder eine vollständige Folge (von bis zu MAX Wörtern/Ziffern) speichern kann. Da in vielen Situationen die Folge kürzer als die maximal zulässige Länge ist, können auch andere Cacheanordnungen verwendet werden. Es kann beispielsweise eine Tabelle mit L Einträgen verwendet werden, die als Index (Zeiger) zu einer größeren Tabelle dienen, in der die tatsäch lichen Folgen gespeichert sind. Wird eine durchschnittliche Folgenlänge angenommen, die wesentlich kürzer als MAX ist, können auf diese Weise mit der gleichen Speicherkapazität mehr Einträge gespeichert werden (L kann größer sein).
  • Das Sprachmodell bestimmt die bedingte Wahrscheinlichkeit einer Folge s von Wörtern bis zu einer Länge MAX als:
    Figure 00110001
  • In dieser Formel ist n(s) die Auftretenshäufigkeit der Wortfolge s im Cache. D ist der Abzugsparameter. γ ist der normierte Wert, der auf herkömmliche Weise ermittelt werden kann, indem die Wahrscheinlichkeiten der Wortfolgen auf eine gesamte gesammelte Wahrscheinlichkeit von 1 normiert wird.
  • Das Sprachmodell kann verwendet werden, um die Erkennung der vollständigen Folge zu unterstützen. Wenn nur ein Teil der Folge mit Hilfe des akustischen Modells verarbeitet wurde, können alternativ die bis dahin identifizierten möglichen Folgen mit Hilfe desselben Modells verarbeitet werden, wobei s dann die bis dahin identifizierte Teilkette darstellt.
  • M-Gram-Cache-Modell
  • Bei diesem Modell basiert die Wahrscheinlichkeit einer Folge auf den letzten M Wörtern der Folge. Das Sprachmodell bestimmt die bedingte Wahrscheinlichkeit eines Wortes wi, wenn eine vorhergehende Folge von Wörtern wi–1 ... wi–M+1 gegeben ist als:
    Figure 00110002
    wobei n(wi ... wi–M+1) die Auftretenshäufigkeit der Wortfolge wi ... wi–M+1 im Cache ist, γ(wi–1 ... wi–M+1) P (wi|wi–i ... wi–M+2) der normierte Wert ist und DM der Abzugsparameter ist.
  • Zur Erkennung von Telefonnummern wurde ein Cache zum Speichern von 500 Ziffern als geeignet befunden. Abhängig von dem Wert von M kann der Abzugsparameter DM so gewählt werden, dass beste Ergebnisse erzielt werden. Gute Ergebnisse wurden erzielt mit D2 = 0,96, D3 = 0,97 und D4 = 0,27.
  • Im Prinzip können alle zuletzt erkannten Wortfolgen einfach im Cache verkettet werden. Da nur M Wörter der Folgen verwendet werden, ist kein vollständiger Vergleich zwischen einer von dem akustischen Modell erzeugten Folge und den im Cache gespeicherten Folgen erforderlich. Der Cache als solcher muss keinen speziellen Aufbau haben, der eine leichte Identifizierung des Anfangs (und/oder Endes) der Folgen ermöglicht. Durch einfache Verkettung der Folgen im Cache können viele Folgen gespeichert werden, wenn häufig kurze Folgen verwendet werden. Indem es ermöglicht wird, dass die Teilfolge von M-Wörtern im Prinzip an beliebiger Stelle in den gespeicherten Folgen auftritt, insbesondere bei Befehls- und Steuerungsanwendungen, bei denen gewisse Teilfolgen von Wörtern in mehreren längeren Folgen auftreten, können die Teilfolgen besser erkannt werden.
  • Bei einem bevorzugten Ausführungsbeispiel ist der Cache so aufgebaut, dass ein separates Trennsymbol für eindeutige Wörter verwendet wird, das ein Ende oder einen Anfang einer Wortfolge darstellt, und die Wortfolgen einschließlich des Worttrennsymbols gespeichert werden. Auf diese Weise können Wortfolgen leicht im Cache identifiziert und gleichzeitig die Folgen immer noch verkettet werden (und somit nicht viel Platz verschwendet werden, mit Ausnahme des Worttrennsymbols). Dieses Verfahren kann auch für das Cache-Modell für vollständige Folgen eingesetzt werden. Das Worttrennsymbol identifiziert vorzugsweise den Anfang einer Wortfolge. Insbesondere in Kombination mit dem M-Gram-Cache-Modell kann das Worttrennsymbol als Teil der Folge angesehen werden. Auf diese Weise werden M-Teilfolgen nur dann als im Cache vorhanden identifiziert, wenn die Position der eingegebenen Teilfolge in der eingegebenen Gesamtfolge der Position der Teilfolge in der gespeicherten Folge entspricht. Dies ist besonders nützlich für die Erkennung von Telefonnummern, bei denen es gewöhnlich wichtig ist, dass die tatsächlichen M-Ziffern an derselben Stelle auftreten.
  • Das M-Gram-Cache-Modell wurde für die Erkennung von Telefonnummern, die von drei Personen verwendet werden, getestet. Die Benutzer LDC und LDC1 führen häufig Ferngespräche. WCC ruft hauptsächlich dreistellige Nummern innerhalb des Unternehmens an. Die Länge der Telefonnummern (einschließlich eines Telefonnummer-Trennsymbols) ist in der folgenden Tabelle wiedergegeben:
  • Figure 00130001
  • 3 zeigt die für einen Trigam-Cache (M=3) erzielten Ergebnisse für die drei Personen und für verschiedene Cachegößen (in Ziffern). Es ist ersichtlich, dass für Cachegößen von 100 oder 200 Ziffern bereits eine erhebliche Reduzierung der Perplexität auftritt. Bei einem System ohne einen Cache beträgt die Perplexität (die ausdrückt, wie viele Ziffern wahrscheinlich folgen) elf in dem Fall, dass 10 Ziffern und ein Trennsymbol verwendet werden. Bei dem Durchschnitt der drei Personen wird die Perplexität auf ca. 5,8 für einen 200-Ziffern-Cache und auf 5,7 für einen 500-Ziffern-Cache reduziert.
  • 4 zeigt die für einen Viergam-Cache (M=4) erzielten Ergebnisse. Aus den beiden 3 und 4 ist klar ersichtlich, dass alle drei Personen von der Verwendung des Cache profitieren. Das Ausmaß ist jedoch unterschiedlich. Bei M = 3 und 4 profitiert insbesondere die Person WCC, die hauptsächlich kurze Nummern verwendet. Da die meisten von WCC verwendeten Nummern sehr kurz sind, liefert das Viergam-Modell für WCC kaum Verbesserungen gegenüber dem Trigam-Modell, während für LDC und LDC1 noch eine Verbesserung zu beobachten ist.
  • 5 zeigt die Ergebnisse für alle drei Personen zusammengefasst für verschiedene Werte von M und für verschiedene Werte des Cache. Dies bestätigt, dass im Allgemeinen die Verwendung eines Viergam-Modells eine wesentliche Verbesserung gegenüber der Verwendung eines Trigam-Modells bietet. Mit einem Fünfgram-Modell konnte während der Tests jedoch das gleiche Ergebnis wie mit dem Viergam-Modell erzielt werden. 5 zeigt außerdem das Ergebnis der Verwendung des Cache-Modells für vollständige Folgen, das in der Figur mit CNC gekennzeichnet ist. Dieses Modell ergab eine noch geringere Perplexität. Bei bestimmten Anwendungen kann es jedoch einfacher sein, die M-Gram-Modelle zu verwenden, da diese Modelle die freie Wahl der Folgenlänge ermöglichen.
  • Text in den Figuren
    • Figur 3–5
      Perplexity Perplexität
      Average Durchschnitt
      Length of cache Cachelänge

Claims (10)

  1. Mustererkennungssystem zum Erkennen einer Wortfolge, das Folgendes umfasst: ein Vokabular, das eine Darstellung einer Vielzahl von Bezugswörtern speichert; Eingabemittel zum Empfangen eines zeitsequentiellen Eingangsmusters, das eine gesprochene oder geschriebene Wortfolge (SIS) darstellt; eine Mustererkennungseinheit, die eine Abgleicheinheit auf Wortebene (130) zum Erzeugen einer Vielzahl von Wortfolgen durch statistischen Vergleich des Eingangsmusters mit den Darstellungen der Bezugswörter des Vokabulars umfasst; dadurch gekennzeichnet, dass das System einen Cache zum Speichern einer Vielzahl von zuletzt erkannten Wörtern umfasst; und dass die Spracherkennungseinheit eine Abgleicheinheit auf Folgenebene (140) zum Auswählen einer Wortfolge aus der Vielzahl von Wortfolgen in Abhängigkeit von einem statistischen Sprachmodell (150) umfasst, das eine Wahrscheinlichkeit einer Folge von M Wörtern, M ≥ 2, liefert, wobei die Wahrscheinlichkeit von einer Auftretenshäufigkeit der Folge im Cache abhängt.
  2. System nach Anspruch 1, wobei die Wahrscheinlichkeit ferner davon abhängt, ob die Wortfolge im Cache auftritt oder nicht, wobei in beiden Fällen die Wahrscheinlichkeit ungleich Null ist.
  3. System nach Anspruch 2, wobei sich die Wahrscheinlichkeit einer Wortfolge ergibt aus: – einem normierten Wert ungleich Null, wenn die Wortfolge nicht im Cache auftritt; und sonst – einer Summierung des normierten Wertes und eines sich auf die Häufigkeit beziehenden Terms, der von der Auftretenshäufigkeit der Wortfolge im Cache abhängt.
  4. System nach Anspruch 3, wobei der sich auf die Häufigkeit beziehende Term einen Abzugsparameter D beinhaltet, der von der Auftretenshäufigkeit der Wortfolge im Cache subtrahiert wird.
  5. System nach Anspruch 3, wobei der Cache so ausgelegt ist, dass er die letzten L erkannten Wortfolgen als identifizierbare Wortfolgen speichert, wobei jede Wortfolge auf eine vorher festgelegte Folgenlänge beschränkt ist und das Sprachmodell die bedingte Wahrscheinlichkeit einer Folge s von Wörtern bis zu der vorher festgelegten Folgenlänge definiert als:
    Figure 00170001
    wobei n(s) die Auftretenshäufigkeit der Wortfolge s im Cache ist und γ der normierte Wert ist.
  6. System nach Anspruch 3, wobei das Sprachmodell die bedingte Wahrscheinlichkeit eines Wortes wi bestimmt, wenn eine vorhergehende Folge von Wörtern wi–1 ... wi–M+1 gegeben ist als:
    Figure 00170002
    wobei n(wi ... wi–M+1) die Auftretenshäufigkeit der Wortfolge wi ... wi–M+1 im Cache ist und γ(wi–1 ... wi–M+1)P(wi|wi–1 ... wi–M+2) der normierte Wert ist.
  7. System nach Anspruch 6, wobei ein Ende oder ein Anfang einer Wortfolge durch ein separates Trennsymbol für eindeutige Wörter dargestellt wird, wobei der Cache so ausgelegt ist, dass er zuletzt erkannte Wortfolgen einschließlich des Worttrennsymbols speichert.
  8. System nach Anspruch 1, wobei M mindestens drei beträgt.
  9. System nach Anspruch 1, wobei M vier oder fünf beträgt.
  10. System nach Anspruch 1, wobei ein Wort eine Ziffer oder einen Befehl darstellt.
DE69919842T 1998-12-21 1999-12-16 Sprachmodell basierend auf der spracherkennungshistorie Expired - Fee Related DE69919842T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP98204354 1998-12-21
EP98204354 1998-12-21
PCT/EP1999/010181 WO2000038175A1 (en) 1998-12-21 1999-12-16 Language model based on the speech recognition history

Publications (2)

Publication Number Publication Date
DE69919842D1 DE69919842D1 (de) 2004-10-07
DE69919842T2 true DE69919842T2 (de) 2005-09-01

Family

ID=8234505

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69919842T Expired - Fee Related DE69919842T2 (de) 1998-12-21 1999-12-16 Sprachmodell basierend auf der spracherkennungshistorie

Country Status (5)

Country Link
US (1) US6823307B1 (de)
EP (1) EP1055227B1 (de)
JP (1) JP2002533771A (de)
DE (1) DE69919842T2 (de)
WO (1) WO2000038175A1 (de)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6741963B1 (en) * 2000-06-21 2004-05-25 International Business Machines Corporation Method of managing a speech cache
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
US7506046B2 (en) * 2001-07-31 2009-03-17 Hewlett-Packard Development Company, L.P. Network usage analysis system and method for updating statistical models
WO2003017252A1 (de) * 2001-08-13 2003-02-27 Knittel, Jochen Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge
US20090106251A1 (en) * 2001-10-24 2009-04-23 Harris Scott C Web based communication of information with reconfigurable format
US7143035B2 (en) * 2002-03-27 2006-11-28 International Business Machines Corporation Methods and apparatus for generating dialog state conditioned language models
US8234115B2 (en) * 2002-03-29 2012-07-31 At&T Intellectual Property Ii, L.P. Systems and methods for determining the N-best strings
TWI225640B (en) * 2002-06-28 2004-12-21 Samsung Electronics Co Ltd Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device
ATE508455T1 (de) * 2002-09-27 2011-05-15 Callminer Inc Verfahren zur statistischen analyse von sprache
JP4367713B2 (ja) * 2003-01-15 2009-11-18 パナソニック株式会社 放送受信方法、放送受信システム、第1装置、第2装置、音声認識方法、音声認識装置、プログラム及び記録媒体
US7805299B2 (en) * 2004-03-01 2010-09-28 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
US7529671B2 (en) * 2003-03-04 2009-05-05 Microsoft Corporation Block synchronous decoding
JP2005010691A (ja) * 2003-06-20 2005-01-13 P To Pa:Kk 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
US7460652B2 (en) 2003-09-26 2008-12-02 At&T Intellectual Property I, L.P. VoiceXML and rule engine based switchboard for interactive voice response (IVR) services
US7356475B2 (en) 2004-01-05 2008-04-08 Sbc Knowledge Ventures, L.P. System and method for providing access to an interactive service offering
US7136459B2 (en) * 2004-02-05 2006-11-14 Avaya Technology Corp. Methods and apparatus for data caching to improve name recognition in large namespaces
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
CN1957397A (zh) * 2004-03-30 2007-05-02 先锋株式会社 声音识别装置和声音识别方法
US7936861B2 (en) 2004-07-23 2011-05-03 At&T Intellectual Property I, L.P. Announcement system and method of use
US8165281B2 (en) 2004-07-28 2012-04-24 At&T Intellectual Property I, L.P. Method and system for mapping caller information to call center agent transactions
US7580837B2 (en) 2004-08-12 2009-08-25 At&T Intellectual Property I, L.P. System and method for targeted tuning module of a speech recognition system
US7602898B2 (en) 2004-08-18 2009-10-13 At&T Intellectual Property I, L.P. System and method for providing computer assisted user support
US7197130B2 (en) 2004-10-05 2007-03-27 Sbc Knowledge Ventures, L.P. Dynamic load balancing between multiple locations with different telephony system
US7668889B2 (en) 2004-10-27 2010-02-23 At&T Intellectual Property I, Lp Method and system to combine keyword and natural language search results
US7657005B2 (en) * 2004-11-02 2010-02-02 At&T Intellectual Property I, L.P. System and method for identifying telephone callers
US7724889B2 (en) 2004-11-29 2010-05-25 At&T Intellectual Property I, L.P. System and method for utilizing confidence levels in automated call routing
US7242751B2 (en) 2004-12-06 2007-07-10 Sbc Knowledge Ventures, L.P. System and method for speech recognition-enabled automatic call routing
US7864942B2 (en) 2004-12-06 2011-01-04 At&T Intellectual Property I, L.P. System and method for routing calls
US7751551B2 (en) 2005-01-10 2010-07-06 At&T Intellectual Property I, L.P. System and method for speech-enabled call routing
US7627096B2 (en) 2005-01-14 2009-12-01 At&T Intellectual Property I, L.P. System and method for independently recognizing and selecting actions and objects in a speech recognition system
JP2008529101A (ja) * 2005-02-03 2008-07-31 ボイス シグナル テクノロジーズ インコーポレイテッド 移動通信装置の音声語彙を自動的に拡張するための方法及び装置
US7627109B2 (en) 2005-02-04 2009-12-01 At&T Intellectual Property I, Lp Call center system for multiple transaction selections
US8223954B2 (en) 2005-03-22 2012-07-17 At&T Intellectual Property I, L.P. System and method for automating customer relations in a communications environment
US7636432B2 (en) 2005-05-13 2009-12-22 At&T Intellectual Property I, L.P. System and method of determining call treatment of repeat calls
US8005204B2 (en) 2005-06-03 2011-08-23 At&T Intellectual Property I, L.P. Call routing system and method of using the same
US7657020B2 (en) 2005-06-03 2010-02-02 At&T Intellectual Property I, Lp Call routing system and method of using the same
US8503641B2 (en) 2005-07-01 2013-08-06 At&T Intellectual Property I, L.P. System and method of automated order status retrieval
US8526577B2 (en) 2005-08-25 2013-09-03 At&T Intellectual Property I, L.P. System and method to access content from a speech-enabled automated system
US8548157B2 (en) 2005-08-29 2013-10-01 At&T Intellectual Property I, L.P. System and method of managing incoming telephone calls at a call center
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US20070094270A1 (en) * 2005-10-21 2007-04-26 Callminer, Inc. Method and apparatus for the processing of heterogeneous units of work
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
US8831943B2 (en) 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
US20110054900A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20080288252A1 (en) * 2007-03-07 2008-11-20 Cerra Joseph P Speech recognition of speech recorded by a mobile communication facility
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US20080221900A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile local search environment speech processing facility
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20080221884A1 (en) 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US7983919B2 (en) 2007-08-09 2011-07-19 At&T Intellectual Property Ii, L.P. System and method for performing speech synthesis with a cache of phoneme sequences
US8682660B1 (en) * 2008-05-21 2014-03-25 Resolvity, Inc. Method and system for post-processing speech recognition results
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US8972260B2 (en) * 2011-04-20 2015-03-03 Robert Bosch Gmbh Speech recognition using multiple language models
US8676580B2 (en) * 2011-08-16 2014-03-18 International Business Machines Corporation Automatic speech and concept recognition
US9413891B2 (en) 2014-01-08 2016-08-09 Callminer, Inc. Real-time conversational analytics facility
JP5932869B2 (ja) 2014-03-27 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
US9251141B1 (en) * 2014-05-12 2016-02-02 Google Inc. Entity identification model training
CN107678561A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置
CN110004027A (zh) * 2019-04-16 2019-07-12 北京龙基高科生物科技有限公司 一种基因测序仪自动调平载物台
CN113066489A (zh) * 2021-03-16 2021-07-02 深圳地平线机器人科技有限公司 语音交互方法、装置、计算机可读存储介质及电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5937383A (en) * 1996-02-02 1999-08-10 International Business Machines Corporation Apparatus and methods for speech recognition including individual or speaker class dependent decoding history caches for fast word acceptance or rejection
CA2226233C (en) * 1997-01-21 2006-05-09 At&T Corp. Systems and methods for determinizing and minimizing a finite state transducer for speech recognition
US6070229A (en) * 1997-12-02 2000-05-30 Sandcraft, Inc. Cache memory cell with a pre-programmed state
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary

Also Published As

Publication number Publication date
US6823307B1 (en) 2004-11-23
DE69919842D1 (de) 2004-10-07
JP2002533771A (ja) 2002-10-08
EP1055227A1 (de) 2000-11-29
WO2000038175A1 (en) 2000-06-29
EP1055227B1 (de) 2004-09-01

Similar Documents

Publication Publication Date Title
DE69919842T2 (de) Sprachmodell basierend auf der spracherkennungshistorie
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE69009522T2 (de) Diagrammanalysator für stochastische Unifikationsgrammatik.
DE60123952T2 (de) Erzeugung von einem einheitlichen aufgabeabhängigen sprachmodell mittels informationsauffindungverfahren
DE69028430T2 (de) Effektiver Einschränkungsalgorithmus für Spracherkennung nach dem Hidden-Markov-Modell
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
EP1611568B1 (de) Dreistufige einzelworterkennung
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE69823644T2 (de) Auswahl von superwörtern auf der basis von kriterien aus spracherkennung sowie sprachverständnis
DE19510083A1 (de) Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
EP0836175B1 (de) Verfahren und Anordnung zum Ableiten wenigstens einer Folge von Wörtern aus einem Sprachsignal
EP1456837B1 (de) Verfahren und vorrichtung zur spracherkennung
DE60026366T2 (de) Spracherkennung mit einem komplementären sprachmodel für typischen fehlern im sprachdialog
DE69333762T2 (de) Spracherkennungssystem
EP1012828B1 (de) Verfahren zur erkennung eines schlüsselworts in gesprochener sprache
DE60025687T2 (de) Vorrichtung zum Spracherkennung mit Durchführung einer syntaktischen Permutationsregel
EP1125278B1 (de) Datenverarbeitungssystem oder kommunikationsendgerät mit einer einrichtung zur erkennung gesprochener sprache und verfahren zur erkennung bestimmter akustischer objekte
EP0813734B1 (de) Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird
EP2034472B1 (de) Spracherkennungsverfahren und Spracherkennungsvorrichtung
EP1136982A2 (de) Erzeugung eines Sprachmodells und eines akustischen Modells für ein Spracherkennungssystem
DE69908034T2 (de) Minimierung eines Suchnetzwerks für die Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee