DE69420842T2 - Spracherkennung unter anwendung einer zweidurchgängigen suchmethode - Google Patents

Spracherkennung unter anwendung einer zweidurchgängigen suchmethode

Info

Publication number
DE69420842T2
DE69420842T2 DE69420842T DE69420842T DE69420842T2 DE 69420842 T2 DE69420842 T2 DE 69420842T2 DE 69420842 T DE69420842 T DE 69420842T DE 69420842 T DE69420842 T DE 69420842T DE 69420842 T2 DE69420842 T2 DE 69420842T2
Authority
DE
Germany
Prior art keywords
model
candidates
allophone
parameter vectors
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69420842T
Other languages
English (en)
Other versions
DE69420842D1 (de
Inventor
Wishwa Gupta
Matthew Lennig
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks Ltd
Original Assignee
Nortel Networks Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nortel Networks Corp filed Critical Nortel Networks Corp
Publication of DE69420842D1 publication Critical patent/DE69420842D1/de
Application granted granted Critical
Publication of DE69420842T2 publication Critical patent/DE69420842T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

    Ausgangspunkt der Erfindung
  • Bei der Spracherkennung ist es gut bekannt, das Erkennungsvokabular als ein Netzwerk von miteinander verbundenen Knoten darustellen. Zweige zwischen den Knoten können Teile von Worten, Phonemen oder Allophonen sein. Allophon-Modelle sind kontaxtabhängige Phonem-Modelle. Die Allophone und Phoneme werden in vielen Fällen durch verdeckte Markov-Modelle (HMM - Hidden Markov Models) dargestellt. Somit kann irgendein Vokabular-Wort als eine Kette von miteinander verketteten HMM dargestellt werden. Die Erkennung einer unbekannten Äußerung oder eines unbekannten gesprochenen Wortes beinhaltet die Berechnung der die größte Wahrscheinlichkeit aufweisenden Folge von Zuständen in der HMM-Kette. Für mittlere bis große Vokabular-Spracherkennungssysteme stellt diese Berechnung eine sehr große Rechenlast dar.
  • Das gut bekannte Viterbi-Verfahren wertet die Wahrscheinlichkeiten für das Vokabular-Netzwerk dadurch aus, daß ein Gitter ausgebildet wird. Jedem Zweig in dem Vokabular-Netz ist ein Gitter oder Spalier zugeordnet. Das Gitter hat als seine Achsen die Rahmennummer als die Abszisse und den Modell-Zustand als die Ordinate. Dem Gitter sind so viele Zustände zugeordnet, wie dies der Anzahl von Zuständen in dem entsprechenden Allophon-Modell entspricht. Beispielsweise hat ein zehn Zustände aufweisendes Allophon-Modell zehn Zustände, die jedem Zweig in dem Vokabularnetzwerk mit diesem Etikett zugeordnet sind. Die Gesamtzahl von Operationen pro Rahmen für jedes Gitter ist proportional zur Gesamtzahl der Übergänge in dem entsprechenden Modell. So ist bei dem Zehn-Zustands-Allophonmodell mit dreißig Zuständen die Gesamtzahl der bei dem Viterbi-Verfahren auftretenden Operationen ungefähr 50 (30 Summen zur Abschätzung von 30 Übergängen plus 20 Maxima zur Bestimmung des besten Überganges bei jedem Zustand.
  • Das gut bekannte Viterbi-Verfahren kann zum Auffinden des wahrscheinlichsten Pfades durch das Vokabular-Netzwerk für eine vorgegebene Äußerung oder ein gesprochenes Wort verwendet werden. Bei dem Viterbi-Verfahren treten jedoch zwei Probleme auf. Erstens ist das Verfahren rechenmäßig kompliziert, weil es jeden Übergang in jedem Zweig für das gesamte Vokabular-Netzwerk auswertet, so daß die Hardware-Kosten prohibitiv oder zumindest sehr hoch sind. Die Berechnungskompliziertheit setzt sich in Kosten pro Kanal der Spracherkennung um. Zweitens ergibt das Viterbi-Verfahren lediglich eine einzige Auswahl, und die Schaffung von Alternativen vergrößert die Berechnungs- und Speicheranforderungen noch weiter. Eine einzige Auswahl beseitigt weiternin die Option der Schaffung von Nachverarbeitungsverbesserungen zur Vergrößerung der Erkennungsgenauigkeit.
  • Es wurden Vorschläge zur Verringerung der Rechenlast gemacht, die sich aus diesen 50 Operationen pro Modell ergibt. Bahl et al. (1989) (A Fast Approximate Accoustic Match for Large Vocabulary Speech Recognition. Proceedings of Eurospeech 89: European Conference of Speech Communication and Technology, Paris: 156-158) schlagen eine Umordnung der Berechnung für jeden Übergang durch Verwenden einer einzigen Übergangswahrscheinlichkeit für jedes HMM-Modell vor (Verwenden des Überganges mit der größten Wahrscheinlichkeit). Somit wird anstelle der Addition unterschiedlicher Aufzeichnungs-Beobachtungswahrscheinlichkeiten an den drei möglichen Gitterübergängen und der nachfolgenden Auswahl des Maximums das Maximum als erstes über die drei Gitter-Werte gebildet, worauf die aufgezeichnete Beobachtungswahrscheinlichkeit hinzuaddiert wird. Dies verringert die Berechnung von 5 auf 3 pro Übergang oder von 50 auf 30 für das Zehn-Zustands-Modell. Dies stellt eine Verringerung der Rechenlast dar, doch ermöglicht dies keine Antwort nach einer annehmbaren Verzögerung.
  • Ein weiterer Vorschlag von Bahl et al. (1992) (Constructing Candidate Word Lists Using Accoustically Similar Word Groups. IEEE Transactions on Signal Processing, Vol. 40, 11 : 2814-2816) versucht ebenfalls, diese Rechenlast zu verringern. Dieses Schema verwendet ein Drei-Zustands-Modell anstelle einer komplizierteren Topologie zur anfänglichen Einstufung mit dem Viterbi-Verfahren und verwendet dann die komplexe Topologie für eine Neueinstufung. Dieser Vorschlag kann tatsächlich die Rechenlast vergößern. Wenn beispielsweise das umgebildete Drei-Zustands-Modell so viel Mischungen wie die komplexen Topologien hat, so müssen gleiche Anzahlen von aufgezeichneten Beobachtungswahrscheinlichkeiten zweimal berechnet werden, einmal für die Drei-Zustands-Modelle und einmal für die komplexen Technologien. Die Gesamt-Speicheranforderungen zum Speichern der zwei Sätze von Modellen würden ebenfalls ansteigen.
  • Die Zeit, die erforderlich ist, um den Pfad mit größter Wahrscheinlichkeit zu finden, wodurch die Übereinstimmung eines Vokabular-Wortes mit einem unbekannten gesprochenen Wort festgestellt wird, führt zu der Erkennungsverzögerung des Spracherkennungssystems. Um innerhalb annehmbarer Verzögerungen unter Verwendung von eine kosteneffektive Hardware aufweisenden Rechenplattformen ansprechen zu können, ist ein weniger kompliziertes Erkennungsverfahren erforderlich. Ein derartiges Verfahren muß eine Verringerung der Rechenlast und der sich daraus ergebenden Zeitverzögerungen ergeben, ohne daß sich eine Einbuße an Erkennungsgenauigkeit ergibt, wobei dies einen beträchtlichen Fortschritt gegenüber dem Stand der Technik darstellt.
  • Zusammenfassung der Erfindung
  • Ein Ziel der vorliegenden Erfindung ist die Schaffung eines verbesserten Spracherkennungsverfahrens.
  • Gemäß einem Gesichtspunkt der vorliegenden Erfindung wird ein Spracherkennungsverfahren geschaffen, das die folgenden Schritte umfaßt: Schaffung eines ersten Satzes von Allophon-Modellen zur Verwendung mit akustischen Parametervektoren einer ersten Art; Schaffung eines zweiten Satzes von Allophon-Modellen zur Verwendung mit akustischen Parametervektoren einer zweiten Art; Schaffung eines Netzwerkes, das ein Erkennungsvokabular liefert, wobei jeder Zweig des Netzwerkes eines der Allophon-Modelle ist und jeder vollständige Pfad durch das Netzwerk eine Folge von Modellen ist, die ein Wort in dem Erkennungsvokabular darstellen; Analysieren einer unbekannten Äußerung zur Erzeugung einer Rahmenfolge von akustischen Parameterveektoren für jede der ersten und zweiten Arten von akustischen Parametervektoren; Schaffung eines reduzierten Gitters zur Bestimmung eines Pfades durch das Netzwerk, der eine höchste Wahrscheinlichkeit aufweist; Berechnung von Modellabständen für jeden Rahmen von akustischen Parametervektoren der ersten Art für alle Allophon- Modelle des ersten Satzes; Auffinden eines maximalen Modellabstandes für jedes Modell des ersten Satzes; Aktualisieren des reduzierten Gitters für jeden Rahmen unter der Annahme, daß jedes Allophon-Modell ein Ein-Zustands-Modell mit einer minimalen Dauer von zwei Rahmen und einer Übergangswahrscheinlichkeit gleich ihrem maximalen Modell-Abstand ist; Sortieren von Endwerten von dem reduzierten Gitter jedes Pfades durch das Vokabular-Netzwerk; Auswählen einer ersten Vielzahl von Kandidaten für die Erkennung, die die höchsten Endwerte aufweisen; Neueinstufung der ersten Vielzahl von Kandidaten unter Verwendung eines dem vollständigen Viterbi-Verfahren entsprechenden Gitters, das dem Vokabular-Netzwerk mit den für den ersten Satz von Allophon-Modellen berechneten Modellabständen entspricht; Sortieren der Kandidaten anhand ihrer Einstufung in abnehmender Reihenfolge; Auswählen einer zweiten Vielzahl von Kandidaten, die kleiner als die erste Vielzahl ist, aus der ersten Vielzahl, zur weiteren Neueinstufung unter Verwendung des zweiten Satzes von Allophon-Modellen und der zweiten Art von akkustischen Parameter-Vektoren; Auffinden einer Allophon- Segmentierung unter Verwendung der ersten Art von akustischen Parametervektoren zur Identifikation von Rahmen für Modellabstandsberechnungen für die zweite Art von akustischen Parametervektoren; Berechnung von Modellabständen für die Rahmen von akustischen Parameter-Vektoren der zweiten Art, die für die Allophon-Modelle des zweiten Satzes identifiziert sind, die sich in der zweiten Vielzahl von Kandidaten finden; Neueinstufung der zweiten Vielzahl von Kandidaten unter Verwendung des Viterbi-Verfahrens mit den Modellabständen, die für die Allophon-Modelle des zweiten Satzes berechnet wurden; und Vergleichen der Einstufungen der zweiten Vielzahl von Kandidaten für akustische Parameter-Vektoren der ersten und zweiten Arten zur Auswahl eines Erkennungskandidatens.
  • Gemäß einem weiteren Gesichtspunkt der vorliegenden Erfindung wird ein Spracherkennungsverfahren geschaffen, das die folgenden Schritte umfaßt: Schaffung eines ersten Satzes von Allophon- Modellen zur Verwendung mit Cepstrum-Parametervektoren; Schaffung eines zweiten Satzes von Allophon-Modellen zur Verwendung mit LSP-Parametervektoren, Schaffung eines Netzwerkes, das ein Erkennungsvokabular darstellt, bei dem jeder Zweig des Netzwerkes eines der Allophon-Modelle ist und jeder vollständige Pfad durch das Netzwerk eine Folge von Modellen ist, die ein Wort in dem Erkennungsvokabular darstellen; Schaffung eines reduzierten Gitters zur Bestimmung eines Pfades durch das Netzwerk, der die größte Wahrscheinlichkeit hat; Analysieren einer unbekannten Äußerung zur Erzeugung einer Rahmenfolge von sowohl Cepstrum- als auch LSP-Parmatervektoren; Berechnung der Cepstrum-Modellabstände für jeden Rahmen für alle Cepstrum-Allophon-Modelle; Auffinden eines maximalen Modellabstandes für jedes Modell; Aktualisieren des reduzierten Gitters für jeden Rahmen eines Ein-Zustands-Modells mit einer minimalen Dauer von zwei Rahmen und einer Übergangswahrscheinlichkeit gleich ihres maximalen Modellabstandes; Sortieren von Endwerten jedes Vokabular-Netzwerk-Pfades für das reduzierte Gitter; Auswählen von oberen n-Werten zur Schaffung von n- Kandidaten für die Erkennung; Neueinstufung der oberen n- Kandidaten unter Verwendung eines vollständigen Viterbi-Verfahren-Gitters mit den berechneten Modellabständen; Sortieren von Kandidaten anhand ihrer Einstufung in abnehmender Reihenfolge; Auswählen der oberen m-Kandidaten für eine weitere Neueinstufung unter Verwendung der LSP-Parametervektoren, worin m kleiner als n ist; Auffinden einer Allophon-Segmentierung unter Verwendung von Cepstrum-Parametern zur Identifikation von Rahmen für Modellabstandsberechnungen für LSP- Parameter; Berechnung von LSP-Modellabständen für die identifizierten Rahmen und für die LSP-Modelle, die sich in den m-Kandidaten finden; Neueinstufung der m-Kandidaten unter Verwendung des Viterbi-Verfahrens mit den berechneten LSP- Modellabständen; und Vergleichen der Einstufungen der oberen m-Kandidaten für Cepstrum- und LSP-Paramter zur Auswahl eines Erkennungskandidaten.
  • Gemäß der vorliegenden Erfindung wird eine Suche mit zwei Durchläufen verwendet. Der erste Durchlauf verwendet ein reduziertes Ein-Zustands-Modell, dessen Übergangswahrscheinlichkeiten dem Maximalwert zugeordnet werden, der für die Beobachtungswahrscheinlichkeit des entsprechenden Allophon- Modells berechnet wurde. Es ergibt sich eine Eins-zu-Eins- Korrespondenz zwischen diesem reduzierten Modell und dem entsprechenden Allophon-Modell. Dieses reduzierte Ein-Zustands- Modell hat seine minimale Dauer auf wenige Rahmen beschränkt. Zweckmäßigerweise können minimale Dauern von entweder zwei oder drei Rahmen verwendet werden.
  • Ein Vorteil der vorliegenden Erfindung ist die Vereinfachung der Kompliziertheit des Erkennungsverfahrens soweit, daß die Verwendung von kosteneffektiver Verarbeitungs-Hardware ermöglicht wird, während die Erkennungsgenauigkeit beibehalten wird.
  • Kurze Beschreibung der Zeichnungen
  • Die vorliegende Erfindung wird aus der folgenden Beschreibung unter Bezugnahme auf die Zeichnungen verständlich, in denen:
  • Fig. 1a und 1b Teile des Vokabular-Netzwerkes gemäß einer Ausführungsform der vorliegenden Erfindung zeigen,
  • Fig. 2 ein vier Zustände aufweisendes verdecktes Markov-Modell (HMM) zeigt, das ein Allophon gemäß einer Ausführungsform der vorliegenden Erfindung darstellt,
  • Fig. 3 in einem Diagramm ein Verfahren zur Spracherkennung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt,
  • Fig. 4 graphisch ein reduziertes Gitter zeigt, auf das in Fig. 3 bezug genommen wird,
  • Fig. 5 graphisch die Allophon-Segmentierung aus Cepstrum-Parametern und Rahmen zeigt, die für die LSP-Modell- Abstandsberechnung verwendet werden, auf die in Fig. 3 bezug genommen wird,
  • Fig. 6 in Form eines Blockschaltbildes eine typische Spracherkennungseinrichtung zur Verwendung des Verfahrens der Spracherkennung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
  • Unter Bezugnahme auf die Fig. 1a und 1b sind Teile des Vokabular-Netzwerkes gemäß einer Ausführungsform der vorliegenden. Erfindung gezeigt. In Fig. 1a beginnt jeder Pfad 10, 12 und an einem Eintrittsknoten 16. Der Pfad 10 schließt einen Zweig 18, der das Allophon r von dem Knoten 16 zu einem Knoten 20, einen Zweig 22, der das Allophon a von dem Knoten 18 zu einem Knoten 24 darstellt, einen Zweig 26, der das Allopon b von dem Knoten 24 zu einem Knoten 28 darstellt, einen Zweig 30, der das Allophon 1 von dem Knoten 28 zu einem Knoten 32 darstellt, und einen Zweig 34 ein, der das Allophon d von dem Knoten 32 zu einem Austrittsknoten 36 darstellt.
  • In ähnlicher Weise schließt der Pfad 12 einen Zweig 38, einen Knoten 40, einen Zweig 42, einen Knoten 44, einen Zweig 46, einen Knoten 48, einen Zweig 50 und einen Austrittsknoten 52 ein, und der Pfad 14 schließt einen Zweig 54, einen Knoten 56, einen Zweig 58, einen Knoten 60, einen Zweig 62, einen Knoten 64, einen Zweig 66 und einen Austrittsknoten 68 ein.
  • Das Vokabularnetzwerk ist allgemein eine Baumstruktur, wie dies in Fig. 1a gezeigt ist, kann jedoch Pfade aufweisen, die sich neu kombinieren, wie dies in Fig. 1b gezeigt ist, die zwei Allophon-Umschreibungen oder Transkriptionen des Wortes "record" darstellt.
  • Die Umschreibungen für "record" sind durch folgendes dargestellt: einen Eintrittsknoten 68, einen Zweig 70, einen Knoten 72, einen Zweig 74, einen Knoten 70, einen Zweig 78, einen Knoten 80, einen Zweig 82, einen Knoten 84, einen Zweig 86, einen Knoten 88, einen Zweig 90 und einen Austrittsknoten 92; und einen Zweig 93, einen Knoten 94, einen Zweig 96, einen Knoten 98, einen Zweig 100, einen Knoten 102, einen Zweig 104, dann der Knoten 88, der Zweig 90 und der Austrittsknoten 92.
  • Jeder Zweig des Vokabular-Netzwerkes ist durch ein verdecktes Markov-Modell dargestellt.
  • In Fig. 2 ist ein vier zustände aufweisendes verdecktes Markov- Modell (Hidden Markov-Model - HMM) gezeigt, das ein Allophon gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. Das vier Zustände aufweisende HMM schließt erste, zweite, dritte und vierte Zustände 110, 112, 114 bzw. 116 ein. Übergänge von Zuständen können in den meisten Fällen von drei Arten sein: auf sich selbst, nächster Zustand und Überspringen des nächsten Zustandes. Für den ersten Zustand ist der Übergang auf sich selbst ein Übergang 118, der Übergang auf den nächsten Zustand ist eine Übergang 120, und der den nächsten Zustand überspringende Übergang ist ein Übergang 122. In ähnlicher Weise weist der zweite Zustand 112 einen Übergang 124 auf sich selbst, einen Übergang 126 auf den nächsten Zustand und einen den nächsten Zustand 128 auf. Weil der vierte Zustand 116 einen Austrittszustand darstellt, hat der dritte Zustand 114 keine den nächsten Zustand überspringenden Übergänge. Entsprechend hat der dritte Zustand 114 einen Übergang 130 auf sich selbst und einen Übergang 132 auf den nächsten Zustand. Der vierte Zustand 116 hat als Austrittszustand lediglich einen Zwischenmodell-Übergang In ähnlicher Weise hat der erste Zustand 110 als Eintrittszustand ebenfalls einen Zwischenmodell-Übergang 138. Die Zwischenmodell-Übergänge 136 und 138 ermöglichen eine Verkettung von Modellen zu einer Kette, die Vokabular-Worte darstellt.
  • In Fig. 3 ist ein Diagramm eines Spracherkennungsverfahrens gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt. Das Diagramm ergibt Schritte und Vorgänge, die in zwei Zeitrahmen auftreten: der erste ist in Echtzeit bezüglich der ankommenden Sprache und mit A) Rahmensynchron bezeichnet, während der zweite die Verarbeitungszeit nach dem Empfang der Sprache ist und mit B) Erkennungsverzögerung bezeichnet ist.
  • Der Teil A) schließt sieben Schritte ein. Der Schritt 1) ist die Identifikation des Beginns von Worten oder Ausdrücken mit einem Endzeiger zum Starten eines rahmensynchronen Suchverfahrens durch Initialisieren eines reduzierten Gitters. Schritt 2) ist die Berechnung von Cepstrum-Modellabständen für jeden Rahmen für alle Allophon-Modelle. Schritt 3) ist die Auffindung eines maximalen Modellabstandes für jedes Modell (beispielsweise bedeutet 130 Modelle, daß 130 Maxima gefunden wurden). Schritt 4) ist die Aktualisierung des reduzierten Gitters für jeden Rahmen unter der Annahme eines Ein-Zustands-Modells mit einer minimalen Dauer von zwei Rahmen. Die Übergangswahrscheinlichkeit für dieses Modell ist die gleiche wie der maximale Modellabstand, der im Schritt 3 berechnet wurde. Schritt 5) ist die Identifikation des Endes der Sprache mit dem Endzeiger, um die Aktualisierung des reduzierten Gitters zu stoppen. Der Schritt 6) ist das Sortieren der Endwerte für jeden Vokabular-Netzwerkpfad für das reduzierte Gitter. Schritt 7) ist die Auswahl der oberen n-Werte zur Schaffung von n Kandidaten für die Erkennung, wobei ein typischer Wert für n beispielsweise gleich 30 ist. Dies schließt den rahmensynchronen Teil des Spracherkennungsverfahrens gemäß einer Ausführungsform dieser Erfindung ab.
  • Der Teil B) schließt sieben Schritte (Schritte 8 bis 14) ein und kann einen oder mehrere zusätzliche Schritte einschließen (wie dies durch Schritt 15 dargestellt ist), um die Erkennungsgenauigkeit zu vergrößern. Schritt 8) ist die Neueinstufung der oberen n Kandidaten unter Verwendung des Viterbi-Verfahrens mit den Modellabständen, die im Schritt 2) berechnet wurden. Nachdem die Anzahl der Erkennungskandidaten aus jedem Vokabular- Wort bis herunter zu n Kandidaten in dem rahmensynchronen Teil verringert wurde, kann das rechenmäßig komplexe Viterbi-Verfahren in wirkungsvoller Weise dazu verwendet werden, jeden dieser n Kandidaten mit dem vollständigen Satz von Modellabständen neu einzustufen, die im Schritt 2 berechnet wurden. Der Schritt 9) ist das Sortieren der Kandidaten nach ihrer Einstufung in absteigender Reihenfolge. Der Schritt 10) ist die Auswahl der oberen m Kandidaten für eine weitere Neueinstufung unter Verwendung anderer Parameter, beispielsweise der LSP- Parameter. Ein typischer Wert von m ist 3. Der Schritt 11) ist das Auffinden einer Allophon-Segmentierung unter Verwendung von Cepstrum-Parametern. Diese Segmentbegrenzüngen werden dazu verwendet, die Rahmen zu begrenzen, die zur Berechnung der Modellabstände im Schritt 12 verwendet werden. Aufgrund der Rechenbelastung, die durch die Berechnung der Modellabstände ohne die Beschränkung auf die im Schritt 11) identifizierten Rahmen und die im Schritt 10 identifizierten Kandidaten auferlegt wurde, würde die Verwendung von alternativen Parametern eine unannehmbare zusätzliche Verzögerung einführen. Der Schritt 12) ist die Berechnung von LSP-Modellabständen für die m Kandidaten. Beispielsweise zeigen in Fig. 5 die oberen Klammern die unter Verwendung von Cepstrum hervorgerufene Segmentierung, während die unteren Klammern die Rahmen zeigen, die zur Berechnung von LSP-Modellabständen verwendet werden. Der Schritt 13) ist die Neueinstufung der m Kandidaten unter Verwendung des Viterbi-Verfahrens mit den LSP-Modellabständen, die im Schritt 12 berechnet wurden. Die Segmentbegrenzungen wurden so festgelegt, daß sie innerhalb von 230 msec (18 Rahmen) der Segmentbegrenzungen liegen, die im Schritt 11) gewonnen wurden. Der Schritt 14) ist der Vergleich der Einstufungen der oberen m Kandidaten für Cepstrum- und LSP-Parameter. Der Schritt 149 kann zweckmäßigerweise die Multiplikation der Wahrscheinlichkeiten, die sich aus Cepstrum- und LSP-Parametern für jeden jeweiligen Kandidaten ergeben, miteinander einschließen. Beispielsweise gilt für m = 3:
  • (P1Cep)x(PILSP) P1kombinert } Wähle das Wort mit
  • (P2Cep)x(PILSP) = P2kombinert } der gößten kombinierten
  • (P3Cep)X(PILSP) = P3kombinert } Wahrscheinlichkeit. Schritt 15) stellt eine zusätzliche wahlweise Nachverarbeitung zur Vergrößerung der Genauigkeit der Auswahl dar. Weil lediglich einige wenige Kandidaten übrigbleiben, kann eine weitere wahlweise Nachverarbeitung in das Erkennungsverfahren eingefügt werden, ohne daß eine wesentliche zusätzliche Rechenlast hervorgerufen wird, und entsprechend ohne daß die Erkennungsverzögerung wesentlich vergrößert wird. Beispielsweise kann die wahlweise Nachverarbeitung die Verwendung von Allophondauer- Beschränkungen einschließen, um die Erkennungsgenauigkeit zu verbessern.
  • Die beschriebene Ausführungsform verwendet ein ein Zustands- Modell mit einer minimalen Dauer von zwei Rahmen für die rahmensynchrone Suche.
  • In der Tabelle A sind Daten für die Einschlußrate für die richtige Auswahl von minimalen Dauern von zwei und drei Rahmen für einen 4321-Wort-Testsatz angegeben. Die Tabelle B ergibt die Erkennungsgenauigkeit an dem 4321-Wort-Testsatz nach der Neueinstufung der oberen n Kandidaten unter Verwendung des Viterbi- Verfahrens. TABELLE A TABELLE B
  • Wie dies aus den Daten der Tabelle A zu erkennen ist, ist die Einschlußrate für die richtige Auswahl für eine minimale Dauer von 3 Rahmen größer, als sie dies für zwei Rahmen ist. Wie dies jedoch aus den in Tabelle B angegebenen Daten ersichtlich ist, ergeben nach der Neueinstufung der n oberen Kandidaten unter Verwendung des Viterbi-Verfahrens die beiden Erkennungseinrichtungen praktisch die gleiche Erkennungsgenauigkeit.
  • Entsprechend wird, weil die Zwei-Rahmen-Erkennungseinrichtung weniger Rechenarbeit erfordert, diese bevorzugt. Wenn ein Neueinstufungsverfahren gefunden werden kann, das eine bessere Leistung als das Viterbi-Verfahren ergibt, in dem die hohe Einschlußrate bei der Dauer von 3 Rahmen ausgenutzt wird, so ist die höhere Rechenlast der Dauer von 3 Rahmen dieses Wert.
  • In Fig. 4 ist das verringerte Gitter des Schrittes 4 nach Fig. 3 graphisch dargestellt. Um das verringerte Gitter zu erzeugen, wird ein Ein-Zustands-Modell mit einer Dauer von zwei Rahmen verwendet. So ist als ein Beispiel eine Allophon- Umschreibung oder Transkription des Wortes "for" vertikal dargestellt, wobei jedem Allophon zwei Punkte auf der Achse zugeteilt sind. Die für jedes Allophon-Modell verwendete Übergangswahrscheinlichkeit ist die Maximale, die während der tatsächlichen Modellabstand-Berechnungen gefunden wird. Entsprechend erfordern Ein-Zustands-Modelle für das verringerte Gitter keine zusätzliche Berechnung von Modellabständen, sondern lediglich die Bestimmung des maximalen dieser Abstände, die für jedes Modell berechnet werden. Diese Modellabstände werden jedoch zur Verwendung in dem zweiten Durchlauf gespeichert.
  • Es werden Anfangszustände für das Gitter gesetzt und dann wird für jeden Rahmen das Gitter dadurch aktualisiert, daß die maximale Übergangswahrscheinlichkeit auf jeden Übergang in jedem Zweig in dem Vokabular-Netzwerk angewandt wird.
  • Als vereinfachtes Beispiel sei die Allophon-Umschreibung für das Vokabular-Wort "for" betrachtet. Anfangszustände werden dadurch eingestellt, daß Wahrscheinlichkeiten von "1" dem Anfangszustand 150 des Stillemodells ({) und dem Anfangszustand 154 des Modells (f) zugeordnet werden, und daß im übrigen Wahrscheinlichkeiten von "0" an jeder anderen Stelle auf der vertikalen Achse 156-168 des Gitters zugeordnet werden. Für jeden Zweig (Allophon-Modell) in dem Vokabular- Netzwerk werden drei Operationen durchgeführt, um das Gitter zu aktualisieren, nämlich zwei Multiplikationen und ein Vergleich. Somit besteht der Schritt der Aktualisierung des Gitters aus der Multiplikation der Anfangswahrscheinlichkeiten mit den maximalen Übergangswahrscheinlichkeiten für jedes Allophon in der Umschreibung. In dem Beispiel multipliziert p{ den Anfangswert von "1" für die Übergänge 170 und 172 für eine der Multiplikationen. Die Wahrscheinlichkeit p{ multipliziert den Anfangswert von "0" für den Übergang 174. Die Übergänge 170, 172 und 174 ergeben drei neue Zustände 176, 178 bzw. 180. Der Vergleich wird an dem Zustand durchgeführt, der einen Anfangszustand eines nächsten Allophons darstellt, in diesem Fall an dem Zustand 180. Der Wahrscheinlichkeitswert an dem Zustand 180, der sich aus dem Übergang 176 ergibt, wird mit dem Wert verglichen, der sich aus einem Übergang 182 von dem Anfangszustand 154 des Allophons (f) ergibt. Derjenige Wahrscheinlichkeitswert, der größer ist, wird für den Zustand 180 für die nächste Iteration der Gitteraktualisierung beibehalten. Wie im Fall des Stille-Modells ({) werden die Übergänge des (f)-Modells berechnet. Der Anfangswert von "1" für den Zustand 154 wird mit der maximalen Übergangswahrscheinlichkeit für das Allophon (f), pf für jeden der Übergänge 182 und 184 multipliziert. Der Anfangswert von "0" für den Zustand 156 wird mit der maximalen Übergangswahrscheinlichkeit für das Allophon (f), pf, für den Übergang 186 multipliziert. Die Übergänge 182, 184 und 186 ergeben drei neue Zustände 180, 188 bzw. 190. In ähnlicher Weise werden Wahrscheinlichkeiten für neue Zustände 192 bis 202 berechnet. Um jeden Gitter-Aktualisierungszyklus abzuschließen, werden die Werte der Zustände 176 bis 202 vor dem Beginn der Verarbeitung für den nächsten Rahmen in die Zustände 150-169 zurückkopiert.
  • Die Anfangswahrscheinlichkeiten von 1 für die Anfangszustände 150 und 154 zeigen die Wahrscheinlichkeit an, daß das Wort "for" eine Anfangsstille oder ein Luftholen hat. In gleicher Weise zeigt der Übergang 204 von dem Zustand 164 zum Zustand 202 an, daß die abschließende Stille oder Atmung ebenfalls wahlweise ist. Der Zustand 202 behält den Wert bei, der die beste Wahrscheinlichkeit für den laufenden Rahmen darstellt.
  • In der gesamten ausführlichen Beschreibung wurden die Übergangswahrscheinlichkeiten so beschrieben, als ob sie von "0" bis "1" reichen und als ob neue Werte bei der Aktualisierung des Gitters durch Multiplikation des derzeitigen Wertes mit der nächsten Übergangswahrscheinlichkeit abgeleitet wurden. Wie dies jedoch in der Technik der Spracherkennung üblich ist, sind typische Übergangswahrscheinlichkeiten durch Logarithmen dargestellt, so daß Multiplikationen von Wahrscheinlichkeiten auf Rechenplattformen durch rechenmäßig einfachere Additionen ausgeführt werden können.
  • Die Berechnung von Modellabständen ist eine komplizierte Aufgabe und legt damit den Rechenresourcen eine große Last auf. Um LSP- Modellabstände während des Erkennungs-Verzögerungsabschnittes des Spracherkennungsverfahrens ohne annehmbare Vergrößerung dieser Verzögerung zu berechnen, ist die Anzahl von Rahmen, für die die Berechnungen durchgeführt werden, beschränkt.
  • Die Schritte der Auffindung der Allophon-Segmentierung unter Verwendung von Cepstrum-Parametern und die Berechnung von LSP- Modellabständen werden anhand der Fig. 5 beschrieben. Als ein Beispiel ist die Allophon-Umschreibung für das Vokabular-Wort "for" graphisch in Fig. 5 gezeigt. Die horizontale Achse stellt Rahmen der Sprache dar. Die Cepstrum-Parameter-Allophonsegmente sind durch Balken 210, 212, 214 und 216 dargestellt, was die Segmentierung der Allophone f, o und r bezeichnet, wie dies durch die Klammern 218, 220 bzw. 222 dargestellt ist. Dies entspricht dem Schritt 11) nach Fig. 3. Indem Beispiel nach Fig. 5 sind die Rahmen für die Allophone, deren Modellabstände berechnet werden soll, so beschränkt, daß sie innerhalb von Rahmen (230 ms) der Segmentbegrenzungen liegen, die unter Verwendung der Cepstrum-Parameter bestimmt wurden. Daher wird die LSP-Modellabstandsberechnung für die Allophone f, o und r über die Rahmen berechnet, die durch die Klammern 224, 226 bzw. 228 gezeigt sind.
  • In Fig. 6 ist ein Blockschaltbild einer typischen Spracherkennungseinrichtung gezeigt, die so konfiguriert ist, daß sie das Spracherkennungsverfahren der vorliegenden Erfindung verwendet. Die Spracherkennungseinrichtung schließt einen Spracheingang 290, Abschätzeinrichtungen für Cepstrum- und LSP-Parameter 292 bzw. 294 mit Parameter-Ausgängen 296 bzw. 298 an einen Eingangsdatenpuffer 302 ein. Der Eingangsdatenpuffer ist mit einem Daten-BUS 304 verbunden. Weiterhin sind mit dem Daten-BUS Verarbeitungselemente 306, ein Erkennungsdatentabellen-Speicher 308, ein Zwischenergebnis-Speicher 310 und ein Erkennungsergebnis-Ausgangsblock 312 mit einem Ausgang 314 verbunden.
  • Im Betrieb wird die dem Eingang 290 zugeführte Sprache in dem Cepstrum-Analysator 292 und dem LSP-Analysator 294 analysiert, um einen Cepstrum- und LSP-Parameter-Vektorausgang über 296 bzw. 298 an den Eingangsdatenpuffer 302 für alle 12,75 msec zu erzeugen. Für die rahmensynchronen Berechnungen berechnen die Verarbeitungselemente 306 Modellabstände für jeden Rahmen von Sprachdaten für alle Cepstrum-Allophon-Modelle, die in dem Erkennungsdaten-Tabellenspeicher 308 gespeichert sind. Die berechneten Modellabstände werden in dem Zwischenergebnis- Speicher 310 für spätere Verwendung in der Viterbi-Neueinstufung der oberen n Auswahlen gespeichert. Das Gitter wird in dem Zwischenergebnis-Speicher 310 ausgebildet und wird für jeden Rahmen aktualisiert. Sobald die oberen n Auswahlen aus dem ersten Durchlauf bestimmt sind, beginnt der Erkennungsverzögerungsabschnitt des Erkennungsprozesses. Die gespeicherten Cepstrum-Modellabstände werden von dem Viterbi-Verfahren verwendet, um die oberen n Auswahlen mit der geordneten Liste neu einzustufen, die in dem Zwischenergebnis-Speicher 310 gespeichert ist. Die oberen n Auswahlen werden dann erneut unter Verwendung der Viterbi-Einstufungen geordnet. Die oberen m Auswahlen werden dann unter Verwendung von LSP-Parametern von dem Eingangsdatenpuffer 302 neu eingestuft. LSP-Modellabstände werden dadurch berechnet, daß Elemente 306 für die LSP-Allophonmodelle, die sich in den oberen m Auswahlen finden, unter Verwendung derjenigen verarbeitet werden, die in dem Erkennungsdaten-Tabellenspeicher 308 gespeicehrt sind. Für jedes Allophon-Modell werden lediglich die Rahmen verwendet, die von der Cepstrum-Segmentierung geliefert wurden. Die berechneten Modellabstände werden in dem Zwischenergebnis- Speicher 310 gespeichert und bei der Viterbi-Neueinstufung der oberen m Auswahlen verwendet. Der Vergleich der oberen m Cepstrum- und LSP-Auswahlen erfolgt, um eine Erkennung zu schaffen, die in dem Erkennungsergebnis-Ausgang 312 gespeichert wird. Das Ergebnis wird zu einer Anwendung über den Ausgang 314 als eine Erkennung weitergeleitet. Wie dies weiter oben beschrieben wurde, kann eine weitere Nachverarbeitung erfolgen, um die Erkennungsgenauigkeit zu verbessern.
  • Eine Hardware-Ausführung der Spracherkennungseinrichtung nach Fig. 6 verwendet sechs TMS320C&sub3;&sub1;-Mikroprozessoren der Firma Texas Instruments als Verarbeitungselemente 306 und einen Gesamtspeicher von ungefähr 16 Mbytes, der zur Schaffung des Eingangsdatenspeichers 302, des Erkennungsdaten-Tabellen- Speichers 308 und des Zwischenergebnis-Speichers 310 verwendet wird.
  • Vielfältige Modifikationen, Abänderungen und Anpassungen können an den vorstehend beschriebenen speziellen Ausführungsformen der Erfindung durchgeführt werden, ohne den Schutzumfang der Erfindung zu verlassen, der in den Ansprüchen definiert ist.

Claims (8)

1. Spracherkennungsverfahren mit den folgenden Schritten:
Schaffung eines ersten Satzes von Allophon-Modellen zur Verwendung mit akustischen Parametervektoren einer ersten Art;
Schaffung eines zweiten Satzes von Allophon-Modellen zur Verwendung mit akustischen Parametervektoren einer zweiten Art;
Schaffung eines Netzwerkes, das ein Erkennungsvokabular darstellt, wobei jeder Zweig des Netzwerkes eines der Allophon- Modelle ist und jeder vollständige Pfad durch das Netzwerk eine Folge von Modellen ist, der ein Wort in dem Erkennungsvokabular darstellt;
Analysieren einer unbekannten Äußerung zur Erzeugung einer Rahmenfolge von akustischen Parameter-Vektoren für jeden der ersten und zweiten Arten von akustischen Parameter- Vektoren;
Schaffung eines reduzierten Gitters zur Bestimmung eines Pfades durch das Netzwerk, der die größte Wahrscheinlichkeit aufweist;
Berechnung von Modellabständen für jeden Rahmen von akustischen Parametervektoren der ersten Art für alle Allophon- Modelle des ersten Satzes;
Auffinden eines maximalen Modellabstandes für jedes Modell des ersten Satzes;
Aktualisieren des reduzierten Gitters für jeden Rahmen unter der Annahme, daß jedes Allophon-Modell ein Ein-Zustands- Modell mit einer minimalen Dauer von zwei Rahmen und einer Übergangswahrscheinlichkeit gleich seinem maximalen Modellabstand ist;
Sortieren der Endwerte von dem reduzierten Gitter jedes Pfades durch das Vokabular-Netzwerk;
Auswählen einer ersten Vielzahl von Kandidaten zur Erkennung, die die höchsten Endwerte aufweisen;
Neueinstufung der ersten Vielzahl von Kandidaten unter Verwendung eines vollständigen Viterbi-Verfahren-Gitters, das dem Vokabular-Netzwerk mit den für den ersten Satz von Allophon- Modellen berechneten Modellabständen entspricht;
Sortieren der Kandidaten nach ihrer Einstufung in abnehmender Reihenfolge;
Auswählen einer zweiten Vielzahl von Kandidaten, die kleiner als die erste Vielzahl ist, aus der ersten Vielzahl, zur weiteren Neueinstufung unter Verwendung des zweiten Satzes von Allophon-Modellen und der zweiten Art von akustischen Parametervektoren;
Auffinden einer Allophon-Segmentierung unter Verwendung der ersten Art von akustischen Parametervektoren zur Identifikation von Rahmen für Modellabstandsberechnungen für die zweite Art von akustischen Parametervektoren;
Berechnung von Modellabständen für die Rahmen von akustischen Parametervektoren der zweiten Art, die für die Allophonmodelle des zweiten Satzes identifiziert sind, die in der zweiten Vielzahl von Kandidaten gefunden wurden;
Neueinstufung der zweiten Vielzahl von Kandidaten unter Verwendung des Viterbi-Verfahrens mit den Modellabständen, die für die Allophon-Modelle des zweiten Satzes berechnet wurden;
und
Vergleichen der Einstufungen der zweiten Vielzahl von Kandidaten für akustische Parametervektoren von erster und zweiter Art zur Auswahl eines Erkennungskandidaten.
2. Spracherkennungsverfahren nach Anspruch 1, bei dem die akustischen Parametervektoren der ersten Art Cepstrum-Parametervektoren einschließen.
3. Spracherkennungsverfahren nach Anspruch 2, bei dem die akustischen Parametervektoren der zweiten Art LSP-Parametervektoren einschließen.
4. Verfahren zur Spracherkennung nach Anspruch 1, das weiterhin die folgenden Schritte umfaßt:
Identifikation des Beginns von Worten oder Sätzen mit einem Endzeiger vor dem Schritt der Schaffung des reduzierten Gitters; und
Identifizieren des Endes der Sprache mit dem Endzeiger zum Stoppen des Aktualisierens des reduzierten Gitters.
5. Spracherkennungsverfahren mit den folgenden Schritten:
Schaffung eines ersten Satzes von Allophon-Modellen zur Verwendung mit Cepstrum-Parametervektoren;
Schaffung eines zweiten Satzes von Allophon-Modellen zur Verwendung mit LSP-Parametervektoren;
Schaffung eines Netzwerkes, das ein Erkennungsvokabular darstellt, wobei jeder Zweig des Netzwerkes eines der Allophon- Modelle ist und jeder vollständige Pfad durch das Netzwerk eine Folge von Modellen ist, die ein Wort in dem Erkennungsvokabular darstellt;
Schaffung eines verringerten Gitters zur Bestimmung eines Pfades durch das Netzwerk mit der größten Wahrscheinlichkeit;
Analysieren einer unbekannten Äußerung zur Erzeugung einer Rahmenfolge von sowohl Cepstrum- als auch LSP-Parametervektoren;
Berechnen von Cepstrum-Modellabständen für jeden Rahmen für alle Cepstrum-Allophonmodelle;
Auffinden eines maximalen Modellabstandes für jedes Modell;
Aktualisieren des reduzierten Gitters für jeden Rahmen unter der Annahme eines Ein-Zustands-Modells mit einer minimalen Dauer von zwei Rahmen und einer Übergangswahrscheinlichkeit gleich ihrem maximalen Modellabstand;
Sortieren von Endwerten jedes Vokabular-Netzwerkpfades für das reduzierte Gitter;
Auswahl der oberen n Werte zur Schaffung von n Kandidaten für die Erkennung;
Neueinstufung der oberen n Kandidaten unter Verwendung eines vollständigen Viterbi-Verfahren-Modelles mit den berechneten Modellabständen;
Sortieren von Kandidaten anhand ihrer Einstufung in absteigender Reihenfolge;
Wählen der oberen m Kandidaten für eine weitere Neueinstufung unter Verwendung der LSP-Parametervektoren, worin m kleiner als n ist;
Auffinden einer Allophon-Segmentierung unter Verwendung von Cepstrum-Parametern zur Identifikation von Rahmen für Modelabstandsberechnungen für LSP-Parameter;
Berechnen von LSP-Modelabständen für identifizierte Rahmen und für die LSP-Modelle, die sich in den m-Kandidaten finden;
Neueinstufung der m Kandidaten unter Verwendung des Viterbi-Verfahrens mit den berechneten LSP-Modellabständen; und Vergleichen der Einstufungen der oberen M-Kandidaten für Cepstrum- und LSP-Parameter zur Auswahl eines Erkennungskandidaten.
6. Verfahren zur Spracherkennung nach Anspruch 5, das weiterhin die folgenden Schritte umfaßt:
Identifikation des Beginns von Worten oder Phrasen mit einem Endzeiger vor dem Schritt der Schaffung des reduzierten Gitters; und
Identifizieren des Endes der Sprache mit dem Endzeiger zum Stoppen des Aktualisierens des reduzierten Gitters.
7. Verfahren zur Spracherkennung nach Anspruch 6, bei dem der Schritt des Vergleichens der oberen m Kandidaten die Schritte der Multiplikation der sich aus den Cepstrum und LSP-Parametern ergebenden Wahrscheinlichkeiten für jeden jeweiligen Kandidaten miteinander und das Auswählen des Kandidatens mit der höchsten kombinierten Wahrscheinlichkeit als den Erkennungskandidaten einschließt.
8. Verfahren zur Spracherkennung nach Anspruch 7, bei dem die Rahmen so beschränkt sind, daß sie innerhalb von 18 Rahmen der Segmentbegrenzungen liegen, die unter Verwendung der Cepstrum-Parameter gefunden werden.
DE69420842T 1993-06-24 1994-05-18 Spracherkennung unter anwendung einer zweidurchgängigen suchmethode Expired - Fee Related DE69420842T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/080,543 US5515475A (en) 1993-06-24 1993-06-24 Speech recognition method using a two-pass search
PCT/CA1994/000284 WO1995000949A1 (en) 1993-06-24 1994-05-18 Speech recognition method using a two-pass search

Publications (2)

Publication Number Publication Date
DE69420842D1 DE69420842D1 (de) 1999-10-28
DE69420842T2 true DE69420842T2 (de) 2000-02-24

Family

ID=22158066

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69420842T Expired - Fee Related DE69420842T2 (de) 1993-06-24 1994-05-18 Spracherkennung unter anwendung einer zweidurchgängigen suchmethode

Country Status (6)

Country Link
US (1) US5515475A (de)
EP (1) EP0705473B1 (de)
JP (1) JP3049259B2 (de)
CA (1) CA2163017C (de)
DE (1) DE69420842T2 (de)
WO (1) WO1995000949A1 (de)

Families Citing this family (207)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3453456B2 (ja) * 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
US5706397A (en) * 1995-10-05 1998-01-06 Apple Computer, Inc. Speech recognition system with multi-level pruning for acoustic matching
US5987414A (en) * 1996-10-31 1999-11-16 Nortel Networks Corporation Method and apparatus for selecting a vocabulary sub-set from a speech recognition dictionary for use in real time automated directory assistance
US5839107A (en) * 1996-11-29 1998-11-17 Northern Telecom Limited Method and apparatus for automatically generating a speech recognition vocabulary from a white pages listing
US5987408A (en) * 1996-12-16 1999-11-16 Nortel Networks Corporation Automated directory assistance system utilizing a heuristics model for predicting the most likely requested number
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
JP3962445B2 (ja) * 1997-03-13 2007-08-22 キヤノン株式会社 音声処理方法及び装置
US6236715B1 (en) 1997-04-15 2001-05-22 Nortel Networks Corporation Method and apparatus for using the control channel in telecommunications systems for voice dialing
US5956675A (en) * 1997-07-31 1999-09-21 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection
US6018708A (en) * 1997-08-26 2000-01-25 Nortel Networks Corporation Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
US5995929A (en) * 1997-09-12 1999-11-30 Nortel Networks Corporation Method and apparatus for generating an a priori advisor for a speech recognition dictionary
US6122361A (en) * 1997-09-12 2000-09-19 Nortel Networks Corporation Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
US6253178B1 (en) 1997-09-22 2001-06-26 Nortel Networks Limited Search and rescoring method for a speech recognition system
FR2769118B1 (fr) * 1997-09-29 1999-12-03 Matra Communication Procede de reconnaissance de parole
US6253173B1 (en) 1997-10-20 2001-06-26 Nortel Networks Corporation Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors
US6098040A (en) * 1997-11-07 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
WO1999028898A1 (fr) * 1997-11-27 1999-06-10 Hitachi, Ltd. Systeme et procede de reconnaissance vocale
US6182038B1 (en) * 1997-12-01 2001-01-30 Motorola, Inc. Context dependent phoneme networks for encoding speech information
US8855998B2 (en) 1998-03-25 2014-10-07 International Business Machines Corporation Parsing culturally diverse names
US6963871B1 (en) * 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US8812300B2 (en) 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
US6052443A (en) * 1998-05-14 2000-04-18 Motorola Alphanumeric message composing method using telephone keypad
US6137867A (en) * 1998-05-14 2000-10-24 Motorola, Inc. Alphanumeric message composing method using telephone keypad
US5974121A (en) * 1998-05-14 1999-10-26 Motorola, Inc. Alphanumeric message composing method using telephone keypad
US6208964B1 (en) 1998-08-31 2001-03-27 Nortel Networks Limited Method and apparatus for providing unsupervised adaptation of transcriptions
SE9802990L (sv) * 1998-09-04 2000-03-05 Ericsson Telefon Ab L M Förfarande och system för taligenkänning
US6493705B1 (en) * 1998-09-30 2002-12-10 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
DE69941999D1 (de) * 1998-10-09 2010-03-25 Sony Corp Erkennungsvorrichtung, Erkennungsverfahren und Aufzeichnungsmedium
US6148285A (en) * 1998-10-30 2000-11-14 Nortel Networks Corporation Allophonic text-to-speech generator
JP3420965B2 (ja) * 1999-02-25 2003-06-30 日本電信電話株式会社 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
US6480827B1 (en) * 2000-03-07 2002-11-12 Motorola, Inc. Method and apparatus for voice communication
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
KR100446289B1 (ko) * 2000-10-13 2004-09-01 삼성전자주식회사 역 히든 마르코브 모델(ihmm)을 이용한 정보 탐색방법및 장치
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
AU2002247891A1 (en) * 2002-03-27 2003-10-20 Nokia Corporation Pattern recognition
EP1575031A3 (de) * 2002-05-15 2010-08-11 Pioneer Corporation Vorrichtung zur Spracherkennung
US7191130B1 (en) * 2002-09-27 2007-03-13 Nuance Communications Method and system for automatically optimizing recognition configuration parameters for speech recognition systems
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
US20040254790A1 (en) * 2003-06-13 2004-12-16 International Business Machines Corporation Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars
DE102004001212A1 (de) * 2004-01-06 2005-07-28 Deutsche Thomson-Brandt Gmbh Verfahren und Vorrichtung zum Durchsuchen einer Datenbank in zwei Suchschritten
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
US20070005586A1 (en) * 2004-03-30 2007-01-04 Shaefer Leonard A Jr Parsing culturally diverse names
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20070132834A1 (en) * 2005-12-08 2007-06-14 International Business Machines Corporation Speech disambiguation in a composite services enablement environment
US7877256B2 (en) * 2006-02-17 2011-01-25 Microsoft Corporation Time synchronous decoding for long-span hidden trajectory model
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
KR101415534B1 (ko) * 2007-02-23 2014-07-07 삼성전자주식회사 다단계 음성인식장치 및 방법
JP5229216B2 (ja) * 2007-02-28 2013-07-03 日本電気株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
KR101857648B1 (ko) 2013-03-15 2018-05-15 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (de) 2013-06-09 2022-01-12 Apple Inc. Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US20160265332A1 (en) 2013-09-13 2016-09-15 Production Plus Energy Services Inc. Systems and apparatuses for separating wellbore fluids and solids during production
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9135911B2 (en) * 2014-02-07 2015-09-15 NexGen Flight LLC Automated generation of phonemic lexicon for voice activated cockpit management systems
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US9484022B2 (en) 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN116959420A (zh) * 2018-04-16 2023-10-27 谷歌有限责任公司 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言
WO2019203794A1 (en) 2018-04-16 2019-10-24 Google Llc Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface
CN112786035A (zh) * 2019-11-08 2021-05-11 珠海市一微半导体有限公司 清洁机器人的语音识别方法、系统和芯片
CN111754987A (zh) * 2020-06-23 2020-10-09 国投(宁夏)大数据产业发展有限公司 一种大数据分析语音识别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
EP0438662A2 (de) * 1990-01-23 1991-07-31 International Business Machines Corporation Einrichtung und Verfahren zur Gruppierung von Äusserungen eines Phonemen in von Kontexten abhängigen Kategorien, die auf Tonähnlichkeit basiert sind für automatische Spracherkennung
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5349645A (en) * 1991-12-31 1994-09-20 Matsushita Electric Industrial Co., Ltd. Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches
US5386492A (en) * 1992-06-29 1995-01-31 Kurzweil Applied Intelligence, Inc. Speech recognition system utilizing vocabulary model preselection

Also Published As

Publication number Publication date
WO1995000949A1 (en) 1995-01-05
CA2163017A1 (en) 1995-01-05
EP0705473B1 (de) 1999-09-22
EP0705473A1 (de) 1996-04-10
DE69420842D1 (de) 1999-10-28
JPH08506430A (ja) 1996-07-09
US5515475A (en) 1996-05-07
CA2163017C (en) 2000-01-25
JP3049259B2 (ja) 2000-06-05

Similar Documents

Publication Publication Date Title
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
DE69324428T2 (de) Verfahren zur Sprachformung und Gerät zur Spracherkennung
DE69613338T2 (de) Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69032777T2 (de) Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung
DE69518723T2 (de) Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69422097T2 (de) Training von kombinierten Kettenmodellen mit minimaler Fehlerrate
DE69225371T2 (de) Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle
DE69726499T2 (de) Verfahren und Vorrichtung zur Kodierung von Aussprache-Prefix-Bäumen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69010941T2 (de) Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache.
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69225173T2 (de) Spracherkennungsgerät
DE69712277T2 (de) Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE602004000382T2 (de) Rauschadaptierung zur Spracherkennung
DE69914368T2 (de) Netzwerk- und sprachmodelle zur verwendung in einem spracherkennungssystem
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE102007015497B4 (de) Spracherkennungsvorrichtung und Spracherkennungsprogramm
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: NORTEL NETWORKS LTD., ST.LAURENT, QUEBEC, CA

8339 Ceased/non-payment of the annual fee