DE69420842T2 - Spracherkennung unter anwendung einer zweidurchgängigen suchmethode - Google Patents
Spracherkennung unter anwendung einer zweidurchgängigen suchmethodeInfo
- Publication number
- DE69420842T2 DE69420842T2 DE69420842T DE69420842T DE69420842T2 DE 69420842 T2 DE69420842 T2 DE 69420842T2 DE 69420842 T DE69420842 T DE 69420842T DE 69420842 T DE69420842 T DE 69420842T DE 69420842 T2 DE69420842 T2 DE 69420842T2
- Authority
- DE
- Germany
- Prior art keywords
- model
- candidates
- allophone
- parameter vectors
- models
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 46
- 230000007704 transition Effects 0.000 claims description 49
- 239000013598 vector Substances 0.000 claims description 33
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000012805 post-processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
- Bei der Spracherkennung ist es gut bekannt, das Erkennungsvokabular als ein Netzwerk von miteinander verbundenen Knoten darustellen. Zweige zwischen den Knoten können Teile von Worten, Phonemen oder Allophonen sein. Allophon-Modelle sind kontaxtabhängige Phonem-Modelle. Die Allophone und Phoneme werden in vielen Fällen durch verdeckte Markov-Modelle (HMM - Hidden Markov Models) dargestellt. Somit kann irgendein Vokabular-Wort als eine Kette von miteinander verketteten HMM dargestellt werden. Die Erkennung einer unbekannten Äußerung oder eines unbekannten gesprochenen Wortes beinhaltet die Berechnung der die größte Wahrscheinlichkeit aufweisenden Folge von Zuständen in der HMM-Kette. Für mittlere bis große Vokabular-Spracherkennungssysteme stellt diese Berechnung eine sehr große Rechenlast dar.
- Das gut bekannte Viterbi-Verfahren wertet die Wahrscheinlichkeiten für das Vokabular-Netzwerk dadurch aus, daß ein Gitter ausgebildet wird. Jedem Zweig in dem Vokabular-Netz ist ein Gitter oder Spalier zugeordnet. Das Gitter hat als seine Achsen die Rahmennummer als die Abszisse und den Modell-Zustand als die Ordinate. Dem Gitter sind so viele Zustände zugeordnet, wie dies der Anzahl von Zuständen in dem entsprechenden Allophon-Modell entspricht. Beispielsweise hat ein zehn Zustände aufweisendes Allophon-Modell zehn Zustände, die jedem Zweig in dem Vokabularnetzwerk mit diesem Etikett zugeordnet sind. Die Gesamtzahl von Operationen pro Rahmen für jedes Gitter ist proportional zur Gesamtzahl der Übergänge in dem entsprechenden Modell. So ist bei dem Zehn-Zustands-Allophonmodell mit dreißig Zuständen die Gesamtzahl der bei dem Viterbi-Verfahren auftretenden Operationen ungefähr 50 (30 Summen zur Abschätzung von 30 Übergängen plus 20 Maxima zur Bestimmung des besten Überganges bei jedem Zustand.
- Das gut bekannte Viterbi-Verfahren kann zum Auffinden des wahrscheinlichsten Pfades durch das Vokabular-Netzwerk für eine vorgegebene Äußerung oder ein gesprochenes Wort verwendet werden. Bei dem Viterbi-Verfahren treten jedoch zwei Probleme auf. Erstens ist das Verfahren rechenmäßig kompliziert, weil es jeden Übergang in jedem Zweig für das gesamte Vokabular-Netzwerk auswertet, so daß die Hardware-Kosten prohibitiv oder zumindest sehr hoch sind. Die Berechnungskompliziertheit setzt sich in Kosten pro Kanal der Spracherkennung um. Zweitens ergibt das Viterbi-Verfahren lediglich eine einzige Auswahl, und die Schaffung von Alternativen vergrößert die Berechnungs- und Speicheranforderungen noch weiter. Eine einzige Auswahl beseitigt weiternin die Option der Schaffung von Nachverarbeitungsverbesserungen zur Vergrößerung der Erkennungsgenauigkeit.
- Es wurden Vorschläge zur Verringerung der Rechenlast gemacht, die sich aus diesen 50 Operationen pro Modell ergibt. Bahl et al. (1989) (A Fast Approximate Accoustic Match for Large Vocabulary Speech Recognition. Proceedings of Eurospeech 89: European Conference of Speech Communication and Technology, Paris: 156-158) schlagen eine Umordnung der Berechnung für jeden Übergang durch Verwenden einer einzigen Übergangswahrscheinlichkeit für jedes HMM-Modell vor (Verwenden des Überganges mit der größten Wahrscheinlichkeit). Somit wird anstelle der Addition unterschiedlicher Aufzeichnungs-Beobachtungswahrscheinlichkeiten an den drei möglichen Gitterübergängen und der nachfolgenden Auswahl des Maximums das Maximum als erstes über die drei Gitter-Werte gebildet, worauf die aufgezeichnete Beobachtungswahrscheinlichkeit hinzuaddiert wird. Dies verringert die Berechnung von 5 auf 3 pro Übergang oder von 50 auf 30 für das Zehn-Zustands-Modell. Dies stellt eine Verringerung der Rechenlast dar, doch ermöglicht dies keine Antwort nach einer annehmbaren Verzögerung.
- Ein weiterer Vorschlag von Bahl et al. (1992) (Constructing Candidate Word Lists Using Accoustically Similar Word Groups. IEEE Transactions on Signal Processing, Vol. 40, 11 : 2814-2816) versucht ebenfalls, diese Rechenlast zu verringern. Dieses Schema verwendet ein Drei-Zustands-Modell anstelle einer komplizierteren Topologie zur anfänglichen Einstufung mit dem Viterbi-Verfahren und verwendet dann die komplexe Topologie für eine Neueinstufung. Dieser Vorschlag kann tatsächlich die Rechenlast vergößern. Wenn beispielsweise das umgebildete Drei-Zustands-Modell so viel Mischungen wie die komplexen Topologien hat, so müssen gleiche Anzahlen von aufgezeichneten Beobachtungswahrscheinlichkeiten zweimal berechnet werden, einmal für die Drei-Zustands-Modelle und einmal für die komplexen Technologien. Die Gesamt-Speicheranforderungen zum Speichern der zwei Sätze von Modellen würden ebenfalls ansteigen.
- Die Zeit, die erforderlich ist, um den Pfad mit größter Wahrscheinlichkeit zu finden, wodurch die Übereinstimmung eines Vokabular-Wortes mit einem unbekannten gesprochenen Wort festgestellt wird, führt zu der Erkennungsverzögerung des Spracherkennungssystems. Um innerhalb annehmbarer Verzögerungen unter Verwendung von eine kosteneffektive Hardware aufweisenden Rechenplattformen ansprechen zu können, ist ein weniger kompliziertes Erkennungsverfahren erforderlich. Ein derartiges Verfahren muß eine Verringerung der Rechenlast und der sich daraus ergebenden Zeitverzögerungen ergeben, ohne daß sich eine Einbuße an Erkennungsgenauigkeit ergibt, wobei dies einen beträchtlichen Fortschritt gegenüber dem Stand der Technik darstellt.
- Ein Ziel der vorliegenden Erfindung ist die Schaffung eines verbesserten Spracherkennungsverfahrens.
- Gemäß einem Gesichtspunkt der vorliegenden Erfindung wird ein Spracherkennungsverfahren geschaffen, das die folgenden Schritte umfaßt: Schaffung eines ersten Satzes von Allophon-Modellen zur Verwendung mit akustischen Parametervektoren einer ersten Art; Schaffung eines zweiten Satzes von Allophon-Modellen zur Verwendung mit akustischen Parametervektoren einer zweiten Art; Schaffung eines Netzwerkes, das ein Erkennungsvokabular liefert, wobei jeder Zweig des Netzwerkes eines der Allophon-Modelle ist und jeder vollständige Pfad durch das Netzwerk eine Folge von Modellen ist, die ein Wort in dem Erkennungsvokabular darstellen; Analysieren einer unbekannten Äußerung zur Erzeugung einer Rahmenfolge von akustischen Parameterveektoren für jede der ersten und zweiten Arten von akustischen Parametervektoren; Schaffung eines reduzierten Gitters zur Bestimmung eines Pfades durch das Netzwerk, der eine höchste Wahrscheinlichkeit aufweist; Berechnung von Modellabständen für jeden Rahmen von akustischen Parametervektoren der ersten Art für alle Allophon- Modelle des ersten Satzes; Auffinden eines maximalen Modellabstandes für jedes Modell des ersten Satzes; Aktualisieren des reduzierten Gitters für jeden Rahmen unter der Annahme, daß jedes Allophon-Modell ein Ein-Zustands-Modell mit einer minimalen Dauer von zwei Rahmen und einer Übergangswahrscheinlichkeit gleich ihrem maximalen Modell-Abstand ist; Sortieren von Endwerten von dem reduzierten Gitter jedes Pfades durch das Vokabular-Netzwerk; Auswählen einer ersten Vielzahl von Kandidaten für die Erkennung, die die höchsten Endwerte aufweisen; Neueinstufung der ersten Vielzahl von Kandidaten unter Verwendung eines dem vollständigen Viterbi-Verfahren entsprechenden Gitters, das dem Vokabular-Netzwerk mit den für den ersten Satz von Allophon-Modellen berechneten Modellabständen entspricht; Sortieren der Kandidaten anhand ihrer Einstufung in abnehmender Reihenfolge; Auswählen einer zweiten Vielzahl von Kandidaten, die kleiner als die erste Vielzahl ist, aus der ersten Vielzahl, zur weiteren Neueinstufung unter Verwendung des zweiten Satzes von Allophon-Modellen und der zweiten Art von akkustischen Parameter-Vektoren; Auffinden einer Allophon- Segmentierung unter Verwendung der ersten Art von akustischen Parametervektoren zur Identifikation von Rahmen für Modellabstandsberechnungen für die zweite Art von akustischen Parametervektoren; Berechnung von Modellabständen für die Rahmen von akustischen Parameter-Vektoren der zweiten Art, die für die Allophon-Modelle des zweiten Satzes identifiziert sind, die sich in der zweiten Vielzahl von Kandidaten finden; Neueinstufung der zweiten Vielzahl von Kandidaten unter Verwendung des Viterbi-Verfahrens mit den Modellabständen, die für die Allophon-Modelle des zweiten Satzes berechnet wurden; und Vergleichen der Einstufungen der zweiten Vielzahl von Kandidaten für akustische Parameter-Vektoren der ersten und zweiten Arten zur Auswahl eines Erkennungskandidatens.
- Gemäß einem weiteren Gesichtspunkt der vorliegenden Erfindung wird ein Spracherkennungsverfahren geschaffen, das die folgenden Schritte umfaßt: Schaffung eines ersten Satzes von Allophon- Modellen zur Verwendung mit Cepstrum-Parametervektoren; Schaffung eines zweiten Satzes von Allophon-Modellen zur Verwendung mit LSP-Parametervektoren, Schaffung eines Netzwerkes, das ein Erkennungsvokabular darstellt, bei dem jeder Zweig des Netzwerkes eines der Allophon-Modelle ist und jeder vollständige Pfad durch das Netzwerk eine Folge von Modellen ist, die ein Wort in dem Erkennungsvokabular darstellen; Schaffung eines reduzierten Gitters zur Bestimmung eines Pfades durch das Netzwerk, der die größte Wahrscheinlichkeit hat; Analysieren einer unbekannten Äußerung zur Erzeugung einer Rahmenfolge von sowohl Cepstrum- als auch LSP-Parmatervektoren; Berechnung der Cepstrum-Modellabstände für jeden Rahmen für alle Cepstrum-Allophon-Modelle; Auffinden eines maximalen Modellabstandes für jedes Modell; Aktualisieren des reduzierten Gitters für jeden Rahmen eines Ein-Zustands-Modells mit einer minimalen Dauer von zwei Rahmen und einer Übergangswahrscheinlichkeit gleich ihres maximalen Modellabstandes; Sortieren von Endwerten jedes Vokabular-Netzwerk-Pfades für das reduzierte Gitter; Auswählen von oberen n-Werten zur Schaffung von n- Kandidaten für die Erkennung; Neueinstufung der oberen n- Kandidaten unter Verwendung eines vollständigen Viterbi-Verfahren-Gitters mit den berechneten Modellabständen; Sortieren von Kandidaten anhand ihrer Einstufung in abnehmender Reihenfolge; Auswählen der oberen m-Kandidaten für eine weitere Neueinstufung unter Verwendung der LSP-Parametervektoren, worin m kleiner als n ist; Auffinden einer Allophon-Segmentierung unter Verwendung von Cepstrum-Parametern zur Identifikation von Rahmen für Modellabstandsberechnungen für LSP- Parameter; Berechnung von LSP-Modellabständen für die identifizierten Rahmen und für die LSP-Modelle, die sich in den m-Kandidaten finden; Neueinstufung der m-Kandidaten unter Verwendung des Viterbi-Verfahrens mit den berechneten LSP- Modellabständen; und Vergleichen der Einstufungen der oberen m-Kandidaten für Cepstrum- und LSP-Paramter zur Auswahl eines Erkennungskandidaten.
- Gemäß der vorliegenden Erfindung wird eine Suche mit zwei Durchläufen verwendet. Der erste Durchlauf verwendet ein reduziertes Ein-Zustands-Modell, dessen Übergangswahrscheinlichkeiten dem Maximalwert zugeordnet werden, der für die Beobachtungswahrscheinlichkeit des entsprechenden Allophon- Modells berechnet wurde. Es ergibt sich eine Eins-zu-Eins- Korrespondenz zwischen diesem reduzierten Modell und dem entsprechenden Allophon-Modell. Dieses reduzierte Ein-Zustands- Modell hat seine minimale Dauer auf wenige Rahmen beschränkt. Zweckmäßigerweise können minimale Dauern von entweder zwei oder drei Rahmen verwendet werden.
- Ein Vorteil der vorliegenden Erfindung ist die Vereinfachung der Kompliziertheit des Erkennungsverfahrens soweit, daß die Verwendung von kosteneffektiver Verarbeitungs-Hardware ermöglicht wird, während die Erkennungsgenauigkeit beibehalten wird.
- Die vorliegende Erfindung wird aus der folgenden Beschreibung unter Bezugnahme auf die Zeichnungen verständlich, in denen:
- Fig. 1a und 1b Teile des Vokabular-Netzwerkes gemäß einer Ausführungsform der vorliegenden Erfindung zeigen,
- Fig. 2 ein vier Zustände aufweisendes verdecktes Markov-Modell (HMM) zeigt, das ein Allophon gemäß einer Ausführungsform der vorliegenden Erfindung darstellt,
- Fig. 3 in einem Diagramm ein Verfahren zur Spracherkennung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt,
- Fig. 4 graphisch ein reduziertes Gitter zeigt, auf das in Fig. 3 bezug genommen wird,
- Fig. 5 graphisch die Allophon-Segmentierung aus Cepstrum-Parametern und Rahmen zeigt, die für die LSP-Modell- Abstandsberechnung verwendet werden, auf die in Fig. 3 bezug genommen wird,
- Fig. 6 in Form eines Blockschaltbildes eine typische Spracherkennungseinrichtung zur Verwendung des Verfahrens der Spracherkennung gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
- Unter Bezugnahme auf die Fig. 1a und 1b sind Teile des Vokabular-Netzwerkes gemäß einer Ausführungsform der vorliegenden. Erfindung gezeigt. In Fig. 1a beginnt jeder Pfad 10, 12 und an einem Eintrittsknoten 16. Der Pfad 10 schließt einen Zweig 18, der das Allophon r von dem Knoten 16 zu einem Knoten 20, einen Zweig 22, der das Allophon a von dem Knoten 18 zu einem Knoten 24 darstellt, einen Zweig 26, der das Allopon b von dem Knoten 24 zu einem Knoten 28 darstellt, einen Zweig 30, der das Allophon 1 von dem Knoten 28 zu einem Knoten 32 darstellt, und einen Zweig 34 ein, der das Allophon d von dem Knoten 32 zu einem Austrittsknoten 36 darstellt.
- In ähnlicher Weise schließt der Pfad 12 einen Zweig 38, einen Knoten 40, einen Zweig 42, einen Knoten 44, einen Zweig 46, einen Knoten 48, einen Zweig 50 und einen Austrittsknoten 52 ein, und der Pfad 14 schließt einen Zweig 54, einen Knoten 56, einen Zweig 58, einen Knoten 60, einen Zweig 62, einen Knoten 64, einen Zweig 66 und einen Austrittsknoten 68 ein.
- Das Vokabularnetzwerk ist allgemein eine Baumstruktur, wie dies in Fig. 1a gezeigt ist, kann jedoch Pfade aufweisen, die sich neu kombinieren, wie dies in Fig. 1b gezeigt ist, die zwei Allophon-Umschreibungen oder Transkriptionen des Wortes "record" darstellt.
- Die Umschreibungen für "record" sind durch folgendes dargestellt: einen Eintrittsknoten 68, einen Zweig 70, einen Knoten 72, einen Zweig 74, einen Knoten 70, einen Zweig 78, einen Knoten 80, einen Zweig 82, einen Knoten 84, einen Zweig 86, einen Knoten 88, einen Zweig 90 und einen Austrittsknoten 92; und einen Zweig 93, einen Knoten 94, einen Zweig 96, einen Knoten 98, einen Zweig 100, einen Knoten 102, einen Zweig 104, dann der Knoten 88, der Zweig 90 und der Austrittsknoten 92.
- Jeder Zweig des Vokabular-Netzwerkes ist durch ein verdecktes Markov-Modell dargestellt.
- In Fig. 2 ist ein vier zustände aufweisendes verdecktes Markov- Modell (Hidden Markov-Model - HMM) gezeigt, das ein Allophon gemäß einer Ausführungsform der vorliegenden Erfindung zeigt. Das vier Zustände aufweisende HMM schließt erste, zweite, dritte und vierte Zustände 110, 112, 114 bzw. 116 ein. Übergänge von Zuständen können in den meisten Fällen von drei Arten sein: auf sich selbst, nächster Zustand und Überspringen des nächsten Zustandes. Für den ersten Zustand ist der Übergang auf sich selbst ein Übergang 118, der Übergang auf den nächsten Zustand ist eine Übergang 120, und der den nächsten Zustand überspringende Übergang ist ein Übergang 122. In ähnlicher Weise weist der zweite Zustand 112 einen Übergang 124 auf sich selbst, einen Übergang 126 auf den nächsten Zustand und einen den nächsten Zustand 128 auf. Weil der vierte Zustand 116 einen Austrittszustand darstellt, hat der dritte Zustand 114 keine den nächsten Zustand überspringenden Übergänge. Entsprechend hat der dritte Zustand 114 einen Übergang 130 auf sich selbst und einen Übergang 132 auf den nächsten Zustand. Der vierte Zustand 116 hat als Austrittszustand lediglich einen Zwischenmodell-Übergang In ähnlicher Weise hat der erste Zustand 110 als Eintrittszustand ebenfalls einen Zwischenmodell-Übergang 138. Die Zwischenmodell-Übergänge 136 und 138 ermöglichen eine Verkettung von Modellen zu einer Kette, die Vokabular-Worte darstellt.
- In Fig. 3 ist ein Diagramm eines Spracherkennungsverfahrens gemäß einer Ausführungsform der vorliegenden Erfindung gezeigt. Das Diagramm ergibt Schritte und Vorgänge, die in zwei Zeitrahmen auftreten: der erste ist in Echtzeit bezüglich der ankommenden Sprache und mit A) Rahmensynchron bezeichnet, während der zweite die Verarbeitungszeit nach dem Empfang der Sprache ist und mit B) Erkennungsverzögerung bezeichnet ist.
- Der Teil A) schließt sieben Schritte ein. Der Schritt 1) ist die Identifikation des Beginns von Worten oder Ausdrücken mit einem Endzeiger zum Starten eines rahmensynchronen Suchverfahrens durch Initialisieren eines reduzierten Gitters. Schritt 2) ist die Berechnung von Cepstrum-Modellabständen für jeden Rahmen für alle Allophon-Modelle. Schritt 3) ist die Auffindung eines maximalen Modellabstandes für jedes Modell (beispielsweise bedeutet 130 Modelle, daß 130 Maxima gefunden wurden). Schritt 4) ist die Aktualisierung des reduzierten Gitters für jeden Rahmen unter der Annahme eines Ein-Zustands-Modells mit einer minimalen Dauer von zwei Rahmen. Die Übergangswahrscheinlichkeit für dieses Modell ist die gleiche wie der maximale Modellabstand, der im Schritt 3 berechnet wurde. Schritt 5) ist die Identifikation des Endes der Sprache mit dem Endzeiger, um die Aktualisierung des reduzierten Gitters zu stoppen. Der Schritt 6) ist das Sortieren der Endwerte für jeden Vokabular-Netzwerkpfad für das reduzierte Gitter. Schritt 7) ist die Auswahl der oberen n-Werte zur Schaffung von n Kandidaten für die Erkennung, wobei ein typischer Wert für n beispielsweise gleich 30 ist. Dies schließt den rahmensynchronen Teil des Spracherkennungsverfahrens gemäß einer Ausführungsform dieser Erfindung ab.
- Der Teil B) schließt sieben Schritte (Schritte 8 bis 14) ein und kann einen oder mehrere zusätzliche Schritte einschließen (wie dies durch Schritt 15 dargestellt ist), um die Erkennungsgenauigkeit zu vergrößern. Schritt 8) ist die Neueinstufung der oberen n Kandidaten unter Verwendung des Viterbi-Verfahrens mit den Modellabständen, die im Schritt 2) berechnet wurden. Nachdem die Anzahl der Erkennungskandidaten aus jedem Vokabular- Wort bis herunter zu n Kandidaten in dem rahmensynchronen Teil verringert wurde, kann das rechenmäßig komplexe Viterbi-Verfahren in wirkungsvoller Weise dazu verwendet werden, jeden dieser n Kandidaten mit dem vollständigen Satz von Modellabständen neu einzustufen, die im Schritt 2 berechnet wurden. Der Schritt 9) ist das Sortieren der Kandidaten nach ihrer Einstufung in absteigender Reihenfolge. Der Schritt 10) ist die Auswahl der oberen m Kandidaten für eine weitere Neueinstufung unter Verwendung anderer Parameter, beispielsweise der LSP- Parameter. Ein typischer Wert von m ist 3. Der Schritt 11) ist das Auffinden einer Allophon-Segmentierung unter Verwendung von Cepstrum-Parametern. Diese Segmentbegrenzüngen werden dazu verwendet, die Rahmen zu begrenzen, die zur Berechnung der Modellabstände im Schritt 12 verwendet werden. Aufgrund der Rechenbelastung, die durch die Berechnung der Modellabstände ohne die Beschränkung auf die im Schritt 11) identifizierten Rahmen und die im Schritt 10 identifizierten Kandidaten auferlegt wurde, würde die Verwendung von alternativen Parametern eine unannehmbare zusätzliche Verzögerung einführen. Der Schritt 12) ist die Berechnung von LSP-Modellabständen für die m Kandidaten. Beispielsweise zeigen in Fig. 5 die oberen Klammern die unter Verwendung von Cepstrum hervorgerufene Segmentierung, während die unteren Klammern die Rahmen zeigen, die zur Berechnung von LSP-Modellabständen verwendet werden. Der Schritt 13) ist die Neueinstufung der m Kandidaten unter Verwendung des Viterbi-Verfahrens mit den LSP-Modellabständen, die im Schritt 12 berechnet wurden. Die Segmentbegrenzungen wurden so festgelegt, daß sie innerhalb von 230 msec (18 Rahmen) der Segmentbegrenzungen liegen, die im Schritt 11) gewonnen wurden. Der Schritt 14) ist der Vergleich der Einstufungen der oberen m Kandidaten für Cepstrum- und LSP-Parameter. Der Schritt 149 kann zweckmäßigerweise die Multiplikation der Wahrscheinlichkeiten, die sich aus Cepstrum- und LSP-Parametern für jeden jeweiligen Kandidaten ergeben, miteinander einschließen. Beispielsweise gilt für m = 3:
- (P1Cep)x(PILSP) P1kombinert } Wähle das Wort mit
- (P2Cep)x(PILSP) = P2kombinert } der gößten kombinierten
- (P3Cep)X(PILSP) = P3kombinert } Wahrscheinlichkeit. Schritt 15) stellt eine zusätzliche wahlweise Nachverarbeitung zur Vergrößerung der Genauigkeit der Auswahl dar. Weil lediglich einige wenige Kandidaten übrigbleiben, kann eine weitere wahlweise Nachverarbeitung in das Erkennungsverfahren eingefügt werden, ohne daß eine wesentliche zusätzliche Rechenlast hervorgerufen wird, und entsprechend ohne daß die Erkennungsverzögerung wesentlich vergrößert wird. Beispielsweise kann die wahlweise Nachverarbeitung die Verwendung von Allophondauer- Beschränkungen einschließen, um die Erkennungsgenauigkeit zu verbessern.
- Die beschriebene Ausführungsform verwendet ein ein Zustands- Modell mit einer minimalen Dauer von zwei Rahmen für die rahmensynchrone Suche.
- In der Tabelle A sind Daten für die Einschlußrate für die richtige Auswahl von minimalen Dauern von zwei und drei Rahmen für einen 4321-Wort-Testsatz angegeben. Die Tabelle B ergibt die Erkennungsgenauigkeit an dem 4321-Wort-Testsatz nach der Neueinstufung der oberen n Kandidaten unter Verwendung des Viterbi- Verfahrens. TABELLE A TABELLE B
- Wie dies aus den Daten der Tabelle A zu erkennen ist, ist die Einschlußrate für die richtige Auswahl für eine minimale Dauer von 3 Rahmen größer, als sie dies für zwei Rahmen ist. Wie dies jedoch aus den in Tabelle B angegebenen Daten ersichtlich ist, ergeben nach der Neueinstufung der n oberen Kandidaten unter Verwendung des Viterbi-Verfahrens die beiden Erkennungseinrichtungen praktisch die gleiche Erkennungsgenauigkeit.
- Entsprechend wird, weil die Zwei-Rahmen-Erkennungseinrichtung weniger Rechenarbeit erfordert, diese bevorzugt. Wenn ein Neueinstufungsverfahren gefunden werden kann, das eine bessere Leistung als das Viterbi-Verfahren ergibt, in dem die hohe Einschlußrate bei der Dauer von 3 Rahmen ausgenutzt wird, so ist die höhere Rechenlast der Dauer von 3 Rahmen dieses Wert.
- In Fig. 4 ist das verringerte Gitter des Schrittes 4 nach Fig. 3 graphisch dargestellt. Um das verringerte Gitter zu erzeugen, wird ein Ein-Zustands-Modell mit einer Dauer von zwei Rahmen verwendet. So ist als ein Beispiel eine Allophon- Umschreibung oder Transkription des Wortes "for" vertikal dargestellt, wobei jedem Allophon zwei Punkte auf der Achse zugeteilt sind. Die für jedes Allophon-Modell verwendete Übergangswahrscheinlichkeit ist die Maximale, die während der tatsächlichen Modellabstand-Berechnungen gefunden wird. Entsprechend erfordern Ein-Zustands-Modelle für das verringerte Gitter keine zusätzliche Berechnung von Modellabständen, sondern lediglich die Bestimmung des maximalen dieser Abstände, die für jedes Modell berechnet werden. Diese Modellabstände werden jedoch zur Verwendung in dem zweiten Durchlauf gespeichert.
- Es werden Anfangszustände für das Gitter gesetzt und dann wird für jeden Rahmen das Gitter dadurch aktualisiert, daß die maximale Übergangswahrscheinlichkeit auf jeden Übergang in jedem Zweig in dem Vokabular-Netzwerk angewandt wird.
- Als vereinfachtes Beispiel sei die Allophon-Umschreibung für das Vokabular-Wort "for" betrachtet. Anfangszustände werden dadurch eingestellt, daß Wahrscheinlichkeiten von "1" dem Anfangszustand 150 des Stillemodells ({) und dem Anfangszustand 154 des Modells (f) zugeordnet werden, und daß im übrigen Wahrscheinlichkeiten von "0" an jeder anderen Stelle auf der vertikalen Achse 156-168 des Gitters zugeordnet werden. Für jeden Zweig (Allophon-Modell) in dem Vokabular- Netzwerk werden drei Operationen durchgeführt, um das Gitter zu aktualisieren, nämlich zwei Multiplikationen und ein Vergleich. Somit besteht der Schritt der Aktualisierung des Gitters aus der Multiplikation der Anfangswahrscheinlichkeiten mit den maximalen Übergangswahrscheinlichkeiten für jedes Allophon in der Umschreibung. In dem Beispiel multipliziert p{ den Anfangswert von "1" für die Übergänge 170 und 172 für eine der Multiplikationen. Die Wahrscheinlichkeit p{ multipliziert den Anfangswert von "0" für den Übergang 174. Die Übergänge 170, 172 und 174 ergeben drei neue Zustände 176, 178 bzw. 180. Der Vergleich wird an dem Zustand durchgeführt, der einen Anfangszustand eines nächsten Allophons darstellt, in diesem Fall an dem Zustand 180. Der Wahrscheinlichkeitswert an dem Zustand 180, der sich aus dem Übergang 176 ergibt, wird mit dem Wert verglichen, der sich aus einem Übergang 182 von dem Anfangszustand 154 des Allophons (f) ergibt. Derjenige Wahrscheinlichkeitswert, der größer ist, wird für den Zustand 180 für die nächste Iteration der Gitteraktualisierung beibehalten. Wie im Fall des Stille-Modells ({) werden die Übergänge des (f)-Modells berechnet. Der Anfangswert von "1" für den Zustand 154 wird mit der maximalen Übergangswahrscheinlichkeit für das Allophon (f), pf für jeden der Übergänge 182 und 184 multipliziert. Der Anfangswert von "0" für den Zustand 156 wird mit der maximalen Übergangswahrscheinlichkeit für das Allophon (f), pf, für den Übergang 186 multipliziert. Die Übergänge 182, 184 und 186 ergeben drei neue Zustände 180, 188 bzw. 190. In ähnlicher Weise werden Wahrscheinlichkeiten für neue Zustände 192 bis 202 berechnet. Um jeden Gitter-Aktualisierungszyklus abzuschließen, werden die Werte der Zustände 176 bis 202 vor dem Beginn der Verarbeitung für den nächsten Rahmen in die Zustände 150-169 zurückkopiert.
- Die Anfangswahrscheinlichkeiten von 1 für die Anfangszustände 150 und 154 zeigen die Wahrscheinlichkeit an, daß das Wort "for" eine Anfangsstille oder ein Luftholen hat. In gleicher Weise zeigt der Übergang 204 von dem Zustand 164 zum Zustand 202 an, daß die abschließende Stille oder Atmung ebenfalls wahlweise ist. Der Zustand 202 behält den Wert bei, der die beste Wahrscheinlichkeit für den laufenden Rahmen darstellt.
- In der gesamten ausführlichen Beschreibung wurden die Übergangswahrscheinlichkeiten so beschrieben, als ob sie von "0" bis "1" reichen und als ob neue Werte bei der Aktualisierung des Gitters durch Multiplikation des derzeitigen Wertes mit der nächsten Übergangswahrscheinlichkeit abgeleitet wurden. Wie dies jedoch in der Technik der Spracherkennung üblich ist, sind typische Übergangswahrscheinlichkeiten durch Logarithmen dargestellt, so daß Multiplikationen von Wahrscheinlichkeiten auf Rechenplattformen durch rechenmäßig einfachere Additionen ausgeführt werden können.
- Die Berechnung von Modellabständen ist eine komplizierte Aufgabe und legt damit den Rechenresourcen eine große Last auf. Um LSP- Modellabstände während des Erkennungs-Verzögerungsabschnittes des Spracherkennungsverfahrens ohne annehmbare Vergrößerung dieser Verzögerung zu berechnen, ist die Anzahl von Rahmen, für die die Berechnungen durchgeführt werden, beschränkt.
- Die Schritte der Auffindung der Allophon-Segmentierung unter Verwendung von Cepstrum-Parametern und die Berechnung von LSP- Modellabständen werden anhand der Fig. 5 beschrieben. Als ein Beispiel ist die Allophon-Umschreibung für das Vokabular-Wort "for" graphisch in Fig. 5 gezeigt. Die horizontale Achse stellt Rahmen der Sprache dar. Die Cepstrum-Parameter-Allophonsegmente sind durch Balken 210, 212, 214 und 216 dargestellt, was die Segmentierung der Allophone f, o und r bezeichnet, wie dies durch die Klammern 218, 220 bzw. 222 dargestellt ist. Dies entspricht dem Schritt 11) nach Fig. 3. Indem Beispiel nach Fig. 5 sind die Rahmen für die Allophone, deren Modellabstände berechnet werden soll, so beschränkt, daß sie innerhalb von Rahmen (230 ms) der Segmentbegrenzungen liegen, die unter Verwendung der Cepstrum-Parameter bestimmt wurden. Daher wird die LSP-Modellabstandsberechnung für die Allophone f, o und r über die Rahmen berechnet, die durch die Klammern 224, 226 bzw. 228 gezeigt sind.
- In Fig. 6 ist ein Blockschaltbild einer typischen Spracherkennungseinrichtung gezeigt, die so konfiguriert ist, daß sie das Spracherkennungsverfahren der vorliegenden Erfindung verwendet. Die Spracherkennungseinrichtung schließt einen Spracheingang 290, Abschätzeinrichtungen für Cepstrum- und LSP-Parameter 292 bzw. 294 mit Parameter-Ausgängen 296 bzw. 298 an einen Eingangsdatenpuffer 302 ein. Der Eingangsdatenpuffer ist mit einem Daten-BUS 304 verbunden. Weiterhin sind mit dem Daten-BUS Verarbeitungselemente 306, ein Erkennungsdatentabellen-Speicher 308, ein Zwischenergebnis-Speicher 310 und ein Erkennungsergebnis-Ausgangsblock 312 mit einem Ausgang 314 verbunden.
- Im Betrieb wird die dem Eingang 290 zugeführte Sprache in dem Cepstrum-Analysator 292 und dem LSP-Analysator 294 analysiert, um einen Cepstrum- und LSP-Parameter-Vektorausgang über 296 bzw. 298 an den Eingangsdatenpuffer 302 für alle 12,75 msec zu erzeugen. Für die rahmensynchronen Berechnungen berechnen die Verarbeitungselemente 306 Modellabstände für jeden Rahmen von Sprachdaten für alle Cepstrum-Allophon-Modelle, die in dem Erkennungsdaten-Tabellenspeicher 308 gespeichert sind. Die berechneten Modellabstände werden in dem Zwischenergebnis- Speicher 310 für spätere Verwendung in der Viterbi-Neueinstufung der oberen n Auswahlen gespeichert. Das Gitter wird in dem Zwischenergebnis-Speicher 310 ausgebildet und wird für jeden Rahmen aktualisiert. Sobald die oberen n Auswahlen aus dem ersten Durchlauf bestimmt sind, beginnt der Erkennungsverzögerungsabschnitt des Erkennungsprozesses. Die gespeicherten Cepstrum-Modellabstände werden von dem Viterbi-Verfahren verwendet, um die oberen n Auswahlen mit der geordneten Liste neu einzustufen, die in dem Zwischenergebnis-Speicher 310 gespeichert ist. Die oberen n Auswahlen werden dann erneut unter Verwendung der Viterbi-Einstufungen geordnet. Die oberen m Auswahlen werden dann unter Verwendung von LSP-Parametern von dem Eingangsdatenpuffer 302 neu eingestuft. LSP-Modellabstände werden dadurch berechnet, daß Elemente 306 für die LSP-Allophonmodelle, die sich in den oberen m Auswahlen finden, unter Verwendung derjenigen verarbeitet werden, die in dem Erkennungsdaten-Tabellenspeicher 308 gespeicehrt sind. Für jedes Allophon-Modell werden lediglich die Rahmen verwendet, die von der Cepstrum-Segmentierung geliefert wurden. Die berechneten Modellabstände werden in dem Zwischenergebnis- Speicher 310 gespeichert und bei der Viterbi-Neueinstufung der oberen m Auswahlen verwendet. Der Vergleich der oberen m Cepstrum- und LSP-Auswahlen erfolgt, um eine Erkennung zu schaffen, die in dem Erkennungsergebnis-Ausgang 312 gespeichert wird. Das Ergebnis wird zu einer Anwendung über den Ausgang 314 als eine Erkennung weitergeleitet. Wie dies weiter oben beschrieben wurde, kann eine weitere Nachverarbeitung erfolgen, um die Erkennungsgenauigkeit zu verbessern.
- Eine Hardware-Ausführung der Spracherkennungseinrichtung nach Fig. 6 verwendet sechs TMS320C&sub3;&sub1;-Mikroprozessoren der Firma Texas Instruments als Verarbeitungselemente 306 und einen Gesamtspeicher von ungefähr 16 Mbytes, der zur Schaffung des Eingangsdatenspeichers 302, des Erkennungsdaten-Tabellen- Speichers 308 und des Zwischenergebnis-Speichers 310 verwendet wird.
- Vielfältige Modifikationen, Abänderungen und Anpassungen können an den vorstehend beschriebenen speziellen Ausführungsformen der Erfindung durchgeführt werden, ohne den Schutzumfang der Erfindung zu verlassen, der in den Ansprüchen definiert ist.
Claims (8)
1. Spracherkennungsverfahren mit den folgenden Schritten:
Schaffung eines ersten Satzes von Allophon-Modellen
zur Verwendung mit akustischen Parametervektoren einer ersten
Art;
Schaffung eines zweiten Satzes von Allophon-Modellen
zur Verwendung mit akustischen Parametervektoren einer zweiten
Art;
Schaffung eines Netzwerkes, das ein Erkennungsvokabular
darstellt, wobei jeder Zweig des Netzwerkes eines der Allophon-
Modelle ist und jeder vollständige Pfad durch das Netzwerk
eine Folge von Modellen ist, der ein Wort in dem
Erkennungsvokabular darstellt;
Analysieren einer unbekannten Äußerung zur Erzeugung
einer Rahmenfolge von akustischen Parameter-Vektoren für jeden
der ersten und zweiten Arten von akustischen Parameter-
Vektoren;
Schaffung eines reduzierten Gitters zur Bestimmung
eines Pfades durch das Netzwerk, der die größte
Wahrscheinlichkeit aufweist;
Berechnung von Modellabständen für jeden Rahmen von
akustischen Parametervektoren der ersten Art für alle Allophon-
Modelle des ersten Satzes;
Auffinden eines maximalen Modellabstandes für jedes
Modell des ersten Satzes;
Aktualisieren des reduzierten Gitters für jeden Rahmen
unter der Annahme, daß jedes Allophon-Modell ein Ein-Zustands-
Modell mit einer minimalen Dauer von zwei Rahmen und einer
Übergangswahrscheinlichkeit gleich seinem maximalen
Modellabstand ist;
Sortieren der Endwerte von dem reduzierten Gitter
jedes Pfades durch das Vokabular-Netzwerk;
Auswählen einer ersten Vielzahl von Kandidaten zur
Erkennung, die die höchsten Endwerte aufweisen;
Neueinstufung der ersten Vielzahl von Kandidaten unter
Verwendung eines vollständigen Viterbi-Verfahren-Gitters, das
dem Vokabular-Netzwerk mit den für den ersten Satz von Allophon-
Modellen berechneten Modellabständen entspricht;
Sortieren der Kandidaten nach ihrer Einstufung in
abnehmender Reihenfolge;
Auswählen einer zweiten Vielzahl von Kandidaten, die
kleiner als die erste Vielzahl ist, aus der ersten Vielzahl,
zur weiteren Neueinstufung unter Verwendung des zweiten Satzes
von Allophon-Modellen und der zweiten Art von akustischen
Parametervektoren;
Auffinden einer Allophon-Segmentierung unter Verwendung
der ersten Art von akustischen Parametervektoren zur
Identifikation von Rahmen für Modellabstandsberechnungen für die zweite
Art von akustischen Parametervektoren;
Berechnung von Modellabständen für die Rahmen von
akustischen Parametervektoren der zweiten Art, die für die
Allophonmodelle des zweiten Satzes identifiziert sind, die
in der zweiten Vielzahl von Kandidaten gefunden wurden;
Neueinstufung der zweiten Vielzahl von Kandidaten unter
Verwendung des Viterbi-Verfahrens mit den Modellabständen, die
für die Allophon-Modelle des zweiten Satzes berechnet wurden;
und
Vergleichen der Einstufungen der zweiten Vielzahl von
Kandidaten für akustische Parametervektoren von erster und
zweiter Art zur Auswahl eines Erkennungskandidaten.
2. Spracherkennungsverfahren nach Anspruch 1, bei dem die
akustischen Parametervektoren der ersten Art
Cepstrum-Parametervektoren einschließen.
3. Spracherkennungsverfahren nach Anspruch 2, bei dem die
akustischen Parametervektoren der zweiten Art
LSP-Parametervektoren einschließen.
4. Verfahren zur Spracherkennung nach Anspruch 1, das
weiterhin die folgenden Schritte umfaßt:
Identifikation des Beginns von Worten oder Sätzen mit
einem Endzeiger vor dem Schritt der Schaffung des reduzierten
Gitters; und
Identifizieren des Endes der Sprache mit dem Endzeiger
zum Stoppen des Aktualisierens des reduzierten Gitters.
5. Spracherkennungsverfahren mit den folgenden Schritten:
Schaffung eines ersten Satzes von Allophon-Modellen
zur Verwendung mit Cepstrum-Parametervektoren;
Schaffung eines zweiten Satzes von Allophon-Modellen
zur Verwendung mit LSP-Parametervektoren;
Schaffung eines Netzwerkes, das ein Erkennungsvokabular
darstellt, wobei jeder Zweig des Netzwerkes eines der Allophon-
Modelle ist und jeder vollständige Pfad durch das Netzwerk eine
Folge von Modellen ist, die ein Wort in dem Erkennungsvokabular
darstellt;
Schaffung eines verringerten Gitters zur Bestimmung
eines Pfades durch das Netzwerk mit der größten
Wahrscheinlichkeit;
Analysieren einer unbekannten Äußerung zur Erzeugung
einer Rahmenfolge von sowohl Cepstrum- als auch
LSP-Parametervektoren;
Berechnen von Cepstrum-Modellabständen für jeden Rahmen
für alle Cepstrum-Allophonmodelle;
Auffinden eines maximalen Modellabstandes für jedes
Modell;
Aktualisieren des reduzierten Gitters für jeden Rahmen
unter der Annahme eines Ein-Zustands-Modells mit einer minimalen
Dauer von zwei Rahmen und einer Übergangswahrscheinlichkeit
gleich ihrem maximalen Modellabstand;
Sortieren von Endwerten jedes Vokabular-Netzwerkpfades
für das reduzierte Gitter;
Auswahl der oberen n Werte zur Schaffung von n
Kandidaten für die Erkennung;
Neueinstufung der oberen n Kandidaten unter Verwendung
eines vollständigen Viterbi-Verfahren-Modelles mit den
berechneten Modellabständen;
Sortieren von Kandidaten anhand ihrer Einstufung in
absteigender Reihenfolge;
Wählen der oberen m Kandidaten für eine weitere
Neueinstufung unter Verwendung der LSP-Parametervektoren, worin
m kleiner als n ist;
Auffinden einer Allophon-Segmentierung unter Verwendung
von Cepstrum-Parametern zur Identifikation von Rahmen für
Modelabstandsberechnungen für LSP-Parameter;
Berechnen von LSP-Modelabständen für identifizierte
Rahmen und für die LSP-Modelle, die sich in den m-Kandidaten
finden;
Neueinstufung der m Kandidaten unter Verwendung des
Viterbi-Verfahrens mit den berechneten LSP-Modellabständen; und
Vergleichen der Einstufungen der oberen M-Kandidaten
für Cepstrum- und LSP-Parameter zur Auswahl eines
Erkennungskandidaten.
6. Verfahren zur Spracherkennung nach Anspruch 5, das
weiterhin die folgenden Schritte umfaßt:
Identifikation des Beginns von Worten oder Phrasen mit
einem Endzeiger vor dem Schritt der Schaffung des reduzierten
Gitters; und
Identifizieren des Endes der Sprache mit dem Endzeiger
zum Stoppen des Aktualisierens des reduzierten Gitters.
7. Verfahren zur Spracherkennung nach Anspruch 6, bei dem der
Schritt des Vergleichens der oberen m Kandidaten die Schritte
der Multiplikation der sich aus den Cepstrum und
LSP-Parametern ergebenden Wahrscheinlichkeiten für jeden jeweiligen
Kandidaten miteinander und das Auswählen des Kandidatens mit
der höchsten kombinierten Wahrscheinlichkeit als den
Erkennungskandidaten einschließt.
8. Verfahren zur Spracherkennung nach Anspruch 7, bei dem
die Rahmen so beschränkt sind, daß sie innerhalb von 18 Rahmen
der Segmentbegrenzungen liegen, die unter Verwendung der
Cepstrum-Parameter gefunden werden.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/080,543 US5515475A (en) | 1993-06-24 | 1993-06-24 | Speech recognition method using a two-pass search |
PCT/CA1994/000284 WO1995000949A1 (en) | 1993-06-24 | 1994-05-18 | Speech recognition method using a two-pass search |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69420842D1 DE69420842D1 (de) | 1999-10-28 |
DE69420842T2 true DE69420842T2 (de) | 2000-02-24 |
Family
ID=22158066
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69420842T Expired - Fee Related DE69420842T2 (de) | 1993-06-24 | 1994-05-18 | Spracherkennung unter anwendung einer zweidurchgängigen suchmethode |
Country Status (6)
Country | Link |
---|---|
US (1) | US5515475A (de) |
EP (1) | EP0705473B1 (de) |
JP (1) | JP3049259B2 (de) |
CA (1) | CA2163017C (de) |
DE (1) | DE69420842T2 (de) |
WO (1) | WO1995000949A1 (de) |
Families Citing this family (207)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3453456B2 (ja) * | 1995-06-19 | 2003-10-06 | キヤノン株式会社 | 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置 |
US5706397A (en) * | 1995-10-05 | 1998-01-06 | Apple Computer, Inc. | Speech recognition system with multi-level pruning for acoustic matching |
US5987414A (en) * | 1996-10-31 | 1999-11-16 | Nortel Networks Corporation | Method and apparatus for selecting a vocabulary sub-set from a speech recognition dictionary for use in real time automated directory assistance |
US5839107A (en) * | 1996-11-29 | 1998-11-17 | Northern Telecom Limited | Method and apparatus for automatically generating a speech recognition vocabulary from a white pages listing |
US5987408A (en) * | 1996-12-16 | 1999-11-16 | Nortel Networks Corporation | Automated directory assistance system utilizing a heuristics model for predicting the most likely requested number |
US6122613A (en) * | 1997-01-30 | 2000-09-19 | Dragon Systems, Inc. | Speech recognition using multiple recognizers (selectively) applied to the same input sample |
US5884259A (en) * | 1997-02-12 | 1999-03-16 | International Business Machines Corporation | Method and apparatus for a time-synchronous tree-based search strategy |
JP3962445B2 (ja) * | 1997-03-13 | 2007-08-22 | キヤノン株式会社 | 音声処理方法及び装置 |
US6236715B1 (en) | 1997-04-15 | 2001-05-22 | Nortel Networks Corporation | Method and apparatus for using the control channel in telecommunications systems for voice dialing |
US5956675A (en) * | 1997-07-31 | 1999-09-21 | Lucent Technologies Inc. | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
US6018708A (en) * | 1997-08-26 | 2000-01-25 | Nortel Networks Corporation | Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies |
US5995929A (en) * | 1997-09-12 | 1999-11-30 | Nortel Networks Corporation | Method and apparatus for generating an a priori advisor for a speech recognition dictionary |
US6122361A (en) * | 1997-09-12 | 2000-09-19 | Nortel Networks Corporation | Automated directory assistance system utilizing priori advisor for predicting the most likely requested locality |
CA2216224A1 (en) * | 1997-09-19 | 1999-03-19 | Peter R. Stubley | Block algorithm for pattern recognition |
US6253178B1 (en) | 1997-09-22 | 2001-06-26 | Nortel Networks Limited | Search and rescoring method for a speech recognition system |
FR2769118B1 (fr) * | 1997-09-29 | 1999-12-03 | Matra Communication | Procede de reconnaissance de parole |
US6253173B1 (en) | 1997-10-20 | 2001-06-26 | Nortel Networks Corporation | Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors |
US6098040A (en) * | 1997-11-07 | 2000-08-01 | Nortel Networks Corporation | Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking |
WO1999028898A1 (fr) * | 1997-11-27 | 1999-06-10 | Hitachi, Ltd. | Systeme et procede de reconnaissance vocale |
US6182038B1 (en) * | 1997-12-01 | 2001-01-30 | Motorola, Inc. | Context dependent phoneme networks for encoding speech information |
US8855998B2 (en) | 1998-03-25 | 2014-10-07 | International Business Machines Corporation | Parsing culturally diverse names |
US6963871B1 (en) * | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
US8812300B2 (en) | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
US6052443A (en) * | 1998-05-14 | 2000-04-18 | Motorola | Alphanumeric message composing method using telephone keypad |
US6137867A (en) * | 1998-05-14 | 2000-10-24 | Motorola, Inc. | Alphanumeric message composing method using telephone keypad |
US5974121A (en) * | 1998-05-14 | 1999-10-26 | Motorola, Inc. | Alphanumeric message composing method using telephone keypad |
US6208964B1 (en) | 1998-08-31 | 2001-03-27 | Nortel Networks Limited | Method and apparatus for providing unsupervised adaptation of transcriptions |
SE9802990L (sv) * | 1998-09-04 | 2000-03-05 | Ericsson Telefon Ab L M | Förfarande och system för taligenkänning |
US6493705B1 (en) * | 1998-09-30 | 2002-12-10 | Canon Kabushiki Kaisha | Information search apparatus and method, and computer readable memory |
DE69941999D1 (de) * | 1998-10-09 | 2010-03-25 | Sony Corp | Erkennungsvorrichtung, Erkennungsverfahren und Aufzeichnungsmedium |
US6148285A (en) * | 1998-10-30 | 2000-11-14 | Nortel Networks Corporation | Allophonic text-to-speech generator |
JP3420965B2 (ja) * | 1999-02-25 | 2003-06-30 | 日本電信電話株式会社 | 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体 |
US7058573B1 (en) * | 1999-04-20 | 2006-06-06 | Nuance Communications Inc. | Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes |
US6542866B1 (en) * | 1999-09-22 | 2003-04-01 | Microsoft Corporation | Speech recognition method and apparatus utilizing multiple feature streams |
US6480827B1 (en) * | 2000-03-07 | 2002-11-12 | Motorola, Inc. | Method and apparatus for voice communication |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
KR100446289B1 (ko) * | 2000-10-13 | 2004-09-01 | 삼성전자주식회사 | 역 히든 마르코브 모델(ihmm)을 이용한 정보 탐색방법및 장치 |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
AU2002247891A1 (en) * | 2002-03-27 | 2003-10-20 | Nokia Corporation | Pattern recognition |
EP1575031A3 (de) * | 2002-05-15 | 2010-08-11 | Pioneer Corporation | Vorrichtung zur Spracherkennung |
US7191130B1 (en) * | 2002-09-27 | 2007-03-13 | Nuance Communications | Method and system for automatically optimizing recognition configuration parameters for speech recognition systems |
US7117153B2 (en) * | 2003-02-13 | 2006-10-03 | Microsoft Corporation | Method and apparatus for predicting word error rates from text |
US20040186714A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Speech recognition improvement through post-processsing |
US20040254790A1 (en) * | 2003-06-13 | 2004-12-16 | International Business Machines Corporation | Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars |
DE102004001212A1 (de) * | 2004-01-06 | 2005-07-28 | Deutsche Thomson-Brandt Gmbh | Verfahren und Vorrichtung zum Durchsuchen einer Datenbank in zwei Suchschritten |
KR100612839B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 도메인 기반 대화 음성인식방법 및 장치 |
US20070005586A1 (en) * | 2004-03-30 | 2007-01-04 | Shaefer Leonard A Jr | Parsing culturally diverse names |
US8924212B1 (en) * | 2005-08-26 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | System and method for robust access and entry to large structured data using voice form-filling |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20070132834A1 (en) * | 2005-12-08 | 2007-06-14 | International Business Machines Corporation | Speech disambiguation in a composite services enablement environment |
US7877256B2 (en) * | 2006-02-17 | 2011-01-25 | Microsoft Corporation | Time synchronous decoding for long-span hidden trajectory model |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
KR101415534B1 (ko) * | 2007-02-23 | 2014-07-07 | 삼성전자주식회사 | 다단계 음성인식장치 및 방법 |
JP5229216B2 (ja) * | 2007-02-28 | 2013-07-03 | 日本電気株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP4322934B2 (ja) * | 2007-03-28 | 2009-09-02 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10078487B2 (en) | 2013-03-15 | 2018-09-18 | Apple Inc. | Context-sensitive handling of interruptions |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (de) | 2013-06-09 | 2022-01-12 | Apple Inc. | Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitalen assistenten |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US20160265332A1 (en) | 2013-09-13 | 2016-09-15 | Production Plus Energy Services Inc. | Systems and apparatuses for separating wellbore fluids and solids during production |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9135911B2 (en) * | 2014-02-07 | 2015-09-15 | NexGen Flight LLC | Automated generation of phonemic lexicon for voice activated cockpit management systems |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US9484022B2 (en) | 2014-05-23 | 2016-11-01 | Google Inc. | Training multiple neural networks with different accuracy |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN116959420A (zh) * | 2018-04-16 | 2023-10-27 | 谷歌有限责任公司 | 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言 |
WO2019203794A1 (en) | 2018-04-16 | 2019-10-24 | Google Llc | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
CN112786035A (zh) * | 2019-11-08 | 2021-05-11 | 珠海市一微半导体有限公司 | 清洁机器人的语音识别方法、系统和芯片 |
CN111754987A (zh) * | 2020-06-23 | 2020-10-09 | 国投(宁夏)大数据产业发展有限公司 | 一种大数据分析语音识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4587670A (en) * | 1982-10-15 | 1986-05-06 | At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
EP0438662A2 (de) * | 1990-01-23 | 1991-07-31 | International Business Machines Corporation | Einrichtung und Verfahren zur Gruppierung von Äusserungen eines Phonemen in von Kontexten abhängigen Kategorien, die auf Tonähnlichkeit basiert sind für automatische Spracherkennung |
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
US5349645A (en) * | 1991-12-31 | 1994-09-20 | Matsushita Electric Industrial Co., Ltd. | Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches |
US5386492A (en) * | 1992-06-29 | 1995-01-31 | Kurzweil Applied Intelligence, Inc. | Speech recognition system utilizing vocabulary model preselection |
-
1993
- 1993-06-24 US US08/080,543 patent/US5515475A/en not_active Expired - Lifetime
-
1994
- 1994-05-18 CA CA002163017A patent/CA2163017C/en not_active Expired - Fee Related
- 1994-05-18 WO PCT/CA1994/000284 patent/WO1995000949A1/en active IP Right Grant
- 1994-05-18 DE DE69420842T patent/DE69420842T2/de not_active Expired - Fee Related
- 1994-05-18 JP JP7502266A patent/JP3049259B2/ja not_active Expired - Lifetime
- 1994-05-18 EP EP94916113A patent/EP0705473B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
WO1995000949A1 (en) | 1995-01-05 |
CA2163017A1 (en) | 1995-01-05 |
EP0705473B1 (de) | 1999-09-22 |
EP0705473A1 (de) | 1996-04-10 |
DE69420842D1 (de) | 1999-10-28 |
JPH08506430A (ja) | 1996-07-09 |
US5515475A (en) | 1996-05-07 |
CA2163017C (en) | 2000-01-25 |
JP3049259B2 (ja) | 2000-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69420842T2 (de) | Spracherkennung unter anwendung einer zweidurchgängigen suchmethode | |
DE69324428T2 (de) | Verfahren zur Sprachformung und Gerät zur Spracherkennung | |
DE69613338T2 (de) | Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69032777T2 (de) | Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung | |
DE69518723T2 (de) | Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69422097T2 (de) | Training von kombinierten Kettenmodellen mit minimaler Fehlerrate | |
DE69225371T2 (de) | Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle | |
DE69726499T2 (de) | Verfahren und Vorrichtung zur Kodierung von Aussprache-Prefix-Bäumen | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE69010941T2 (de) | Verfahren und Einrichtung zur automatischen Bestimmung von phonologischen Regeln für ein System zur Erkennung kontinuierlicher Sprache. | |
EP0797185B1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE69225173T2 (de) | Spracherkennungsgerät | |
DE69712277T2 (de) | Verfahren und vorrichtung zur automatischen sprachsegmentierung in phonemartigen einheiten | |
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
DE602004000382T2 (de) | Rauschadaptierung zur Spracherkennung | |
DE69914368T2 (de) | Netzwerk- und sprachmodelle zur verwendung in einem spracherkennungssystem | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE102007015497B4 (de) | Spracherkennungsvorrichtung und Spracherkennungsprogramm | |
DE69226796T2 (de) | Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: NORTEL NETWORKS LTD., ST.LAURENT, QUEBEC, CA |
|
8339 | Ceased/non-payment of the annual fee |