DE69032777T2 - Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung - Google Patents
Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-ModellierungInfo
- Publication number
- DE69032777T2 DE69032777T2 DE69032777T DE69032777T DE69032777T2 DE 69032777 T2 DE69032777 T2 DE 69032777T2 DE 69032777 T DE69032777 T DE 69032777T DE 69032777 T DE69032777 T DE 69032777T DE 69032777 T2 DE69032777 T2 DE 69032777T2
- Authority
- DE
- Germany
- Prior art keywords
- speech recognition
- irrelevant
- tokens
- recognition system
- utterances
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 5
- 238000013179 statistical model Methods 0.000 claims 3
- 239000000470 constituent Substances 0.000 claims 2
- 239000013598 vector Substances 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 239000000945 filler Substances 0.000 description 6
- 239000000203 mixture Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 3
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 3
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 3
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
- Die vorliegende Erfindung betrifft Verfahren zur automatischen Erkennung von Sprache, die ausgewählte Schlüsselwörter enthält.
- Robuste, sprecherunabhängige Spracherkennungssysteme, die gut über Fernsprechwählanschlüsse arbeiten, werden schon seit mehr als zehn Jahren entwickelt. Anfänglich konnten Spracherkennungssysteme eine kleine Anzahl von Vokabularbestandteilen erkennen, die gesondert gesprochen wurden; es sind neuere Systeme bekannt, die Vokabularmengen mittlerer Größe erkennen können, die fließend gesprochen werden, so wie es in dem US-Patent Nr. 4 783 804, übertragen an B.-H. Juang et al., ausgegeben am 8.11.1988, beschrieben wird. Bei den meisten Spracherkennungssystemen besteht eine grundlegende Voraussetzung darin, daß das zu erkennende Eingangssignal ausschließlich aus Wörtern aus dem Erkennungsvokabular und aus Hintergrundstille besteht. Neuere Untersuchungen auf dem Gebiet der Erkennung einer begrenzten Menge gesonderter Befehlsphrasen zur Einleitung von "handvermittelten Verbindungen" haben jedoch gezeigt, daß es äußerst schwierig oder sogar unmöglich ist, praktisch zu erzielen, daß Teilnehmer eines solchen Dienstes nur die zulässigen Eingangswörter sprechen. Bei einem in der AT&T-Zentrale in Hayward, Kalifornien (bei der Bucht von San Francisco) durchgeführten großangelegten Test sprecherunabhängiger Spracherkennungstechnologien für gesonderte Wörter wurde Live- Fernsprechteilnehmerverkehr verwendet, um die gerade für eine neue Generation von Fernsprechvermittlungsanlagen entwickelten Verbindungsbearbeitungsverfahren zu bewerten. Teilnehmer, die handvermittelte Verbindungen einleiteten, wurden gebeten, mit Worten die Art der von ihnen gewünschten Verbindung zu identifizieren (d.h. R- Gespräch, Anrufkarte, Voranmeldung, Berechnung an Drittperson oder Handvermittlung). Jeder Anrufer wurde aufgefordert, auf gesonderte Weise einen von fünf mündlich angeforderten Befehlen zu sprechen. Obwohl 82% der Benutzer tatsächlich eines der Befehlswörter sprachen, wurden nur 79% dieser Eingaben gesondert gesprochen (d.h. es befolgten nur 65% aller Anrufer das Protokoll). Ein Mithören der gesprochenen Antworten der Teilnehmer zeigte, daß 17% aller Antworten zusammen mit irrelevanter Spracheingabe einen gültigen Vokabularbestandteil enthielten. Einige Beispiele sind die folgenden:
- - < Stille> R-Gespräch, bitte < Stille>
- - Ehm? Also gut, ich würde gerne mit Anrufkarte anrufen
- - R-Gespräch vom Thomas < Stille>
- - Ich will eine Voranmeldung haben
- - < Stille> Ich hätte gerne die Vermittlung
- Die meisten herkömmlichen Erkennungsalgorithmen für gesonderte Wörter sind nicht so entworfen, daß sie Vokabularbestandteile erkennen, die in Trägerphrasen eingebettet sind. Es müssen Modifikationen der Algorithmen als solche vorgenommen werden, um die Erkennung definierter Wörter des Vokabulars zu ermöglichen, die in irrelevanter Sprache eingebettet sind, d.h. um Schlüsselwörter zu identifizieren.
- Obwohl sich die Forschung lange mit dem allgemeinen Wortidentifizierungsproblem beschäftigt hat, wurden die meisten Ergebnisse nicht veröffentlicht. Die publizierten Worterkennungsverfahren basieren hauptsächlich auf schablonengestützten, dynamischen Zeitverzerrungsansätzen. Zum Beispiel beschreibt der Artikel "Detecting and Locating Key Words in Continuous Speech Using Linear Predictive Coding", IEEE Transactions on Acoustics, Speech and Signal Processing, Band ASSP.25, Nr. 5, S. 362-367, Oktober 1977, von Christiansen und Rushforth ein sprechergeschultes Schlüsselwort-Erkennungssystem, das eine LPC-Darstellung des Sprachsignals ohne jegliche syntaktische oder semantische Informationen über die Aufgabe verwendet. Mit diesem Ansatz wurde anhand einer Vokabularmenge von vier Schlüsselwörtern und zehn Ziffern eine gute Worterkennungsgenauigkeit erzielt.
- In "Keyword Recognition Using Template Concatenation", Conf. Rec. IEEE Int. Conf. Acous. Speech, and Signal Processing, S. 1233-1236, Tampa, Florida, März 1985, schlugen Higgins und Wohlford ein System mit dynamischer Zeitverzerrung zur Schlüsselworterkennung vor. Bei diesem System wurden Erkenntnisse über das Vokabular und die Syntax der Eingangssprache verwendet. Es wurde eine Menge von Schablonen für Schlüsselwörter und Nicht- Schlüsselwörter erzeugt und mit mehreren gemeinsamen Füll-Schablonen verglichen, um Schlüsselwörter in fließender Sprache zu erkennen. Diese Füll-Schablonen wurden (1) unter Verwendung von Daten aus sechs "Funktions"-Wörtern oder (2) durch Clustern von Nicht- Vokabularwörtern zu Segmenten, die ungefähr gleich Silben sind, unter Verwendung von Hand markierter Daten erzeugt. Die Ergebnisse zeigten an, daß eine explizite Kenntnis des Vokabulars zwar nicht besonders wichtig zu sein braucht, die Verwendung von Füll-Schablonen jedoch wichtig sein kann. Die Autoren fanden jedoch, daß sich die Anzahl solcher Füll-Schablonen stark auf die Leistung der Schlüsselworterkennungsvorrichtung auswirkt. Außerdem stellten sie fest, daß die Dauer der Füll-Schablonen die Genauigkeit ihres Systems steuerte. Mit zunehmender Anzahl von Schablonen, und kürzer werdenden durchschnittlichen Füll-Schablonen verbesserte sich die Genauigkeit des Systems. Beschränkungen der Dauer sind bei allen Schablonenvergleichserkennungssystemen mit dynamischer Zeitverzerrung ein großes Problem, da jede Schablone eine physikalische Dauer aufweist und die Algorithmen bestimmten lokalen Beschränkungen der Zeitdauer genügen müssen.
- Ähnlich wurde in dem bestehenden Patent eines der vorliegenden Autoren, Chin-Hui Lee, mit John W. Klovstad und Kalyan Ganesan, US-Patent Nr. 4 713 777, ausgegeben am 15.12.1987, ein Hidden-Markov-Modell (HMM) verwendet, um Stille zu modellieren. Es wurden feste Bewertungsschwellenwerte verwendet, um Falschwarnungen zu beseitigen.
- In dem Artikel "Application of Hidden Markov Models to Automatic Speech Endpoint Detection, Computer Speech and Language, Band 2, 3/4, S. 321-341, Dezember 1987, stellten zwei der vorliegenden Autoren, Wilpon und Rabiner, einen statistisch arbeitenden Erkennungsalgorithmus vor, bei dem die explizite Endpunkterkennung von Sprache völlig aus dem Erkennungssystem beseitigt und gleichzeitig eine hohe Erkennungsgenauigkeit aufrechterhalten wurde. Zu diesem Zweck modellierte das Erkennungssystem das ankommende Signal als eine Sequenz von Hintergrundsignal- und Vokabularwörtern. Diese Arbeit war jedoch insofern begrenzt, als die Vokabularwörter gesondert, d.h. ohne irrelevante verbale Eingaben gesprochen werden mußten.
- Die Autoren haben entdeckt, daß es möglich ist, die Hintergrundgeräusche, einschließlich verbaler Geräusche (irrelevante Sprache), die in der Nähe von zu erkennenden Schlüsselwörtern auftreten, erfolgreich zu modellieren.
- Weiterhin haben die Autoren entdeckt, daß bei ausreichenden gegebenen Informationen, um ein solches Modell zu schulen, die Verwendung nur eines solchen Hintergrundmodells fast genausogut wie eine. Mehrzahl solcher Modelle arbeiten kann. Diese Entdeckung war aus dem oben angeführten Stand der Technik nicht vorhersehbar.
- Gemäß einem Merkmal der durch die angefügten Ansprüche definierten vorliegenden Erfindung wird zur Erkennung spezifizierter Vokabularwörter (die im folgenden als Schlüsselwörter bezeichnet werden) im Kontext uneingeschränkter Sprache ein auf statistische Weise arbeitendes Modell verwendet, das gewöhnlich als ein Hidden-Markov-Modell (HMM) bezeichnet wird. Die vorliegende Erfindung basiert auf dem grammatischen Konzept des oben angeführten Artikels von Wilpon et al. Der Ansatz, den die vorliegenden Autoren entwickelt haben, modelliert die gesamte Hintergrundumgebung, einschließlich Stille, Zimmerumgebung, Übertragungsgeräusche, und insbesondere irrelevante Sprache. Die Autoren stellen ein gegebenes Spracheingangssignal als eine unbeschränkte Sequenz solcher irrelevanter Eingangssignale mit einem nachfolgenden Schlüsselwort dar, dem eine weitere unbeschränkte Sequenz irrelevanter Eingangssignale folgt, obwohl im allgemeinsten Kontext nur ein solcher Nexus benötigt wird. Dies geschieht, indem mindestens ein Hidden-Markov-Modell erzeugt wird, das irrelevante Sprache darstellt. Zur Bestimmung der besten Sequenz von irrelevanter Sprache und Schlüsselwörtern wird ein grammatikgestütztes Erkennungssystem für gebundene Wörter verwendet.
- Bei dieser gegebenen Struktur eines Erkennungssystems ermöglicht die Verwendung sogenannter (allgemeiner) Senken-Modelle für die irrelevante Sprache der Erkennungsvorrichtung, die irrelevanten Signale gleichzeitig mit der Erkennung der Schlüsselwörter zu erkennen.
- Weitere Merkmale und Vorteile der vorliegenden Erfindung werden bei einer Durchsicht der folgenden ausführlichen Beschreibung in Verbindung mit der Zeichnung deutlich. Es zeigen:
- Fig. 1 ein allgemeines Flußdiagramm des Erkennungssystems, in dem die vorliegende Erfindung eingesetzt werden kann;
- Fig. 2 ein Diagramm des Zustandübergangsmodells und relevante Parameter, die bei der vorliegenden Erfindung verwendet werden;
- Fig. 3 die typischste grammatische Sequenz, die bei der Ausübung der vorliegenden Erfindung vorkommt;
- Fig. 4, 5 und 6 Kurven, die bei der Erläuterung der Erfindung nützlich sind; und
- Fig. 7 ein ausführlicheres Flußdiagramm für die Ausübung der vorliegenden Erfindung.
- Mit Bezug auf das allgemeine Flußdiagramm von Fig. 1 ist zu sehen, daß der Startpunkt darin besteht, eine aus einem Sprachsignal abgeleitete Darstellung s(n) zu gewinnen. Im allgemeinen wird die Sprache digitalisiert, gefiltert, angehoben und blockweise in Rahmen zusammengestellt (alle Verfahren sind herkömmlich), um s(n) zu erzeugen. Obwohl die vorliegende Erfindung dies nicht erfordert, haben die Autoren festgestellt, daß es zweckmäßig ist, s(n) so zu analysieren, daß eine Menge von LPC-basierten Cepstral- Vektoren gewonnen wird.
- Die resultierenden Merkmalsvektoren, d.h. LPC- und Cepstrum-11-Vektoren, die durch herkömmliche Verarbeitung des Signals s(n) gewonnen werden, wird zusammen mit gültigen grammatischen Regeln in den Modell-Anpassungsschritt 13 eingespeist, in dem ein Vergleich der Merkmalsvektoren von s(n) mit den beiden oben in der kurzen Darstellung der Erfindung kurz beschriebenen Arten von Wort-Bezugsmodellen durchgeführt wird. Die letztliche beste Abschätzung aus dem Block 14 wird als das beste Schlüsselwort übertragen, d.h. als das Schlüsselwort, das der gemäß der Grammatik besten Übereinstimmung mit den Merkmalsvektoren von s(n) zugeordnet ist.
- Als Beispiel erfolgt in Fig. 1 zur Erzeugung von s(n) die Digitalisierung mit einer Rate von 6,67 kHz, und die gefilterte Sprach-Bandbreite beträgt 100 - 3200 Hz. Es können natürlich auch andere besondere Abtastraten und Filterbandbreiten verwendet werden. Der Anhebungsfaktor kann bei der typischen Anwendung a = 0,95 betragen, und die Rahmen können typischerweise 45 ms lang sein, wobei zwischen Rahmen eine Verschiebung von 15 ms besteht.
- Nach den Verfahren von L.R. Rabiner et al. aus dem Buch "Digital Processing of Speech Signals", Prentice Hall, Englewood Cliffs, New Jersey (1978), S. 356-372 und 398-401 und/oder nach den Verfahren aus der Arbeit von B. Bogert et al. "The Quefrency Analysis of Time Series for Echoes", Proc. Symp on Time Series Analysis, M. Rosenblatt, Hrsg., Kap. 15, S. 209-243, J. Wiley, New York, 1963, wird dann die LPC- und Cepstral- Analyse 11 durchgeführt. Jeder Sprachrahmen wird durch ein Hamming-Fenster gewichtet, so wie es auf Seite 121 in dem oben zitierten Buch von L.R. Rabiner et al. beschrieben wird. Danach wird an den Daten eine linear prädiktive Codierungsanalyse (LPC-Analyse) der p-ten Ordnung, beispielsweise der 8-ten Ordnung, durchgeführt. Für jeden Rahmen wird eine Menge von acht LPC-Koeffizienten erzeugt. Das resultierende Signal wird dann auf bekannte Weise zu einer Sequenz von LPC- Rahmenvektoren reduziert. Es ist zu beachten, daß keine automatische Endpunkterkennung an den Daten durchgeführt wird.
- Danach wird aus dem LPC-Rahmenvektor der aus LPC abgeleitete Cepstral-Vektor bis zur Q-ten Komponente berechnet, wobei bei der vorliegenden Implementierung Q = 12 ist (man beachte, daß beispielsweise Q > p ist).
- Der Q-Koeffizienten-Cepstral-Vektor cl(m) für den Zeitrahmen l wird durch ein Fenster Wc(m) der folgenden Form gewichtet:
- und ergibt:
- l(m) = cl(m) · Wc(m) (2),
- wie in dem Artikel von B. Juang et al. "The Use of Bandpass Liftering in Speech Recognition", IEEE Transactions an Acoustics, Speech and Signal Processing, Band ASSP 35, Nr. 7, S. 947-954, Juli 1987 beschrieben wird.
- Vor kurzem wurde gezeigt, daß sich die Leistung mehrerer standardmäßiger Spracherkennungsvorrichtungen durch eine Erweiterung des Analysevektors um spektrale Informationen über die (zeitliche) Ableitung wesentlich verbessert. Die Autoren schließen solche spektralen Ableitungsinformationen folgendermaßen in ihre Analyse mit ein.
- Die zeitliche Ableitung der Sequenz gewichteter Cepstral-Vektoren wird über ein um den aktuellen Vektor herum zentriertes Fenster mit endlicher Länge von (2K + 1) Rahmen hinweg durch ein orthogonales Polynom der ersten Ordnung approximiert. (K = 2 in der vorliegenden Implementierung; daher wird die Ableitung aus einem Fenster von 5 Rahmen (75 ms) berechnet). Die Cepstral- Ableitung (d.h. der Delta-Cepstrum-Vektor) wird folgendermaßen berechnet:
- wobei G ein Verstärkungsterm ist, so daß die Varianzen von l(m) und Δ l(m) etwa gleich sind. (Bei dem vorliegenden System betrug der Wert von G 0,375.) Einzelheiten der typischen Berechnung sind in dem Artikel von F.K. Soong et al., "On the Use of Instantaneous and Transitional Spectral Information in Speaker Recognition", IEEE Transactions an Acoustics, Speech and Signal Processing, Band ASSP 36, Nr. 6, S. 871-879, Juni 1988, zu finden.
- Der Gesamt-Beobachtungsvektor Ol, der für die Bewertung der HMMs verwendet wird, ist die Verkettung des gewichteten Cepstral-Vektors und des entsprechenden gewichteten Delta-Cepstrum-Vektors, d.h.
- Ol={ l(m), Δ l(m)} (4)
- und besteht aus 24 Koeffizienten pro Vektor.
- Dieses Verfahren wird in dem Artikel von L.R. Rabiner et al., "High Performance Connected Digit Recognition Using Hidden Markov Models", Conference Record, IEEE International Conference on Acoustics, Speech and Signal Processing, Band 1, S. 119-122, New York, N.Y., April 1958, weiter beschrieben.
- Die Sequenz von Spektralvektoren einer unbekannten Sprachäußerung wird mit einer Menge gespeicherter wortbasierter Hidden-Markov-Modelle 12 verglichen, wobei ein rahmensynchroner Schichtenaufbaualgorithmus (FSLB-Algorithmus) 13 (der in dem Artikel von C-H. Lee et al., "A Network-Based Frame Synchronous Level Building Algorithm for Connected Word Recognition", Conf. Rec. IEEE Int. Conf. Acous. Speech and Sig. Processing, Band 1, S. 410-413, New York, N.Y., April 1988 beschrieben wird) mit Viterbi-Anpassung zwischen Schichten verwendet wird. Wort- und Zustandsdauerwahrscheinlichkeiten, die mit Bezug auf Fig. 2 beschrieben werden, wurden in die HMM- Bewertung und die Netzwerksuche bei der Modell- Abgleichprozedur 13 eingebunden. Im folgenden wird mit Bezug auf Fig. 3 eine endliche Zustandsgrammatik beschrieben, die die Menge gültiger Phraseneingaben beschreibt und dazu dient, den Erkennungsprozeß anzusteuern. Der FSLB-Algorithmus in der Prozedur 13 führt eine rahmenweise Maximum-Likelihood- Zeichenkettendecodierung durch. Dadurch werden zu jedem beliebigen Zeitpunkt optimal decodierte Zeichenteilketten verfügbar. Die Ausgabe dieses Prozesses ist eine Menge gültiger möglicher Zeichenketten.
- Zur Erzeugung eines oder mehrerer Wortmodelle aus einem Lerndatensatz markierter Sprache wird ein segmentförmiger k-Mittel-Lernalgorithmus verwendet, der in dem Artikel von L.R. Rabiner et al., "A Segmental K- means Training Procedure for Connected with Recognition Based on Whole Word Reference Patterns", AT&T Technical Journal, Band 65, Nr. 3, S. 21-31, Mai 1986, beschrieben wird. Dieser Wortaufbaualgorithmus (eine Abschätzungsprozedur zur Bestimmung der Parameter der HMMs) wird für jedes Modell bis zur Konvergenz iteriert (d.h. bis die Differenz der Wahrscheinlichkeitsbewertungen bei aufeinanderfolgenden Iterationen klein genug ist).
- Zur Erzeugung mehrerer Modelle pro Wort wird ein HMM-basierter Clusteralgorithmus verwendet, um vorher definierte Cluster aufzuspalten, siehe den oben erwähnten Artikel von Soong et al. Dieser Algorithmus (oder nachfolgende Verbesserungen, die alle auf den aus HMMs gewonnenen Wahrscheinlichkeiten basieren), trennt aus der Menge von Lerntoken diejenigen Token heraus, deren Wahrscheinlichkeitsbewertungen unter einen bestimmten festen oder relativen Schwellenwert fallen, d.h. es werden hiermit alle Token mit schlechten Wahrscheinlichkeitsbewertungen herausgetrennt und aus diesen sogenannten Ablieger-Token ein neues Modell erzeugt. Wenn die Token geclustert wurden, wird wieder der segmentförmige k-Mittel-Lernalgorithmus verwendet, um für jedes der Modelle die optimale Menge von Parametern zu gewinnen.
- Fig. 2 zeigt die Struktur der HMMs, mit denen einzelne Wörter sowie die Hintergrundumgebung, einschließlich irrelevanter Sprache, charakterisiert werden. Die Modelle sind Links-Nach-Rechts-Markov- Modelle der ersten Ordnung mit N Zuständen. Jedes Modell wird durch folgendes völlig spezifiziert:
- [1] eine Zustandsübergangsmatrix A = aij, mit der Einschränkung, daß
- aij = 0 j < i, j ≥ i+2 (5)
- (d.h. es werden Übergänge von dem Zustand j nur zu sich selbst oder zu dem Zustand j + 1 zugelassen).
- [2] Zustandsbeobachtungsdichtematrix B = bj(x), die aus einer Mischung (Summe) von M Gaußschen Dichten besteht, mit der Form
- wobei x der Eingangs-Beobachtungsvektor, cmj das Mischungsgewicht für die m-te Komponente im Zustand j, umj der Mittel-Vektor für die Mischung m im Zustand j und Umj die Kovarianz für die Mischung m im Zustand j ist (siehe das oben erwähnte Patent von Juang et al.). Alle in dieser Arbeit beschriebenen Bewertungen haben diagonale Kovarianzmatrizen verwendet. Bei den vorliegenden Bewertungen wurde die Anzahl von Zuständen pro Modell auf 10 und die Anzahl M von Mischungskomponenten pro Zustand auf neun gesetzt.
- [3] eine Menge von Log-Energiedichten j(ε), wobei ε die dynamisch normierte Rahmenenergie und pj eine empirisch gemessene diskrete Dichte von Energiewerten im Zustand j ist.
- [4] eine Menge von Zustandsdauerwahrscheinlichkeiten j(τ), wobei τ die Anzahl der im Zustand j verbrachten Rahmen und j eine empirisch gemessene diskrete Dichte von Werten der Dauer im Zustand j ist.
- Die bei diesem Erkennungsprozeß der vorliegenden Erfindung verwendete Grammatik ist auf dieselbe Weise in den Erkennungsprozeß integriert wie in der oben erwähnten Arbeit von Lee et al. beschrieben. Diese Grammatik gestattet die Erkennung von Schlüsselwörtern in einer Sequenz, die eine beliebige Anzahl von Schlüsselwörtern, darunter null Schlüsselwörter, enthält, die in einer beliebigen Anzahl, darunter Null, von Senken-Modellen (der irrelevanten Sprache) und Hintergrundstillemodellen eingebettet sind. Die Grammatik ist die Menge von Regeln, die die gültigen Sequenzen erkennbarer Einheiten definieren und begrenzen.
- Bei der Entscheidungsregelprozedur 14, die auf einem Vergleich verschiedener Wahrscheinlichkeitsbewertungen basiert, wird entschieden, ob eine letzte Entscheidung getroffen werden kann, oder ob eine bestimmte alternative Systemprozedur eingeleitet werden sollte.
- Zur Bewertung dieser neuen Prozedur wurde hier eine typische Erkennungsaufgabe ausgewählt, bei der a priori bekannt war, daß in jeder Äußerung nur ein Schlüsselwort erscheint. Daher wird hier die Grammatik auf das Auffinden genau eines Schlüsselworts begrenzt. Dies ist graphisch in Fig. 3 gezeigt, wobei der Knoten 0 (31) der Startknoten ist und der Knoten 1 (32) der Endknoten ist.
- Die Senkenmodelle und Hintergrundmodelle werden automatisch mit den beschriebenen Lernprozeduren aus einem großen Vorrat von irrelevanten Sprachsignalen erzeugt. Diese Signale enthalten irrelevante Sprache sowie Hintergrundsignal. Dies wird nachfolgend weiter beschrieben.
- Der gerade beschriebene Erkennungsalgorithmus setzt voraus, daß es möglich ist, ein robustes Modell von nicht zum Vokabular gehörenden Hintergrundsignalen zu erzeugen. Es wird hier darauf abgezielt, in der Lage zu sein, automatisch die Senken-Modelle, ohne Benutzerdialog, zu erzeugen. In dem folgenden Material werden mehrere Lernverfahren beschrieben - sowohl halbautomatische als auch ganz automatische. Es wird gezeigt, daß Senken-Modelle ohne Benutzerdialog erzeugt werden können, während gleichzeitig eine hohe Erkennungsleistung aufrechterhalten wird.
- Die einfachste Lernprozedur ist die Erzeugung der Senkenmodelle aus spezifischen Wörtern, die am häufigsten in irrelevanter Sprache auftreten. Dies erfordert, daß man über eine indizierte Datenbank verfügt, die anzeigt, wo solche nicht zum Vokabular gehörenden Wörter auftreten.
- Als Beispiel waren die drei häufigsten nicht zum Vokabular gehörenden Wörter für die oben beschriebene Erkennungsaufgabe des Anruftyps "ehm", "bitte" und "Anruf". Um das Verfahren zum Aufbau von Modellen nur für nicht zum Vokabular gehörende Wörter einzusetzen, ist eine voll indizierte und segmentierte Datenbank erforderlich. In Fig. 4 bis 6 sind mehrere Beispiele dieser Art von segmentierter Indizierung gezeigt - die als Analyse des Typs 1 benannt werden. Auf der Grundlage einer solchen Segmentierung und Indizierung werden typischerweise für jedes der n am häufigsten gesprochenen nicht zum Vokabular gehörenden Wörter Hidden-Markov-Modelle sowie ein einziges HMM für Hintergrund-Stille erzeugt. Die Autoren haben festgestellt, daß die Erkennungsgenauigkeit für gesonderte Eingangssignale bei der Erkennungsaufgabe des Anruftyps völlig unempfindlich für die Anzahl von Senkenmodellen ist und die Erkennungsgenauigkeit für Schlüsselwörter in irrelevanter Sprache ebenfalls relativ unempfindlich für die Anzahl von Senkenmodellen ist, solange die 3 oder 4 häufigsten der nicht zum Vokabular gehörenden Wörter beteiligt sind. Daher ist diese Form halbautomatischen Lernens zumindest bei bestimmten Aufgaben sehr wirksam zur Identifizierung von Wörtern.
- Damit die Schulung des Senkenmodells automatischer wird, haben die Autoren die Segmentierungs- und Indizierungsanforderungen für die Klassen Hintergrund, irrelevante Sprache und Schlüsselwörter modifiziert. Beispiele dieser Art der Indizierung und Segmentierung sind in Fig. 4 bis 6 gezeigt und werden mit Analyse des Typs 2 gekennzeichnet. Bei dieser Art des Lernens werden alle irrelevanten Sprachlaute kombiniert und ein einziges Hidden-Markov-Modell als das Senkenmodell erzeugt. Außerdem wird aus den Stillesegmenten ein separates Stillemodell erzeugt. Es wurde festgestellt, daß die Anzahl der notwendigen Zustände für das Stillemodell nur 1 beträgt. Es zeigte sich, daß bei der Erkennungsaufgabe des Anruftyps mit einem einzigen Senkenmodell und einem einzigen 1-Zustands-Stillemodell die Erkennungsergebnisse mit den unter Verwendung der Analyse des Typs 1 gewonnenen vergleichbar sind - d.h. das Typ-2-Lernen ist genauso effektiv wie das Typ-1- Lernen, obwohl weniger manuelle Analyse durchgeführt wird.
- Die dritte, vollautomatische vorgeschlagene Lernprozedur besteht darin, alle Indizierungs- und Segmentierungseinschränkungen der Datenbank zu entfernen, mit der das Senkenmodell geschult wird. Die einzige Anforderung besteht darin, daß man eine Datenbank hat, die sowohl die Schlüsselwörter als auch irrelevante Sprache und Hintergrundgeräusche enthält. Beispiele einer solchen Indizierung sind in Fig. 4 bis 6 zu sehen und werden als Analyse des Typs 3 bezeichnet. Obwohl in diesen Beispielen ein Schlüsselwort vorliegt, wird das Senkenmodell anfänglich mit der gesamten Äußerung geschult. Fig. 7 zeigt ein Blockschaltbild des verwendeten Lernprozesses zur Gewinnung der letztlichen Schlüsselwort- und Senkenmodelle. Zur Initialisierung des Lernprozesses wird aus den gesonderten Vokabularwörtern und dem Vorrat von irrelevanter Sprache eine HMM-Menge 71 aufgebaut. Mit diesem Bootstrap-Modell und der Menge von Lerndaten 74, die die Vokabularwörter enthält, wird der segmentförmige k-Mittel-Lernalgorithmus verwendet, um die Lern-Zeichenketten optimal in Vokabularwörter 75-79, Stille 80 und irrelevante Sprache zu segmentieren. Danach werden neue Modelle erzeugt, und der Prozeß iteriert sich selbst zur Konvergenz.
- Mit dieser vollautomatischen Lernprozedur zur Erzeugung eines einzigen Senkenmodells 81 blieb die Erkennungsgenauigkeit bei der Erkennungsaufgabe des Anruftyps die gleiche wie die vorher mit der Analyse des Typs 1 und 2 erhaltene.
- Kurz gefaßt wurde mit der gerade beschriebenen vollautomatischen Lernprozedur die bevorzugte Ausführungsform, ein einziges Senkenmodell, erzeugt. Die Erkennungsergebnisse waren bei einer standardmäßigen Erkennungsaufgabe vergleichbar mit den besten aus halbautomatischen Lernprozeduren gewonnenen Ergebnissen. Dies zeigt an, daß ein einziges Senkenmodell erzeugt werden kann, das sowohl die Charakteristika der irrelevanten Sprache als auch das Hintergrundgeräusch mit einschließt.
- Der hier offenbarte Algorithmus, der auf Hidden-Markov-Modell-Technologie basiert, von der gezeigt wurde, daß sie in der Lage ist, eine vordefinierte Menge von Vokabularbestandteilen zu erkennen, die im Kontext fließender uneingeschränkter Sprache gesprochen wird, wird Benutzern eine größere Freiheit bei ihren Sprechgewohnheiten ermöglichen, wodurch Fragen der Humanfaktoren bei der Spracherkennung leichter handhabbar werden.
- Fachleuten werden vielfältige, auf den zugrundeliegenden Prinzipien basierende Modifikationen dieser Verfahren offensichtlich sein. Zum Beispiel braucht die grammatische Einschränkung nicht auf die Nachbarschaft beschränkt zu sein, sondern könnte statt dessen eine gewählte Beziehung, wie zum Beispiel eine geringfügige Überlappung zwischen den akustischen Ereignissen, die an ein spezifisches Modell und an ein allgemeines Modell angepaßt werden, erfordern.
Claims (29)
1. Verfahren zur Verarbeitung eines
Eingangssignals, das eine gesprochene Äußerung
darstellt, wobei die gesprochene Äußerung einen
Schlüsseläußerungsbestandteil und einen irrelevanten
Lautbestandteil aufweist, mit den folgenden Schritten:
Vergleichen des Eingangssignals mit einer
Mehrzahl von Spracherkennungsmodellen in einem
Spracherkennungssystem, wobei die besagte Mehrzahl von
Spracherkennungsmodellen
Schlüsselwortspracherkennungsmodelle enthält, die jeweils verschiedene
Schlüsseläußerungen darstellen, und weiterhin
mindestens ein erstes Senkenmodell enthält, und
Erkennen einer bestimmten der besagten
Schlüsseläußerungen in der besagten gesprochenen
Äußerung als Reaktion auf das besagte Vergleichen,
dadurch gekennzeichnet, daß das besagte
Senkenmodell ein statistisches Modell ist und eine
Mehrzahl irrelevanter Laut-Lerntoken darstellt, wobei
mindestens zwei der besagten irrelevanten Laut-
Lerntoken von Wiederholungen eines bestimmten einen
Vokabularbestandteils verschieden sind.
2. Verfahren nach Anspruch 1, wobei mindestens
eines der besagten zwei irrelevanten Laut-Lerntoken
eine gesprochene Äußerung ist, die von allen der
besagten Schlüsseläußerungen verschieden ist.
3. Verfahren nach Anspruch 1, wobei die besagten
irrelevanten Laut-Lerntoken mindestens zwei der
Äußerungen "ehm", "bitte" und "rufen" enthalten.
4. Verfahren nach Anspruch 1, 2 oder 3, wobei
eines der besagten irrelevanten Laut-Lerntoken ein
Hintergrundgeräusch ist.
5. Verfahren nach Anspruch 1, wobei jeder der
besagten Schlüsseläußerungen einzelne Aufgaben
zugeordnet werden, und wobei das besagte Verfahren den
weiteren Schritt des Durchführens der Aufgabe umfaßt,
die der in dem besagten Erkennungsschritt erkannten
Schlüsseläußerung zugeordnet ist.
6. Verfahren nach Anspruch 5, wobei die besagten
einzelnen Aufgaben entsprechende verschiedene Aufgaben
platzvermittelter Anrufe sind.
7. Verfahren nach Anspruch 1, wobei in dem
besagten Spracherkennungssystem die besagte Mehrzahl
von Spracherkennungsmodellen gemäß einer vordefinierten
Grammatik miteinander in Beziehung stehen.
8. Verfahren nach Anspruch 7, wobei die besagte
vordefinierte Grammatik eine Zustandsgrammatik ist, die
eine Menge gültiger gesprochener Äußerungen beschreibt.
9. Verfahren nach Anspruch 1, wobei das besagte
Spracherkennungssystem auf der Grundlage der besagten
Mehrzahl von Spracherkennungsmodellen einen
Spracherkennungsalgorithmus für gebundene Wörter
implementiert.
10. Verfahren nach Anspruch 1, wobei das besagte
Spracherkennungssystem ein grammatikgesteuertes
Erkennungssystem für gebundene Wörter ist, bei dem die
Bestandteile der Grammatik durch die besagten
Spracherkennungsmodelle dargestellt werden.
11. Verfahren nach einem der Ansprüche 8, 9 oder
10, wobei die besagte Grammatik das besagte
Spracheingangssignal als eine einzelne der besagten
Schlüsseläußerungen charakterisiert, die durch die
besagten Schlüsselwortspracherkennungsmodelle dargestellt
werden, denen ein oder mehrere irrelevante Laute
vorausgehen oder nachfolgen, die durch mindestens das
besagte Senkenmodell dargestellt werden.
12. Verfahren mit dem Schritt des Erzeugens eines
Senkenmodells zur Erkennung einer gesprochenen Äußerung
mit einem Schlüsseläußerungsbestandteil und einem
irrelevanten Lautbestandteil, dadurch gekennzeichnet,
daß das besagte Senkenmodell ein statistisches Modell
ist und als Reaktion auf eine Mehrzahl irrelevanter
Laut-Lerntoken erzeugt wird, wobei mindestens zwei der
besagten irrelevanten Laut-Lerntoken von Wiederholungen
eines bestimmten einen Vokabularelements verschieden
sind.
13. Verfahren nach Anspruch 12, wobei die besagten
zwei der besagten irrelevanten Laut-Lerntoken
entsprechende verschiedene Vokabularbestandteile sind.
14. Verfahren nach Anspruch 12, wobei zwei
irrelevante Laut-Lerntoken der besagten Mehrzahl von
irrelevanten Laut-Lerntoken ein Hintergrundgeräusch
bzw. ein Vokabularbestandteil sind.
15. Verfahren nach Anspruch 14, wobei das besagte
Hintergrundgeräusch einen stillen Bestandteil enthält.
16. Verfahren nach einem der Ansprüche 12 bis 15,
mit dem weiteren Schritt des Kombinierens des besagten
Spracherkennungsmodells mit einer Mehrzahl von
Schlüsselwortspracherkennungsmodellen, um eine
Grammatik zu erhalten, die erwartete Sequenzen von
Schlüsselwörtern und irrelevanten Lauten definiert.
17. Verfahren nach einem der Ansprüche 12 bis 16,
einschließlich des Schritts des Speicherns des besagten
Senkenmodells in einem Speichermedium.
18. Verfahren nach einem der Ansprüche 1 bis 17,
wobei jedes Spracherkennungsmodell der besagten
Mehrzahl von Spracherkennungsmodellen ein Hidden-
Markov-Modell ist.
19. Spracherkennungssystem zur Verarbeitung eines
Eingangssignals, das eine gesprochene Äußerung
darstellt, wobei die gesprochene Äußerung einen
Schlüsseläußerungsbestandteil und einen irrelevanten
Lautbestandteil aufweist, mit folgendem:
Mittel zum Vergleichen des Eingangssignals mit
einer Mehrzahl von Spracherkennungsmodellen, wobei die
besagte Mehrzahl von Spracherkennungsmodellen
Spracherkennungsmodelle enthält, die entsprechende
verschiedene Schlüsseläußerungen darstellen, und ferner
mindestens ein erstes Senkenmodell enthält, und
Mittel zum Erkennen einer bestimmten der
besagten Schlüsseläußerungen in der besagten
gesprochenen Äußerung als Reaktion auf das besagte
Vergleichen,
dadurch gekennzeichnet, daß das besagte
Senkenmodell ein statistisches Modell ist und eine
Mehrzahl von irrelevanten Laut-Lerntoken darstellt,
wobei mindestens zwei der besagten irrelevanten Laut-
Lerntoken von Wiederholungen eines bestimmten einen
Vokabularbestandteils verschieden sind.
20. Spracherkennungssystem nach Anspruch 19, wobei
mindestens eines der besagten zwei irrelevanten Laut-
Lerntoken eine gesprochene Äußerung ist, die von allen
der besagten Schlüsseläußerungen verschieden ist.
21. Spracherkennungssystem nach Anspruch 20, wobei
die besagten irrelevanten Laut-Lerntoken mindestens
zwei der Äußerungen "ehm", "bitte" und "rufen"
enthalten.
22. Spracherkennungssystem nach Anspruch 20, wobei
die besagte Mehrzahl von irrelevanten Laut-Lerntoken
ein Hintergrundgeräusch enthält.
23. Spracherkennungssystem nach einem der Ansprüche
19 bis 22, wobei in dem besagten Spracherkennungssystem
die besagte Mehrzahl von Spracherkennungsmodellen gemäß
einer vordefinierten Grammatik miteinander in Beziehung
stehen.
24. Spracherkennungssystem nach Anspruch 23, wobei
die besagte vordefinierte Grammatik eine Menge
erwarteter gesprochener Äußerungen beschreibt.
25. Spracherkennungssystem nach einem der Ansprüche
19 bis 22, wobei das besagte Spracherkennungssystem ein
grammatikgesteuertes Erkennungssystem für gebundene
Wörter ist, bei dem die Bestandteile der Grammatik
durch die besagten Spracherkennungsmodelle dargestellt
werden.
26. Spracherkennungssystem nach einem der Ansprüche
23 bis 25, wobei die besagte Grammatik das besagte
Spracheingangssignal als eine einzelne der besagten
Schlüsseläußerungen charakterisiert, die durch die
besagten Schlüsselwortspracherkennungsmodelle dargestellt
werden, denen ein oder mehrere irrelevante Laute
vorausgehen oder nachfolgen, die durch mindestens das
besagte Senkenmodell dargestellt werden.
27. Spracherkennungssystem nach einem der Ansprüche
19 bis 22, wobei das besagte Spracherkennungssystem auf
der Grundlage der besagten Mehrzahl von
Spracherkennungsmodellen einen
Spracherkennungsalgorithmus für gebundene Wörter implementiert.
28. Spracherkennungssystem nach Anspruch 27, wobei
der besagte Algorithmus das besagte
Spracheingangssignal als eine einzelne der besagten
Schlüsseläußerungen charakterisiert, denen ein oder
mehrere irrelevante Laute vorausgehen und/oder
nachfolgen.
29. Spracherkennungssystem nach einem der Ansprüche
19 bis 28, wobei jedes Spracherkennungsmodell der
besagten Mehrzahl von Spracherkennungsmodellen ein
Hidden-Markov-Modell ist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US35328389A | 1989-05-17 | 1989-05-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69032777D1 DE69032777D1 (de) | 1999-01-07 |
DE69032777T2 true DE69032777T2 (de) | 1999-05-27 |
Family
ID=23388462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69032777T Expired - Lifetime DE69032777T2 (de) | 1989-05-17 | 1990-05-09 | Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung |
Country Status (7)
Country | Link |
---|---|
US (1) | US5649057A (de) |
EP (1) | EP0398574B1 (de) |
JP (1) | JP2963142B2 (de) |
KR (1) | KR970011022B1 (de) |
AU (2) | AU5463390A (de) |
CA (1) | CA2015410C (de) |
DE (1) | DE69032777T2 (de) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
CA2185262C (en) * | 1995-09-12 | 2006-08-29 | Michele B. Gammel | Method and system for enrolling addresses in a speech recognition database |
EP1758351B1 (de) * | 1995-09-12 | 2016-12-21 | Texas Instruments Incorporated | System und Verfahren zur Aufnahme von Namen in einer Spracherkennungsdatenbank |
JP3459712B2 (ja) * | 1995-11-01 | 2003-10-27 | キヤノン株式会社 | 音声認識方法及び装置及びコンピュータ制御装置 |
GB9602691D0 (en) * | 1996-02-09 | 1996-04-10 | Canon Kk | Word model generation |
US6076054A (en) * | 1996-02-29 | 2000-06-13 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition |
US5895448A (en) * | 1996-02-29 | 1999-04-20 | Nynex Science And Technology, Inc. | Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose |
US5842165A (en) * | 1996-02-29 | 1998-11-24 | Nynex Science & Technology, Inc. | Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes |
EP0800158B1 (de) * | 1996-04-01 | 2001-06-27 | Hewlett-Packard Company, A Delaware Corporation | Schlüsselworterkennung |
US5991720A (en) * | 1996-05-06 | 1999-11-23 | Matsushita Electric Industrial Co., Ltd. | Speech recognition system employing multiple grammar networks |
GB9619165D0 (en) * | 1996-09-13 | 1996-10-23 | British Telecomm | Training apparatus and method |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US6023676A (en) * | 1996-12-12 | 2000-02-08 | Dspc Israel, Ltd. | Keyword recognition system and method |
US6076057A (en) * | 1997-05-21 | 2000-06-13 | At&T Corp | Unsupervised HMM adaptation based on speech-silence discrimination |
FI973093A (fi) * | 1997-07-23 | 1999-01-24 | Nokia Mobile Phones Ltd | Menetelmä telepalvelun ohjaamiseksi ja päätelaite |
US6006181A (en) * | 1997-09-12 | 1999-12-21 | Lucent Technologies Inc. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network |
US6389392B1 (en) * | 1997-10-15 | 2002-05-14 | British Telecommunications Public Limited Company | Method and apparatus for speaker recognition via comparing an unknown input to reference data |
JPH11143485A (ja) * | 1997-11-14 | 1999-05-28 | Oki Electric Ind Co Ltd | 音声認識方法及び音声認識装置 |
US6243677B1 (en) * | 1997-11-19 | 2001-06-05 | Texas Instruments Incorporated | Method of out of vocabulary word rejection |
US5970446A (en) | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
US6195634B1 (en) | 1997-12-24 | 2001-02-27 | Nortel Networks Corporation | Selection of decoys for non-vocabulary utterances rejection |
US6571210B2 (en) | 1998-11-13 | 2003-05-27 | Microsoft Corporation | Confidence measure system using a near-miss pattern |
US6577999B1 (en) * | 1999-03-08 | 2003-06-10 | International Business Machines Corporation | Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary |
US7149690B2 (en) | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
US6442520B1 (en) | 1999-11-08 | 2002-08-27 | Agere Systems Guardian Corp. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network |
US7263484B1 (en) | 2000-03-04 | 2007-08-28 | Georgia Tech Research Corporation | Phonetic searching |
US6856956B2 (en) * | 2000-07-20 | 2005-02-15 | Microsoft Corporation | Method and apparatus for generating and displaying N-best alternatives in a speech recognition system |
AU2001286937A1 (en) | 2000-09-01 | 2002-03-13 | Eliza Corporation | Sppech recognition method and system to determine the status of an outbound telephone call |
CA2425844A1 (en) | 2000-10-16 | 2002-04-25 | Eliza Corporation | Method of and system for providing adaptive respondent training in a speech recognition application |
DE10051794C2 (de) * | 2000-10-18 | 2003-04-17 | Saymore Speech Operated System | Verfahren zur eindeutigen Zuweisung eines Befehls und Verfahren zur Sprachsteuerung |
US7400712B2 (en) * | 2001-01-18 | 2008-07-15 | Lucent Technologies Inc. | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access |
US6950796B2 (en) * | 2001-11-05 | 2005-09-27 | Motorola, Inc. | Speech recognition by dynamical noise model adaptation |
US7295982B1 (en) * | 2001-11-19 | 2007-11-13 | At&T Corp. | System and method for automatic verification of the understandability of speech |
US6885744B2 (en) | 2001-12-20 | 2005-04-26 | Rockwell Electronic Commerce Technologies, Llc | Method of providing background and video patterns |
JP4061094B2 (ja) * | 2002-03-15 | 2008-03-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、その音声認識方法及びプログラム |
US7698136B1 (en) * | 2003-01-28 | 2010-04-13 | Voxify, Inc. | Methods and apparatus for flexible speech recognition |
US7359860B1 (en) | 2003-02-27 | 2008-04-15 | Lumen Vox, Llc | Call flow object model in a speech recognition system |
US7324940B1 (en) | 2003-02-28 | 2008-01-29 | Lumen Vox, Llc | Speech recognition concept confidence measurement |
JP4357867B2 (ja) * | 2003-04-25 | 2009-11-04 | パイオニア株式会社 | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 |
EP1654727A4 (de) * | 2003-07-23 | 2007-12-26 | Nexidia Inc | Gesprochenes-wort-erkennungs-anfragen |
US7440895B1 (en) | 2003-12-01 | 2008-10-21 | Lumenvox, Llc. | System and method for tuning and testing in a speech recognition system |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
CN101154379B (zh) * | 2006-09-27 | 2011-11-23 | 夏普株式会社 | 定位语音中的关键词的方法和设备以及语音识别系统 |
JP5200712B2 (ja) * | 2008-07-10 | 2013-06-05 | 富士通株式会社 | 音声認識装置、音声認識方法及びコンピュータプログラム |
US9020816B2 (en) * | 2008-08-14 | 2015-04-28 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8543395B2 (en) | 2010-05-18 | 2013-09-24 | Shazam Entertainment Ltd. | Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization |
US9118669B2 (en) | 2010-09-30 | 2015-08-25 | Alcatel Lucent | Method and apparatus for voice signature authentication |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
AU2015390292A1 (en) | 2015-04-08 | 2017-10-26 | Fractal Antenna Systems, Inc. | Fractal plasmonic surface reader antennas |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE32012E (en) * | 1980-06-09 | 1985-10-22 | At&T Bell Laboratories | Spoken word controlled automatic dialer |
US4481593A (en) * | 1981-10-05 | 1984-11-06 | Exxon Corporation | Continuous speech recognition |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
JPH0774960B2 (ja) * | 1984-09-28 | 1995-08-09 | インタ−ナシヨナル・スタンダ−ド・エレクトリツク・コ−ポレイシヨン | テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム |
US5218668A (en) * | 1984-09-28 | 1993-06-08 | Itt Corporation | Keyword recognition system and method using template concantenation model |
US4811399A (en) * | 1984-12-31 | 1989-03-07 | Itt Defense Communications, A Division Of Itt Corporation | Apparatus and method for automatic speech recognition |
AU583871B2 (en) * | 1984-12-31 | 1989-05-11 | Itt Industries, Inc. | Apparatus and method for automatic speech recognition |
US4783804A (en) * | 1985-03-21 | 1988-11-08 | American Telephone And Telegraph Company, At&T Bell Laboratories | Hidden Markov model speech recognition arrangement |
US4977599A (en) * | 1985-05-29 | 1990-12-11 | International Business Machines Corporation | Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence |
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
US4827521A (en) * | 1986-03-27 | 1989-05-02 | International Business Machines Corporation | Training of markov models used in a speech recognition system |
JPS6312312A (ja) * | 1986-07-04 | 1988-01-19 | Yasuhiro Matsukuma | 電界イオン交換クロマトグラフイ |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US4914703A (en) * | 1986-12-05 | 1990-04-03 | Dragon Systems, Inc. | Method for deriving acoustic models for use in speech recognition |
US4802231A (en) * | 1987-11-24 | 1989-01-31 | Elliot Davis | Pattern recognition error reduction system |
US5199077A (en) * | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
US5440662A (en) * | 1992-12-11 | 1995-08-08 | At&T Corp. | Keyword/non-keyword classification in isolated word speech recognition |
US5452397A (en) * | 1992-12-11 | 1995-09-19 | Texas Instruments Incorporated | Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list |
-
1990
- 1990-04-25 CA CA002015410A patent/CA2015410C/en not_active Expired - Lifetime
- 1990-05-02 AU AU54633/90A patent/AU5463390A/en not_active Abandoned
- 1990-05-09 DE DE69032777T patent/DE69032777T2/de not_active Expired - Lifetime
- 1990-05-09 EP EP90304963A patent/EP0398574B1/de not_active Expired - Lifetime
- 1990-05-14 KR KR1019900006831A patent/KR970011022B1/ko not_active IP Right Cessation
- 1990-05-17 JP JP2125636A patent/JP2963142B2/ja not_active Expired - Lifetime
-
1992
- 1992-06-04 AU AU18044/92A patent/AU643142B2/en not_active Ceased
-
1996
- 1996-01-16 US US08/586,413 patent/US5649057A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2963142B2 (ja) | 1999-10-12 |
US5649057A (en) | 1997-07-15 |
CA2015410C (en) | 1996-04-02 |
JPH0394299A (ja) | 1991-04-19 |
EP0398574B1 (de) | 1998-11-25 |
EP0398574A3 (de) | 1991-09-25 |
CA2015410A1 (en) | 1990-11-17 |
AU1804492A (en) | 1992-07-30 |
KR900018909A (ko) | 1990-12-22 |
DE69032777D1 (de) | 1999-01-07 |
AU643142B2 (en) | 1993-11-04 |
KR970011022B1 (ko) | 1997-07-05 |
AU5463390A (en) | 1990-11-22 |
EP0398574A2 (de) | 1990-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69032777T2 (de) | Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung | |
DE69225371T2 (de) | Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle | |
DE69324428T2 (de) | Verfahren zur Sprachformung und Gerät zur Spracherkennung | |
DE69807765T2 (de) | Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner | |
EP0925461B1 (de) | Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem | |
DE69420842T2 (de) | Spracherkennung unter anwendung einer zweidurchgängigen suchmethode | |
US5509104A (en) | Speech recognition employing key word modeling and non-key word modeling | |
DE69524036T2 (de) | Vorrichtung zur erkennung von gesprächsthemen | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69831114T2 (de) | Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen | |
DE10111056B4 (de) | Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem | |
DE69226796T2 (de) | Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE69518723T2 (de) | Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE69908254T2 (de) | System zur Suchoptimierung und Verfahren zur kontinuierlichen Spracherkennung | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE69432943T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE60125542T2 (de) | System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen | |
DE69719236T2 (de) | Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten | |
DE69816177T2 (de) | Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen | |
DE20004416U1 (de) | Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme | |
EP1649450A1 (de) | Verfahren zur spracherkennung und kommunikationsger t | |
DE60204504T2 (de) | Schlüsselworterkennung in einem verrauschten Signal | |
DE69930961T2 (de) | Vorrichtung und verfahren zur sprachsegmentierung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |