DE69032777T2 - Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung - Google Patents

Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung

Info

Publication number
DE69032777T2
DE69032777T2 DE69032777T DE69032777T DE69032777T2 DE 69032777 T2 DE69032777 T2 DE 69032777T2 DE 69032777 T DE69032777 T DE 69032777T DE 69032777 T DE69032777 T DE 69032777T DE 69032777 T2 DE69032777 T2 DE 69032777T2
Authority
DE
Germany
Prior art keywords
speech recognition
irrelevant
tokens
recognition system
utterances
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69032777T
Other languages
English (en)
Other versions
DE69032777D1 (de
Inventor
Chin H. New Providence New Jersey 07974 Lee
Lawrence R. Berkeley Heights New Jersey 07922 Rabiner
Jay G. Warren New Jersey 07060 Wilpon
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Application granted granted Critical
Publication of DE69032777D1 publication Critical patent/DE69032777D1/de
Publication of DE69032777T2 publication Critical patent/DE69032777T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

    Technisches Gebiet
  • Die vorliegende Erfindung betrifft Verfahren zur automatischen Erkennung von Sprache, die ausgewählte Schlüsselwörter enthält.
  • Allgemeiner Stand der Technik
  • Robuste, sprecherunabhängige Spracherkennungssysteme, die gut über Fernsprechwählanschlüsse arbeiten, werden schon seit mehr als zehn Jahren entwickelt. Anfänglich konnten Spracherkennungssysteme eine kleine Anzahl von Vokabularbestandteilen erkennen, die gesondert gesprochen wurden; es sind neuere Systeme bekannt, die Vokabularmengen mittlerer Größe erkennen können, die fließend gesprochen werden, so wie es in dem US-Patent Nr. 4 783 804, übertragen an B.-H. Juang et al., ausgegeben am 8.11.1988, beschrieben wird. Bei den meisten Spracherkennungssystemen besteht eine grundlegende Voraussetzung darin, daß das zu erkennende Eingangssignal ausschließlich aus Wörtern aus dem Erkennungsvokabular und aus Hintergrundstille besteht. Neuere Untersuchungen auf dem Gebiet der Erkennung einer begrenzten Menge gesonderter Befehlsphrasen zur Einleitung von "handvermittelten Verbindungen" haben jedoch gezeigt, daß es äußerst schwierig oder sogar unmöglich ist, praktisch zu erzielen, daß Teilnehmer eines solchen Dienstes nur die zulässigen Eingangswörter sprechen. Bei einem in der AT&T-Zentrale in Hayward, Kalifornien (bei der Bucht von San Francisco) durchgeführten großangelegten Test sprecherunabhängiger Spracherkennungstechnologien für gesonderte Wörter wurde Live- Fernsprechteilnehmerverkehr verwendet, um die gerade für eine neue Generation von Fernsprechvermittlungsanlagen entwickelten Verbindungsbearbeitungsverfahren zu bewerten. Teilnehmer, die handvermittelte Verbindungen einleiteten, wurden gebeten, mit Worten die Art der von ihnen gewünschten Verbindung zu identifizieren (d.h. R- Gespräch, Anrufkarte, Voranmeldung, Berechnung an Drittperson oder Handvermittlung). Jeder Anrufer wurde aufgefordert, auf gesonderte Weise einen von fünf mündlich angeforderten Befehlen zu sprechen. Obwohl 82% der Benutzer tatsächlich eines der Befehlswörter sprachen, wurden nur 79% dieser Eingaben gesondert gesprochen (d.h. es befolgten nur 65% aller Anrufer das Protokoll). Ein Mithören der gesprochenen Antworten der Teilnehmer zeigte, daß 17% aller Antworten zusammen mit irrelevanter Spracheingabe einen gültigen Vokabularbestandteil enthielten. Einige Beispiele sind die folgenden:
  • - < Stille> R-Gespräch, bitte < Stille>
  • - Ehm? Also gut, ich würde gerne mit Anrufkarte anrufen
  • - R-Gespräch vom Thomas < Stille>
  • - Ich will eine Voranmeldung haben
  • - < Stille> Ich hätte gerne die Vermittlung
  • Die meisten herkömmlichen Erkennungsalgorithmen für gesonderte Wörter sind nicht so entworfen, daß sie Vokabularbestandteile erkennen, die in Trägerphrasen eingebettet sind. Es müssen Modifikationen der Algorithmen als solche vorgenommen werden, um die Erkennung definierter Wörter des Vokabulars zu ermöglichen, die in irrelevanter Sprache eingebettet sind, d.h. um Schlüsselwörter zu identifizieren.
  • Obwohl sich die Forschung lange mit dem allgemeinen Wortidentifizierungsproblem beschäftigt hat, wurden die meisten Ergebnisse nicht veröffentlicht. Die publizierten Worterkennungsverfahren basieren hauptsächlich auf schablonengestützten, dynamischen Zeitverzerrungsansätzen. Zum Beispiel beschreibt der Artikel "Detecting and Locating Key Words in Continuous Speech Using Linear Predictive Coding", IEEE Transactions on Acoustics, Speech and Signal Processing, Band ASSP.25, Nr. 5, S. 362-367, Oktober 1977, von Christiansen und Rushforth ein sprechergeschultes Schlüsselwort-Erkennungssystem, das eine LPC-Darstellung des Sprachsignals ohne jegliche syntaktische oder semantische Informationen über die Aufgabe verwendet. Mit diesem Ansatz wurde anhand einer Vokabularmenge von vier Schlüsselwörtern und zehn Ziffern eine gute Worterkennungsgenauigkeit erzielt.
  • In "Keyword Recognition Using Template Concatenation", Conf. Rec. IEEE Int. Conf. Acous. Speech, and Signal Processing, S. 1233-1236, Tampa, Florida, März 1985, schlugen Higgins und Wohlford ein System mit dynamischer Zeitverzerrung zur Schlüsselworterkennung vor. Bei diesem System wurden Erkenntnisse über das Vokabular und die Syntax der Eingangssprache verwendet. Es wurde eine Menge von Schablonen für Schlüsselwörter und Nicht- Schlüsselwörter erzeugt und mit mehreren gemeinsamen Füll-Schablonen verglichen, um Schlüsselwörter in fließender Sprache zu erkennen. Diese Füll-Schablonen wurden (1) unter Verwendung von Daten aus sechs "Funktions"-Wörtern oder (2) durch Clustern von Nicht- Vokabularwörtern zu Segmenten, die ungefähr gleich Silben sind, unter Verwendung von Hand markierter Daten erzeugt. Die Ergebnisse zeigten an, daß eine explizite Kenntnis des Vokabulars zwar nicht besonders wichtig zu sein braucht, die Verwendung von Füll-Schablonen jedoch wichtig sein kann. Die Autoren fanden jedoch, daß sich die Anzahl solcher Füll-Schablonen stark auf die Leistung der Schlüsselworterkennungsvorrichtung auswirkt. Außerdem stellten sie fest, daß die Dauer der Füll-Schablonen die Genauigkeit ihres Systems steuerte. Mit zunehmender Anzahl von Schablonen, und kürzer werdenden durchschnittlichen Füll-Schablonen verbesserte sich die Genauigkeit des Systems. Beschränkungen der Dauer sind bei allen Schablonenvergleichserkennungssystemen mit dynamischer Zeitverzerrung ein großes Problem, da jede Schablone eine physikalische Dauer aufweist und die Algorithmen bestimmten lokalen Beschränkungen der Zeitdauer genügen müssen.
  • Ähnlich wurde in dem bestehenden Patent eines der vorliegenden Autoren, Chin-Hui Lee, mit John W. Klovstad und Kalyan Ganesan, US-Patent Nr. 4 713 777, ausgegeben am 15.12.1987, ein Hidden-Markov-Modell (HMM) verwendet, um Stille zu modellieren. Es wurden feste Bewertungsschwellenwerte verwendet, um Falschwarnungen zu beseitigen.
  • In dem Artikel "Application of Hidden Markov Models to Automatic Speech Endpoint Detection, Computer Speech and Language, Band 2, 3/4, S. 321-341, Dezember 1987, stellten zwei der vorliegenden Autoren, Wilpon und Rabiner, einen statistisch arbeitenden Erkennungsalgorithmus vor, bei dem die explizite Endpunkterkennung von Sprache völlig aus dem Erkennungssystem beseitigt und gleichzeitig eine hohe Erkennungsgenauigkeit aufrechterhalten wurde. Zu diesem Zweck modellierte das Erkennungssystem das ankommende Signal als eine Sequenz von Hintergrundsignal- und Vokabularwörtern. Diese Arbeit war jedoch insofern begrenzt, als die Vokabularwörter gesondert, d.h. ohne irrelevante verbale Eingaben gesprochen werden mußten.
  • Kurze Darstellung der Erfindung
  • Die Autoren haben entdeckt, daß es möglich ist, die Hintergrundgeräusche, einschließlich verbaler Geräusche (irrelevante Sprache), die in der Nähe von zu erkennenden Schlüsselwörtern auftreten, erfolgreich zu modellieren.
  • Weiterhin haben die Autoren entdeckt, daß bei ausreichenden gegebenen Informationen, um ein solches Modell zu schulen, die Verwendung nur eines solchen Hintergrundmodells fast genausogut wie eine. Mehrzahl solcher Modelle arbeiten kann. Diese Entdeckung war aus dem oben angeführten Stand der Technik nicht vorhersehbar.
  • Gemäß einem Merkmal der durch die angefügten Ansprüche definierten vorliegenden Erfindung wird zur Erkennung spezifizierter Vokabularwörter (die im folgenden als Schlüsselwörter bezeichnet werden) im Kontext uneingeschränkter Sprache ein auf statistische Weise arbeitendes Modell verwendet, das gewöhnlich als ein Hidden-Markov-Modell (HMM) bezeichnet wird. Die vorliegende Erfindung basiert auf dem grammatischen Konzept des oben angeführten Artikels von Wilpon et al. Der Ansatz, den die vorliegenden Autoren entwickelt haben, modelliert die gesamte Hintergrundumgebung, einschließlich Stille, Zimmerumgebung, Übertragungsgeräusche, und insbesondere irrelevante Sprache. Die Autoren stellen ein gegebenes Spracheingangssignal als eine unbeschränkte Sequenz solcher irrelevanter Eingangssignale mit einem nachfolgenden Schlüsselwort dar, dem eine weitere unbeschränkte Sequenz irrelevanter Eingangssignale folgt, obwohl im allgemeinsten Kontext nur ein solcher Nexus benötigt wird. Dies geschieht, indem mindestens ein Hidden-Markov-Modell erzeugt wird, das irrelevante Sprache darstellt. Zur Bestimmung der besten Sequenz von irrelevanter Sprache und Schlüsselwörtern wird ein grammatikgestütztes Erkennungssystem für gebundene Wörter verwendet.
  • Bei dieser gegebenen Struktur eines Erkennungssystems ermöglicht die Verwendung sogenannter (allgemeiner) Senken-Modelle für die irrelevante Sprache der Erkennungsvorrichtung, die irrelevanten Signale gleichzeitig mit der Erkennung der Schlüsselwörter zu erkennen.
  • Kurze Beschreibung der Zeichnungen
  • Weitere Merkmale und Vorteile der vorliegenden Erfindung werden bei einer Durchsicht der folgenden ausführlichen Beschreibung in Verbindung mit der Zeichnung deutlich. Es zeigen:
  • Fig. 1 ein allgemeines Flußdiagramm des Erkennungssystems, in dem die vorliegende Erfindung eingesetzt werden kann;
  • Fig. 2 ein Diagramm des Zustandübergangsmodells und relevante Parameter, die bei der vorliegenden Erfindung verwendet werden;
  • Fig. 3 die typischste grammatische Sequenz, die bei der Ausübung der vorliegenden Erfindung vorkommt;
  • Fig. 4, 5 und 6 Kurven, die bei der Erläuterung der Erfindung nützlich sind; und
  • Fig. 7 ein ausführlicheres Flußdiagramm für die Ausübung der vorliegenden Erfindung.
  • Allgemeine Beschreibung
  • Mit Bezug auf das allgemeine Flußdiagramm von Fig. 1 ist zu sehen, daß der Startpunkt darin besteht, eine aus einem Sprachsignal abgeleitete Darstellung s(n) zu gewinnen. Im allgemeinen wird die Sprache digitalisiert, gefiltert, angehoben und blockweise in Rahmen zusammengestellt (alle Verfahren sind herkömmlich), um s(n) zu erzeugen. Obwohl die vorliegende Erfindung dies nicht erfordert, haben die Autoren festgestellt, daß es zweckmäßig ist, s(n) so zu analysieren, daß eine Menge von LPC-basierten Cepstral- Vektoren gewonnen wird.
  • Die resultierenden Merkmalsvektoren, d.h. LPC- und Cepstrum-11-Vektoren, die durch herkömmliche Verarbeitung des Signals s(n) gewonnen werden, wird zusammen mit gültigen grammatischen Regeln in den Modell-Anpassungsschritt 13 eingespeist, in dem ein Vergleich der Merkmalsvektoren von s(n) mit den beiden oben in der kurzen Darstellung der Erfindung kurz beschriebenen Arten von Wort-Bezugsmodellen durchgeführt wird. Die letztliche beste Abschätzung aus dem Block 14 wird als das beste Schlüsselwort übertragen, d.h. als das Schlüsselwort, das der gemäß der Grammatik besten Übereinstimmung mit den Merkmalsvektoren von s(n) zugeordnet ist.
  • Ausführliche Beschreibung
  • Als Beispiel erfolgt in Fig. 1 zur Erzeugung von s(n) die Digitalisierung mit einer Rate von 6,67 kHz, und die gefilterte Sprach-Bandbreite beträgt 100 - 3200 Hz. Es können natürlich auch andere besondere Abtastraten und Filterbandbreiten verwendet werden. Der Anhebungsfaktor kann bei der typischen Anwendung a = 0,95 betragen, und die Rahmen können typischerweise 45 ms lang sein, wobei zwischen Rahmen eine Verschiebung von 15 ms besteht.
  • Nach den Verfahren von L.R. Rabiner et al. aus dem Buch "Digital Processing of Speech Signals", Prentice Hall, Englewood Cliffs, New Jersey (1978), S. 356-372 und 398-401 und/oder nach den Verfahren aus der Arbeit von B. Bogert et al. "The Quefrency Analysis of Time Series for Echoes", Proc. Symp on Time Series Analysis, M. Rosenblatt, Hrsg., Kap. 15, S. 209-243, J. Wiley, New York, 1963, wird dann die LPC- und Cepstral- Analyse 11 durchgeführt. Jeder Sprachrahmen wird durch ein Hamming-Fenster gewichtet, so wie es auf Seite 121 in dem oben zitierten Buch von L.R. Rabiner et al. beschrieben wird. Danach wird an den Daten eine linear prädiktive Codierungsanalyse (LPC-Analyse) der p-ten Ordnung, beispielsweise der 8-ten Ordnung, durchgeführt. Für jeden Rahmen wird eine Menge von acht LPC-Koeffizienten erzeugt. Das resultierende Signal wird dann auf bekannte Weise zu einer Sequenz von LPC- Rahmenvektoren reduziert. Es ist zu beachten, daß keine automatische Endpunkterkennung an den Daten durchgeführt wird.
  • Danach wird aus dem LPC-Rahmenvektor der aus LPC abgeleitete Cepstral-Vektor bis zur Q-ten Komponente berechnet, wobei bei der vorliegenden Implementierung Q = 12 ist (man beachte, daß beispielsweise Q > p ist).
  • Der Q-Koeffizienten-Cepstral-Vektor cl(m) für den Zeitrahmen l wird durch ein Fenster Wc(m) der folgenden Form gewichtet:
  • und ergibt:
  • l(m) = cl(m) · Wc(m) (2),
  • wie in dem Artikel von B. Juang et al. "The Use of Bandpass Liftering in Speech Recognition", IEEE Transactions an Acoustics, Speech and Signal Processing, Band ASSP 35, Nr. 7, S. 947-954, Juli 1987 beschrieben wird.
  • Vor kurzem wurde gezeigt, daß sich die Leistung mehrerer standardmäßiger Spracherkennungsvorrichtungen durch eine Erweiterung des Analysevektors um spektrale Informationen über die (zeitliche) Ableitung wesentlich verbessert. Die Autoren schließen solche spektralen Ableitungsinformationen folgendermaßen in ihre Analyse mit ein.
  • Die zeitliche Ableitung der Sequenz gewichteter Cepstral-Vektoren wird über ein um den aktuellen Vektor herum zentriertes Fenster mit endlicher Länge von (2K + 1) Rahmen hinweg durch ein orthogonales Polynom der ersten Ordnung approximiert. (K = 2 in der vorliegenden Implementierung; daher wird die Ableitung aus einem Fenster von 5 Rahmen (75 ms) berechnet). Die Cepstral- Ableitung (d.h. der Delta-Cepstrum-Vektor) wird folgendermaßen berechnet:
  • wobei G ein Verstärkungsterm ist, so daß die Varianzen von l(m) und &Delta; l(m) etwa gleich sind. (Bei dem vorliegenden System betrug der Wert von G 0,375.) Einzelheiten der typischen Berechnung sind in dem Artikel von F.K. Soong et al., "On the Use of Instantaneous and Transitional Spectral Information in Speaker Recognition", IEEE Transactions an Acoustics, Speech and Signal Processing, Band ASSP 36, Nr. 6, S. 871-879, Juni 1988, zu finden.
  • Der Gesamt-Beobachtungsvektor Ol, der für die Bewertung der HMMs verwendet wird, ist die Verkettung des gewichteten Cepstral-Vektors und des entsprechenden gewichteten Delta-Cepstrum-Vektors, d.h.
  • Ol={ l(m), &Delta; l(m)} (4)
  • und besteht aus 24 Koeffizienten pro Vektor.
  • Dieses Verfahren wird in dem Artikel von L.R. Rabiner et al., "High Performance Connected Digit Recognition Using Hidden Markov Models", Conference Record, IEEE International Conference on Acoustics, Speech and Signal Processing, Band 1, S. 119-122, New York, N.Y., April 1958, weiter beschrieben.
  • Die Sequenz von Spektralvektoren einer unbekannten Sprachäußerung wird mit einer Menge gespeicherter wortbasierter Hidden-Markov-Modelle 12 verglichen, wobei ein rahmensynchroner Schichtenaufbaualgorithmus (FSLB-Algorithmus) 13 (der in dem Artikel von C-H. Lee et al., "A Network-Based Frame Synchronous Level Building Algorithm for Connected Word Recognition", Conf. Rec. IEEE Int. Conf. Acous. Speech and Sig. Processing, Band 1, S. 410-413, New York, N.Y., April 1988 beschrieben wird) mit Viterbi-Anpassung zwischen Schichten verwendet wird. Wort- und Zustandsdauerwahrscheinlichkeiten, die mit Bezug auf Fig. 2 beschrieben werden, wurden in die HMM- Bewertung und die Netzwerksuche bei der Modell- Abgleichprozedur 13 eingebunden. Im folgenden wird mit Bezug auf Fig. 3 eine endliche Zustandsgrammatik beschrieben, die die Menge gültiger Phraseneingaben beschreibt und dazu dient, den Erkennungsprozeß anzusteuern. Der FSLB-Algorithmus in der Prozedur 13 führt eine rahmenweise Maximum-Likelihood- Zeichenkettendecodierung durch. Dadurch werden zu jedem beliebigen Zeitpunkt optimal decodierte Zeichenteilketten verfügbar. Die Ausgabe dieses Prozesses ist eine Menge gültiger möglicher Zeichenketten.
  • Zur Erzeugung eines oder mehrerer Wortmodelle aus einem Lerndatensatz markierter Sprache wird ein segmentförmiger k-Mittel-Lernalgorithmus verwendet, der in dem Artikel von L.R. Rabiner et al., "A Segmental K- means Training Procedure for Connected with Recognition Based on Whole Word Reference Patterns", AT&T Technical Journal, Band 65, Nr. 3, S. 21-31, Mai 1986, beschrieben wird. Dieser Wortaufbaualgorithmus (eine Abschätzungsprozedur zur Bestimmung der Parameter der HMMs) wird für jedes Modell bis zur Konvergenz iteriert (d.h. bis die Differenz der Wahrscheinlichkeitsbewertungen bei aufeinanderfolgenden Iterationen klein genug ist).
  • Zur Erzeugung mehrerer Modelle pro Wort wird ein HMM-basierter Clusteralgorithmus verwendet, um vorher definierte Cluster aufzuspalten, siehe den oben erwähnten Artikel von Soong et al. Dieser Algorithmus (oder nachfolgende Verbesserungen, die alle auf den aus HMMs gewonnenen Wahrscheinlichkeiten basieren), trennt aus der Menge von Lerntoken diejenigen Token heraus, deren Wahrscheinlichkeitsbewertungen unter einen bestimmten festen oder relativen Schwellenwert fallen, d.h. es werden hiermit alle Token mit schlechten Wahrscheinlichkeitsbewertungen herausgetrennt und aus diesen sogenannten Ablieger-Token ein neues Modell erzeugt. Wenn die Token geclustert wurden, wird wieder der segmentförmige k-Mittel-Lernalgorithmus verwendet, um für jedes der Modelle die optimale Menge von Parametern zu gewinnen.
  • Fig. 2 zeigt die Struktur der HMMs, mit denen einzelne Wörter sowie die Hintergrundumgebung, einschließlich irrelevanter Sprache, charakterisiert werden. Die Modelle sind Links-Nach-Rechts-Markov- Modelle der ersten Ordnung mit N Zuständen. Jedes Modell wird durch folgendes völlig spezifiziert:
  • [1] eine Zustandsübergangsmatrix A = aij, mit der Einschränkung, daß
  • aij = 0 j < i, j &ge; i+2 (5)
  • (d.h. es werden Übergänge von dem Zustand j nur zu sich selbst oder zu dem Zustand j + 1 zugelassen).
  • [2] Zustandsbeobachtungsdichtematrix B = bj(x), die aus einer Mischung (Summe) von M Gaußschen Dichten besteht, mit der Form
  • wobei x der Eingangs-Beobachtungsvektor, cmj das Mischungsgewicht für die m-te Komponente im Zustand j, umj der Mittel-Vektor für die Mischung m im Zustand j und Umj die Kovarianz für die Mischung m im Zustand j ist (siehe das oben erwähnte Patent von Juang et al.). Alle in dieser Arbeit beschriebenen Bewertungen haben diagonale Kovarianzmatrizen verwendet. Bei den vorliegenden Bewertungen wurde die Anzahl von Zuständen pro Modell auf 10 und die Anzahl M von Mischungskomponenten pro Zustand auf neun gesetzt.
  • [3] eine Menge von Log-Energiedichten j(&epsi;), wobei &epsi; die dynamisch normierte Rahmenenergie und pj eine empirisch gemessene diskrete Dichte von Energiewerten im Zustand j ist.
  • [4] eine Menge von Zustandsdauerwahrscheinlichkeiten j(&tau;), wobei &tau; die Anzahl der im Zustand j verbrachten Rahmen und j eine empirisch gemessene diskrete Dichte von Werten der Dauer im Zustand j ist.
  • Die bei diesem Erkennungsprozeß der vorliegenden Erfindung verwendete Grammatik ist auf dieselbe Weise in den Erkennungsprozeß integriert wie in der oben erwähnten Arbeit von Lee et al. beschrieben. Diese Grammatik gestattet die Erkennung von Schlüsselwörtern in einer Sequenz, die eine beliebige Anzahl von Schlüsselwörtern, darunter null Schlüsselwörter, enthält, die in einer beliebigen Anzahl, darunter Null, von Senken-Modellen (der irrelevanten Sprache) und Hintergrundstillemodellen eingebettet sind. Die Grammatik ist die Menge von Regeln, die die gültigen Sequenzen erkennbarer Einheiten definieren und begrenzen.
  • Bei der Entscheidungsregelprozedur 14, die auf einem Vergleich verschiedener Wahrscheinlichkeitsbewertungen basiert, wird entschieden, ob eine letzte Entscheidung getroffen werden kann, oder ob eine bestimmte alternative Systemprozedur eingeleitet werden sollte.
  • Zur Bewertung dieser neuen Prozedur wurde hier eine typische Erkennungsaufgabe ausgewählt, bei der a priori bekannt war, daß in jeder Äußerung nur ein Schlüsselwort erscheint. Daher wird hier die Grammatik auf das Auffinden genau eines Schlüsselworts begrenzt. Dies ist graphisch in Fig. 3 gezeigt, wobei der Knoten 0 (31) der Startknoten ist und der Knoten 1 (32) der Endknoten ist.
  • Die Senkenmodelle und Hintergrundmodelle werden automatisch mit den beschriebenen Lernprozeduren aus einem großen Vorrat von irrelevanten Sprachsignalen erzeugt. Diese Signale enthalten irrelevante Sprache sowie Hintergrundsignal. Dies wird nachfolgend weiter beschrieben.
  • Der gerade beschriebene Erkennungsalgorithmus setzt voraus, daß es möglich ist, ein robustes Modell von nicht zum Vokabular gehörenden Hintergrundsignalen zu erzeugen. Es wird hier darauf abgezielt, in der Lage zu sein, automatisch die Senken-Modelle, ohne Benutzerdialog, zu erzeugen. In dem folgenden Material werden mehrere Lernverfahren beschrieben - sowohl halbautomatische als auch ganz automatische. Es wird gezeigt, daß Senken-Modelle ohne Benutzerdialog erzeugt werden können, während gleichzeitig eine hohe Erkennungsleistung aufrechterhalten wird.
  • Die einfachste Lernprozedur ist die Erzeugung der Senkenmodelle aus spezifischen Wörtern, die am häufigsten in irrelevanter Sprache auftreten. Dies erfordert, daß man über eine indizierte Datenbank verfügt, die anzeigt, wo solche nicht zum Vokabular gehörenden Wörter auftreten.
  • Als Beispiel waren die drei häufigsten nicht zum Vokabular gehörenden Wörter für die oben beschriebene Erkennungsaufgabe des Anruftyps "ehm", "bitte" und "Anruf". Um das Verfahren zum Aufbau von Modellen nur für nicht zum Vokabular gehörende Wörter einzusetzen, ist eine voll indizierte und segmentierte Datenbank erforderlich. In Fig. 4 bis 6 sind mehrere Beispiele dieser Art von segmentierter Indizierung gezeigt - die als Analyse des Typs 1 benannt werden. Auf der Grundlage einer solchen Segmentierung und Indizierung werden typischerweise für jedes der n am häufigsten gesprochenen nicht zum Vokabular gehörenden Wörter Hidden-Markov-Modelle sowie ein einziges HMM für Hintergrund-Stille erzeugt. Die Autoren haben festgestellt, daß die Erkennungsgenauigkeit für gesonderte Eingangssignale bei der Erkennungsaufgabe des Anruftyps völlig unempfindlich für die Anzahl von Senkenmodellen ist und die Erkennungsgenauigkeit für Schlüsselwörter in irrelevanter Sprache ebenfalls relativ unempfindlich für die Anzahl von Senkenmodellen ist, solange die 3 oder 4 häufigsten der nicht zum Vokabular gehörenden Wörter beteiligt sind. Daher ist diese Form halbautomatischen Lernens zumindest bei bestimmten Aufgaben sehr wirksam zur Identifizierung von Wörtern.
  • Damit die Schulung des Senkenmodells automatischer wird, haben die Autoren die Segmentierungs- und Indizierungsanforderungen für die Klassen Hintergrund, irrelevante Sprache und Schlüsselwörter modifiziert. Beispiele dieser Art der Indizierung und Segmentierung sind in Fig. 4 bis 6 gezeigt und werden mit Analyse des Typs 2 gekennzeichnet. Bei dieser Art des Lernens werden alle irrelevanten Sprachlaute kombiniert und ein einziges Hidden-Markov-Modell als das Senkenmodell erzeugt. Außerdem wird aus den Stillesegmenten ein separates Stillemodell erzeugt. Es wurde festgestellt, daß die Anzahl der notwendigen Zustände für das Stillemodell nur 1 beträgt. Es zeigte sich, daß bei der Erkennungsaufgabe des Anruftyps mit einem einzigen Senkenmodell und einem einzigen 1-Zustands-Stillemodell die Erkennungsergebnisse mit den unter Verwendung der Analyse des Typs 1 gewonnenen vergleichbar sind - d.h. das Typ-2-Lernen ist genauso effektiv wie das Typ-1- Lernen, obwohl weniger manuelle Analyse durchgeführt wird.
  • Die dritte, vollautomatische vorgeschlagene Lernprozedur besteht darin, alle Indizierungs- und Segmentierungseinschränkungen der Datenbank zu entfernen, mit der das Senkenmodell geschult wird. Die einzige Anforderung besteht darin, daß man eine Datenbank hat, die sowohl die Schlüsselwörter als auch irrelevante Sprache und Hintergrundgeräusche enthält. Beispiele einer solchen Indizierung sind in Fig. 4 bis 6 zu sehen und werden als Analyse des Typs 3 bezeichnet. Obwohl in diesen Beispielen ein Schlüsselwort vorliegt, wird das Senkenmodell anfänglich mit der gesamten Äußerung geschult. Fig. 7 zeigt ein Blockschaltbild des verwendeten Lernprozesses zur Gewinnung der letztlichen Schlüsselwort- und Senkenmodelle. Zur Initialisierung des Lernprozesses wird aus den gesonderten Vokabularwörtern und dem Vorrat von irrelevanter Sprache eine HMM-Menge 71 aufgebaut. Mit diesem Bootstrap-Modell und der Menge von Lerndaten 74, die die Vokabularwörter enthält, wird der segmentförmige k-Mittel-Lernalgorithmus verwendet, um die Lern-Zeichenketten optimal in Vokabularwörter 75-79, Stille 80 und irrelevante Sprache zu segmentieren. Danach werden neue Modelle erzeugt, und der Prozeß iteriert sich selbst zur Konvergenz.
  • Mit dieser vollautomatischen Lernprozedur zur Erzeugung eines einzigen Senkenmodells 81 blieb die Erkennungsgenauigkeit bei der Erkennungsaufgabe des Anruftyps die gleiche wie die vorher mit der Analyse des Typs 1 und 2 erhaltene.
  • Kurz gefaßt wurde mit der gerade beschriebenen vollautomatischen Lernprozedur die bevorzugte Ausführungsform, ein einziges Senkenmodell, erzeugt. Die Erkennungsergebnisse waren bei einer standardmäßigen Erkennungsaufgabe vergleichbar mit den besten aus halbautomatischen Lernprozeduren gewonnenen Ergebnissen. Dies zeigt an, daß ein einziges Senkenmodell erzeugt werden kann, das sowohl die Charakteristika der irrelevanten Sprache als auch das Hintergrundgeräusch mit einschließt.
  • Der hier offenbarte Algorithmus, der auf Hidden-Markov-Modell-Technologie basiert, von der gezeigt wurde, daß sie in der Lage ist, eine vordefinierte Menge von Vokabularbestandteilen zu erkennen, die im Kontext fließender uneingeschränkter Sprache gesprochen wird, wird Benutzern eine größere Freiheit bei ihren Sprechgewohnheiten ermöglichen, wodurch Fragen der Humanfaktoren bei der Spracherkennung leichter handhabbar werden.
  • Fachleuten werden vielfältige, auf den zugrundeliegenden Prinzipien basierende Modifikationen dieser Verfahren offensichtlich sein. Zum Beispiel braucht die grammatische Einschränkung nicht auf die Nachbarschaft beschränkt zu sein, sondern könnte statt dessen eine gewählte Beziehung, wie zum Beispiel eine geringfügige Überlappung zwischen den akustischen Ereignissen, die an ein spezifisches Modell und an ein allgemeines Modell angepaßt werden, erfordern.

Claims (29)

1. Verfahren zur Verarbeitung eines Eingangssignals, das eine gesprochene Äußerung darstellt, wobei die gesprochene Äußerung einen Schlüsseläußerungsbestandteil und einen irrelevanten Lautbestandteil aufweist, mit den folgenden Schritten:
Vergleichen des Eingangssignals mit einer Mehrzahl von Spracherkennungsmodellen in einem Spracherkennungssystem, wobei die besagte Mehrzahl von Spracherkennungsmodellen Schlüsselwortspracherkennungsmodelle enthält, die jeweils verschiedene Schlüsseläußerungen darstellen, und weiterhin mindestens ein erstes Senkenmodell enthält, und
Erkennen einer bestimmten der besagten Schlüsseläußerungen in der besagten gesprochenen Äußerung als Reaktion auf das besagte Vergleichen,
dadurch gekennzeichnet, daß das besagte Senkenmodell ein statistisches Modell ist und eine Mehrzahl irrelevanter Laut-Lerntoken darstellt, wobei mindestens zwei der besagten irrelevanten Laut- Lerntoken von Wiederholungen eines bestimmten einen Vokabularbestandteils verschieden sind.
2. Verfahren nach Anspruch 1, wobei mindestens eines der besagten zwei irrelevanten Laut-Lerntoken eine gesprochene Äußerung ist, die von allen der besagten Schlüsseläußerungen verschieden ist.
3. Verfahren nach Anspruch 1, wobei die besagten irrelevanten Laut-Lerntoken mindestens zwei der Äußerungen "ehm", "bitte" und "rufen" enthalten.
4. Verfahren nach Anspruch 1, 2 oder 3, wobei eines der besagten irrelevanten Laut-Lerntoken ein Hintergrundgeräusch ist.
5. Verfahren nach Anspruch 1, wobei jeder der besagten Schlüsseläußerungen einzelne Aufgaben zugeordnet werden, und wobei das besagte Verfahren den weiteren Schritt des Durchführens der Aufgabe umfaßt, die der in dem besagten Erkennungsschritt erkannten Schlüsseläußerung zugeordnet ist.
6. Verfahren nach Anspruch 5, wobei die besagten einzelnen Aufgaben entsprechende verschiedene Aufgaben platzvermittelter Anrufe sind.
7. Verfahren nach Anspruch 1, wobei in dem besagten Spracherkennungssystem die besagte Mehrzahl von Spracherkennungsmodellen gemäß einer vordefinierten Grammatik miteinander in Beziehung stehen.
8. Verfahren nach Anspruch 7, wobei die besagte vordefinierte Grammatik eine Zustandsgrammatik ist, die eine Menge gültiger gesprochener Äußerungen beschreibt.
9. Verfahren nach Anspruch 1, wobei das besagte Spracherkennungssystem auf der Grundlage der besagten Mehrzahl von Spracherkennungsmodellen einen Spracherkennungsalgorithmus für gebundene Wörter implementiert.
10. Verfahren nach Anspruch 1, wobei das besagte Spracherkennungssystem ein grammatikgesteuertes Erkennungssystem für gebundene Wörter ist, bei dem die Bestandteile der Grammatik durch die besagten Spracherkennungsmodelle dargestellt werden.
11. Verfahren nach einem der Ansprüche 8, 9 oder 10, wobei die besagte Grammatik das besagte Spracheingangssignal als eine einzelne der besagten Schlüsseläußerungen charakterisiert, die durch die besagten Schlüsselwortspracherkennungsmodelle dargestellt werden, denen ein oder mehrere irrelevante Laute vorausgehen oder nachfolgen, die durch mindestens das besagte Senkenmodell dargestellt werden.
12. Verfahren mit dem Schritt des Erzeugens eines Senkenmodells zur Erkennung einer gesprochenen Äußerung mit einem Schlüsseläußerungsbestandteil und einem irrelevanten Lautbestandteil, dadurch gekennzeichnet, daß das besagte Senkenmodell ein statistisches Modell ist und als Reaktion auf eine Mehrzahl irrelevanter Laut-Lerntoken erzeugt wird, wobei mindestens zwei der besagten irrelevanten Laut-Lerntoken von Wiederholungen eines bestimmten einen Vokabularelements verschieden sind.
13. Verfahren nach Anspruch 12, wobei die besagten zwei der besagten irrelevanten Laut-Lerntoken entsprechende verschiedene Vokabularbestandteile sind.
14. Verfahren nach Anspruch 12, wobei zwei irrelevante Laut-Lerntoken der besagten Mehrzahl von irrelevanten Laut-Lerntoken ein Hintergrundgeräusch bzw. ein Vokabularbestandteil sind.
15. Verfahren nach Anspruch 14, wobei das besagte Hintergrundgeräusch einen stillen Bestandteil enthält.
16. Verfahren nach einem der Ansprüche 12 bis 15, mit dem weiteren Schritt des Kombinierens des besagten Spracherkennungsmodells mit einer Mehrzahl von Schlüsselwortspracherkennungsmodellen, um eine Grammatik zu erhalten, die erwartete Sequenzen von Schlüsselwörtern und irrelevanten Lauten definiert.
17. Verfahren nach einem der Ansprüche 12 bis 16, einschließlich des Schritts des Speicherns des besagten Senkenmodells in einem Speichermedium.
18. Verfahren nach einem der Ansprüche 1 bis 17, wobei jedes Spracherkennungsmodell der besagten Mehrzahl von Spracherkennungsmodellen ein Hidden- Markov-Modell ist.
19. Spracherkennungssystem zur Verarbeitung eines Eingangssignals, das eine gesprochene Äußerung darstellt, wobei die gesprochene Äußerung einen Schlüsseläußerungsbestandteil und einen irrelevanten Lautbestandteil aufweist, mit folgendem:
Mittel zum Vergleichen des Eingangssignals mit einer Mehrzahl von Spracherkennungsmodellen, wobei die besagte Mehrzahl von Spracherkennungsmodellen Spracherkennungsmodelle enthält, die entsprechende verschiedene Schlüsseläußerungen darstellen, und ferner mindestens ein erstes Senkenmodell enthält, und
Mittel zum Erkennen einer bestimmten der besagten Schlüsseläußerungen in der besagten gesprochenen Äußerung als Reaktion auf das besagte Vergleichen,
dadurch gekennzeichnet, daß das besagte Senkenmodell ein statistisches Modell ist und eine Mehrzahl von irrelevanten Laut-Lerntoken darstellt, wobei mindestens zwei der besagten irrelevanten Laut- Lerntoken von Wiederholungen eines bestimmten einen Vokabularbestandteils verschieden sind.
20. Spracherkennungssystem nach Anspruch 19, wobei mindestens eines der besagten zwei irrelevanten Laut- Lerntoken eine gesprochene Äußerung ist, die von allen der besagten Schlüsseläußerungen verschieden ist.
21. Spracherkennungssystem nach Anspruch 20, wobei die besagten irrelevanten Laut-Lerntoken mindestens zwei der Äußerungen "ehm", "bitte" und "rufen" enthalten.
22. Spracherkennungssystem nach Anspruch 20, wobei die besagte Mehrzahl von irrelevanten Laut-Lerntoken ein Hintergrundgeräusch enthält.
23. Spracherkennungssystem nach einem der Ansprüche 19 bis 22, wobei in dem besagten Spracherkennungssystem die besagte Mehrzahl von Spracherkennungsmodellen gemäß einer vordefinierten Grammatik miteinander in Beziehung stehen.
24. Spracherkennungssystem nach Anspruch 23, wobei die besagte vordefinierte Grammatik eine Menge erwarteter gesprochener Äußerungen beschreibt.
25. Spracherkennungssystem nach einem der Ansprüche 19 bis 22, wobei das besagte Spracherkennungssystem ein grammatikgesteuertes Erkennungssystem für gebundene Wörter ist, bei dem die Bestandteile der Grammatik durch die besagten Spracherkennungsmodelle dargestellt werden.
26. Spracherkennungssystem nach einem der Ansprüche 23 bis 25, wobei die besagte Grammatik das besagte Spracheingangssignal als eine einzelne der besagten Schlüsseläußerungen charakterisiert, die durch die besagten Schlüsselwortspracherkennungsmodelle dargestellt werden, denen ein oder mehrere irrelevante Laute vorausgehen oder nachfolgen, die durch mindestens das besagte Senkenmodell dargestellt werden.
27. Spracherkennungssystem nach einem der Ansprüche 19 bis 22, wobei das besagte Spracherkennungssystem auf der Grundlage der besagten Mehrzahl von Spracherkennungsmodellen einen Spracherkennungsalgorithmus für gebundene Wörter implementiert.
28. Spracherkennungssystem nach Anspruch 27, wobei der besagte Algorithmus das besagte Spracheingangssignal als eine einzelne der besagten Schlüsseläußerungen charakterisiert, denen ein oder mehrere irrelevante Laute vorausgehen und/oder nachfolgen.
29. Spracherkennungssystem nach einem der Ansprüche 19 bis 28, wobei jedes Spracherkennungsmodell der besagten Mehrzahl von Spracherkennungsmodellen ein Hidden-Markov-Modell ist.
DE69032777T 1989-05-17 1990-05-09 Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung Expired - Lifetime DE69032777T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US35328389A 1989-05-17 1989-05-17

Publications (2)

Publication Number Publication Date
DE69032777D1 DE69032777D1 (de) 1999-01-07
DE69032777T2 true DE69032777T2 (de) 1999-05-27

Family

ID=23388462

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69032777T Expired - Lifetime DE69032777T2 (de) 1989-05-17 1990-05-09 Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung

Country Status (7)

Country Link
US (1) US5649057A (de)
EP (1) EP0398574B1 (de)
JP (1) JP2963142B2 (de)
KR (1) KR970011022B1 (de)
AU (2) AU5463390A (de)
CA (1) CA2015410C (de)
DE (1) DE69032777T2 (de)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
CA2185262C (en) * 1995-09-12 2006-08-29 Michele B. Gammel Method and system for enrolling addresses in a speech recognition database
EP1758351B1 (de) * 1995-09-12 2016-12-21 Texas Instruments Incorporated System und Verfahren zur Aufnahme von Namen in einer Spracherkennungsdatenbank
JP3459712B2 (ja) * 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
GB9602691D0 (en) * 1996-02-09 1996-04-10 Canon Kk Word model generation
US6076054A (en) * 1996-02-29 2000-06-13 Nynex Science & Technology, Inc. Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition
US5895448A (en) * 1996-02-29 1999-04-20 Nynex Science And Technology, Inc. Methods and apparatus for generating and using speaker independent garbage models for speaker dependent speech recognition purpose
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
EP0800158B1 (de) * 1996-04-01 2001-06-27 Hewlett-Packard Company, A Delaware Corporation Schlüsselworterkennung
US5991720A (en) * 1996-05-06 1999-11-23 Matsushita Electric Industrial Co., Ltd. Speech recognition system employing multiple grammar networks
GB9619165D0 (en) * 1996-09-13 1996-10-23 British Telecomm Training apparatus and method
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6023676A (en) * 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
US6076057A (en) * 1997-05-21 2000-06-13 At&T Corp Unsupervised HMM adaptation based on speech-silence discrimination
FI973093A (fi) * 1997-07-23 1999-01-24 Nokia Mobile Phones Ltd Menetelmä telepalvelun ohjaamiseksi ja päätelaite
US6006181A (en) * 1997-09-12 1999-12-21 Lucent Technologies Inc. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network
US6389392B1 (en) * 1997-10-15 2002-05-14 British Telecommunications Public Limited Company Method and apparatus for speaker recognition via comparing an unknown input to reference data
JPH11143485A (ja) * 1997-11-14 1999-05-28 Oki Electric Ind Co Ltd 音声認識方法及び音声認識装置
US6243677B1 (en) * 1997-11-19 2001-06-05 Texas Instruments Incorporated Method of out of vocabulary word rejection
US5970446A (en) 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6195634B1 (en) 1997-12-24 2001-02-27 Nortel Networks Corporation Selection of decoys for non-vocabulary utterances rejection
US6571210B2 (en) 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
US6577999B1 (en) * 1999-03-08 2003-06-10 International Business Machines Corporation Method and apparatus for intelligently managing multiple pronunciations for a speech recognition vocabulary
US7149690B2 (en) 1999-09-09 2006-12-12 Lucent Technologies Inc. Method and apparatus for interactive language instruction
US6442520B1 (en) 1999-11-08 2002-08-27 Agere Systems Guardian Corp. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network
US7263484B1 (en) 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US6856956B2 (en) * 2000-07-20 2005-02-15 Microsoft Corporation Method and apparatus for generating and displaying N-best alternatives in a speech recognition system
AU2001286937A1 (en) 2000-09-01 2002-03-13 Eliza Corporation Sppech recognition method and system to determine the status of an outbound telephone call
CA2425844A1 (en) 2000-10-16 2002-04-25 Eliza Corporation Method of and system for providing adaptive respondent training in a speech recognition application
DE10051794C2 (de) * 2000-10-18 2003-04-17 Saymore Speech Operated System Verfahren zur eindeutigen Zuweisung eines Befehls und Verfahren zur Sprachsteuerung
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
US7295982B1 (en) * 2001-11-19 2007-11-13 At&T Corp. System and method for automatic verification of the understandability of speech
US6885744B2 (en) 2001-12-20 2005-04-26 Rockwell Electronic Commerce Technologies, Llc Method of providing background and video patterns
JP4061094B2 (ja) * 2002-03-15 2008-03-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US7698136B1 (en) * 2003-01-28 2010-04-13 Voxify, Inc. Methods and apparatus for flexible speech recognition
US7359860B1 (en) 2003-02-27 2008-04-15 Lumen Vox, Llc Call flow object model in a speech recognition system
US7324940B1 (en) 2003-02-28 2008-01-29 Lumen Vox, Llc Speech recognition concept confidence measurement
JP4357867B2 (ja) * 2003-04-25 2009-11-04 パイオニア株式会社 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
EP1654727A4 (de) * 2003-07-23 2007-12-26 Nexidia Inc Gesprochenes-wort-erkennungs-anfragen
US7440895B1 (en) 2003-12-01 2008-10-21 Lumenvox, Llc. System and method for tuning and testing in a speech recognition system
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
JP5200712B2 (ja) * 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8543395B2 (en) 2010-05-18 2013-09-24 Shazam Entertainment Ltd. Methods and systems for performing synchronization of audio with corresponding textual transcriptions and determining confidence values of the synchronization
US9118669B2 (en) 2010-09-30 2015-08-25 Alcatel Lucent Method and apparatus for voice signature authentication
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
AU2015390292A1 (en) 2015-04-08 2017-10-26 Fractal Antenna Systems, Inc. Fractal plasmonic surface reader antennas

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE32012E (en) * 1980-06-09 1985-10-22 At&T Bell Laboratories Spoken word controlled automatic dialer
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
JPH0774960B2 (ja) * 1984-09-28 1995-08-09 インタ−ナシヨナル・スタンダ−ド・エレクトリツク・コ−ポレイシヨン テンプレ−ト連鎖モデルを使用するキ−ワ−ド認識方法およびシステム
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4811399A (en) * 1984-12-31 1989-03-07 Itt Defense Communications, A Division Of Itt Corporation Apparatus and method for automatic speech recognition
AU583871B2 (en) * 1984-12-31 1989-05-11 Itt Industries, Inc. Apparatus and method for automatic speech recognition
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
US4977599A (en) * 1985-05-29 1990-12-11 International Business Machines Corporation Speech recognition employing a set of Markov models that includes Markov models representing transitions to and from silence
JPS62231993A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
US4827521A (en) * 1986-03-27 1989-05-02 International Business Machines Corporation Training of markov models used in a speech recognition system
JPS6312312A (ja) * 1986-07-04 1988-01-19 Yasuhiro Matsukuma 電界イオン交換クロマトグラフイ
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4914703A (en) * 1986-12-05 1990-04-03 Dragon Systems, Inc. Method for deriving acoustic models for use in speech recognition
US4802231A (en) * 1987-11-24 1989-01-31 Elliot Davis Pattern recognition error reduction system
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
US5440662A (en) * 1992-12-11 1995-08-08 At&T Corp. Keyword/non-keyword classification in isolated word speech recognition
US5452397A (en) * 1992-12-11 1995-09-19 Texas Instruments Incorporated Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list

Also Published As

Publication number Publication date
JP2963142B2 (ja) 1999-10-12
US5649057A (en) 1997-07-15
CA2015410C (en) 1996-04-02
JPH0394299A (ja) 1991-04-19
EP0398574B1 (de) 1998-11-25
EP0398574A3 (de) 1991-09-25
CA2015410A1 (en) 1990-11-17
AU1804492A (en) 1992-07-30
KR900018909A (ko) 1990-12-22
DE69032777D1 (de) 1999-01-07
AU643142B2 (en) 1993-11-04
KR970011022B1 (ko) 1997-07-05
AU5463390A (en) 1990-11-22
EP0398574A2 (de) 1990-11-22

Similar Documents

Publication Publication Date Title
DE69032777T2 (de) Spracherkennung unter Anwendung von Stichwörtern und Nichtstichwörter-Modellierung
DE69225371T2 (de) Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier &#34;Hidden Markov&#34; Modelle
DE69324428T2 (de) Verfahren zur Sprachformung und Gerät zur Spracherkennung
DE69807765T2 (de) Kombination von Frequenzverzerrung und spektraler Formung in einem HMM - basierten Spracherkenner
EP0925461B1 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE69420842T2 (de) Spracherkennung unter anwendung einer zweidurchgängigen suchmethode
US5509104A (en) Speech recognition employing key word modeling and non-key word modeling
DE69524036T2 (de) Vorrichtung zur erkennung von gesprächsthemen
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE10111056B4 (de) Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69518723T2 (de) Verminderung des Suchraumes bei Spracherkennung unter Verwendung von Phonemgrenzen und Phonemklassen
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69908254T2 (de) System zur Suchoptimierung und Verfahren zur kontinuierlichen Spracherkennung
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE60125542T2 (de) System und verfahren zur spracherkennung mit einer vielzahl von spracherkennungsvorrichtungen
DE69719236T2 (de) Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE20004416U1 (de) Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
DE60204504T2 (de) Schlüsselworterkennung in einem verrauschten Signal
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition