DE69432570T2 - Spracherkennung - Google Patents

Spracherkennung Download PDF

Info

Publication number
DE69432570T2
DE69432570T2 DE69432570T DE69432570T DE69432570T2 DE 69432570 T2 DE69432570 T2 DE 69432570T2 DE 69432570 T DE69432570 T DE 69432570T DE 69432570 T DE69432570 T DE 69432570T DE 69432570 T2 DE69432570 T2 DE 69432570T2
Authority
DE
Germany
Prior art keywords
recognition
signal
noise
speech
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69432570T
Other languages
English (en)
Other versions
DE69432570D1 (de
Inventor
Kevin Joseph Power
Stephen Howard South Harrow Johnson
Francis James Ipswich Scahill
Simon Parker Alexander Ipswich Ringland
John Edward Talintyre
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Application granted granted Critical
Publication of DE69432570D1 publication Critical patent/DE69432570D1/de
Publication of DE69432570T2 publication Critical patent/DE69432570T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Indicating And Signalling Devices For Elevators (AREA)

Description

  • Diese Erfindung bezieht sich auf Verfahren und Vorrichtungen zur Spracherkennung. Die Spracherkennung wird als eine Eingabeeinrichtung für die Steuerung von Maschinen verwendet. Derzeit erkennen Spracherkennungsvorrichtungen im allgemeinen isolierte einzelne Wörter. Es werden außerdem Spracherkennungsvorrichtungen entwickelt, die vorgesehen sind, mehrere Wörter zu erkennen, die in einem Satz oder einer Wortgruppe hintereinander gesprochen werden; dies wird als verbundene Spracherkennung bezeichnet.
  • Bei der Spracherkennung nimmt ein Mikrophon ein Sprachsignal von einem Sprecher auf, das dann für die Erkennung digitalisiert und verarbeitet wird. Das Mikrophon nimmt jedoch im allgemeinen außerdem jedes Hintergrund- oder Umgebungsgeräusch auf, wobei das elektrische System zwischen dem Mikrophon und der Spracherkennungsvorrichtung ebenso Rauschen hinzufügen wird (z. B. thermisches Rauschen, Quantisierungsrauschen und – wenn die Sprache über einen Telekommunikationskanal übertragen wird – Leitungsrauschen). Das Rauschen kann Teilen der Sprache ähneln, z. B. stimmlose Zischlauten. Demzufolge hängt die richtige Erkennung eines Wortes stark von der Fähigkeit ab, den Anfang und das Ende des Wortes zu unterscheiden, die dem Ende und dem Anfang von Rauschen oder Ruhe entsprechen. Es ist gezeigt worden, daß die Zuverlässigkeit der Spracherkennung stark von der Identifizierung der richtigen Anfangs- und Endpunkte für die Sprache abhängt.
  • Ein Sprachverarbeitungsverfahren, das vorgesehen ist, um die Erkennung einer Folge von Wörtern unter Verwendung der Technologie der isolierten Worterkennung zu erlauben, ist die "Verbunden-fürisoliert-Technik" (CFI-Technik), die in der anhängigen EP-Patentanmeldung 691024 beschrieben ist. Diese Technik nimmt an, daß das Signal vom Mikrophon abwechselnde Perioden von Sprache und Rauschen enthält, wobei es abwechselnd versucht, Sprache und Rauschen zu erkennen.
  • Ein gemeinsamer Zugang bei der Spracherkennung ist die Verwendung der statistischen Verarbeitung, die keine anfänglichen Annahmen über die Mechanismen macht, durch die Sprache erzeugt wird. Es werden z. B. Hidden-Markow-Modellierungs-Techniken (HMM-Techniken), verwendet (wie im British Telecom Technology Journal, April 1988, Bd. 6, Nr. 2, S. 105, Cox, beschrieben ist). Bei der HMM-Erkennung wird jeder ankommende Rahmen der Sprache mit einer Anzahl von Zuständen verglichen, um die Wahrscheinlichkeit zu bestimmen, daß der Sprachrahmen jedem dieser Zustände entspricht, wobei die auf diese Weise erzeugten Zustandswahrscheinlichkeiten mit einer Anzahl vorgegebener Modelle verglichen werden, die Zustandsfolgen umfassen, die verschiedenen zu erkennenden Wörtern entsprechen. Während ein Wort erkannt wird, sind eine Anzahl verschiedener Zustandsfolgen und folglich einer Anzahl verschiedener Wörter gleichzeitig möglich; die letzte Bestimmung, welche Zustandsfolge beobachtet worden ist, wird getroffen, indem die wahrscheinlichste Zustandsfolge ausgewählt wird, wenn die ganze Äußerung empfangen worden ist.
  • Einige Typen der HMM-Spracherkennung erhalten während der Erkennung einer Anzahl möglicher Zustandsfolgen aufrecht, einschließlich einer aktuellen wahrscheinlichsten Folge, um das Wort zu definieren, das erkannt worden ist.
  • In derartigen sequentiellen Erkennungseinrichtungen kann die Entscheidung nicht getroffen werden, bis die Folge vollständig ist, weil die Entscheidung, was die Identität des ausgewählten Wortes anbelangt, auf den erzeugten Folgen der Zustände basiert. Die wahrscheinlichste Zustandsfolge kann für jeden empfangenen Rahmen neu berechnet werden, so daß, sobald das Ende eines Wortes eindeutig identifiziert werden kann, die Erkennung ausgeführt wird, indem einfach ein Erkennungssignal ausgegeben wird, das der aktuellen wahrscheinlichsten Zustandsfolge entspricht. Der Erkennungsprozeß erzeugt selbst Anfangs- und Endpunkte, dies wird aber im Zusammenhang mit der Auswahl des Wortes ausgeführt, das erkannt wird, und nicht als ein separater einleitender zum Ende gerichteter Schritt.
  • Eine CFI-Erkennungseinrichtung kann deshalb automatisch den Anfang und das Ende eines Wortes lokalisieren, indem sie Zustandsfolgen, die Rauschen entsprechen, aufrechterhält, und die Folge Rauschen-Wort-Rauschen im Sprachsignal erkennt. Viele Wörter können jedoch Lücken oder Stops zwischen Teilen des Wortes enthalten, die als das Ende eines Wortes falsch erkannt werden könnten. Demzufolge ist es wichtig, daß die letzte Identifizierung eines Wortes nicht stattfinden sollte, bis der Sprecher das Sprechen eindeutig beendet hat.
  • Ein Verfahren, dies zu erreichen, besteht darin, nach einer vorgegebenen Zeitperiode eine "Zeitüberschreitung" vorzusehen, die eindeutig als Rauschen identifiziert werden kann. Es ist jedoch festgestellt wurden, daß, falls die betreffende Periode lang genug gemacht wird, um Erfolg zu garantieren, das Ergebnis eine Verzögerung ist, die für den Anwender frustrierend lang sein kann.
  • Eine Einrichtung, um die Erkennung bestimmter falsch erkannter Wörter zurückzuweisen, ist in "Rejection of extraneous input in speech recognition applications, using multilayer perceptrons and the trace of HMM's", Mathan und Miclet, 1991, IEEE ICASSP 91, Bd. 1, S. 93–96, und in "Rejection techniques in continuous speech recognition using hidden Markov models", Moreno u. a., Signal processing V: Theories and Applications, 1990, Proc. of EUSIPCO-90, Bd. 2, S. 1383–1386 (Elsevier) beschrieben.
  • Demzufolge ist die Aufgabe eines Aspekts der Erfindung, eine verbesserte Einrichtung zu schaffen, um bestimmte Wörter zurückzuweisen, nachdem sie durch eine Spracherkennungseinrichtung identifiziert worden sind.
  • Gemäß der Erfindung wird eine Erkennungsvorrichtung geschaffen, mit: einer Eingabeeinrichtung zum Empfangen eines Sprachsignals; einer Erkennungsverarbeitungseinrichtung zum Verarbeiten des Sprachsignals, um dessen Ähnlichkeit zu zu erkennenden vorbestimmten Mustern anzugeben; einer Ausgabeeinrichtung zum Liefern eines Erkennungssignals, das die Erkennung eines der Muster anzeigt; und einer Zurückweisungseinrichtung zum Zurückweisen des Erkennungssignals unter bestimmten Bedingungen, dadurch gekennzeichnet, daß die Erkennungseinrichtung dazu ausgelegt ist, zumindest einen Signalparameter zu empfangen, der vom Sprachsignal abgeleitet ist und unabhängig von der Ausgabe der Erkennungseinrichtung ist; wobei die Erkennungseinrichtung dazu ausgelegt ist, das Sprachsignal in einen Musterbereich und in Rausch- und Ruhebereiche vor und nach dem Musterbereich zu zerlegen; wobei die Zurückweisungseinrichtung dazu ausgelegt ist, auf die Zerlegung zu reagieren.
  • Da sich ein Sprachsignal spektral ziemlich langsam verändert, ist es in der Spracherkennung bekannt, das Sprachsignal in eine Zeitfolge von Rahmen mit einer Dauer von typischerweise zwischen 10 bis 100 Millisekunden zu zerlegen, die mehrere Sprachabtastwerte umassen. Es ist vorgeschlagen worden ("The use of variable frame rate analysis in speech recognition", Ponting und Peeling, Computer Speech and Language, (1991), 5, 169–179), die Anzahl der auf diese Weise erzeugten Rahmen einzuschränken, indem nur ein neuer Rahen erzeugt, wird, wenn sich das Sprachsignal vom vorausgehenden Rahmen signifikant verändert hat.
  • Demzufolge schafft ein weiterer Aspekt der Erfindung einer Zurückweisungseinrichtung für die Verwendung in einer Erkennungseinrichung, die eine variable Rahmenrate verwendet.
  • Andere Aspekte und Ausführungsformen der Erfindung sind, wie sie hierin beschrieben und/oder beansprucht sind, mit den Vorteilen, die aus der folgenden Beschreibung und der folgenden Zeichnung offensichtlich werden.
  • Der Erfindung wird nun lediglich beispielhaft unter Bezugnahme auf die beigefügte Zeichnung beschrieben, worin:
  • 1 eine Anwendung eines Erkennungssystems gemäß der vorliegenden Erfindung schematisch zeigt;
  • 2 ein Blockschaltplan ist, der die Elemente eines Erkennungsprozessors, der einen Teil der 1 bildet, gemäß einer Ausführungsform der Erfindung schematisch zeigt;
  • 3 ein Blockschaltplan ist, der die Komponenten einer Klassifizierungseinrichtung schematisch zeigt, die einen Teil der Ausführungsform nach 2 bildet;
  • 4 ein Ablaufplan ist, der den Betrieb der Klassifizierungseinrichtung nach 3 schematisch zeigt;
  • 5 ein Blockschaltplan ist, der die Struktur eines Folgen-Parsers schematisch zeigt, der einen Teil der Ausführungsform nach 2 bildet;
  • 6 die Inhalte eines Feldes innerhalb eines Speichers schematisch zeigt, der einen Teil der 5 bildet;
  • 7 die Inhalte eines Puffers schematisch zeigt, der einen Teil der 5 bildet;
  • 8 ein Ablaufplan ist, der den Betrieb des Folgen-Parsers nach 5 schematisch zeigt;
  • 9 ein Blockschaltplan ist, der die Struktur eines Pausendetektors zeigt, der einen Teil der Ausführungsform nach 2 bildet;
  • 10 ein Blockschaltplan ist, der einen Teil der Struktur nach 9 ausführlicher schematisch zeigt;
  • 11 ein Ablaufplan ist, der den Betrieb einer Mittelwertbildungseinrichtung veranschaulicht, die einen Teil der 10 bildet;
  • 12 ein Ablaufplan ist, der den Prozeß des Ableitens eines Rauschbstandes durch die Vorrichtung nach 10 veranschaulicht;
  • 13 ein Ablaufplan ist, der den Prozeß des Bildens eines Maßes der Signalvarianz durch die Vorrichtung nach 10 veranschaulicht;
  • 14 ein Blockschaltplan ist, der einen Teil der Struktur nach 10 ausführlicher zeigt;
  • 15 ein Blockschaltplan ist, der die Kombinationslogik ausführlicher zeigt, die einen Teil der 10 bildet;
  • 16 eine Darstellung der Energie und der gemittelten Energie eines Sprachsignals über der Zeit ist und die Entsprechung mit den Signalrahmen anzeigt;
  • 17 ein Ablaufplan ist, der den Betrieb einer Zurückweisungseinrichtung veranschaulicht, die einen Teil der 2 bildet;
  • 18 ein 11 entsprechender Ablaufplan ist, der den Prozeß des Ableitens eines Mittelwertes in einer zweiten Ausführungsform der Erfindung veranschaulicht; und
  • 19 eine 16 entsprechende Darstellung der Energie und der gemittelten Energie gegen die Zeit in der Ausführungsform nach 18 ist.
  • DIE ERSTE AUSFÜHRUNGSFORM
  • In 1 umfaßt ein Telekommunikationssystem, das die Spracher kennung enthält, im allgemeinen ein Mikrophon 1, das typischerweise einen Teil eines Telephon-Handapparates bildet, ein Telekommunikationsnetz (typischerweise ein öffentliches Fernsprechnetz (PSTN)) 2, einen Erkennungsprozessor 3, der angeschlossen ist, um ein Sprachsignal aus dem Netz 2 zu empfangen, und eine Verwendungsvorrichtung 4, die mit dem Erkennungsprozessor 3 verbunden ist, und die beschaffen ist, um von ihm ein Spracherkennungssignal zu empfangen, das die Erkennung oder Nichterkennung spezieller Wörter oder Wortgruppen anzeigt, und um in Reaktion darauf zu handeln. Die Verwendungsvorrichtung 4 kann z. B. ein fernbetätigtes Bankterminal sein, um Banktransaktionen auszuführen.
  • In vielen Fällen erzeugt die Verwendungsvorrichtung 4 eine akustische Antwort auf den Sprecher, die über das Netz 2 zu einem Lautsprecher 5 übertragen wird, der typischerweise einen Teil des Teilnehmer-Handapparates bildet.
  • Im Betrieb spricht der Sprecher in das Mikrophon 1, wobei ein analoges Sprachsignal vom Mikrophon 2 in das Netz 2 zum Erkennungsprozessor 3 übertragen wird, wo das Sprachsignal analysiert und ein Signal, das die Identifizierung oder Nichtidentifizierung eines speziellen Wortes oder einer speziellen Wortgruppe anzeigt, erzeugt und zur Verwendungsvorrichtung 4 übertragen wird, die dann im Fall der Erkennung eines erwarteten Wortes oder einer erwarteten Wortgruppe geeignet handelt.
  • Der Erkennungsprozessor 3 kann z. B. beschaffen sein, um die Ziffern 0 bis 9, " ja" und "nein" zu erkennen, um persönliche Kennzahlen und einen Bereich von Befehlswörtern erkennen zu können, um spezielle Handlungen einzuleiten (z. B. das Anfordern von Konto auszügen oder spezielle Dienstleistungen).
  • In 2 umfaßt der Erkennungsprozessor 3 einen Eingang 31, um die Sprache in digitaler Form (entweder aus einem digitalen Netz oder von einem Analog-Digital-Umsetzer) zu empfangen, einen Rahmenprozessor 32, um die Folge der digitalen Abtastwerte in Rahmen benachbarter Abtastwerte zu zerlegen; eine Merkmalsextraktionseinrichtung 33, um aus den Rahmen der Abtastwerte einen entsprechenden Merkmalsvektor zu erzeugen; eine Klassifizierungseinrichtung 34, die die Folge der Merkmalsvektoren empfängt und auf jeden mit mehreren Modellen wirkt, die verschiedenen Wörtern, Phonemen oder Wortgruppen entsprechen, um Erkennungsergebnisse zu erzeugen; und einen Parser 35, der beschaffen ist, um die Klassifizierungsergebnisse von der Klassifizierungseinrichtung 34 zu empfangen und das Wort zu bestimmen, mit dem die Folge der Ausgangssignale der Klassifizierungseinrichtung die größte Ähnlichkeit zeigt.
  • Es ist außerdem eine Erkennungs-Zurückweisungseinrichtung 36, die beschaffen ist, um die Erkennung eines durch den Parser 35 erkannten Wortes zurückzuweisen, falls die Erkennung unzuverlässig ist, und ein Pausendetektor 37, der beschaffen ist, um die dem Ende eines Wortes folgende Pause zu erfassen, um dem Parser 35 zu ermöglichen, ein Worterkennungssignal auszugeben, vorgesehen. Das Worterkennungssignal vom Parser 35 oder ein Zurückweisungssignal von der Zurückweisungseinrichtung 36 werden an einen Steuersignalausgang 38 für die Verwendung bei der Steuerung der Verwendungsvorrichtung 4 ausgegeben.
  • Der Rahmengenerator 32
  • Der Rahmengenerator 32 ist beschaffen, um die Sprachabtastwerte mit einer Rate von z. B. 8.000 Abtastwerten pro Sekunde zu empfangen und Rahmen zu bilden, die 256 benachbarte Abtastwerte bei einer Rahmenrate von 1 Rahmen je 16 ms umfassen. Vorzugsweise wird jeder Rahmen mit Fenstern versehen (d. h. die Abtastwerte zur Kante des Rahmens werden mit vorgegebenen Gewichtungskonstanten multipliziert), z. B. unter Verwendung eines Hamming-Fensters, um durch die Rahmenkanten erzeugte unerwünschte falsche Meßwerte zu verringern. In einer bevorzugten Ausführungsform sind die Rahmen überlappend (z. B. um 50%), um die Wirkungen der Fensterbildung zu verbessern.
  • Die Merkmalsextraktionseinrichtung 33
  • Die Merkmalsextraktionseinrichtung 33 empfängt die Rahmen vom Rahmengenerator 32 und erzeugt in jedem Fall eine Menge oder einen Vektor der Merkmale. Die Merkmale können z. B. cepstrale Koeffizienten umfassen (z. B. die cepstralen LPC-Koeffizienten oder die cepstralen Koeffizienten der Mel-Frequenz, wie in "On the Evaluation of Speech Recognisers and Data Bases using a Reference System", Chollet & Gagnoulet, 1982, proc. IEEE, S. 2026 beschrieben ist), oder differentielle Werte derartiger Koeffizienten, die für jeden Koeffizienten die Differenz zwischen dem Koeffizienten und dem entsprechenden Koeffizientenwert im vorhergehenden Rahmen umfassen, wie in "On the use of Instantaneous and Transitional Spectral Information in Speaker Recognition", Soong & Rosenberg, 1988, IEEE Trans. on Accoustics, Speech and Signal Processing, Bd. 36, Nr. 6, S. 871, beschrieben ist. Ebenso kann eine Mischung mehrerer Typen der Merkmalskoeffizienten verwendet werden.
  • Aus Gründen, die im folgenden erörtert sind, extrahiert in dieser Ausführungsform die Merkmalsextraktionseinrichtung 33 außerdem einen Wert für die Energie in jedem Rahmen (wobei diese Energiewert einer der Merkmalskoeffizienten sein kann aber nicht sein muß, die bei der Erkennung verwendet werden). Der Energiewert kann als die Summe der Quadrate der Abtastwerte des Rahmens erzeugt werden.
  • Schließlich gibt die Merkmalsextraktionseinrichtung 33 eine Rahmennummer aus, die für jeden aufeinanderfolgenden Rahmen inkrementiert wird.
  • Der Rahmengenerator 32 und die Merkmalsextraktionseinrichtung 33 sind in dieser Ausführungsformen durch eine einzelne geeignet programmierte digitale Signalprozessor-Vorrichtung (DSP-Vorrichtung) vorgesehen (wie z. B. den Motorola DSP 56000, den Texas Instruments TMS C 320 oder eine ähnliche Vorrichtung).
  • Die Klassifizierungseinrichtung 34
  • In 3 umfaßt in dieser Ausführungsform die Klassifizierungseinrichtung 34 einen der Klassifizierungsprozessor 341 und einen Zustandspeicher 342.
  • Der Zustandsspeicher 342 umfaßt ein Zustandsfeld 3421, 3422, ..., für jeden der mehreren Sprachzustände. Jedes durch den Erkennungsprozessor zu erkennende Wort umfaßt z. B. 6 oder 8 Zustände, wobei demzufolge 6 oder 8 Zustandsfelder im Zustandsspeicher 342 für jedes zu erkennende Wort vorgesehen sind. Es sind außerdem ein Zustandsfeld für Rauschen/Ruhe am Anfang eines Wortes und ein Zustandsfeld für einen Rausch/Ruhe-Zustand am Ende eines Wortes vorgesehen (obwohl es in der Praxis möglich sein könnte, nur einen einzelnen Rauschzustand vorzusehen).
  • Jedes Zustandsfeld im Zustandsspeicher 342 umfaßt Daten, die eine mehrdimensionale Gauß-Verteilung für die Merkmalskoeffizientenwerte definieren, die den fraglichen Zustand charakterisieren.
  • Falls es z. B. d verschiedene Merkmalskoeffizienten gibt, sind die einen Zustand charakterisierenden Daten eine Konstante C, eine Menge aus d Merkmals-Mittelwerten μi und eine Menge aus d Merkmalsabweichungen σi; mit anderen Worten, eine Gesamtmenge von 2d + 1 Zahlen.
  • Der Klassifizierungsprozessor 34 ist beschaffen, um jedes Zustandsfeld innerhalb des Speichers 342 der Reihe nach zu lesen und unter Verwendung der aktuellen Eingangs-Merkmalskoeffizientenmenge für jedes die Wahrscheinlichkeit zu berechnen, daß die Eingangsmerkmalsmenge oder der Eingangsmerkmalsvektor dem entsprechenden Zustand entspricht. Um dies auszuführen, wie in 4 gezeigt ist, ist der Prozessor 341 beschaffen, um eine Gleichung
    Figure 00120001
    zu berechnen.
  • Es ist möglich, daß ein einzelner Zustand durch mehrere verschiedene Moden oder Verteilungen dargestellt wird; demzufolge kann der Zustandsspeicher 342 für jeden Zustand mehrere Modenfelder umfassen, wobei jedes dem obenbeschriebenen Zustandsfeld entspricht, wobei in diesem Fall der Klassifizierungsprozessor 341 beschaffen ist, um für jede Mode die Wahrscheinlichkeit zu berechnen, daß der Eingangsvektor dieser Mode entspricht, und dann die Modenwahrscheinlichkeiten (geeignet gewichtet) zu summieren.
  • Demzufolge sind mehrere Zustandswahrscheinlichkeiten, eine für jeden Zustand im Zustandsspeicher 342, das Ausgangssignal des Klassifizierungsprozessors 341, die die Wahrscheinlichkeit anzeigen, daß der Eingangsmerkmalsvektor jedem Zustand entspricht.
  • Der Klassifizierungsprozessor 341 kann eine geeignet programmierte digitale Signalverarbeitungsvorrichtung (DSP-Vorrichtung) sein, insbesondere kann sie die gleiche digitale Signalverarbeitungsvorrichtung wie die Merkmalsextraktionseinrichtung 33 sein.
  • Der Parser 35
  • In 5 umfaßt der Parser 35 in dieser Ausführungsform einen Zustandsfolgenspeicher 352, einen Parsing-Prozessor 351 und einen Parser-Ausgabepuffer 354.
  • Es ist außerdem ein Zustandswahrscheinlichkeitsspeicher 353 vorgesehen, der für jeden verarbeiteten Rahmen die durch den Wahrscheinlichkeitsprozessor 341 ausgegebenen Zustandswahrscheinlichkeiten speichert. Der Zustandsfolgenspeicher 352 umfaßt mehrere Zustandsfolgenfelder 3521, 3522, ..., wobei jedes einer zu erkennenden Rauschen-Wort-Rauschen-Folge (und einer entsprechenden Folge nur aus Rauschen) entspricht.
  • Jede Zustandsfolge im Zustandsfolgenspeicher 352 umfaßt, wie in
  • 6 veranschaulicht ist, eine Anzahl von Zuständen P1, P2, PN (wobei N gleich 6 oder 8 ist) und für jeden Zustand zwei Wahrscheinlichkeiten; eine Wiederholungswahrscheinlichkeit (Pi1) und eine Übergangswahrscheinlichkeit in den folgenden Zustand (Pi2). Für eine CFI-Erkennungseinrichtung sind die ersten und letzten Zustände Rauschzustände. Die beobachtete Folge der Zustände, die einer Folge von Rahmen zugeordnet ist, kann deshalb mehrere Wiederholungen jedes Zustands Pi in jedem Zustandsfolgenmodell 3521 usw. umfassen; z. B.:
  • Figure 00140001
  • Folglich bewegt sich bei irgendeiner Rahmennummer (hier der Rahmennummer 3) die beobachtete Folge vom anfänglichen Rauschzustand zum nächsten Sprachzustand; dieser Übergang markiert den Anfang des zu erkennenden Wortes. Ebenso erreicht bei irgendeinem Rahmen (hier dem Rahmen Z) die Folge der letzten Zustand Pn, der Rauschen oder Ruhe entspricht, das bzw. die dem Ende des zu erkennenden Wortes folgt. Der Rahmen Z entspricht deshalb dem Ende des zu erkennenden Wortes.
  • Wie in 8 gezeigt ist, ist der Parsing-Prozessor 351 beschaffen, bei jedem Rahmen die durch den Wahrscheinlichkeitsprozessor 341 ausgegebenen Zustandswahrscheinlichkeiten und die vorausgehend gespeicherten Zustandswahrscheinlichkeiten im Zustandswahrscheinlichkeitsspeicher 353 zu lesen und den bis jetzt wahrscheinlichsten Pfad der Zustände über der Zeit zu berechnen und diesen mit jeder der im Zustandsfolgenspeicher 352 gespeicherten Zu standsfolgen zu vergleichen.
  • Die Berechnung verwendet das wohlbekannte Verfahren der Hidden-Markow-Modelle, das im Artikel von Cox beschrieben ist, auf den oben Bezug genommen ist. Zweckmäßigerweise verwendet die durch den Parsing-Prozessor 351 ausgeführte HMM-Verarbeitung den wohlbekannten Viterbi-Algorithmus. Der Parsing-Prozessor 351 kann z. B. ein Mikroprozessor sein, wie z. B. der IntelTM i-486TM-Mikroprozessor oder der MotorolaTM 68000-Mikroprozessor, oder er kann alternativ eine DSP-Vorrichtung sein (z. B. die gleiche DSP-Vorrichtung, die für irgendeinen der vorhergehenden Prozessoren verwendet wird).
  • Demzufolge wird für jede Zustandsfolge (die einem Wort entspricht, durch den Parser-Prozessor 351 bei jedem Rahmen der Eingangssprache ein Wahrscheinlichkeits-Punktestand ausgegeben. Die Identität der wahrscheinlichsten Zustandsfolge (und folglich des erkannten Wortes) kann sich während der Dauer der Äußerung durch den Sprecher völlig ändern.
  • Der Parser-Ausgabepuffer 354 umfaßt mehrere Felder 3541, 3542, ..., die jedes einem zu erkennenden Wort entsprechen (und eines, das einer Folge aus nur Rauschen entspricht). Jedes Feld umfaßt, wie in 7 veranschaulichend gezeigt ist, einen Wahrscheinlichkeits-Punktestand S, der für den aktuellen Rahmen die Wahrscheinlichkeit anzeigt, daß das entsprechende Wort vorhanden ist, und zwei Rahmennummern; eine erste (sp_st), die den ersten Rahmen des Wortes in der beobachteten Rauschen-Wort-Rauschen-Folge der Rahmen anzeigt; und eine zweite (sp_end), die den letzten Rahmen des Wortes anzeigt. Vor sp_st umfassen die Zustände in der beobachteten Folge anfängliches Rauschen, wobei nach sp_end die Zustände in der beob achteten Folge dem Endrauschen entsprechen. Natürlich unterscheiden sich die Rahmennummern in jedem der Felder 3541, 3542, ... voneinander.
  • Der Pausendetektor 37
  • In 9 umfaßt der Pausendetektor 37 einen signalgestützten Detektor 370 und einen modellgestützten Detektor 375. Der signalgestützte Detektor 370 ist mit der Merkmalsextraktionseinrichtung 33 verbunden, um einen aus dem Sprachsignal extrahierten Parameter zu empfangen. In dieser vorliegenden Ausführungsform ist der Parameter die Rahmenenergie oder irgendein Parameter, der auf der Rahmenenergie basiert.
  • Der modellbasierte Detektor 375 ist mit dem Parser 35 verbunden, um eine Anzeige der aktuell besten Zustandsfolge zu empfangen. Spezifisch ist der modellbasierte Detektor 375 beschaffen, um aus dem Parser-Ausgabepuffer 354 die Rahmennummer (sp end) des Anfangs der letzten Rauschzustände, falls es welche gibt, in der aktuell wahrscheinlichsten Zustandsfolge zu lesen und diese von der aktuellen Rahmennummer zu subtrahieren, um die Länge der Periode festzustellen, die dem Ende des Wortes folgt, das gegenwärtig als zu erkennen angenommen wird.
  • Die Ausgangssignale des signalbasierten Pausendetektors 370 und des modellbasierten Pausendetektors 375 werden durch die Logik 378 kombiniert, um an einem Ausgang 379 ein Pausenerfassungssignal zu erzeugen.
  • In 10 umfaßt der signalbasierte Pausendetektor 370 eine Ein richtung 371, die einen laufenden Mittelwert bildet, die ein laufendes mittleres Energieniveau über eine Anzahl von vorhergehenden Energiewerten aufrechterhält; einen Rauschabstand-Detektor 372 (SNR-Detektor) und einen Rauschvarianz-Detektor 373 (NVR-Detektor), deren Ausgangssignale geliefert werden, um durch die Logik 378 kombiniert zu werden.
  • Es ist außerdem ein Puffer 374 für das mittlere Energieniveau vorgesehen, der mit dem Ausgang der Mittelwertbildungseinrichtung 371 verbunden ist, um aufeinanderfolgende mittlere Energiewerte zu speichern, die aufeinanderfolgenden Rahmen entsprechen.
  • Die Einrichtung 371, die einen laufenden Mittelwert bildet
  • Die Einrichtung 371, die einen laufenden Mittelwert bildet, ist schematisch beschaffen, um den in 11 zeigten Prozeß auszuführen. In diesem Prozeß wird in dieser Ausführungsformen für jeden Rahmen die Energie des Rahmens aus der Merkmalsextraktionseinrichtung 33 gelesen und von einem gespeicherten laufenden Mittelwert subtrahiert, um den Differenzwert zu liefern. Der Differenzwert wird mit einem Schwellenwert oder einer Stufe eines vorgegebenen Absolutwertes verglichen. Falls die Differenz innerhalb +/– des Stufenwertes liegt, bleibt der laufende Mittelwert unbeeinflußt, aber der Wert der Stufe wird verringert, indem er gleich der Differenz geteilt durch einen konstanten Faktor oder, wie in 11 angezeigt ist, einem ersten konstanten Faktor (Aufwärtsfaktor) für eine positive Differenz vom laufenden Mittelwert und einem zweiten Faktor (Abwärtsfaktor) für eine negative Differenz vom laufenden Mittelwert gesetzt wird.
  • Wenn andererseits die Differenz zwischen dem Eingangswert des vor handenen Rahmens und dem gespeicherten laufenden Mittelwert den Stufenwert überschreitet, dann wird der laufende Mittelwert um den Stufenwert abhängig von der Größe der Differenz inkrementiert oder dekrementiert. Der Stufenwert wird dann wie vorher aktualisiert.
  • Die Wirkung dieses Prozesses ist wie folgt. Zuerst gibt es eine Glättung des Energiewertes durch den Prozeß des Aufrechterhaltens eines laufenden Mittelwertes. Folglich stellt der augenblickliche laufende Mittelwert einen geglätteten Wert des Energieniveaus des aktuellen Rahmens dar, der frühere Energieniveaus etwas berücksichtigt.
  • Zweitens führt das Vorhandensein der Schwellenprüfung eine Nichtlinearität in den Prozeß ein, so daß hohe positive oder negative Energieniveaus, die sich erheblich von dem vorausgehenden mittleren Energieniveau unterscheiden, zuerst ignoriert werden. Der Schwellenwert wird jedoch anschließend vergrößert, so daß, falls das hohe Energieniveau aufrechterhalten wird, es schließlich innerhalb des Schwellenwertes liegt und eine Wirkung auf den laufenden Mittelwert besitzt.
  • Folglich besitzt ein kurzlebiges hohes Energieniveau, das auf eine Rauschspitze zurückzuführen ist, infolge der Schwellenstufe wenig oder keine Wirkung auf das laufende mittlere Energieniveau. Ein echtes hohes Energieniveau, das z. B. auf einen Übergang zur Sprache zurückzuführen ist, wird jedoch schließlich das laufende mittlere Energieniveau beeinflussen. Der Schwellenwert ist folglich während der Zeit anpassungsfähig, so daß, wenn ankommende Energieniveaus dem aktuellen Mittelwert genau entsprechen, der Schwellenwert oder die Stufenhöhe zunehmend auf einen niedrigen Wert schrumpft, wenn aber die ankommenden Energieniveaus vom Mittelwert abweichen, der Schwellenwert anfangs niedrig bleibt, sich aber dann erweitert.
  • Die Mittelwertbildungseinrichtung 371 wirkt folglich, um ein mittleres Niveau aufrechtzuerhalten, das sich ein wenig wie ein laufender Medianwert verhält.
  • Der SNR-Detektor 372
  • Der SNR-Detektor 372 ist so beschaffen, daß bei jedem Rahmen die Rahmennummern, die der Parser 35 als die Anfangs- und Endrahmen des gegenwärtig am wahrscheinlichsten erkannten Wortes identifiziert hat, in ihn eingegeben werden, und um den Puffer 376 für das mittlere Energieniveau zu lesen, um ein repräsentatives Energieniveau über die Rahmen, die gegenwärtig als Sprache identifiziert werden, und ein repräsentatives Energieniveau über die Rahmen, die gegenwärtig als Rauschen dargestellt werden, zu bestimmen.
  • In dieser Ausführungsform umfassen die repräsentativen Maße das mittlere laufende Energieniveau, das über die Rauschsegmente läuft, und das mittlere Spitzen-Energieniveau über dem Sprachsegment. Der Betrieb des SNR-Detektors 372 ist in 12 gezeigt.
  • Falls der berechnete Rauschabstand SNR größer als ein vorgegebener Schwellenwert ist, gibt der SNR-Pausendetektor 372 ein Signal aus, das anzeigt, daß eine Pause aufgetreten ist (d. h., daß die Sprache vorbei ist). Falls der SNR-Wert unter dem Schwellenwert liegt, wird ein Signal ausgegeben, das angezeigt, daß keine Pause erkannt worden ist.
  • Es ist festgestellt worden, daß das SNR-Maß eine nützliche Kennzeichnung ist, aber ein richtiges Wortende identifiziert worden ist. Dies ist teilweise so, weil eine fehlerhafte Erkennung des Anfangs und des Endes (und in der Tat der Identität) eines Wortes durch den Parser 35 dazu führen kann, daß Sprachrahmen in denjenigen Rahmen enthalten sind, die verwendet werden, um den mittleren Rauschpegel zu berechnen, wobei folglich der Wert des berechneten SNR unter den Schwellenwert verringert wird, so daß aus diesem Grund eine Pause nicht falsch identifiziert wird. Durch die Verwendung des Spitzen-Energieniveaus als das charakteristische Energieniveau für die Sprache bei der SNR-Berechnung wird im allgemeinen die umgekehrte Wirkung vermieden, weil die Spitze im allgemeinen durch eine falsche Identifizierung des Anfangs und des Endes des Wortes unbeeinflußt bleibt (wenn nicht eine vollständig fehlerhafte Erkennung stattgefunden hat).
  • Der NVR-Detektor 373
  • In 13 ist der NVR-Detektor 373 beschaffen, um die letzten N1 (wobei N1 eine vorgegebene Konstante ist) laufenden mittleren Energieniveaus aus dem Puffer 376 zu lesen, die minimalen und maximalen Werte festzustellen und das Verhältnis zwischen den minimalen und maximalen Werten zu berechnen. Dieses Verhältnis zeigt das Ausmaß der Variation des Energieniveaus über die letzten N1 Rahmen an. Falls das Niveau der Variation mit dem Schwellenwert verglichen wird, zeigt ein hohes Niveau der Variation die Möglichkeit an, daß die vorhergehenden N1 Rahmen etwas Sprache enthalten, wohingegen ein niedriges Niveau der Variation im Vergleich zu einem vorgegebenen Schwellenwert anzeigt, daß die letzten N1 Rahmen wahrscheinlich nur Rauschen enthalten, wobei folglich der NVR-Detektor 373 ein Pausenerfassungssignal ausgibt.
  • Weil das Energieniveau der Ruheperiode, die dem Ende der Sprache folgt, niedrig sein kann, kann das Verhältnis unter manchen Umständen der Division durch eine sehr kleine Zahl entsprechen. Um Singularitäten bei der Berechnung zu vermeiden, wenn die minimale mittlere Energie unter ein vorgegebenes Schwellenniveau fällt (z. B. eins), wird dann demzufolge das Verhältnis zwischen dem Maximum und dem vorgegebenen Pegel anstatt zwischen dem Maximum und dem Minimum berechnet.
  • Es könnten andere Maße der Varianz (z. B. die Differenz zwischen dem Maximum und Minimum) verwendet werden, das Verhältnis ist jedoch bevorzugt, weil es starke Variationen in der Gesamtsignalstärke berücksichtigt.
  • Der modellgestützte Detektor 375
  • Der modellgestützte Pausendetektor 375 umfaßt, wie in 14 gezeigt ist, erste und zweite Zeitüberschreitungs-Detektoren 376a, 376b, die beschaffen sind, daß die Rahmennummer des gegenwärtig identifizierten Endes der Sprache/des Anfangs des Endrauschens vom Parser 35 in sie eingegeben wird, und um die Differenz N zwischen diesem Rahmen und dem vorhandenen Rahmen gegen einen ersten relativ kurzen Schwellenwert N1 und einen zweiten relativ langen Schwellenwert N2 zu prüfen. N1 wird z. B. ausgewählt, daß er in der Größenordnung der Länge einer kurzen Lücke innerhalb eines Wortes liegt (d. h. 20–60 Rahmen, und daß er zweckmäßigerweise dieselbe Länge wie die im NVR-Detektor 373 verwendete Prüfung aufweist), während N2 ausgewählt wird, daß er erheblich länger ist (d. h. in der Größenordnung einer halben Sekunde).
  • Es ist außerdem eine Rausch-Punktestand-Prüfeinrichtung 377 vorgesehen, die beschaffen ist, um den Wahrscheinlichkeits-Punktestand für das Endrauschen, das der aktuellen wahrscheinlichsten Zustandsfolge entspricht, aus dem Parser 35 zu lesen, den Punktestand gegen einen vorgegebenen Schwellenwert zu prüfen und ein 'Pause-erfaßt'-Signal auszugeben, falls der Rausch-Punktestand den Schwellenwert überschreitet.
  • Schließlich ist ein dritter Zeitüberschreitungs-Detektor 376c vorgesehen, der die Gesamtzahl der Rahmen bis jetzt (die aktuelle Rahmennummer) T gegen eine lange Zeitüberschreitung N3 prüft, um den Erkennungsprozeß nach N3 Rahmen zu beenden, falls kein Ende der Sprache früher erfaßt worden ist.
  • Die Kombinationslogik 378
  • In 15 ist zu sehen, daß die Ausgänge der Detektoren 376b, 377, 372 und 373 in einer UND-Beziehung verbunden sind, und daß das kombinierte Ausgangssignal der vier mit den Ausgangssignalen der Detektoren 376a und 376c in einer ODER-Beziehung verbunden ist.
  • Folglich wird eine Pause entweder nach dem Ablauf einer langen Zeitüberschreitung (N3 Rahmen) vom Anfang der Erkennung oder nach einer relativ langen Zeitüberschreitung (N2 Rahmen) nach dem Beginn des Rauschens oder nach einer relativ kurzen Zeitüberschreitung (N1 Rahmen), nach der der Rausch-Punktestand hoch ist, der Rauschabstand hoch ist und die Rauschvarianz niedrig ist, erfaßt.
  • 16 veranschaulicht die Energie und die mittlere Energie RM(t) über einem Wort.
  • Die Zurückweisungseinrichtung 36
  • Die Zurückweisungseinrichtung 36 ist beschaffen, um nach der Operation des Pausendetektors 37 den Vertrauenswert der Identifikation eines Wortes durch den Parser 35 zu prüfen. Falls die Identifikation zweifelhaft ist, wird sie zurückgewiesen. Falls die Identifikation vorläufig ist, gibt die Zurückweisungseinrichtung 36 ein "Abfrage"-Signal aus, das der Verwendungsvorrichtung 4 ermöglicht, z. B. einen Bestätigungsdialog durch das synthetisieren einer Wortgruppe, wie z. B. "Sagten Sie ... (das identifizierte Wort)", einzuleiten oder den Anwender aufzufordern, das Wort zu wiederholen.
  • In 17 ist der allgemeine Betrieb der Zurückweisungseinrichtung 36 wie folgt.
  • Zuerst prüft die Zurückweisungseinrichtung, ob das Signal der Erfassung von Ruhe oder Rauschen allein entspricht. Dies tritt auf, wenn die durch den Parser 35 erfaßte wahrscheinlichste Folge einer Folge entspricht, die nur Rauschzustände enthält. Ruhe wird außerdem erfaßt, indem geprüft wird, ob der durch den SNR-Detektor 372 berechnete SNR unter einem sehr niedrigen Schwellenwert liegt. In beiden Fällen zeigt die Zurückweisungseinrichtung an, daß kein Wort (Ruhe) erfaßt worden ist, vorausgesetzt, die durch den Detektor 376a ausgeführte Prüfung ist außerdem erfüllt.
  • Zweitens führt die Zurückweisungseinrichtung Zurückweisungsprüfungen aus (die im folgenden ausführlicher erörtert sind), wobei sie die Ergebnisse gegen relativ lockere Schwellenwerte prüft. Falls den relativ lockeren Schwellenwerten nicht entsprochen wird, wird die Identifizierung zurückgewiesen.
  • Falls den relativ lockeren Schwellenwerten entsprochen wird, wird die Prüfung gegen relativ enge Schwellenwerte wiederholt. Falls den relativ engen Schwellenwerten entsprochen wird, wird die Akzeptanz des identifizierten Wortes angezeigt. Falls den engen Schwellenwerten nicht entsprochen wird, wird ein Abfrage-Ausgangssignal erzeugt, um der Verwendungsvorrichtung zu erlauben, den Anwender abzufragen.
  • Die durch die Zurückweisungseinrichtung ausgeführten Prüfungen umfassen:
    • 1) eine Prüfung des durch den Parser 35 für den wahrscheinlichsten Pfad erzeugten Wahrscheinlichkeits-Punktestands S (um Wörter außerhalb des Vokabulars zurückzuweisen);
    • 2) eine Prüfung, die den durch den SNR-Detektor 372 berechneten SNR verwendet (um rauschbehaftete Bedingungen und Wörter außerhalb des Vokabulars zurückzuweisen);
    • 3) eine Prüfung, die die durch die NVR-Prüfungseinrichtung 373 berechnete Rauschvarianz verwendet (um rauschbehaftete Bedingungen zurückzuweisen);
    • 4) eine Prüfung des Verhältnisses zwischen dem durch den Parser für den wahrscheinlichsten Pfad erzeugten Punktestand und dem für den zweitwahrscheinlichsten Pfad erzeugten Punktestand; und optional
    • 5) eine zwischen spezifischen bekannten verwechselbaren Wörtern ausgeführte Prüfung (z. B. falls das durch den Parser 35 wahrscheinlichste erkannte Wort "fife" ist, während das zweitwahrscheinlichste erkannte Wort "nine" ist, wobei die Differenz oder das Verhältnis zwischen den zwei geprüft werden kann).
  • Folglich kann die Zurückweisungseinrichtung 36 entweder ein Wort akzeptieren, wobei in diesem Fall das Ausgangssignal des Parsers 35 zum Ausgang 38 geleitet wird; oder anzeigen, das Ruhe vorhanden ist (d. h., daß kein Wort vorhanden ist), wobei ein Signal, das die Ruhe identifiziert, zum Ausgang 38 geleitet wird; oder die Identifikation eines Wortes durch den Parser 35 zurückweisen oder bezweifeln, wobei in diesem Fall das Ausgangssignal des Parsers 35 gesperrt wird und ein entsprechendes "Zurückweisungs"- oder "Abfrage"-Steuersignal zum Ausgang 38 geleitet wird, um die Handlung durch die Verwendungsvorrichtung 4 freizugeben.
  • Die zweite Ausführungsform
  • In der zweiten Ausführungsform ist der Merkmalsgenerator 33 beschaffen, um eine neu erzeugte Menge der Merkmalskoeffizienten mit der zuletzt ausgegebenen Menge der Merkmalskoeffizienten zu vergleichen und nur eine neue Menge der Merkmalskoeffizienten auszugeben, wenn die Gesamtdifferenz von der früheren Menge größer als ein vorgegebener Schwellenwert ist. Der Abstand kann z. B. die Summe der absoluten Differenzen oder das "City-Block"-Abstandsmaß oder irgendein anderes zweckmäßiges Maß sein.
  • Es ist festgestellt worden, daß diese Technik die Menge der durch die Klassifizierungseinrichtung 34 und den Parser 35 benötigten Berechnung erheblich reduzieren kann, z. B. in der Größenordnung von 60%. Weil der HMM-Prozeß eine Annahme macht, daß nachfolgende Zustände voneinander unabhängig sind, kann diese Ausführungsform außerdem unter gewissen Umständen die Gültigkeit dieser Annahme vergrößern, weil sie bewirkt, daß jede aufeinanderfolgende Menge der Koeffizienten sich erheblich von ihrem Vorgänger unterscheidet.
  • In diesem Fall ist festgestellt worden, daß der Betrieb der Klassifizierungseinrichtung 34 und des Parsers 35 im wesentlichen nicht geändert sind. Der Betrieb des signalgestützten Pausendetektors 370, spezifisch der Einrichtung 371, die einen laufenden Mittelwert bildet, wird jedoch geändert, daher der Mittelwert die Dauer der Perioden zwischen aufeinanderfolgenden Rahmen berücksichtigen muß.
  • In dieser Ausführungsform erzeugt die Merkmalsextraktionseinrichtung 33 eine jedem Rahmen zugeordnete Zahl N(t), die die Anzahl der Rahmen zwischen diesem Rahmen und dem letzten durch den Merkmalsgenerator 33 ausgegebenen Rahmen anzeigt, und liefert sie an den Pausendetektor 37.
  • Die Merkmalsextraktionseinrichtung 33 akkumuliert außerdem die Energie jedes Rahmens, um eine kumulative Energie E(t) bei jeder Menge der Merkmalskoeffizienten, die ausgegeben werden, zu liefern, die der Summe der Energie, die diese Menge der Koeffizienten verursacht, und der Energien aller anderen Rahmen zwischen diesem Rahmen und dem durch die Merkmalsextraktionseinrichtung 33 ausgegebenen vorausgehenden Rahmen entspricht.
  • In 18 liest in dieser Ausführungsform die Mittelwertbildungseinrichtung 371 die kumulative Energie E(t) und die durch einen VFR-Rahmen repräsentierte Anzahl der Rahmen N(t), wobei sie dann die mittlere Energie für jeden Zwischenrahmen erzeugt, indem sie E(t) durch N(t) dividiert. Die Mittelwertbildungseinrichtung simuliert dann im wesentlichen die Wirkung des Empfanges N(t) aufeinanderfolgender Rahmen, die jeder die mittlere Energie besitzen, wobei sie den laufenden Mittelwert dementsprechend inkrementiert oder dekrementiert.
  • Um zu sichern, daß der laufende mittlere Energiewert, der bei der Berechnung des Rauschabstands verwendet wird, richtig ist, wird jedoch das für den VFR-Rahmen berechnete letzte gemittelte Energieniveau RM(t) festgestellt, indem die N aufeinanderfolgenden laufenden Mittelwerte gemittelt werden, indem die laufenden Mittelwerte akkumuliert und dann am Ende der Berechnung mit N(t) normiert werden.
  • Folglich umfassen in dieser Ausführungsform die im Ausgabepuffer 374 gespeicherten Zahlen die Werte RM(t) für jeden der Rahmen der mit einer variablen Rate durch den Koeffizientengenerator 33 emittierten Merkmalskoeffizienten, die dem mittleren Niveau der Signalrahmen entsprechen, die dem aktuellen Rahmen vorangehen.
  • In der Tat sind in dieser Ausführungsform die minimalen und maximalen Energieniveaus weniger deutlich als in der ersten Ausführungsform definiert, weil der Prozeß des Kumulierens der Energie vorangehender Rahmen, der im Merkmalsgenerator 33 ausgeführt wird, wirkt, um scharfe Spitzen oder Senken im Energieniveau des Eingangssprachsignals zu glätten.
  • In dieser Ausführungsform würde es selbstverständlich statt dessen möglich sein, daß die Mittelwertbildungseinrichtung 371 jedes der Energieniveaus von jedem der durch den Merkmalsgenerator 33 empfangenen Signalrahmen empfängt und verarbeitet, ungeachtet ob diese Rahmen die Ausgabe eines Merkmalsvektors für die Erkennung veranlassen. Dies würde jedoch weitere Berechnung und Pufferung erfordern.
  • In dieser Ausführungsform werden die durch die Detektoren 376a, 376b berechneten Pausenprüfungen berechnet, um die variable Rate zu berücksichtigen, mit der die Koeffizientenvektoren erzeugt werden, indem eine aktuelle Rahmennummer aufrechterhalten wird, die durch das Akkukumulieren der Anzahl der weggelassen Rahmen N(t) berechnet wird, und diese verwendet wird, um die Zeit seit dem Ende der Sprache N zu berechnen.
  • 19 veranschaulicht die Energie und die mittlere Energie RM(t) über einem Wort.
  • Die Vorteile der Erfindung
  • Aus den vorangehenden Ausführungsformen ist zu sehen, daß es eine Anzahl von Vorteilen für die Aspekte der Erfindung gibt.
  • In dem ein Pausendetektor in einer Einrichtung für die kontinuierliche Spracherkennung vorgesehen ist, der das Sprachsignal aktiv untersucht, ist es möglich, eine schnelle Erkennung der Eingangs wörter, -wortgruppen oder -sätze zu schaffen. Indem der Pausendetektor Parameter untersucht, die vom durch den Sprachdetektor angenommenen Sprache/Rausch-Modell getrennt sind, wird eine größere Robustheit gesichert. Es ist festgestellt worden, daß energiebasierte Maße beim Unterscheiden zwischen Sprache und Rauschen besonders effektiv sein können, insbesondere ist festgestellt worden, daß eine Prüfung der Differenz zwischen dem Signalpegel und dem Rauschpegel (z. B. ein Maß des Rauschabstandes), die unter der Annahme erzeugt worden ist, daß das durch die Erkennungseinrichtung verwendete Rauschen-Sprache-Rauschen-Modell richtig ist, ein effektives Mittel ist, um die Richtigkeit dieser Annahme zu validieren. Spezieller ist festgestellt worden, daß der zwischen einem Spitzenwert über einer Sprachperiode und einem Mittelwert über einer Rauschperiode berechnete Rauschabstand effektiv ist.
  • Es ist als vorteilhaft festgestellt worden, als die Basis für die Pausenerfassung oder für andere Zwecke, wie z. B. die Zurückweisung eines identifizierten Wortes, ein gemitteltes oder geglättetes Maß der Signalenergie zu verwenden; insbesondere ist ein laufendes mittleres Maß und spezieller ein nichtlinearer Mittelwert, der irgendeine Filterung der Rauschspitzen schafft, bevorzugt. Der Algorithmus kann vorzugsweise beschaffen sein, um etwa den Median anstatt den Mittelwert der Energie des Signals zu verfolgen.
  • Der Algorithmus kann, betrachtet in einer anderen Weise, beschaffen sein, um den laufenden Mittelwert um einen vorgegebenen Betrag zu inkrementieren oder zu dekrementieren, wobei der vorgegebene Betrag vorzugsweise in Abhängigkeit von der Differenz zwischen dem Eingangsenergieniveau und dem laufenden Mittelwert angepaßt wird.
  • Ferner ist festgestellt worden, daß die Verwendung eines Maßes der Variation der Signalenergie (und spezifischer der Variation der geglätteten und gemittelten Signalenergie) ein gutes Unterscheidungskennzeichen ist, das die Bestimmung erlaubt, ob nur Rauschen vorhanden ist; insbesondere ist ein Maß des Verhältnisses zwischen der Spitzenenergie und der minimalen Energie im allgemeinen niedrig, falls nur Rauschen vorhanden ist. Demzufolge kann diese Prüfung verwendet werden, um ein durch den Erkennungsprozeß erzeugtes Rauschen-Sprache-Rauschen-Modell zu validieren.
  • Die obigen Prüfungen werden vorteilhaft, aber nicht notwendigerweise, mit den Prüfungen kombiniert, die auf dem Ausgangssignal der Erkennungseinrichtung selbst basieren, wie z. B. eine Prüfung des durch die Erkennung des Rauschens erzeugten Punktestandes und eine Prüfung der Länge der Zeit seit dem Beginn des erkannten Rauschens.
  • Es ist festgestellt worden, daß die obenbeschriebenen signalbasierten Prüfungen ebenso mit verschiedenen Schwellenwerten nützlich sind, um die Basis für die anschließende Zurückweisung unter unsicheren Erkennungsbedingungen erkannter Wörter zu bilden, wie oben beschrieben ist.
  • Andere Aspekte und Ausführungsformen der Erfindung
  • Aus dem vorangehenden ist offensichtlich, daß die beschriebenen Ausführungsformen lediglich Beispiele der Erfindung sind, die demzufolge dadurch nicht eingeschränkt ist. Insbesondere besitzen die verschiedenen neuartigen Merkmale der beschriebenen Ausführungsformen jedes separate Vorteile, ob sie oben explizit beschrieben sind oder es für den Fachmann daraus offensichtlich ist, wobei für jedes derartige vorteilhafte Merkmal isoliert und für jede vorteilhafte Kombination aus derartigen Merkmalen Schutz gesucht wird.
  • Hier ist die Verwendung einer Klassifizierungseinrichtung mit kontinuierlicher Gauß-Dichte beschrieben worden, es könnte jedoch ebenso eine Klassifizierungseinrichtung verwendet werden, die die Vektorquantisierung verwendet. Ähnlich könnten andere Typen der Folgenverarbeitung verwendet werden (z. B. dynamische Zeitanpassung).
  • Während nur eine 'Wiederholungs'-Wahrscheinlichkeit und eine 'Übergangs'-Wahrscheinlichkeit erörtert worden sind, sind Wahrscheinlichkeiten für Übergänge zu den übernächsten und überübernächsten (usw.) Zuständen (überspringende Übergänge) wohlbekannt, wobei sie ebenso verwendet werden könnten. Ebenso ist die obenerwähnte Anzahl der Zustände für Wörter und Rauschen rein beispielhaft.
  • Während spezielle Ausführungsformen ausführlich beschrieben worden sind, wird erkannt, daß andere Ausführungsformen unter Verwendung geeignet konstruierter oder programmierter digitaler oder analoger Hardware zu verwirklichen sind.
  • Obwohl eine Erkennungssyntax beschrieben worden ist, in der isolierte Wörter (denen Rauschen vorangeht und nachfolgt) erkannt werden, ist die vorliegende Erfindung ebenso auf die Erkennung verbundener Wörter anwendbar. In diesem Fall würden die Zustandsfolgenmodelle Folgen von Rauschen-Wort1-Wort2-...-WortN-Rauschen repräsentieren, wobei die SNR- und Rauschvarianz-Prüfungen vor zugsweise nur auf das Rauschen nach dem Punkt des Endes der Sprache ansprechen würden.
  • Obwohl die Spracherkennung beschrieben worden ist, ist die Verwendung der gleichen Techniken in bezug auf andere Typen der Erkennung (z. B. die Sprechererkennung oder -verifikation) nicht ausgeschlossen.
  • Es ist beabsichtigt, daß der Umfang des Schutzes alle Konstruktionen innerhalb des Umfangs der beigefügten Ansprüche zusammen mit allen äquivalenten Konstruktionen umfaßt, die im wesentlichen das gleiche Ergebnis erreichen oder ein im wesentlichen anderes Ergebnis unter Verwendung des gleichen Operationsprinzips erreichen.

Claims (6)

  1. Erkennungsvorrichtung mit: einer Eingabeeinrichtung zum Empfanen eines Sprachsignals; einer Erkennungsverarbeitungseinrichtung zum Verarbeiten des Sprachsignals, um dessen Ähnlichkeit zu zu erkennenden vorbestimmten Mustern anzugeben; einer Ausgabeeinrichtung zum Liefern eines Erkennungssignals, das die Erkennung eines der Muster anzeigt; und einer Zurückweisungseinrichtung zum Zurückweisen des Erkennungssignals unter bestimmten Bedingungen, dadurch gekennzeichnet, dass die Erkennungseinrichtung dazu ausgelegt ist, zumindest einen Signalparameter zu empfangen, der vom Sprachsignal abgeleitet ist und unabhängig von der Ausgabe der Erkennungseinrichtung ist; wobei die Erkennungseinrichtung dazu ausgelegt ist, das Sprachsignal in einen Musterbereich und in Rausch- und Ruhebereiche vor und nach dem Musterbereich zu zerlegen; wobei die Zurückweisungseinrichtung dazu ausgelegt ist, auf die Zerlegung zu reagieren.
  2. Vorrichtung nach Anspruch 1, bei der die Zurückweisungseinrichtung dazu ausgelegt ist, das Erkennungssignal in Abhängigkeit von der relativen Größe des Parameters oder eines davon abgeleiteten Parameters während des Musterbereichs und während des Rausch- oder Ruhebereichs zurückzuweisen.
  3. Vorrichtung nach Anspruch 1 oder 2, bei der die Zurückweisungseinrichtung dazu ausgelegt ist, das Erkennungssignal in Abhängigkeit vom Ausmaß des Parameters oder eines davon abgeleiteten Parameters während des Ruhe- oder Rauschbereichs zurückzuweisen.
  4. Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Erkennungsverarbeitungseinrichtung eine Einrichtung aufweist zum Speichern von Daten, die mehrere Zustandsfolgewahrscheinlichkeiten angeben und zum Berechnen der Wahrscheinlichkeit, dass das Sprachsignal den jeweiligen Zustandsfolgen entspricht.
  5. Vorrichtung nach Anspruch 4, bei der die Erkennungsverarbeitungseinrichtung eine Einrichtung aufweist zum Speichern von Daten, die mehrere kontinuierliche Wahrscheinlichkeitsverteilungen entsprechend unterschiedlichen Zuständen angeben, und eine Einrichtung zum Anwenden der Verteilungsdaten auf das Sprachsignal zum Berechnen eines Entsprechungsmaßes zwischen dem Sprachsignal und jedem der Zustände.
  6. Vorrichtung nach einem der vorhergehenden Ansprüche mit einer Einrichtung zum Unterteilen des Sprachsignals in eine aufeinander folgende Folge von Bereichen, und zum Vergleichen eines der Bereiche mit einem vorhergehenden Bereich, wobei das System dazu ausgelegt ist, die Erkennungsverarbeitungseinrichtung nicht zu betreiben, wenn sich ein Bereich nicht wesentlich von seinem Vorgänger unterscheidet.
DE69432570T 1993-03-25 1994-03-25 Spracherkennung Expired - Lifetime DE69432570T2 (de)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP93302302 1993-03-25
EP93302302 1993-03-25
EP93302541 1993-03-31
EP93302541 1993-03-31

Publications (2)

Publication Number Publication Date
DE69432570D1 DE69432570D1 (de) 2003-05-28
DE69432570T2 true DE69432570T2 (de) 2004-03-04

Family

ID=26134232

Family Applications (2)

Application Number Title Priority Date Filing Date
DE69432570T Expired - Lifetime DE69432570T2 (de) 1993-03-25 1994-03-25 Spracherkennung
DE69421911T Expired - Lifetime DE69421911T2 (de) 1993-03-25 1994-03-25 Spracherkennung mit pausedetektion

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE69421911T Expired - Lifetime DE69421911T2 (de) 1993-03-25 1994-03-25 Spracherkennung mit pausedetektion

Country Status (9)

Country Link
US (1) US5848388A (de)
EP (2) EP0691022B1 (de)
JP (1) JP3691511B2 (de)
AU (1) AU6433094A (de)
CA (1) CA2158849C (de)
DE (2) DE69432570T2 (de)
ES (1) ES2141824T3 (de)
SG (1) SG93215A1 (de)
WO (1) WO1994022131A2 (de)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9620082D0 (en) 1996-09-26 1996-11-13 Eyretel Ltd Signal monitoring apparatus
GB9625284D0 (en) * 1996-12-04 1997-01-22 Canon Kk A data processing method and apparatus for identifying a classification to which data belongs
KR100302370B1 (ko) * 1997-04-30 2001-09-29 닛폰 호소 교카이 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
US5930748A (en) * 1997-07-11 1999-07-27 Motorola, Inc. Speaker identification system and method
US6374219B1 (en) * 1997-09-19 2002-04-16 Microsoft Corporation System for using silence in speech recognition
US6006182A (en) * 1997-09-22 1999-12-21 Northern Telecom Limited Speech recognition rejection method using generalized additive models
US6718302B1 (en) * 1997-10-20 2004-04-06 Sony Corporation Method for utilizing validity constraints in a speech endpoint detector
JP3075250B2 (ja) * 1998-03-04 2000-08-14 日本電気株式会社 話者認識方法及び装置
DE19824354A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
DE19824353A1 (de) * 1998-05-30 1999-12-02 Philips Patentverwaltung Vorrichtung zur Verifizierung von Signalen
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
GB2355833B (en) * 1999-10-29 2003-10-29 Canon Kk Natural language input method and apparatus
US6910035B2 (en) * 2000-07-06 2005-06-21 Microsoft Corporation System and methods for providing automatic classification of media entities according to consonance properties
US7035873B2 (en) 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
US20020042709A1 (en) * 2000-09-29 2002-04-11 Rainer Klisch Method and device for analyzing a spoken sequence of numbers
US20030023439A1 (en) * 2001-05-02 2003-01-30 Gregory Ciurpita Method and apparatus for automatic recognition of long sequences of spoken digits
US20040104062A1 (en) * 2002-12-02 2004-06-03 Yvon Bedard Side panel for a snowmobile
EP1363271A1 (de) 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220524B4 (de) 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
US7356466B2 (en) * 2002-06-28 2008-04-08 Samsung Electronics Co., Ltd. Method and apparatus for performing observation probability calculations
US20040044517A1 (en) * 2002-08-30 2004-03-04 Robert Palmquist Translation system
US7539086B2 (en) 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
JP4463526B2 (ja) * 2003-10-24 2010-05-19 株式会社ユニバーサルエンターテインメント 声紋認証システム
US20050171944A1 (en) * 2003-12-16 2005-08-04 Palmquist Robert D. Translator database
BRPI0417634A (pt) * 2003-12-17 2007-03-27 Speechgear Inc método, meio legìvel por computador, e, sistema
US7664642B2 (en) * 2004-03-17 2010-02-16 University Of Maryland System and method for automatic speech recognition from phonetic features and acoustic landmarks
US9117460B2 (en) * 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
US7558389B2 (en) * 2004-10-01 2009-07-07 At&T Intellectual Property Ii, L.P. Method and system of generating a speech signal with overlayed random frequency signal
US7584098B2 (en) * 2004-11-29 2009-09-01 Microsoft Corporation Vocabulary-independent search of spontaneous speech
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
EP1708172A1 (de) * 2005-03-30 2006-10-04 Top Digital Co., Ltd. System zur Identifizierung von Sprachabdrücken für den elektronischen Handel
KR101116363B1 (ko) * 2005-08-11 2012-03-09 삼성전자주식회사 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
US7603275B2 (en) * 2005-10-31 2009-10-13 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
US8090582B2 (en) * 2005-12-14 2012-01-03 Mitsubishi Electric Corporation Voice recognition apparatus
JP4906379B2 (ja) * 2006-03-22 2012-03-28 富士通株式会社 音声認識装置、音声認識方法、及びコンピュータプログラム
EP1933302A1 (de) * 2006-12-12 2008-06-18 Harman Becker Automotive Systems GmbH Spracherkennungsverfahren
US20080221882A1 (en) * 2007-03-06 2008-09-11 Bundock Donald S System for excluding unwanted data from a voice recording
WO2009000073A1 (en) * 2007-06-22 2008-12-31 Voiceage Corporation Method and device for sound activity detection and sound signal classification
DE102008039329A1 (de) * 2008-01-25 2009-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Berechnung von Steuerinformationen für ein Echounterdrückungsfilter und Vorrichtung und Verfahren zur Berechnung eines Verzögerungswerts
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
US8838449B2 (en) * 2010-12-23 2014-09-16 Microsoft Corporation Word-dependent language model
US8924213B2 (en) 2012-07-09 2014-12-30 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US20140365068A1 (en) * 2013-06-06 2014-12-11 Melvin Burns Personalized Voice User Interface System and Method
US9928851B2 (en) * 2013-09-12 2018-03-27 Mediatek Inc. Voice verifying system and voice verifying method which can determine if voice signal is valid or not
US10832005B1 (en) 2013-11-21 2020-11-10 Soundhound, Inc. Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences
US9311932B2 (en) * 2014-01-23 2016-04-12 International Business Machines Corporation Adaptive pause detection in speech recognition
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
US10339918B2 (en) * 2016-09-27 2019-07-02 Intel IP Corporation Adaptive speech endpoint detector
US9984689B1 (en) * 2016-11-10 2018-05-29 Linearhub Apparatus and method for correcting pronunciation by contextual recognition
US10636421B2 (en) 2017-12-27 2020-04-28 Soundhound, Inc. Parse prefix-detection in a human-machine interface
RU2761940C1 (ru) 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
KR20210078133A (ko) * 2019-12-18 2021-06-28 엘지전자 주식회사 간투어 검출 모델을 훈련시키기 위한 훈련 데이터 생성 방법 및 장치
US11705125B2 (en) 2021-03-26 2023-07-18 International Business Machines Corporation Dynamic voice input detection for conversation assistants

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE31188E (en) * 1978-10-31 1983-03-22 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system
DE3066499D1 (en) * 1979-08-13 1984-03-15 Linear Pneumatics Inc Method of removing stuck gaskets and pneumatic impact tool therefor
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
US4761815A (en) * 1981-05-01 1988-08-02 Figgie International, Inc. Speech recognition system based on word state duration and/or weight
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4989248A (en) * 1983-01-28 1991-01-29 Texas Instruments Incorporated Speaker-dependent connected speech word recognition method
US4783804A (en) * 1985-03-21 1988-11-08 American Telephone And Telegraph Company, At&T Bell Laboratories Hidden Markov model speech recognition arrangement
GB2182795B (en) * 1985-11-12 1988-10-05 Nat Res Dev Apparatus and methods for speech analysis
JP2717652B2 (ja) * 1986-06-02 1998-02-18 モトローラ・インコーポレーテッド 連続音声認識システム
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4803729A (en) * 1987-04-03 1989-02-07 Dragon Systems, Inc. Speech recognition method
ATE57545T1 (de) * 1987-06-16 1990-11-15 Santex Ag Verfahren zum glaetten und schrumpfen von textiler schlauchware.
US5228110A (en) * 1989-09-15 1993-07-13 U.S. Philips Corporation Method for recognizing N different word strings in a speech signal
DE69128990T2 (de) * 1990-09-07 1998-08-27 Toshiba Kawasaki Kk Sprecherkennungsvorrichtung
FR2677828B1 (fr) * 1991-06-14 1993-08-20 Sextant Avionique Procede de detection d'un signal utile bruite.
JP2870224B2 (ja) * 1991-06-19 1999-03-17 松下電器産業株式会社 音声認識方法
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer

Also Published As

Publication number Publication date
US5848388A (en) 1998-12-08
AU6433094A (en) 1994-10-11
CA2158849A1 (en) 1994-09-29
JPH08508108A (ja) 1996-08-27
DE69421911D1 (de) 2000-01-05
EP0691022B1 (de) 1999-12-01
EP0962913A1 (de) 1999-12-08
JP3691511B2 (ja) 2005-09-07
EP0691022A1 (de) 1996-01-10
WO1994022131A3 (en) 1995-01-12
CA2158849C (en) 2000-09-05
WO1994022131A2 (en) 1994-09-29
DE69421911T2 (de) 2000-07-20
EP0962913B1 (de) 2003-04-23
DE69432570D1 (de) 2003-05-28
ES2141824T3 (es) 2000-04-01
SG93215A1 (en) 2002-12-17

Similar Documents

Publication Publication Date Title
DE69432570T2 (de) Spracherkennung
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69615748T2 (de) Verfahren und Gerät zur Sprecherprüfung mittels Unterscheidung der Prototypen-Zusammenstellung
DE69331254T2 (de) Erkennungssystem zum Erkennen von Personen
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
DE69031284T2 (de) Verfahren und Einrichtung zur Spracherkennung
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE69229816T2 (de) Einrichtung und Verfahren für Sprachmusteridentifizierung
DE60004331T2 (de) Sprecher-erkennung
DE69030561T2 (de) Spracherkennungseinrichtung
DE69636057T2 (de) Sprecherverifizierungssystem
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69430082T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69031189T2 (de) Sprachverifizierungseinrichtung zur Prüfung der Identität des Benutzers einer Telefonkreditkarte
DE2953262C2 (de)
DE68924134T2 (de) Spracherkennungssystem.
DE60128270T2 (de) Verfahren und System zur Erzeugung von Sprechererkennungsdaten, und Verfahren und System zur Sprechererkennung
DE69416670T2 (de) Sprachverarbeitung
DE4310190A1 (de) Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE69800320T2 (de) Verfahren und Vorrichtung zur Sprechererkennung durch Prüfung von mündlicher Information mittels Zwangsdekodierung
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE60302478T2 (de) Vorrichtung und Verfahren zur Sprachinformationserkennung unter Verwendung der Analyse myoelektrischer Signale

Legal Events

Date Code Title Description
8364 No opposition during term of opposition