DE69118118T2 - Methode und System zur Spracherkennung ohne Rauschbeeinflussung - Google Patents

Methode und System zur Spracherkennung ohne Rauschbeeinflussung

Info

Publication number
DE69118118T2
DE69118118T2 DE69118118T DE69118118T DE69118118T2 DE 69118118 T2 DE69118118 T2 DE 69118118T2 DE 69118118 T DE69118118 T DE 69118118T DE 69118118 T DE69118118 T DE 69118118T DE 69118118 T2 DE69118118 T2 DE 69118118T2
Authority
DE
Germany
Prior art keywords
input
pattern
comparison
signal
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69118118T
Other languages
English (en)
Other versions
DE69118118D1 (de
Inventor
Keiko Shimada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Publication of DE69118118D1 publication Critical patent/DE69118118D1/de
Application granted granted Critical
Publication of DE69118118T2 publication Critical patent/DE69118118T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

    Hintergrund der Erfindung
  • Die vorliegende Erfindung betrifft Spracherkennung zum Erkennen einer Sprache, die als eines der gespeicherten Vergleichsmuster gesprochen wird, und insbesondere eine Spracherkennungsmethode und ein System, bei dem die Beeinflussung durch Rauschen, das mit der gesprochenen Sprache verbunden ist, verringert wird.
  • Bei einem bekannten Spracherkennungssystem wird eine gesprochene Sprache durch einen elektromechanischen Wandler, wie etwa ein Mikrophon, in ein Eingangssprachsignal umgewandelt. Das Eingangssprachsignal wird von einem Musteranalysator analysiert und in ein digitales Eingangsmustersignal umgewandelt. Das Eingangsmustersignal wird als ein gespeichertes Muster in einem Eingangsspeicher gespeichert. Das gespeicherte Muster wird mit jedem der in einem Vergleichsspeicher gespeicherten Vergleichsmuster verglichen und zwischen ihnen wird ein Unter schied erzeugt. Wenn ein spezielles Vergleichsmuster den minimalen Unterschied liefert, wird die gesprochene Sprache als das spezielle Vergleichsmuster erkannt. Andererseits wird, wenn ein bestimmtes Vergleichsmuster einen bestimmten Unterschied liefert, der kleiner als ein bestimmter Schwellenwert ist, die gesprochene Sprache als das bestimmte Vergleichsmuster erkannt.
  • Bei einem tatsächlichen Erkennungsvorgang ist das Eingangssprachsignal aufgrund des Vorhandenseins eines Hintergrundgeräusches mit Rauschen verbunden. Das Eingangssprachsignal und das Rauschen werden zusammen als ein akustisches Eingangssignal bezeichnet. Demgemäß umfaßt das Eingangsmustersignal eine Rauschkomponente. Dies führt zu einem Fehler bei der Spracherkennung.
  • Das Dokument US-A-4 239 936 beschreibt ein Spracherkennungssystem, bei dem Umgebungsrauschen durch ein getrenntes Mikrophon gemessen wird, und eine auf die Intensität des gemessenen Rauschens ansprechende Rückweisungseinheit.
  • Zusammenfassung der Erfindung:
  • Es ist eine Aufgabe der vorliegenden Erfindung, eine Methode und ein System zum Erkennen einer Sprache bereitzustellen, ohne daß sie durch Rauschen, das in dem Eingangssprachsignal enthalten ist, beeinflußt wird.
  • Die vorliegende Erfindung wird auf eine Methode zum Erkennen einer Sprache gerichtet, die als eines mehrerer Vergleichsmuster B1 bis BN gesprochen wird, wobei jedes der Vergleichsmuster aus einer Zeitfolge charakteristischer Vergleichsvektoren Bn = b1n, ..., bjn, ..., bJn besteht. Die Methode weist auf: (a) Erzeugen eines akustischen Eingangssignals, das aus einem für die gesprochene Sprache repräsentativen Eingangssprachsignal und einem mit dem Eingangssprachsignal verbundenen Rauschen besteht, (b) Analysieren des akustischen Eingangssignals, um ein für ein Muster des akustischen Eingangssignals repräsentatives Eingangsmuster zu erzeugen, (c) Überwachen des Eingangsmusters, um einen Anfang und ein Ende der Eingangssprache nachzuweisen und um aus einem Abschnitt des Eingangsmusters einen Rauschpegel z zu erzeugen, bevor der Anfang nach gewiesen wird, (d) Berechnen eines von dem Rauschpegel z abhängigen Rückweisungswertes r(z); (e) Ableiten eines anderen Abschnitts des Eingangsmusters als ein Eingangssprachmuster, nachdem der Anfang nachgewiesen ist, wobei das Eingangssprachmuster A aus einer Zeitfolge charakteristischer Eingangsvek toren A = a1, ..., ai, ..., aI besteht; (f) Berechnen von Vektorabständen dn(i,j) zwischen einem der charakteristischen Eingangsvektoren ai und jedem der charakteristischen Vergleichsvektoren bjn für i = 1 bis I und j = 1 bis J; (g) Berechnen der folgenden asymptotischen Gleichung (1):
  • gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (1)
  • aus diesen dn(i,j), wobei p = 0, 1, 2, ..., und min{gn(i-1,j- p)} ein Minirnum von gn(i-1,j-p) für verschiedene Werte von p ist; (h) Wiederholen der Schritte (f) und (g) für n 1 bis N, um Unterschiede von gn{I,Jn) für die Vergleichsmuster B1 bis BN zu erzeugen; (i) Auswählen des minimalen Unterschieds dieser Unterschiede gn(I,jn) als gN(I,Jn); (j) Normieren des minimalen Unterschieds gN(I,Jn) mit I, um einen normierten Wert GN(I,Jn) zu erzeugen; und (k) Vergleichen des normierten Wertes GN(I,Jn) mit dem Rückweisungswert r(z), um die Eingangssprache als ein spezielles Vergleichsmuster BN der Vergleichsmuster zu erkennen, das den minimalen Unterschied gN(I,Jn) erzeugt, wenn der normierte Wert GN(I,Jn) gleich oder kleiner ist als der Rück weisungswert r(z).
  • Gemäß der vorliegenden Erfindung wird ein System zum Erkennen einer gesprochenen Sprache erhalten, das aufweist: eine Vergleichsspeichereinrichtung zum Speichern mehrerer Vergleichsmuster B1 bis BN, wobei jedes der Vergleichsmuster aus einer Zeitfolge charakteristischer Vergleichsvektoren Bn = b1n, bjn, ..., bJn besteht; eine Einrichtung zum Erzeugen eines akustischen Eingangssignals, das aus einem für die gesprochene Sprache repräsentativen Eingangssprachsignal und einem mit dem Eingangssprachsignal verbundenen Rauschen besteht; eine mit der Erzeugungseinrichtung verbundene Einrichtung zum Analysieren des akustischen Eingangssignals, um ein für ein Muster des akustischen Eingangssignals repräsentatives Eingangsmuster zu erzeugen; eine mit der Erzeugungseinrichtung verbundene Überwachungseinrichtung zum Überwachen des Eingangsmusters, um einen Anfang und ein Ende der Eingangssprache nachzuweisen und um aus einem Abschnitt des Eingangsmusters einen Rauschpegel z zu erzeugen, bevor der Anfang nachgewiesen ist; eine mit der Überwachungseinrichtung verbundene und auf den Rauschpegel z ansprechende Einrichtung zum Berechnen eines Rückweisungswertes r(z), der von dem Rauschpegel z abhängt; eine mit der Analysiereinrichtung verbundene Eingangsspeichereinrichtung zum Speichern eines anderen Abschnitts des Eingangsmusters als ein Eingangssprachmuster, nachdem der Anfang nachgewiesen ist, wobei das Eingangssprachmuster A aus einer Zeitfolge charakteristischer Eingangsvektoren A a1, ..., ai, ... aI besteht; eine mit der Vergleichsspeichereinrichtung und der Eingangsspeichereinrichtung verbundene Abstandsberechnungseinrichtung zum Berechnen von Vektorabständen dn(i,j) zwischen einem der charakteristischen Eingangsvektoren ai und jedem der charakteristischen Vergleichsvektoren bjn für i = 1 bis I, j 1 bis J und n = 1 bis N; eine mit der Abstandsberechnungseinrichtung verbundene Berechnungseinrichtung einer asymptotischen Gleichung, um aus diesen dn(i,j) die folgende asymptotische Gleichung (1) zu berechnen:
  • gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (1)
  • wobei p = 0, 1, 2, ..., und min{gn(i-1,j-p)} ein Minimum von gn(i-1,j-p) für verschiedene Werte von p ist, wobei die Be rechnungseinrichtung einer asymptotischen Gleichung N Unterschiede gn(I,Jn) für n = 1 bis N erzeugt; eine mit der Berechnungseinrichtung einer asymptotischen Gleichung und der Rück weisungswertberechnungseinrichtung verbundene Entscheidungseinrichtung zum Auswählen des minimalen Unterschieds der N Unterschiede gn(I,Jn) als gN(I,Jn) und zum Normieren des minimalen Unterschieds gN(I,Jn), um einen normierten Wert GN(I,Jn) zu erzeugen, wobei die Entscheidungseinrichtung den normierten Wert GN(I,Jn) mit dem Rückweisungswert r(z) vergleicht, um ein spezielles Vergleichsmuster als ein Erkennungsergebnis zu bestimmen, das den minimalen Unterschied gN(I,Jn) erzeugt, wenn der normierte Wert GN(I,Jn) gleich oder kleiner ist als der Rückweisungswert r(z).
  • Kurze Beschreibung der Zeichnungen:
  • Fig. 1 ist eine Blockdiagrammansicht eines Spracherkennungssystems gemäß einer Ausführungsform der vorliegenden Erfindung; und
  • Fig. 2 ist eine graphische Darstellung, die eine Beziehung zwischen einem Rückweisungswert und einem Rauschpegel veranschaulicht.
  • Beschreibung der bevorzugten Ausführungsformen
  • Gemäß Fig. 1 weist das gezeigte System gemäß einer Ausführungsform ein Mikrophon 20 zum Umwandeln eines Tons in ein elektrisches Signal als ein akustisches Eingangssignal und einen Musteranalysator 21 zum Zuordnen des akustischen Eingangssignals zu einem Eingangsmuster auf. Das akustische Eingangssignal besteht aus einem für eine Eingangssprache repräsentativen Eingangssprachsignal und einem Rauschen. Der Musteranalysator 21 ist zum Beispiel ein aus dem Stand der Technik gut bekannter Frequenzanalysator, der eine Mehrkanalbandpaßfiltergruppe zum Trennen des akustischen Eingangssignals in verschiedene Frequenzkomponentensignale aufweist. Die Frequenzkomponentensignale werden im Multiplexbetrieb übertragen, um ein für einen charakteristischen Vektor repräsentatives Signal zu bilden. Demgemäß erzeugt der Musteranalysator 21 eine Zeitfolge charakteristischer Vektorsignale.
  • Die charakteristischen Vektoren werden einem Rauschpegeldetektor 22, einem Sprachdetektor 23 und einem Eingangsspeicher 24 zugeführt.
  • Der Rauschpegeldetektor 22 empfängt die charakteristischen Vektoren und speichert sie in einem Pufferspeicher. Der Rauschpegeldetektor 22 überwacht den Eingangspegel der Zeitfolge charakteristischer Vektoren und vergleicht den Eingangspegel mit einem Schwellenpegel. Wenn der Rauschpegeldetektor 22 nachweist, daß der Eingangspegel den Schwellenpegel übersteigt, berechnet er ein Mittel der Daten des Eingangspegels, die in dem Pufferspeicher gespeichert werden, bevor der Eingangspegel den Schwellenpegel übersteigt. Das Mittel wird dem Sprachdetektor 23 und einer Rückweisungswertberechnungseinrichtung 25 als ein Rauschpegel z übergeben.
  • Der Sprachdetektor 23 empfängt den Rauschpegel z und vergleicht den Eingangspegel der Zeitfolge charakteristischer Vektoren mit dem Rauschpegel z, um ein Sprachstartsignal als ein Signal SP zu erzeugen&sub1; wenn der Eingangspegel gleich dem Rauschpegel wird oder ihn übersteigt. Danach erzeugt der Sprachdetektor 23 ebenfalls ein Sprachendsignal als das Signal SP, wenn der Eingangspegel kleiner als der Rauschpegel z wird.
  • Das Signal SP wird einer Steuereinrichtung 26 übergeben. Wenn die Steuereinrichtung 26 das Sprachstartsignal als das Signal SP empfängt, übergibt die Steuereinrichtung 26 dem Eingangsspeicher 24 ein Annahmesignal il. Der Eingangsspeicher 24 speichert als Antwort auf eine Zeitfolge von Annahmesignalen il die Zeitfolge charakteristischer Eingangsvektoren a1, a2, ..., ai, ... und aI in dieser Reihenfolge.
  • Als Antwort auf das Sprachstartsignal als das Signal SP erzeugt die Steuereinrichtung 26 außerdem ein Steuersignal c11 für die Rückweisungswertberechnungseinrichtung 25.
  • Dann berechnet die Rückweisungswertberechnungseinrichtung 25 unter Verwendung des Rauschpegels z einen Rückweisungswert r(z), kurz bevor das Steuersignal c11 empfangen wird, das heißt, bevor der Sprachanf ang nachgewiesen wird. Der Rückweisungswert r(z) ist durch die folgenden Formeln gegeben:
  • wobei rmin und rmax der minimale Wert bzw. der maximale Wert des Rückweisungswertes r ist, zunten und zoben eine untere Grenze und eine obere Grenze des Rauschpegels z sind, α = (rmax - rmin)/(zoben - zunten) und β = (rminzoben - rmaxzunten)/(zoben - zunten). Fig. 2 veranschaulicht eine Beziehung zwischen dem Rauschpegel z und dem Rückweisungswert r(z).
  • Das System besitzt einen Vergleichsspeicher 27, der mehrere (N) Vergleichsmuster B1, B2, ..., Bn, ..., BN speichert. Jedes der Vergleichsmuster besteht aus einer Folge charakteristischer Vektoren, das heißt aus Bn = b1n, b2n, ..., bjn, ..., bJN.
  • Die Steuereinrichtung 26 erzeugt ein Vergleichsmusterauswahlsignal n1 für den Vergleichsmusterspeicher 27, um eines der Vergleichsmuster auszuwählen. Somit wird ein spezielles Bn der Vergleichsmuster ausgewählt.
  • Die Steuereinrichtung 26 erzeugt außerdem ein Lesesignal j1 für den Vergleichsspeicher 27. Somit wird bjn der Vergleichsvektoren des speziellen Vergleichsmusters Bn aus dem Vergleichsspeicher 27 gelesen und an eine Vektorabstandsberechnungseinrichtung 28 übergeben. Ferner wird ai der charakteristischen Eingangsvektoren ausgelesen und als Antwort auf das Signal i1 an die Vektorabstandsberechnungseinrichtung 28 übergeben. Der Eingangsspeicher 24 und der Vergleichsspeicher 27 führen gemäß einem Signal ml von der Steuereinrichtung 26 jeweils M charakteristische Vektoren der Vektorabstandsberechnungseinrichtung 28 zu.
  • Die Vektorabstandsberechnungseinrichtung 28 berechnet unter der Steuerung eines Steuersignals c12 einen Abstand dn(i,j) zwischen dem Eingangsvektor ai und dem Vergleichsvektor bjn. Der Abstand dn(i,j) wird an eine Berechnungseinrichtung einer asymptotischen Gleichung 29 übergeben.
  • Die Berechnungseinrichtung einer asymptotischen Gleichung 29 berechnet die folgende asymptotische Gleichung (2):
  • gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (2)
  • wobei p = 0, 1, 2, ... und der zweite Term min{gn(i-1,j-p)} ein minimaler Wert von gn(i-1,j-p) bei verschiedenen Werten von p ist.
  • Der Anfangswert von gn(i,j) ist durch gn(0,0) = 0 gegeben. Somit berechnet die Berechnungseinrichtung einer asymptotischen Gleichung 29 Unterschiede gn(i,j) für i = 1, 2, ..., I, j 1, 2, ..., Jn und n= 1, 2, ..., N, um N Unterschiede gn(I,Jn) zwischen dem Eingangssprachsignal und N Vergleichsmustern Bn zu erzeugen. Die Ziffern (n, i, j) werden durch ein Signal c13 von der Steuereinrichtung 26 angezeigt.
  • Die Berechnungseinrichtung einer asymptotischen Gleichung 29 ist mit einer Entscheidungsschaltung zum Bestimmen von min{gn(i-1,j-p)}, einem Pufferspeicher zum Speichern von min{gn(i-1,j-p)} und gn(i,j) und einem Speicher zum Speichern von N Unterschieden gn(I,Jn) zwischen dem Eingangssprachsignal und den N Vergleichsmustern Bn versehen.
  • Wenn die Steuereinrichtung 26 von dem Sprachdetektor 23 das Sprachendsignal als das Signal SP empfängt, erzeugt die Steuereinrichtung 26 ein Steuersignal i2 für eine Entscheidungsschaltung 30.
  • Als Antwort auf das Steuersignal i1 nimmt die Entscheidungsschaltung 30 die N Unterschiede gn(I,Jn) aus der Berechnungseinrichtung einer asymptotischen Gleichung 29 und bestimmt den minimalen Unterschied (gN(I,Jn)) der gn(I,Jn). Dann normiert die Entscheidungsschaltung 30 gN(I,Jn) mit I als GN(I,Jn).
  • Auf das Steuersignal i2 ansprechend nimmt die Entscheidungsschaltung 30 ebenfalls den Rückweisungswert r(z) aus der Rückweisungswertberechnungseinrichtung 25 und vergleicht den normierten minimalen Unterschied GN(I,Jn) mit dem Rückweisungswert r(z). Wenn das GN(I,Jn) gleich oder kleiner ist als der Rückweisungswert r(z), erkennt die Entscheidungsschaltung 30, daß die Eingangssprache mit einem speziellen BN der Vergleichsmuster übereinstimmt, das den minimalen Unterschied gN(I,Jn) der Unterschiede gn(I,Jn) ergibt, um das spezielle Vergleichsmuster BN als ein Entscheidungsergebnis zu erzeugen.
  • Wenn das GN(I,Jn) größer als der Rückweisungswert r(z) ist, erkennt die Entscheidungsschaltung 30, daß kein Vergleichsmuster mit dem Eingangssprachmuster übereinstimmt.
  • Die Mustervergleichsmethode ist aus dem Stand der Technik als DP-vergleichsmethode (dynamische Prograirmierung-) bekannt, bei der unter Verwendung der asymptotischen Gleichung (2) berechnete Unterschiede mit dem Rückweisungswert verglichen werden. Gemäß der vorliegenden Erfindung wird der Rückweisungswert r abhängig von dem Rauschpegel bestimmt und deshalb wird der Mustervergleich ohne Rauschbeeinflussung durchgeführt.

Claims (2)

1. Methode zum Erkennen einer Sprache, die als eines mehrerer Vergleichsmuster B1 bis BN gesprochen wird, wobei jedes der Vergleichsmuster aus einer Zeitfolge charakteristischer Vergleichsvektoren Bn = b1n, .., bjn, ..., bJn besteht, die aufweist:
(a) Erzeugen eines akustischen Eingangssignals, das aus einem für die gesprochene Sprache repräsentativen Eingangssprachsignal und einem mit dem Eingangssprachsignal verbundenen Rauschen besteht;
(b) Analysieren des akustischen Eingangssignals, um ein für ein Muster des akustischen Eingangssignals repräsentatives Eingangsmuster zu erzeugen;
(c) Überwachen des Eingangsmusters, um einen Anfang und ein Ende der Eingangssprache nachzuweisen und um aus einem Abschnitt des Eingangsmusters einen Rauschpegel z zu erzeugen, bevor der Anfang nachgewiesen wird;
(d) Berechnen eines von dem Rauschpegel z abhängigen Rückweisungswertes r(z);
(e) Ableiten eines anderen Abschnitts des Eingangsmusters als ein Eingangssprachmuster, nachdem der Anfang nachgewiesen ist, wobei das Eingangssprachmuster A aus einer Zeitfolge charakteristischer Eingangsvektoren A = a1, ..., ai, ..., aI besteht;
(f) Berechnen von Vektorabständen dn(i,j) zwischen einem der charakteristischen Eingangsvektoren ai und jedem der charakteristischen Vergleichsvektoren bjn für i = 1 bis I und j = 1 bis J;
(g) Berechnen der folgenden asymptotischen Gleichung (1):
gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (1)
aus diesen dn(i,j), wobei p = 0, 1, 2, ..., und min{gn(i-1,j- p)} ein Minimum von gn(i-1l,j-p) für verschiedene Werte von p ist;
(h) Wiederholen der Schritte (f) und (g) für n = 1 bis N, um Unterschiede von gn(I,Jn) für die Vergleichsmuster B1 bis BN zu erzeugen;
(i) Auswählen des minimalen Unterschieds dieser Unterschiede gn(I,jn) als gN(I,Jn);
(j) Normieren des minimalen Unterschieds gN(I,jn) mit I, um einen normierten Wert GN(I,Jn) zu erzeugen; und
(k) Vergleichen des normierten Wertes GN(I,Jn) mit dem Rückweisungswert r(z), um die Eingangssprache als ein spezielles Vergleichsmuster BN der Vergleichsmuster zu erkennen, das den minimalen Unterschied gN(I,Jn) erzeugt, wenn der normierte Wert GN(I,Jn) gleich oder kleiner ist als der Rückweisungswert r(z).
2. System zum Erkennen einer gesprochenen Sprache, das aufweist:
eine Vergleichsspeichereinrichtung zum Speichern mehrerer Vergleichsmuster B1 bis BN, wobei jedes der Vergleichsmuster aus einer Zeitfolge charakteristischer Vergleichsvektoren Bn = b1n, ..., bjn, ..., bJn besteht;
eine Einrichtung zum Erzeugen eines akustischen Eingangssignals, das aus einem für die gesprochene Sprache repräsentativen Eingangssprachsignal und einem mit dem Eingangssprachsignal verbundenen Rauschen besteht;
eine mit der Erzeugungseinrichtung verbundene Einrichtung zum Analysieren des akustischen Eingangssignals, um ein für ein Muster des akustischen Eingangssignals repräsentatives Eingangsmuster zu erzeugen;
eine mit der Erzeugungseinrichtung verbundene Überwachungseinrichtung zum Überwachen des Eingangsmusters, um einen Anfang und ein Ende der Eingangssprache nachzuweisen und um aus einem Abschnitt des Eingangsmusters einen Rauschpegel z zu erzeugen, bevor der Anfang nachgewiesen ist;
eine mit der Überwachungseinrichtung verbundene und auf den Rauschpegel z ansprechende Einrichtung zum Berechnen eines Rückweisungswertes r(z), der von dem Rauschpegel z abhängt;
eine mit der Analysiereinrichtung verbundene Eingangsspeichereinrichtung zum Speichern eines anderen Abschnitts des Eingangsmusters als ein Eingangssprachmuster, nachdem der Anfang nachgewiesen ist, wobei das Eingangssprachmuster A aus einer Zeitfolge charakteristischer Eingangsvektoren A = a1, ..., ai, ... aI besteht;
eine mit der Vergleichsspeichereinrichtung und der Eingangsspeichereinrichtung verbundene Abstandsberechnungseinrichtung zum Berechnen von Vektorabständen dn(i,j) zwischen einem der charakteristischen Eingangsvektoren ai und jedem der charakteristischen Vergleichsvektoren bjn für i = 1 bis I, j = 1 bis J und n = 1 bis N;
eine mit der Abstandsberechnungseinrichtung verbundene Berechnungseinrichtung einer asymptotischen Gleichung, um aus diesen dn(i,j) die folgende asymptotische Gleichung (1) zu berechnen:
gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (1)
wobei p = 0, 1, 2, ..., und min{gn(i-1,j-p)} ein Minimum von gn(i-1,j-p) für verschiedene Werte von p ist, wobei die Berechnungseinrichtung einer asymptotischen Gleichung N Unterschiede gn(I,Jn) für n = 1 bis N erzeugt;
eine mit der Berechnungseinrichtung einer asymptotischen Gleichung und der Rückweisungswertberechnungseinrichtung verbundene Entscheidungseinrichtung zum Auswählen des minimalen Unterschieds der N Unterschiede gn(I,Jn) als gN(I,Jn) und zum Normieren des minimalen Unterschieds gN(I,Jn), um einen nor mierten Wert GN(I,Jn) zu erzeugen, wobei die Entscheidungseinrichtung den normierten Wert GN(I,Jn) mit dem Rückweisungswert r(z) vergleicht, um als ein Erkennungsergebnis ein spezielles Vergleichsmuster zu bestimmen, das den minimalen Unterschied gN(I,Jn) erzeugt, wenn der normierte Wert GN(I,Jn) gleich oder kleiner ist als der Rückweisungswert r(z).
DE69118118T 1990-11-19 1991-11-19 Methode und System zur Spracherkennung ohne Rauschbeeinflussung Expired - Fee Related DE69118118T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2313049A JPH04182700A (ja) 1990-11-19 1990-11-19 音声認識装置

Publications (2)

Publication Number Publication Date
DE69118118D1 DE69118118D1 (de) 1996-04-25
DE69118118T2 true DE69118118T2 (de) 1996-09-19

Family

ID=18036593

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69118118T Expired - Fee Related DE69118118T2 (de) 1990-11-19 1991-11-19 Methode und System zur Spracherkennung ohne Rauschbeeinflussung

Country Status (6)

Country Link
US (1) US5416887A (de)
EP (1) EP0487307B1 (de)
JP (1) JPH04182700A (de)
AU (1) AU642311B2 (de)
CA (1) CA2055749C (de)
DE (1) DE69118118T2 (de)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535293A (ja) * 1991-08-01 1993-02-12 Fujitsu Ltd 音声認識装置における認識候補数設定方式
US5323337A (en) * 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
JPH0832494A (ja) * 1994-07-13 1996-02-02 Mitsubishi Electric Corp ハンズフリー通話装置
JP2738403B2 (ja) * 1995-05-12 1998-04-08 日本電気株式会社 音声認識装置
DE19521258A1 (de) * 1995-06-10 1996-12-12 Philips Patentverwaltung Spracherkennungssystem
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US5825898A (en) * 1996-06-27 1998-10-20 Lamar Signal Processing Ltd. System and method for adaptive interference cancelling
US6178248B1 (en) 1997-04-14 2001-01-23 Andrea Electronics Corporation Dual-processing interference cancelling system and method
US6363345B1 (en) 1999-02-18 2002-03-26 Andrea Electronics Corporation System, method and apparatus for cancelling noise
US6275800B1 (en) * 1999-02-23 2001-08-14 Motorola, Inc. Voice recognition system and method
US6577997B1 (en) 1999-05-28 2003-06-10 Texas Instruments Incorporated System and method of noise-dependent classification
US6519559B1 (en) 1999-07-29 2003-02-11 Intel Corporation Apparatus and method for the enhancement of signals
US6594367B1 (en) 1999-10-25 2003-07-15 Andrea Electronics Corporation Super directional beamforming design and implementation
US20030171900A1 (en) * 2002-03-11 2003-09-11 The Charles Stark Draper Laboratory, Inc. Non-Gaussian detection
EP2107553B1 (de) * 2008-03-31 2011-05-18 Harman Becker Automotive Systems GmbH Verfahren zur Erkennung einer Unterbrechung einer Sprachausgabe
EP2148325B1 (de) * 2008-07-22 2014-10-01 Nuance Communications, Inc. Verfahren zur Bestimmung der Anwesenheit einer gewollten Signalkomponente
WO2013187932A1 (en) 2012-06-10 2013-12-19 Nuance Communications, Inc. Noise dependent signal processing for in-car communication systems with multiple acoustic zones
US9805738B2 (en) 2012-09-04 2017-10-31 Nuance Communications, Inc. Formant dependent speech signal enhancement
WO2014070139A2 (en) 2012-10-30 2014-05-08 Nuance Communications, Inc. Speech enhancement

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6060080B2 (ja) * 1977-12-28 1985-12-27 日本電気株式会社 音声認識装置
CA1116300A (en) * 1977-12-28 1982-01-12 Hiroaki Sakoe Speech recognition system
US4989248A (en) * 1983-01-28 1991-01-29 Texas Instruments Incorporated Speaker-dependent connected speech word recognition method
JPS60179797A (ja) * 1983-10-27 1985-09-13 日本電気株式会社 パタンマツチング装置
US4713777A (en) * 1984-05-27 1987-12-15 Exxon Research And Engineering Company Speech recognition method having noise immunity
JPH0792673B2 (ja) * 1984-10-02 1995-10-09 株式会社東芝 認識用辞書学習方法
US4908865A (en) * 1984-12-27 1990-03-13 Texas Instruments Incorporated Speaker independent speech recognition method and system
GB8517918D0 (en) * 1985-07-16 1985-08-21 British Telecomm Recognition system
JPS62187897A (ja) * 1986-02-14 1987-08-17 日本電気株式会社 連続音声認識装置
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
US4922537A (en) * 1987-06-02 1990-05-01 Frederiksen & Shu Laboratories, Inc. Method and apparatus employing audio frequency offset extraction and floating-point conversion for digitally encoding and decoding high-fidelity audio signals
JPS6440898A (en) * 1987-08-06 1989-02-13 Canon Kk Voice recognition equipment
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US5212764A (en) * 1989-04-19 1993-05-18 Ricoh Company, Ltd. Noise eliminating apparatus and speech recognition apparatus using the same
US5073939A (en) * 1989-06-08 1991-12-17 Itt Corporation Dynamic time warping (DTW) apparatus for use in speech recognition systems
US5025471A (en) * 1989-08-04 1991-06-18 Scott Instruments Corporation Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
CA2042926C (en) * 1990-05-22 1997-02-25 Ryuhei Fujiwara Speech recognition method with noise reduction and a system therefor

Also Published As

Publication number Publication date
AU642311B2 (en) 1993-10-14
US5416887A (en) 1995-05-16
CA2055749C (en) 1996-04-02
EP0487307A3 (en) 1992-08-12
DE69118118D1 (de) 1996-04-25
EP0487307A2 (de) 1992-05-27
AU8800291A (en) 1992-05-21
CA2055749A1 (en) 1992-05-20
EP0487307B1 (de) 1996-03-20
JPH04182700A (ja) 1992-06-30

Similar Documents

Publication Publication Date Title
DE69118118T2 (de) Methode und System zur Spracherkennung ohne Rauschbeeinflussung
DE69030561T2 (de) Spracherkennungseinrichtung
DE69031284T2 (de) Verfahren und Einrichtung zur Spracherkennung
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE68929442T2 (de) Vorrichtung zur Erfassung von Sprachlauten
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69705830T2 (de) Sprachverarbeitung
DE68924134T2 (de) Spracherkennungssystem.
DE60004331T2 (de) Sprecher-erkennung
DE69229124T2 (de) Mehrteiliger expertsystem
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69329354T2 (de) Verfahren und Gerät zur Mustererkennung
DE4031421C2 (de) Musteranpassungssystem für eine Spracherkennungseinrichtung
DE4031638C2 (de)
DE3733391C2 (de)
DE69128582T2 (de) Methode zur Phonemunterscheidung
DE69516455T2 (de) Verfahren zur Sprachkodierung mittels linearer Prädiktion
DE69132148T2 (de) Vorrichtung zur Verarbeitung eines Signals
DE68914032T2 (de) Spracherkennungssystem.
DE69030548T2 (de) Verfahren und Einrichtung zur Spracherkennung
DE69026474T2 (de) System zur Spracherkennung
DE69230090T2 (de) System zur Bestimmung einer Anzahl von Kandidaten zur Erkennung in einer Spracherkennungseinrichtung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee