DE69118118T2 - Methode und System zur Spracherkennung ohne Rauschbeeinflussung - Google Patents
Methode und System zur Spracherkennung ohne RauschbeeinflussungInfo
- Publication number
- DE69118118T2 DE69118118T2 DE69118118T DE69118118T DE69118118T2 DE 69118118 T2 DE69118118 T2 DE 69118118T2 DE 69118118 T DE69118118 T DE 69118118T DE 69118118 T DE69118118 T DE 69118118T DE 69118118 T2 DE69118118 T2 DE 69118118T2
- Authority
- DE
- Germany
- Prior art keywords
- input
- pattern
- comparison
- signal
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 9
- 239000013598 vector Substances 0.000 claims description 37
- 238000012544 monitoring process Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000012806 monitoring device Methods 0.000 claims 1
- 230000004044 response Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Noise Elimination (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die vorliegende Erfindung betrifft Spracherkennung zum Erkennen einer Sprache, die als eines der gespeicherten Vergleichsmuster gesprochen wird, und insbesondere eine Spracherkennungsmethode und ein System, bei dem die Beeinflussung durch Rauschen, das mit der gesprochenen Sprache verbunden ist, verringert wird.
- Bei einem bekannten Spracherkennungssystem wird eine gesprochene Sprache durch einen elektromechanischen Wandler, wie etwa ein Mikrophon, in ein Eingangssprachsignal umgewandelt. Das Eingangssprachsignal wird von einem Musteranalysator analysiert und in ein digitales Eingangsmustersignal umgewandelt. Das Eingangsmustersignal wird als ein gespeichertes Muster in einem Eingangsspeicher gespeichert. Das gespeicherte Muster wird mit jedem der in einem Vergleichsspeicher gespeicherten Vergleichsmuster verglichen und zwischen ihnen wird ein Unter schied erzeugt. Wenn ein spezielles Vergleichsmuster den minimalen Unterschied liefert, wird die gesprochene Sprache als das spezielle Vergleichsmuster erkannt. Andererseits wird, wenn ein bestimmtes Vergleichsmuster einen bestimmten Unterschied liefert, der kleiner als ein bestimmter Schwellenwert ist, die gesprochene Sprache als das bestimmte Vergleichsmuster erkannt.
- Bei einem tatsächlichen Erkennungsvorgang ist das Eingangssprachsignal aufgrund des Vorhandenseins eines Hintergrundgeräusches mit Rauschen verbunden. Das Eingangssprachsignal und das Rauschen werden zusammen als ein akustisches Eingangssignal bezeichnet. Demgemäß umfaßt das Eingangsmustersignal eine Rauschkomponente. Dies führt zu einem Fehler bei der Spracherkennung.
- Das Dokument US-A-4 239 936 beschreibt ein Spracherkennungssystem, bei dem Umgebungsrauschen durch ein getrenntes Mikrophon gemessen wird, und eine auf die Intensität des gemessenen Rauschens ansprechende Rückweisungseinheit.
- Es ist eine Aufgabe der vorliegenden Erfindung, eine Methode und ein System zum Erkennen einer Sprache bereitzustellen, ohne daß sie durch Rauschen, das in dem Eingangssprachsignal enthalten ist, beeinflußt wird.
- Die vorliegende Erfindung wird auf eine Methode zum Erkennen einer Sprache gerichtet, die als eines mehrerer Vergleichsmuster B1 bis BN gesprochen wird, wobei jedes der Vergleichsmuster aus einer Zeitfolge charakteristischer Vergleichsvektoren Bn = b1n, ..., bjn, ..., bJn besteht. Die Methode weist auf: (a) Erzeugen eines akustischen Eingangssignals, das aus einem für die gesprochene Sprache repräsentativen Eingangssprachsignal und einem mit dem Eingangssprachsignal verbundenen Rauschen besteht, (b) Analysieren des akustischen Eingangssignals, um ein für ein Muster des akustischen Eingangssignals repräsentatives Eingangsmuster zu erzeugen, (c) Überwachen des Eingangsmusters, um einen Anfang und ein Ende der Eingangssprache nachzuweisen und um aus einem Abschnitt des Eingangsmusters einen Rauschpegel z zu erzeugen, bevor der Anfang nach gewiesen wird, (d) Berechnen eines von dem Rauschpegel z abhängigen Rückweisungswertes r(z); (e) Ableiten eines anderen Abschnitts des Eingangsmusters als ein Eingangssprachmuster, nachdem der Anfang nachgewiesen ist, wobei das Eingangssprachmuster A aus einer Zeitfolge charakteristischer Eingangsvek toren A = a1, ..., ai, ..., aI besteht; (f) Berechnen von Vektorabständen dn(i,j) zwischen einem der charakteristischen Eingangsvektoren ai und jedem der charakteristischen Vergleichsvektoren bjn für i = 1 bis I und j = 1 bis J; (g) Berechnen der folgenden asymptotischen Gleichung (1):
- gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (1)
- aus diesen dn(i,j), wobei p = 0, 1, 2, ..., und min{gn(i-1,j- p)} ein Minirnum von gn(i-1,j-p) für verschiedene Werte von p ist; (h) Wiederholen der Schritte (f) und (g) für n 1 bis N, um Unterschiede von gn{I,Jn) für die Vergleichsmuster B1 bis BN zu erzeugen; (i) Auswählen des minimalen Unterschieds dieser Unterschiede gn(I,jn) als gN(I,Jn); (j) Normieren des minimalen Unterschieds gN(I,Jn) mit I, um einen normierten Wert GN(I,Jn) zu erzeugen; und (k) Vergleichen des normierten Wertes GN(I,Jn) mit dem Rückweisungswert r(z), um die Eingangssprache als ein spezielles Vergleichsmuster BN der Vergleichsmuster zu erkennen, das den minimalen Unterschied gN(I,Jn) erzeugt, wenn der normierte Wert GN(I,Jn) gleich oder kleiner ist als der Rück weisungswert r(z).
- Gemäß der vorliegenden Erfindung wird ein System zum Erkennen einer gesprochenen Sprache erhalten, das aufweist: eine Vergleichsspeichereinrichtung zum Speichern mehrerer Vergleichsmuster B1 bis BN, wobei jedes der Vergleichsmuster aus einer Zeitfolge charakteristischer Vergleichsvektoren Bn = b1n, bjn, ..., bJn besteht; eine Einrichtung zum Erzeugen eines akustischen Eingangssignals, das aus einem für die gesprochene Sprache repräsentativen Eingangssprachsignal und einem mit dem Eingangssprachsignal verbundenen Rauschen besteht; eine mit der Erzeugungseinrichtung verbundene Einrichtung zum Analysieren des akustischen Eingangssignals, um ein für ein Muster des akustischen Eingangssignals repräsentatives Eingangsmuster zu erzeugen; eine mit der Erzeugungseinrichtung verbundene Überwachungseinrichtung zum Überwachen des Eingangsmusters, um einen Anfang und ein Ende der Eingangssprache nachzuweisen und um aus einem Abschnitt des Eingangsmusters einen Rauschpegel z zu erzeugen, bevor der Anfang nachgewiesen ist; eine mit der Überwachungseinrichtung verbundene und auf den Rauschpegel z ansprechende Einrichtung zum Berechnen eines Rückweisungswertes r(z), der von dem Rauschpegel z abhängt; eine mit der Analysiereinrichtung verbundene Eingangsspeichereinrichtung zum Speichern eines anderen Abschnitts des Eingangsmusters als ein Eingangssprachmuster, nachdem der Anfang nachgewiesen ist, wobei das Eingangssprachmuster A aus einer Zeitfolge charakteristischer Eingangsvektoren A a1, ..., ai, ... aI besteht; eine mit der Vergleichsspeichereinrichtung und der Eingangsspeichereinrichtung verbundene Abstandsberechnungseinrichtung zum Berechnen von Vektorabständen dn(i,j) zwischen einem der charakteristischen Eingangsvektoren ai und jedem der charakteristischen Vergleichsvektoren bjn für i = 1 bis I, j 1 bis J und n = 1 bis N; eine mit der Abstandsberechnungseinrichtung verbundene Berechnungseinrichtung einer asymptotischen Gleichung, um aus diesen dn(i,j) die folgende asymptotische Gleichung (1) zu berechnen:
- gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (1)
- wobei p = 0, 1, 2, ..., und min{gn(i-1,j-p)} ein Minimum von gn(i-1,j-p) für verschiedene Werte von p ist, wobei die Be rechnungseinrichtung einer asymptotischen Gleichung N Unterschiede gn(I,Jn) für n = 1 bis N erzeugt; eine mit der Berechnungseinrichtung einer asymptotischen Gleichung und der Rück weisungswertberechnungseinrichtung verbundene Entscheidungseinrichtung zum Auswählen des minimalen Unterschieds der N Unterschiede gn(I,Jn) als gN(I,Jn) und zum Normieren des minimalen Unterschieds gN(I,Jn), um einen normierten Wert GN(I,Jn) zu erzeugen, wobei die Entscheidungseinrichtung den normierten Wert GN(I,Jn) mit dem Rückweisungswert r(z) vergleicht, um ein spezielles Vergleichsmuster als ein Erkennungsergebnis zu bestimmen, das den minimalen Unterschied gN(I,Jn) erzeugt, wenn der normierte Wert GN(I,Jn) gleich oder kleiner ist als der Rückweisungswert r(z).
- Fig. 1 ist eine Blockdiagrammansicht eines Spracherkennungssystems gemäß einer Ausführungsform der vorliegenden Erfindung; und
- Fig. 2 ist eine graphische Darstellung, die eine Beziehung zwischen einem Rückweisungswert und einem Rauschpegel veranschaulicht.
- Gemäß Fig. 1 weist das gezeigte System gemäß einer Ausführungsform ein Mikrophon 20 zum Umwandeln eines Tons in ein elektrisches Signal als ein akustisches Eingangssignal und einen Musteranalysator 21 zum Zuordnen des akustischen Eingangssignals zu einem Eingangsmuster auf. Das akustische Eingangssignal besteht aus einem für eine Eingangssprache repräsentativen Eingangssprachsignal und einem Rauschen. Der Musteranalysator 21 ist zum Beispiel ein aus dem Stand der Technik gut bekannter Frequenzanalysator, der eine Mehrkanalbandpaßfiltergruppe zum Trennen des akustischen Eingangssignals in verschiedene Frequenzkomponentensignale aufweist. Die Frequenzkomponentensignale werden im Multiplexbetrieb übertragen, um ein für einen charakteristischen Vektor repräsentatives Signal zu bilden. Demgemäß erzeugt der Musteranalysator 21 eine Zeitfolge charakteristischer Vektorsignale.
- Die charakteristischen Vektoren werden einem Rauschpegeldetektor 22, einem Sprachdetektor 23 und einem Eingangsspeicher 24 zugeführt.
- Der Rauschpegeldetektor 22 empfängt die charakteristischen Vektoren und speichert sie in einem Pufferspeicher. Der Rauschpegeldetektor 22 überwacht den Eingangspegel der Zeitfolge charakteristischer Vektoren und vergleicht den Eingangspegel mit einem Schwellenpegel. Wenn der Rauschpegeldetektor 22 nachweist, daß der Eingangspegel den Schwellenpegel übersteigt, berechnet er ein Mittel der Daten des Eingangspegels, die in dem Pufferspeicher gespeichert werden, bevor der Eingangspegel den Schwellenpegel übersteigt. Das Mittel wird dem Sprachdetektor 23 und einer Rückweisungswertberechnungseinrichtung 25 als ein Rauschpegel z übergeben.
- Der Sprachdetektor 23 empfängt den Rauschpegel z und vergleicht den Eingangspegel der Zeitfolge charakteristischer Vektoren mit dem Rauschpegel z, um ein Sprachstartsignal als ein Signal SP zu erzeugen&sub1; wenn der Eingangspegel gleich dem Rauschpegel wird oder ihn übersteigt. Danach erzeugt der Sprachdetektor 23 ebenfalls ein Sprachendsignal als das Signal SP, wenn der Eingangspegel kleiner als der Rauschpegel z wird.
- Das Signal SP wird einer Steuereinrichtung 26 übergeben. Wenn die Steuereinrichtung 26 das Sprachstartsignal als das Signal SP empfängt, übergibt die Steuereinrichtung 26 dem Eingangsspeicher 24 ein Annahmesignal il. Der Eingangsspeicher 24 speichert als Antwort auf eine Zeitfolge von Annahmesignalen il die Zeitfolge charakteristischer Eingangsvektoren a1, a2, ..., ai, ... und aI in dieser Reihenfolge.
- Als Antwort auf das Sprachstartsignal als das Signal SP erzeugt die Steuereinrichtung 26 außerdem ein Steuersignal c11 für die Rückweisungswertberechnungseinrichtung 25.
- Dann berechnet die Rückweisungswertberechnungseinrichtung 25 unter Verwendung des Rauschpegels z einen Rückweisungswert r(z), kurz bevor das Steuersignal c11 empfangen wird, das heißt, bevor der Sprachanf ang nachgewiesen wird. Der Rückweisungswert r(z) ist durch die folgenden Formeln gegeben:
- wobei rmin und rmax der minimale Wert bzw. der maximale Wert des Rückweisungswertes r ist, zunten und zoben eine untere Grenze und eine obere Grenze des Rauschpegels z sind, α = (rmax - rmin)/(zoben - zunten) und β = (rminzoben - rmaxzunten)/(zoben - zunten). Fig. 2 veranschaulicht eine Beziehung zwischen dem Rauschpegel z und dem Rückweisungswert r(z).
- Das System besitzt einen Vergleichsspeicher 27, der mehrere (N) Vergleichsmuster B1, B2, ..., Bn, ..., BN speichert. Jedes der Vergleichsmuster besteht aus einer Folge charakteristischer Vektoren, das heißt aus Bn = b1n, b2n, ..., bjn, ..., bJN.
- Die Steuereinrichtung 26 erzeugt ein Vergleichsmusterauswahlsignal n1 für den Vergleichsmusterspeicher 27, um eines der Vergleichsmuster auszuwählen. Somit wird ein spezielles Bn der Vergleichsmuster ausgewählt.
- Die Steuereinrichtung 26 erzeugt außerdem ein Lesesignal j1 für den Vergleichsspeicher 27. Somit wird bjn der Vergleichsvektoren des speziellen Vergleichsmusters Bn aus dem Vergleichsspeicher 27 gelesen und an eine Vektorabstandsberechnungseinrichtung 28 übergeben. Ferner wird ai der charakteristischen Eingangsvektoren ausgelesen und als Antwort auf das Signal i1 an die Vektorabstandsberechnungseinrichtung 28 übergeben. Der Eingangsspeicher 24 und der Vergleichsspeicher 27 führen gemäß einem Signal ml von der Steuereinrichtung 26 jeweils M charakteristische Vektoren der Vektorabstandsberechnungseinrichtung 28 zu.
- Die Vektorabstandsberechnungseinrichtung 28 berechnet unter der Steuerung eines Steuersignals c12 einen Abstand dn(i,j) zwischen dem Eingangsvektor ai und dem Vergleichsvektor bjn. Der Abstand dn(i,j) wird an eine Berechnungseinrichtung einer asymptotischen Gleichung 29 übergeben.
- Die Berechnungseinrichtung einer asymptotischen Gleichung 29 berechnet die folgende asymptotische Gleichung (2):
- gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (2)
- wobei p = 0, 1, 2, ... und der zweite Term min{gn(i-1,j-p)} ein minimaler Wert von gn(i-1,j-p) bei verschiedenen Werten von p ist.
- Der Anfangswert von gn(i,j) ist durch gn(0,0) = 0 gegeben. Somit berechnet die Berechnungseinrichtung einer asymptotischen Gleichung 29 Unterschiede gn(i,j) für i = 1, 2, ..., I, j 1, 2, ..., Jn und n= 1, 2, ..., N, um N Unterschiede gn(I,Jn) zwischen dem Eingangssprachsignal und N Vergleichsmustern Bn zu erzeugen. Die Ziffern (n, i, j) werden durch ein Signal c13 von der Steuereinrichtung 26 angezeigt.
- Die Berechnungseinrichtung einer asymptotischen Gleichung 29 ist mit einer Entscheidungsschaltung zum Bestimmen von min{gn(i-1,j-p)}, einem Pufferspeicher zum Speichern von min{gn(i-1,j-p)} und gn(i,j) und einem Speicher zum Speichern von N Unterschieden gn(I,Jn) zwischen dem Eingangssprachsignal und den N Vergleichsmustern Bn versehen.
- Wenn die Steuereinrichtung 26 von dem Sprachdetektor 23 das Sprachendsignal als das Signal SP empfängt, erzeugt die Steuereinrichtung 26 ein Steuersignal i2 für eine Entscheidungsschaltung 30.
- Als Antwort auf das Steuersignal i1 nimmt die Entscheidungsschaltung 30 die N Unterschiede gn(I,Jn) aus der Berechnungseinrichtung einer asymptotischen Gleichung 29 und bestimmt den minimalen Unterschied (gN(I,Jn)) der gn(I,Jn). Dann normiert die Entscheidungsschaltung 30 gN(I,Jn) mit I als GN(I,Jn).
- Auf das Steuersignal i2 ansprechend nimmt die Entscheidungsschaltung 30 ebenfalls den Rückweisungswert r(z) aus der Rückweisungswertberechnungseinrichtung 25 und vergleicht den normierten minimalen Unterschied GN(I,Jn) mit dem Rückweisungswert r(z). Wenn das GN(I,Jn) gleich oder kleiner ist als der Rückweisungswert r(z), erkennt die Entscheidungsschaltung 30, daß die Eingangssprache mit einem speziellen BN der Vergleichsmuster übereinstimmt, das den minimalen Unterschied gN(I,Jn) der Unterschiede gn(I,Jn) ergibt, um das spezielle Vergleichsmuster BN als ein Entscheidungsergebnis zu erzeugen.
- Wenn das GN(I,Jn) größer als der Rückweisungswert r(z) ist, erkennt die Entscheidungsschaltung 30, daß kein Vergleichsmuster mit dem Eingangssprachmuster übereinstimmt.
- Die Mustervergleichsmethode ist aus dem Stand der Technik als DP-vergleichsmethode (dynamische Prograirmierung-) bekannt, bei der unter Verwendung der asymptotischen Gleichung (2) berechnete Unterschiede mit dem Rückweisungswert verglichen werden. Gemäß der vorliegenden Erfindung wird der Rückweisungswert r abhängig von dem Rauschpegel bestimmt und deshalb wird der Mustervergleich ohne Rauschbeeinflussung durchgeführt.
Claims (2)
1. Methode zum Erkennen einer Sprache, die als eines mehrerer
Vergleichsmuster B1 bis BN gesprochen wird, wobei jedes der
Vergleichsmuster aus einer Zeitfolge charakteristischer
Vergleichsvektoren Bn = b1n, .., bjn, ..., bJn besteht, die
aufweist:
(a) Erzeugen eines akustischen Eingangssignals, das aus
einem für die gesprochene Sprache repräsentativen
Eingangssprachsignal und einem mit dem Eingangssprachsignal verbundenen
Rauschen besteht;
(b) Analysieren des akustischen Eingangssignals, um ein
für ein Muster des akustischen Eingangssignals repräsentatives
Eingangsmuster zu erzeugen;
(c) Überwachen des Eingangsmusters, um einen Anfang und
ein Ende der Eingangssprache nachzuweisen und um aus einem
Abschnitt des Eingangsmusters einen Rauschpegel z zu erzeugen,
bevor der Anfang nachgewiesen wird;
(d) Berechnen eines von dem Rauschpegel z abhängigen
Rückweisungswertes r(z);
(e) Ableiten eines anderen Abschnitts des Eingangsmusters
als ein Eingangssprachmuster, nachdem der Anfang nachgewiesen
ist, wobei das Eingangssprachmuster A aus einer Zeitfolge
charakteristischer Eingangsvektoren A = a1, ..., ai, ..., aI
besteht;
(f) Berechnen von Vektorabständen dn(i,j) zwischen einem
der charakteristischen Eingangsvektoren ai und jedem der
charakteristischen Vergleichsvektoren bjn für i = 1 bis I und j =
1 bis J;
(g) Berechnen der folgenden asymptotischen Gleichung (1):
gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (1)
aus diesen dn(i,j), wobei p = 0, 1, 2, ..., und min{gn(i-1,j-
p)} ein Minimum von gn(i-1l,j-p) für verschiedene Werte von p
ist;
(h) Wiederholen der Schritte (f) und (g) für n = 1 bis N,
um Unterschiede von gn(I,Jn) für die Vergleichsmuster B1 bis BN
zu erzeugen;
(i) Auswählen des minimalen Unterschieds dieser
Unterschiede gn(I,jn) als gN(I,Jn);
(j) Normieren des minimalen Unterschieds gN(I,jn) mit I,
um einen normierten Wert GN(I,Jn) zu erzeugen; und
(k) Vergleichen des normierten Wertes GN(I,Jn) mit dem
Rückweisungswert r(z), um die Eingangssprache als ein
spezielles Vergleichsmuster BN der Vergleichsmuster zu erkennen, das
den minimalen Unterschied gN(I,Jn) erzeugt, wenn der normierte
Wert GN(I,Jn) gleich oder kleiner ist als der Rückweisungswert
r(z).
2. System zum Erkennen einer gesprochenen Sprache, das
aufweist:
eine Vergleichsspeichereinrichtung zum Speichern mehrerer
Vergleichsmuster B1 bis BN, wobei jedes der Vergleichsmuster
aus einer Zeitfolge charakteristischer Vergleichsvektoren Bn =
b1n, ..., bjn, ..., bJn besteht;
eine Einrichtung zum Erzeugen eines akustischen
Eingangssignals, das aus einem für die gesprochene Sprache
repräsentativen Eingangssprachsignal und einem mit dem
Eingangssprachsignal verbundenen Rauschen besteht;
eine mit der Erzeugungseinrichtung verbundene Einrichtung
zum Analysieren des akustischen Eingangssignals, um ein für ein
Muster des akustischen Eingangssignals repräsentatives
Eingangsmuster zu erzeugen;
eine mit der Erzeugungseinrichtung verbundene
Überwachungseinrichtung zum Überwachen des Eingangsmusters, um
einen Anfang und ein Ende der Eingangssprache nachzuweisen und
um aus einem Abschnitt des Eingangsmusters einen Rauschpegel z
zu erzeugen, bevor der Anfang nachgewiesen ist;
eine mit der Überwachungseinrichtung verbundene und auf
den Rauschpegel z ansprechende Einrichtung zum Berechnen eines
Rückweisungswertes r(z), der von dem Rauschpegel z abhängt;
eine mit der Analysiereinrichtung verbundene
Eingangsspeichereinrichtung zum Speichern eines anderen Abschnitts des
Eingangsmusters als ein Eingangssprachmuster, nachdem der
Anfang nachgewiesen ist, wobei das Eingangssprachmuster A aus
einer Zeitfolge charakteristischer Eingangsvektoren A = a1,
..., ai, ... aI besteht;
eine mit der Vergleichsspeichereinrichtung und der
Eingangsspeichereinrichtung verbundene
Abstandsberechnungseinrichtung zum Berechnen von Vektorabständen dn(i,j) zwischen einem
der charakteristischen Eingangsvektoren ai und jedem der
charakteristischen Vergleichsvektoren bjn für i = 1 bis I, j = 1
bis J und n = 1 bis N;
eine mit der Abstandsberechnungseinrichtung verbundene
Berechnungseinrichtung einer asymptotischen Gleichung, um aus
diesen dn(i,j) die folgende asymptotische Gleichung (1) zu
berechnen:
gn(i,j) = dn(i,j) - min{gn(i-1,j-p)} (1)
wobei p = 0, 1, 2, ..., und min{gn(i-1,j-p)} ein Minimum von
gn(i-1,j-p) für verschiedene Werte von p ist, wobei die
Berechnungseinrichtung einer asymptotischen Gleichung N
Unterschiede gn(I,Jn) für n = 1 bis N erzeugt;
eine mit der Berechnungseinrichtung einer asymptotischen
Gleichung und der Rückweisungswertberechnungseinrichtung
verbundene Entscheidungseinrichtung zum Auswählen des minimalen
Unterschieds der N Unterschiede gn(I,Jn) als gN(I,Jn) und zum
Normieren des minimalen Unterschieds gN(I,Jn), um einen nor
mierten Wert GN(I,Jn) zu erzeugen, wobei die
Entscheidungseinrichtung den normierten Wert GN(I,Jn) mit dem
Rückweisungswert r(z) vergleicht, um als ein Erkennungsergebnis ein
spezielles Vergleichsmuster zu bestimmen, das den minimalen
Unterschied gN(I,Jn) erzeugt, wenn der normierte Wert GN(I,Jn)
gleich oder kleiner ist als der Rückweisungswert r(z).
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2313049A JPH04182700A (ja) | 1990-11-19 | 1990-11-19 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69118118D1 DE69118118D1 (de) | 1996-04-25 |
DE69118118T2 true DE69118118T2 (de) | 1996-09-19 |
Family
ID=18036593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69118118T Expired - Fee Related DE69118118T2 (de) | 1990-11-19 | 1991-11-19 | Methode und System zur Spracherkennung ohne Rauschbeeinflussung |
Country Status (6)
Country | Link |
---|---|
US (1) | US5416887A (de) |
EP (1) | EP0487307B1 (de) |
JP (1) | JPH04182700A (de) |
AU (1) | AU642311B2 (de) |
CA (1) | CA2055749C (de) |
DE (1) | DE69118118T2 (de) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0535293A (ja) * | 1991-08-01 | 1993-02-12 | Fujitsu Ltd | 音声認識装置における認識候補数設定方式 |
US5323337A (en) * | 1992-08-04 | 1994-06-21 | Loral Aerospace Corp. | Signal detector employing mean energy and variance of energy content comparison for noise detection |
JPH0832494A (ja) * | 1994-07-13 | 1996-02-02 | Mitsubishi Electric Corp | ハンズフリー通話装置 |
JP2738403B2 (ja) * | 1995-05-12 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
DE19521258A1 (de) * | 1995-06-10 | 1996-12-12 | Philips Patentverwaltung | Spracherkennungssystem |
US5765130A (en) * | 1996-05-21 | 1998-06-09 | Applied Language Technologies, Inc. | Method and apparatus for facilitating speech barge-in in connection with voice recognition systems |
US5825898A (en) * | 1996-06-27 | 1998-10-20 | Lamar Signal Processing Ltd. | System and method for adaptive interference cancelling |
US6178248B1 (en) | 1997-04-14 | 2001-01-23 | Andrea Electronics Corporation | Dual-processing interference cancelling system and method |
US6363345B1 (en) | 1999-02-18 | 2002-03-26 | Andrea Electronics Corporation | System, method and apparatus for cancelling noise |
US6275800B1 (en) * | 1999-02-23 | 2001-08-14 | Motorola, Inc. | Voice recognition system and method |
US6577997B1 (en) | 1999-05-28 | 2003-06-10 | Texas Instruments Incorporated | System and method of noise-dependent classification |
US6519559B1 (en) | 1999-07-29 | 2003-02-11 | Intel Corporation | Apparatus and method for the enhancement of signals |
US6594367B1 (en) | 1999-10-25 | 2003-07-15 | Andrea Electronics Corporation | Super directional beamforming design and implementation |
US20030171900A1 (en) * | 2002-03-11 | 2003-09-11 | The Charles Stark Draper Laboratory, Inc. | Non-Gaussian detection |
EP2107553B1 (de) * | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Verfahren zur Erkennung einer Unterbrechung einer Sprachausgabe |
EP2148325B1 (de) * | 2008-07-22 | 2014-10-01 | Nuance Communications, Inc. | Verfahren zur Bestimmung der Anwesenheit einer gewollten Signalkomponente |
WO2013187932A1 (en) | 2012-06-10 | 2013-12-19 | Nuance Communications, Inc. | Noise dependent signal processing for in-car communication systems with multiple acoustic zones |
US9805738B2 (en) | 2012-09-04 | 2017-10-31 | Nuance Communications, Inc. | Formant dependent speech signal enhancement |
WO2014070139A2 (en) | 2012-10-30 | 2014-05-08 | Nuance Communications, Inc. | Speech enhancement |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6060080B2 (ja) * | 1977-12-28 | 1985-12-27 | 日本電気株式会社 | 音声認識装置 |
CA1116300A (en) * | 1977-12-28 | 1982-01-12 | Hiroaki Sakoe | Speech recognition system |
US4989248A (en) * | 1983-01-28 | 1991-01-29 | Texas Instruments Incorporated | Speaker-dependent connected speech word recognition method |
JPS60179797A (ja) * | 1983-10-27 | 1985-09-13 | 日本電気株式会社 | パタンマツチング装置 |
US4713777A (en) * | 1984-05-27 | 1987-12-15 | Exxon Research And Engineering Company | Speech recognition method having noise immunity |
JPH0792673B2 (ja) * | 1984-10-02 | 1995-10-09 | 株式会社東芝 | 認識用辞書学習方法 |
US4908865A (en) * | 1984-12-27 | 1990-03-13 | Texas Instruments Incorporated | Speaker independent speech recognition method and system |
GB8517918D0 (en) * | 1985-07-16 | 1985-08-21 | British Telecomm | Recognition system |
JPS62187897A (ja) * | 1986-02-14 | 1987-08-17 | 日本電気株式会社 | 連続音声認識装置 |
JPH06105394B2 (ja) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | 音声認識方式 |
US4922537A (en) * | 1987-06-02 | 1990-05-01 | Frederiksen & Shu Laboratories, Inc. | Method and apparatus employing audio frequency offset extraction and floating-point conversion for digitally encoding and decoding high-fidelity audio signals |
JPS6440898A (en) * | 1987-08-06 | 1989-02-13 | Canon Kk | Voice recognition equipment |
IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
US5212764A (en) * | 1989-04-19 | 1993-05-18 | Ricoh Company, Ltd. | Noise eliminating apparatus and speech recognition apparatus using the same |
US5073939A (en) * | 1989-06-08 | 1991-12-17 | Itt Corporation | Dynamic time warping (DTW) apparatus for use in speech recognition systems |
US5025471A (en) * | 1989-08-04 | 1991-06-18 | Scott Instruments Corporation | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns |
US5148489A (en) * | 1990-02-28 | 1992-09-15 | Sri International | Method for spectral estimation to improve noise robustness for speech recognition |
CA2042926C (en) * | 1990-05-22 | 1997-02-25 | Ryuhei Fujiwara | Speech recognition method with noise reduction and a system therefor |
-
1990
- 1990-11-19 JP JP2313049A patent/JPH04182700A/ja active Pending
-
1991
- 1991-11-18 CA CA002055749A patent/CA2055749C/en not_active Expired - Fee Related
- 1991-11-19 DE DE69118118T patent/DE69118118T2/de not_active Expired - Fee Related
- 1991-11-19 AU AU88002/91A patent/AU642311B2/en not_active Ceased
- 1991-11-19 EP EP91310659A patent/EP0487307B1/de not_active Expired - Lifetime
-
1994
- 1994-02-24 US US08/201,093 patent/US5416887A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
AU642311B2 (en) | 1993-10-14 |
US5416887A (en) | 1995-05-16 |
CA2055749C (en) | 1996-04-02 |
EP0487307A3 (en) | 1992-08-12 |
DE69118118D1 (de) | 1996-04-25 |
EP0487307A2 (de) | 1992-05-27 |
AU8800291A (en) | 1992-05-21 |
CA2055749A1 (en) | 1992-05-20 |
EP0487307B1 (de) | 1996-03-20 |
JPH04182700A (ja) | 1992-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69118118T2 (de) | Methode und System zur Spracherkennung ohne Rauschbeeinflussung | |
DE69030561T2 (de) | Spracherkennungseinrichtung | |
DE69031284T2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE68929442T2 (de) | Vorrichtung zur Erfassung von Sprachlauten | |
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE68924134T2 (de) | Spracherkennungssystem. | |
DE60004331T2 (de) | Sprecher-erkennung | |
DE69229124T2 (de) | Mehrteiliger expertsystem | |
DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche | |
DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
DE3043516C2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69329354T2 (de) | Verfahren und Gerät zur Mustererkennung | |
DE4031421C2 (de) | Musteranpassungssystem für eine Spracherkennungseinrichtung | |
DE4031638C2 (de) | ||
DE3733391C2 (de) | ||
DE69128582T2 (de) | Methode zur Phonemunterscheidung | |
DE69516455T2 (de) | Verfahren zur Sprachkodierung mittels linearer Prädiktion | |
DE69132148T2 (de) | Vorrichtung zur Verarbeitung eines Signals | |
DE68914032T2 (de) | Spracherkennungssystem. | |
DE69030548T2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
DE69026474T2 (de) | System zur Spracherkennung | |
DE69230090T2 (de) | System zur Bestimmung einer Anzahl von Kandidaten zur Erkennung in einer Spracherkennungseinrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |