-
Die
Erfindung betrifft einen Sprachsignalcodierer, der über eine
verbesserte Vorrichtung zur Erkennung sprachlicher Aktivität und insbesondere über einen
Codierer gemäß der Norm
ITU-T G.729A, Anhang B, verfügt.
-
Ein
Sprachsignal umfasst bis zu 60% Stille oder Hintergrundgeräusch. Um
die Menge der zu übertragenden
Informationen zu reduzieren, werden bekanntermaßen die Anteile des Sprachsignals,
die tatsächlich
Nutzsignale enthalten, und die Anteile, die lediglich Stille oder
Rauschen enthalten, voneinander getrennt und jeweils nach zwei verschiedenen Algorithmen
codiert, wobei jeder Anteil, der lediglich Stille oder Rauschen
enthält,
mit sehr wenigen Informationen, die den Merkmalen des Raumgeräuschs entsprechen,
codiert wird. Ein derartiger Codierer umfasst eine Vorrichtung zur
Spracherkennung, die diese Trennung nach den Spektrallinien und
nach der Energie des zu codierenden Sprachsignals (für jeden Signalrahmen
berechnet) vornimmt.
-
Das
Sprachsignal wird in digitale Rahmen unterteilt, die jeweils einer
Dauer von beispielsweise 10 ms entsprechen. Für jeden Rahmen wird aus dem Signal
ein Satz von Parametern abgeleitet. Die wichtigsten Parameter sind
die Autokorrelationskoeffizienten. Anschließend werden aus diesen Autokorrelationskoeffizienten
aufgrund einer linearen Prädiktion eine
Gruppe von Codierungskoeffizienten sowie ein Satz frequentieller
Parameter abgeleitet. Eine Etappe des Verfahrens zur Trennung der
Anteile des Sprachsignals, die tatsächlich Nutzsignale enthalten, und
der Anteile, die lediglich Stille oder Rauschen enthalten, besteht
darin, die Energie eines Signalrahmens mit einer Schwelle zu vergleichen.
Eine Vorrichtung zur Berechnung des Schwellenwertes passt den Schwellenwert
in Abhängigkeit
von den Veränderungen
des Geräuschs
an. Das Geräusch,
das das Sprachsignal stört,
besteht aus einem Rauschen elektrischen Ursprungs und aus Umgebungslärm. Letzterer
kann im Laufe einer Nachrichtenübertragung
beträchtlich
zu- oder abnehmen.
Andererseits müssen
die Koeffizienten der frequentiellen Filterung des Geräuschs ihrererseits
auch an die Veränderungen
des Geräuschs
angepasst werden.
-
In
dem Artikel "ITU-T
Recommendation G729 Annex B: A Silence Compression Scheme for Use
With G729 Optimized for V.70 Digital Simultaneous Voice and Data
Applications" von
Adil Benyassine et al, IEEE Communication Magazine, September 1997
ist ein derartiger Codierer beschrieben.
-
Der
Decodierer, der das codierte Sprachsignal decodieren soll, muss
abwechselnd zwei Decodierungsalgorithmen benutzen, die jeweils den
als Sprache codierten Signalanteilen und den als Stille oder Hintergrundgeräusch codierten
Signalanteilen entsprechen. Der Übergang
von einem Algorithmus zum anderen wird durch die Informationen,
mit denen die Stille- oder Geräuschperioden
codiert werden, synchronisiert.
-
Die
bekannten Codierer, denen die Norm ITU-T G.729A, Anhang B, 11/96
zugrunde liegt, sind nicht mehr in der Lage, die Trennung zwischen
dem Nutzsignal und dem Geräusch
vorzunehmen, wenn der Geräuschpegel
mehr als 8.000 Stufen der durch diese Norm definierten Quantifizierungsskala
beträgt.
Es ergeben sich daraus zahlreiche unnötige Übergänge des Spracherkennungssignals
und demnach auch ein Verlust von Anteilen des Nutzsignals.
-
Es
ist eine in dem Beitrag G.723.1 VAD beschriebene Lösung bekannt,
die darin besteht, die Spracherkennung in dem Codierer vollständig zu
unterbinden, wenn das Signal-Rausch-Verhältnis
unterhalb eines vorbestimmten Wertes liegt. Durch diese Lösung wird
die Vollständigkeit
des Nutzsignals erhalten, aber sie hat den Nachteil, dass der Verkehr erhöht wird.
-
Mit
dieser Erfindung wird eine effizientere Lösung vorgeschlagen, bei der
die Effektivität
der Spracherkennung im Sinne des Verkehrs erhalten bleibt, aber
die Qualität
des nach der Decodierung wiederhergestellten Signals nicht beeinträchtigt wird.
-
Der
Gegenstand der Erfindung ist ein Verfahren zur Spracherkennung in
einem Signal, wobei dieses Signal in Rahmen unterteilt wird und
dieses Verfahren über
eine Glättungsphase
einer anfänglichen, für jeden
Rahmen getroffenen Entscheidung "Sprache" oder "Geräusch" verfügt, dadurch
gekennzeichnet, dass diese Glättungsphase
eine Etappe aufweist, die darin besteht, eine endgültige Entscheidung "Sprache" für den Rahmen
n zu treffen, wenn:
- – die anfängliche Entscheidung für den Rahmen
n "Sprache" ist;
- – und
die endgültige
Entscheidung für
den Rahmen n – 2 "Geräusch" war;
- – und
die Energie des Rahmens n – 1
größer als diejenige
des Rahmens n – 2
war;
- – und
die Energie des Rahmens n größer als
die Energie des Rahmens n – 2
ist.
-
Das
somit charakterisierte Verfahren vermeidet einen unerwünschten Übergang
von "Geräusch" zu "Sprache" bei einer vorübergehenden
Energiezunahme während
des Rahmens n, weil die Glättungsfunktion
die endgültige
Entscheidung, die für
den auf den aktuellen Rahmen n vorausgehenden Rahmen n – 1 getroffen
worden ist, berücksichtigt,
um über
einen Übergang
von "Geräusch" zu "Sprache" zu entscheiden.
-
Wenn
eine endgültige
Entscheidung "Sprache" für den Rahmen
n getroffen worden ist, besteht das Verfahren gemäß der Erfindung
in einer vorzugsweisen Anwendungsart ferner darin, dass jegliche endgültige Entscheidung "Geräusch" für die Rahmen n – 1 bis
n + i unterbunden wird, wobei i eine ganze Zahl ist, die eine Trägheitsdauer
definiert.
-
Das
somit charakterisierte Verfahren vermeidet somit das Phänomen des
Verlusts von Sprachsegmenten, da die Glättungsfunktion für die Rückkehr zu
einer Entscheidung "Geräusch" eine Trägheit aufweist,
die der Dauer von i Rahmen entspricht.
-
Die
Erfindung hat ebenfalls einen Sprachsignalcodierer zum Gegenstand,
der über
Glättungsmittel
verfügt,
um das Verfahren gemäß der Erfindung anzuwenden.
-
Die
Erfindung wird anhand der folgenden Beschreibung und der beigefügten Abbildungen
verständlicher,
wobei noch weitere Merkmale deutlich werden:
-
1 zeigt das Funktionsschema
eines Ausführungsbeispiels
eines Codierers für
die Anwendung des Verfahrens gemäß der Erfindung.
-
2 zeigt das Organigramm
der Entscheidungsfindung "Sprache"/"Geräusch" gemäß dem durch
die Norm G.729 Anhang B, 11/96 bekannten Codierungsverfahren.
-
In 3 sind die Glättungsvorgänge des Spracherkennungssignals
gemäß dem durch
die Norm G.729 Anhang B, 11/96 bekannten Codierungsverfahren ausführlicher
dargestellt.
-
4 zeigt das Organigramm
eines Beispiels für
die Anwendung der Glättung
des Spracherkennungssignals in dem Verfahren gemäß der Erfindung.
-
In 5 sind die Prozentanteile
von Fehlern mit dem bekannten Verfahren und mit dem Verfahren gemäß der Erfindung
für verschiedene
Werte des Signal-Rausch-Verhältnisses
dargestellt.
-
In 6 sind die Prozentanteile von Sprachverlusten
mit dem bekannten Verfahren und mit dem Verfahren gemäß der Erfindung
für verschiedene
Werte des Signal-Rausch-Verhältnisses
dargestellt.
-
Das
Ausführungsbeispiel
eines Codierers, dessen Funktionsschema in 1 dargestellt ist, umfasst:
- – eine
Eingangsklemme 1, die in analoger Form ein zu codierendes
Signal empfängt;
- – eine
Schaltung 2, um das Sprachsignal zu filtern, abzutasten,
zu quantifizieren und in Rahmen zu zerlegen;
- – einen
Schalter 3 mit einem mit dem Ausgang der Schaltung 2 verbundenen
Eingang und mit zwei Ausgängen;
- – eine
Schaltung 4 zur Codierung der Rahmen, die als tatsächlich ein
Nutzsignal darstellender Rahmen angesehen werden, wobei diese Schaltung über einen
mit einem ersten Ausgang des Schalters 3 verbundenen Eingang
verfügt;
- – eine
Schaltung 5 zur Codierung der Rahmen, die als ein Stille
oder Geräusch
darstellender Rahmen angesehen werden, wobei diese Schaltung über einen
mit einem zweiten Ausgang des Schalters 3 verbundenen Eingang
verfügt;
- – einen
zweiten Schalter 6 mit: einem ersten und einem zweiten
Eingang, die mit einem Ausgang der Schaltung 4 beziehungsweise
mit einem Ausgang der Schaltung 5 verbunden sind, sowie
einer Ausgangsklemme 9, die die Ausgangsklemme des Codierers
darstellt;
- – und
einen Sprachdetektor 7, der über einen mit dem Ausgang der
Schaltung 2 verbundenen Eingang und einen insbesondere
mit einem Steuereingang von jedem der Schalter 3 und 6 verbundenen
Ausgang verfügt,
um die codierten Rahmen mit dem jeweils in dem Sprachsignal erkannten
Inhalt auszuwählen:
entweder Nutzsignal oder Stille (oder Geräusch).
-
Wenn
das Sprachsignal ein Nutzsignal ist, so liefert der Codierer alle
10 ms einen Rahmen. Besteht das Sprachsignal aus Stille (oder Geräusch), so liefert
der Codierer zu Beginn der Stille (oder des Geräuschs) einen einzigen Rahmen.
-
In
der Praxis kann ein derartiger Codierer mittels eines in geeigneter
Weise programmierten Prozessors hergestellt werden. Insbesondere
kann das Verfahren gemäß der Erfindung
aufgrund einer Software angewendet werden, die von einem Fachmann
entwickelt werden kann.
-
2 zeigt das Organigramm
der Entscheidungsfindung "Sprache" oder "Geräusch" gemäß dem durch
die Norm G.729 Anhang B, 11/96 bekannten Codierungsverfahren. Das
Verfahren wird auf Rahmen eines digitalisierten Signals mit einer
festen Dauer von 10 ms angewendet.
-
Eine
erste Etappe 11 besteht darin, für den aktuellen Rahmen des
zu codierenden Signals vier Parameter abzuleiten: die Energie dieses
Rahmens in dem gesamten Frequenzbereich, die Energie dieses Rahmens
in den tieferen Frequenzen, eine Gruppe von Spektralkoeffizienten
und die Quote der Nulldurchgänge.
-
In
der folgenden Etappe 12 wird die Mindestgröße eines
Pufferspeichers aktualisiert.
-
Die
folgende Etappe 13 besteht darin, die Zahl des aktuellen
Rahmens mit einem vorbestimmten Wert Ni zu vergleichen:
- – Wenn
sie niedriger als Ni ist:
- – Die
folgende Etappe 14 besteht darin, die Werte der beweglichen
Durchschnitte der Parameter des zu codierenden Signals zu initialisieren:
die Spektralkoeffizienten; die durchschnittliche Energie im gesamten
Frequenzbereich; die durchschnittliche Energie in den tieferen Frequenzen und
die durchschnittliche Quote von Nulldurchgängen.
- – Anschließend besteht
eine Etappe 15 darin, die Energie des Rahmens mit einem
vorbestimmten Schwellenwert zu vergleichen, um zu entscheiden, dass
es sich bei dem Signal um Sprache handelt, wenn die Energie des
Rahmens diesen Wert übersteigt,
oder um zu entscheiden, dass es sich bei dem Signal um ein Geräusch handelt, wenn
die Energie des Rahmens unter diesem Wert liegt. Die Verarbeitung
des aktuellen Rahmens erreicht dann ihr Ende 16.
- – Wenn
die Zahl des Rahmens nicht niedriger als Ni ist, so wird bei einer
folgenden Etappe 17 bestimmt, ob sie gleich Ni oder größer als
Ni ist:
- – wenn
sie gleich Ni ist, so besteht eine folgende Etappe 18 darin,
den Wert der durchschnittlichen Energie des Geräuschs in dem gesamten Frequenzbereich
und den Wert der durchschnittlichen Energie des Geräuschs in
den tieferen Frequenzen zu initialisieren.
- – Wenn
sie größer als
Ni ist:
- – eine
folgende Etappe 19 besteht darin, eine Gruppe von Differenzparametern
zu berechnen, indem der aktuelle Wert eines Rahmenparameters von
dem beweglichen Durchschnittswert dieses Rahmenparameters, der für das Geräusch repräsentativ
ist, abgezogen wird. Diese Differenzparameter sind: die Spektralverzerrung,
die Energiedifferenz in dem gesamten Frequenzbereich, die Energiedifferenz
in den tieferen Frequenzen und die Differenz der Quoten der Nulldurchgänge.
- – Bei
einer folgenden Etappe 20 wird die Energie des Rahmens
mit einem vorbestimmten Schwellenwert verglichen:
- – Ist
sie nicht niedriger als dieser Wert, so besteht eine Etappe 21 darin,
eine anfängliche
Entscheidung ("Sprache" oder "Geräusch") zu treffen, die auf
einer Vielzahl von Kriterien beruht; anschließend besteht eine Etappe 22 darin,
diese Entscheidung zu "glätten", um zu häufige Änderungen
dieser Entscheidung zu vermeiden.
- – Ist
sie niedriger oder gleich diesem Wert, so besteht eine Etappe 23 in
der Entscheidung, dass das Signal ein Geräusch ist; anschließend besteht die
Etappe 22 darin, diese Entscheidung zu "glätten".
- – Nach
der Glättungsetappe 22 besteht
eine folgende Etappe 24 darin, die Energie des aktuellen Rahmens
mit einem adaptiven Schwellenwert zu vergleichen, der dem um eine
Konstante erhöhten beweglichen
Durchschnitt der Energie in dem gesamten Frequenzbereich entspricht:
- – Wenn
sie höher
als der Schwellenwert ist, so besteht eine folgende Etappe 25 darin,
die Werte der beweglichen Durchschnitte der das Geräusch repräsentierenden
Parameter zu aktualisieren; anschließend erreicht die Verarbeitung
des aktuellen Rahmens das Ende 26.
- – Übersteigt
sie nicht den Schwellenwert, so erreicht die Verarbeitung des aktuellen
Rahmens das Ende 27.
-
In 3 sind die Glättungsvorgänge des Spracherkennungssignals
gemäß dem durch
die Norm G.729 Anhang B, 11/96 bekannten Codierungsverfahren ausführlicher dargestellt.
Diese Glättung
umfasst vier Etappen, die auf die anfängliche Entscheidung 21 ("Sprache" oder "Geräusch") folgen, wobei diese
Entscheidung auf einer Vielzahl von Kriterien beruht:
- – Eine
erste Etappe besteht in einem Test 31, um die Entscheidung "Sprache" zu treffen, wenn:
- – die
Entscheidung für
den vorhergehenden Rahmen "Sprache" war,
- – und
die durchschnittliche Energie des aktuellen Rahmens höher ist
als der um eine Konstante erhöhte
bewegliche Durchschnitt der Energie der vorhergehenden Rahmen, d.
h. wenn die Energie des aktuellen Rahmens deutlich höher als
die durchschnittliche Energie des Geräuschs ist.
Im gegenteiligen
Fall wird die Entscheidung "Geräusch" 42 endgültig getroffen.
- – Eine
zweite Etappe 32 bis 35 besteht in einem Test 32,
um die Entscheidung "Sprache" zu bestätigen, wenn:
- – die
Entscheidung für
die beiden vorhergehenden Rahmen "Sprache" war,
- – und
die durchschnittliche Energie des aktuellen Rahmens höher ist
als der um eine Konstante erhöhte
bewegliche Durchschnitt der Energie des vorhergehenden Rahmens,
d. h. wenn die Energie von dem vorhergehenden Rahmen zum aktuellen
Rahmen nicht wesentlich abgenommen hat.
-
Diese
zweite Etappe besteht ferner darin, einen Zähler um ein Inkrement zu erhöhen (Schritt 33), anschließend dessen
Inhalt mit dem Wert 4 zu vergleichen (Schritt 34) und dann
diesen Test 32 für
den nächsten
Rahmen zu deaktivieren (Schritt 35), wenn der aktuelle
Rahmen der vierte Rahmen hintereinander ist, für den die Entscheidung "Sprache" ist. Wird die Entscheidung "Sprache" nicht bestätigt, so
wird die Entscheidung "Geräusch" 42 endgültig getroffen.
- – Eine
dritte Etappe 36 bis 39 besteht in einem Test 36,
um die Entscheidung "Geräusch" 42 endgültig zu
treffen, wenn:
- – eine
Entscheidung "Geräusch" für die zehn
auf den aktuellen Rahmen vorausgehenden Rahmen getroffen worden
ist (nachdem für
den aktuellen Rahmen in den Etappen 31–35 die Entscheidung "Sprache" getroffen worden
war).
- – die
Energie des aktuellen Rahmens niedriger ist als die um eine Konstante
erhöhte
Energie des vorhergehenden Rahmens, d. h. wenn die Energie vom vorhergehenden
Rahmen zum aktuellen Rahmen nicht wesentlich zugenommen hat.
-
Diese
dritte Etappe besteht ferner darin, den Test 36 neu zu
starten (Schritt 37), indem die Zählung der Rahmen zurückgesetzt
wird (Schritt 39), wenn der aktuelle Rahmen der zehnte
Rahmen hintereinander ist, für
den die Entscheidung "Geräusch" lautet (Test 38).
- – eine
vierte Etappe besteht in einem Test 40, um die Entscheidung "Geräusch" 42 endgültig zu
treffen, wenn die Energie des aktuellen Rahmens niedriger ist als
die Summe des um eine Konstante von 614 erhöhten beweglichen Durchschnitts der
Energie der vorhergehenden Rahmen. Das heißt, die Entscheidung "Sprache" wird nur dann endgültig bestätigt (Schritt 41),
wenn die Energie des Rahmens deutlich höher ist als der bewegliche
Durchschnitt der Energie der vorhergehenden Rahmen. Im gegenteiligen
Falle wird die Entscheidung "Geräusch" 42 endgültig getroffen.
-
Diese
vierte Etappe 40 (endgültige
Entscheidung) liefert fehlerhafte Entscheidungen "Geräusch", wenn das Signal
sehr stark durch Geräusche
gestört ist.
Tatsächlich
wird in dieser Etappe 40 ohne Berücksichtigung der vorausgehenden
Entscheidungen entschieden, dass das Signal ein Geräusch ist,
wobei jedoch einfach der Energieunterschied zwischen dem aktuellen
Rahmen und dem Hintergrundgeräusch
zugrunde gelegt wird, das durch den um die Konstante von 614 erhöhten Wert
des beweglichen Durchschnitts der Energie der vorhergehenden Rahmen dargestellt
wird. Wenn das Hintergrundgeräusch stark
ist, so ist die durch diese Konstante von 614 gebildete Schwelle
tatsächlich
nicht mehr gültig.
-
Das
Verfahren gemäß der Erfindung
unterscheidet sich von dem durch die Norm G.279.1, Anhang B, 11/96
bekannten Verfahren hinsichtlich der Glättungsetappen.
-
In 4 ist das Organigramm eines
Beispiels für
die Durchführung
der Glättung
des Spracherkennungssignals in dem Verfahren gemäß der Erfindung dargestellt.
Diese Glättung
umfasst vier Etappen, die auf die anfängliche Entscheidung 21 ("Sprache" oder "Geräusch"), die auf einer
Vielzahl von Kriterien beruht, folgen. Unter diesen vier Etappen
sind drei Etappen (Tests 131, 132, 136)
analog zu drei oben beschriebenen Etappen (Tests 31, 32, 36);
die oben beschriebene vierte Etappe 40 entfällt; und
vor der oben beschriebenen ersten Etappe 31 wird eine so
genannte "einleitende" Etappe eingefügt. Es wird
eine so genannte "Trägheitszählung" eingefügt, um eine
Trägheit
mit einer Dauer zu erreichen, die beispielsweise dem Fünffachen
der Dauer eines Rahmens entspricht, bevor die Entscheidung "Sprache" in die Entscheidung "Geräusch" geändert wird,
wenn die Energie des Rahmens nachgelassen hat. Diese Dauer entspricht
folglich in diesem Beispiel 50 ms. Diese Trägheitszählung ist nur dann aktiv, wenn
die durchschnittliche Energie des Geräuschs 8.000 Stufen der durch
die Norm G.279.1, Anhang B, 11/96 definierten Quantifizierungsskala übersteigt.
- – Die
eingefügte
einleitende Etappe 101 bis 104 besteht darin:
- – den
Trägheitszähler auf
0 zu stellen (Schritt 102) und anschließend zum Test 131 überzugehen, wenn
die anfängliche
Entscheidung der Etappe 21 "Sprache" ist.
- – zu
bestimmen, ob die Energie des aktuellen Rahmens höher als
ein festgelegter Schwellenwert ist, und zu bestimmen, ob der Inhalt
des Trägheitszählers niedriger
als 6 und höher
als 1 ist (Schritt 103), wenn die anfängliche Entscheidung der Etappe 21 "Geräusch" ist. Anschließend:
- – die
Entscheidung "Sprache" (im Widerspruch
zu der anfänglichen
Entscheidung) zu treffen, wenn diese beiden Bedingungen erfüllt sind,
und danach den Trägheitszähler um
eine Einheit zu erhöhen
(Schritt 104) und schließlich zum Test 131 überzugehen.
- – oder
die Entscheidung "Geräusch" 142 endgültig zu
treffen, wenn eine dieser Bedingungen nicht erfüllt ist.
- – Die
erste Etappe besteht in einem Test 131 (analog zu dem Test 31),
der darin besteht, die Entscheidung "Sprache" aufrechtzuerhalten, wenn die vorhergehende
Entscheidung "Sprache" war und die durchschnittliche
Energie des aktuellen Rahmens höher
ist als der bewegliche und um eine festgelegte Konstante erhöhte Durchschnitt der
Energie der vorhergehenden Rahmen.
- – Die
zweite Etappe 132 bis 135 (analog zu den Etappen 32 bis 35)
besteht darin, die Entscheidung "Sprache" zu treffen, wenn:
- – die
Entscheidung für
die beiden vorhergehenden Rahmen "Sprache" war,
- – und
die durchschnittliche Energie des aktuellen Rahmens höher ist
als der bewegliche und um eine Konstante erhöhte Durchschnitt der Energie des
vorhergehenden Rahmens, das heißt,
wenn die Energie vom vorhergehenden Rahmen zum aktuellen Rahmen
nicht wesentlich nachgelassen hat.
-
Diese
zweite Etappe 132 bis 135 besteht ferner darin,
diesen Test für
den nächsten
Rahmen zu deaktivieren, wenn der aktuelle Rahmen der vierte Rahmen
hintereinander ist, für
den die Entscheidung "Sprache" lautet (Erhöhung 133 eines
Zählers
um ein Inkrement, Vergleich 134 seines Inhalts mit dem
Wert 4, und Deaktivierung 135, wenn der Wert 4 erreicht ist).
- – Die
dritte Etappe 136 bis 139 und 143 (etwas verschieden
von den Etappen 36 bis 39) besteht darin, die
Entscheidung "Geräusch" 142 endgültig zu
treffen, wenn:
- – für die letzten
zehn Rahmen eine Entscheidung "Geräusch" getroffen worden
ist;
- – und
die Energie des aktuellen Rahmens niedriger ist als die um eine
Konstante erhöhte
Energie des vorhergehenden Rahmens, das heißt, wenn die Energie vom vorhergehenden
Rahmen zum aktuellen Rahmen nicht wesentlich zugenommen hat.
-
Diese
dritte Etappe besteht ferner darin, diesen Test 136 neu
zu starten, indem die Zählung
der Rahmen zurückgesetzt
wird, wenn der aktuelle Rahmen der zehnte Rahmen hintereinander
ist, für
den die Entscheidung "Geräusch" lautet (Erhöhung 137 eines
Zählers um
ein Inkrement, Vergleich 138 des Inhalts dieses Zählers mit
dem Wert 10, Zurücksetzen 139 dieses
Zählers
auf 0, wenn der Wert 10 erreicht ist). Die dritte Etappe ist gegenüber dem
oben beschriebenen bekannten Verfahren geändert, da sie ferner darin
besteht, dem Trägheitszähler den
Wert 6 aufzuzwingen (Schritt 143), um jegliche Interaktion zwischen
diesem Test 136 und dem Trägheitszähler zu vermeiden.
- – Es
gibt keine vierte Etappe, die analog zur Etappe 40 ist.
-
In 5 stellen die Kurven E1
und E2 jeweils die Prozentanteile von Fehlern mit dem bekannten
Verfahren und mit dem Verfahren gemäß der Erfindung für verschiedene
Werte des Signal-Rausch-Verhältnisses
dar.
-
In 6 stellen die Kurven L1 und L2 jeweils
die Prozentanteile von Sprachverlusten mit dem bekannten Verfahren
und mit dem Verfahren gemäß der Erfindung
für verschiedene
Werte des Signal-Rausch-Verhältnisses
dar.
-
Sie
zeigen, dass das Verhalten der Spracherkennung in einer lauten Umgebung
wesentlich verbessert wird. Der gesamte Prozentanteil von Fehlern
nimmt ab, und vor allem ist der Prozentanteil des Sprachverlusts
beträchtlich
reduziert. Die Vollständigkeit
der Sprache bleibt erhalten, und das Gespräch bleibt verständlich.