-
Die
vorliegende Erfindung betrifft Spracherkennung und insbesondere
ein Verfahren zum Modifizieren von Leistungsvektoren, die bei der
Spracherkennung zu bestimmen sind. Die Erfindung betrifft des Weiteren eine
Vorrichtung, die das Verfahren gemäß der vorliegenden Erfindung
zum Verbessern der Spracherkennung anwendet.
-
Die
Erfindung betrifft automatische Spracherkennung, insbesondere Spracherkennung,
die auf Hidden-Markov-Modellen
(HMM) basiert. Auf den HMM basierende Spracherkennung basiert auf
statistischen Modellen von erkennbaren Wörtern. In der Erkennungsphase
werden auf Markov-Ketten basierende Beobachtungen und Zustandsübergänge in einem
ausgesprochenen Wort berechnet, und basierend auf Wahrscheinlichkeiten
wird ein. in der Schulungsphase der Spracherkennungs-Vorrichtung gespeichertes
und dem ausgesprochenen Wort entsprechendes Modell bestimmt. Beispielsweise
ist der Ablauf von auf den Hidden-Markov-Modellen basierter Spracherkennung
in der Referenz: "L.
Rabiner, "A tutorial
on Hidden Markov Models and selected applications in speech recognition", Proceedings of
the IEEE, Band 77, Nr. 2, Februar 1989, beschrieben worden.
-
Das
Problem bei den derzeitigen Spracherkennungs-Vorrichtungen besteht darin, dass die
Erkennungsgenauigkeit in einer lauten Umgebung beträchtlich
abnimmt. Des Weiteren nimmt die Leistung von Spracherkennungs-Vorrichtungen
insbesondere ab, wenn die Geräuschbedingungen
während
des Betriebs der Spracherkennungs-Vorrichtung sich von den Geräuschbedingungen
in der Schulungsphase der Spracherkennungs-Vorrichtung unterscheiden.
Dies ist tatsächlich
eines der schwierigsten Probleme, das bei in Anwendung befindlichen
Spracherkennungssystemen gelöst werden
muss, weil es unmöglich
ist, die Auswirkungen aller Geräuschumgebungen
zu berücksichtigen,
in denen eine Spracherkennungs-Vorrichtung verwendet werden kann.
Eine normale Situation für
einen Benutzer eines Geräts,
das eine Spracherkennungs-Vorrichtung verwendet, ist, dass die Schulung
der Spracherkennungs-Vorrichtung typischerweise in einer fast geräuschlosen
Umgebung ausgeführt
wird, wogegen in der Betriebsumgebung der Spracherkennungs-Vorrichtung,
z.B. wenn sie in einem Fahrzeug verwendet wird, das Hintergrundgeräusch, das
von umgebendem Verkehr und dem Fahrzeug selbst verursacht wird,
sich beträchtlich
von dem nahezu ruhigen Geräuschpegel
der Schulungsphase unterscheidet.
-
Das
Problem bei den derzeitigen Spracherkennungs-Vorrichtungen ist auch, dass die Leistung
einer Spracherkennungs-Vorrichtung von den verwendeten Mikrofonen
abhängt.
Insbesondere in einer Situation, in der in der Schulungsphase der
Spracherkennungs-Vorrichtung
ein anderes Mikrofon verwendet wird als in der tatsächlichen
Spracherkennungsphase, nimmt die Leistung der Spracherkennungs-Vorrichtung
wesentlich ab.
-
Mehrere
unterschiedliche Verfahren sind entwickelt worden, um die Auswirkung
von Geräusch
bei der Berechnung von Leistungsvektoren zu eliminieren. Die Spracherkennungs-Vorrichtungen,
die diese Verfahren einsetzen, können
jedoch nur in festen Rechner/Arbeitsplatz-Anwendungen eingesetzt
werden, in denen Sprache in einer Offline-Weise erkannt wird. Es
ist typisch für
diese Verfahren, dass die zu erkennende Sprache in einem Speicher
eines Rechners gespeichert ist. Typischerweise beträgt die Länge des
zu speichernden Sprachsignals mehrere Sekunden. Anschließend werden
die Leistungsvektoren modifiziert, wobei bei der Berechnung Parameter
verwendet werden, die aus dem Inhalt der gesamten Datei definiert
werden. Auf Grund der Länge
des zu speichernden Sprachsignals sind diese Arten von Verfahren
nicht auf Echtzeit-Spracherkennung anwendbar.
-
Des
Weiteren wird ein Normalisierungsverfahren bereitgestellt, wobei
sowohl Sprache als auch Geräusch
ihre eigenen Normalisierungs-Koeffizienten aufweisen, die adaptiv
unter Verwendung einer Sprechaktivitätserkennung (VAD) aktualisiert
werden. Auf Grund des adaptiven Aktualisierens werden die Normalisierungs-Koeffizienten
mit Verzögerung
aktualisiert, worauf der Normalisierungsprozess in der Praxis nicht schnell
genug ausgeführt
wird. Des Weiteren erfordert dieses Verfahren eine VAD, deren Betrieb
für Spracherkennungs-Anwendungen
bei geringem Signal-Rausch-Verhältnis
(SVR) oft zu ungenau ist. Des Weiteren erfüllt dieses Verfahren auf Grund
der Verzögerung
auch nicht die Echtzeitanforderungen.
-
Jetzt
wurde ein Verfahren und eine Vorrichtung zur Spracherkennung erfunden,
um die oben genannten Probleme zu verhindern, und mit deren Hilfe
Leistungsvektoren, die bei der Spracherkennung bestimmt werden,
modifiziert werden, um die Auswirkungen von Geräuschen auszugleichen. Die Modifizierung
der Leistungsvektoren wird durch Definieren von Mittelwerten und
Standardabweichungen für
die Leistungsvektoren und durch Normalisieren des Leistungsvektors
ausgeführt,
der diese Parameter verwendet. Gemäß einer bevorzugten Ausführungsform
der vorliegenden Erfindung werden die Leistungsvektoren unter Verwendung
eines Gleit-Normalisierungspuffers normalisiert. Mit Hilfe der Erfindung
wird die Aktualisierung der Normalisierungs-Parameter des Leistungsvektors
fast ohne Verzögerung
ausgeführt,
und die Verzögerung
in dem eigentlichen Normalisierungsprozess ist ausreichend klein,
um das Implementieren einer Echtzeit-Spracherkennungsanwendung zu
gestatten.
-
Des
Weiteren ist es mit Hilfe des Verfahrens gemäß der vorliegenden Erfindung
möglich,
die Leistung der Spracherkennungs-Vorrichtung weniger abhängig von
dem verwendeten Mikrofon zu machen. Mit Hilfe der Erfindung lässt sich
eine fast so hohe Leistung der Spracherkennungs-Vorrichtung in einer
Situation erreichen, in der ein anderes Mikrofon in der Versuchs- und Erkennungsphase
der Spracherkennungs-Vorrichtung verwendet wird, wie in einer Situation,
in der das gleiche Mikrofon sowohl in der Schulungs- als auch in
der Erkennungsphase verwendet wird.
-
Die
Erfindung ist gekennzeichnet durch das, was in den kennzeichnenden
Teilen der Ansprüche
1 und 4 dargelegt ist.
-
1 stellt
die Struktur einer Spracherkennungs-Vorrichtung gemäß dem bisherigen Stand der
Technik als ein Blockschaltbild dar,
-
2 stellt
die Struktur eines Analyseblocks gemäß dem bisherigen Stand der
Technik als en Blockschaltbild dar,
-
3a und 3b stellen
die Struktur einer Spracherkennungs-Vorrichtung gemäß der Erfindung
dar,
-
4 stellt
den Einsatz eines Normalisierungspuffers gemäß der Erfindung dar,
-
5 stellt
den Ablauf eines Verfahrens gemäß der Erfindung
als ein Ablaufdiagramm dar, und
-
6 stellt
die Struktur einer Mobilstation gemäß der Erfindung dar.
-
1 stellt
den Blockschaltbild-Aufbau einer bekannten Spracherkennungs-Vorrichtung
dar, wie er auf die vorliegende Erfindung angewendet werden kann.
Typischerweise ist der Betrieb der Spracherkennungs-Vorrichtung in zwei
verschiedene Hauptaktivitäten
unterteilt: eine tatsächliche
Spracherkennungsphase 10–12, 14–15 und
eine Sprach-Schulungsphase 13, wie in 1 dargestellt.
Die Spracherkennungs-Vorrichtung erhält von einem Mikrofon als ihre
Eingabe ein Sprachsignal s(n), das mit Hilfe eines A/D-Wandlers 10 in eine
digitale Form umgewandelt wird, wobei z.B. eine Abtastfrequenz von
8 kHz und eine 12-Bit-Auflösung
pro Abtastung verwendet werden. Typischerweise umfasst die Spracherkennungs-Vorrichtung
einen so genannten Vorrechner 11, in dem das Sprachsignal
analysiert und ein Leistungsvektor 12 modelliert werden,
wobei der Leistungsvektor das Sprachsignal während einer bestimmten Zeitdauer
beschreibt. Der Leistungsvektor wird z.B. in Intervallen von 10
ms definiert. Der Leistungsvektor kann unter Verwendung mehrerer
verschiedener Techniken modelliert werden. Beispielsweise sind mehrere
verschiedene Arten von Techniken zum Modellieren eines Leistungsvektors
beschrieben worden in dem Referenzdokument : J. Picone, "Signal modelling techniques
in speech recognition",
IEEE Proceedings, Band 81, Nr. 9, S. 1215–1247, September 1993. Der
in der vorliegenden Erfindung verwendete Leistungsvektor wird modelliert
durch Definieren so genannter Mel-Frequenz- Cepstrum-Koeffizienten (MFCC). Während der
Schulungsphase werden Modelle mit Hilfe des Leistungsvektors in
einem Schulungsblock 13 der Spracherkennungs-Vorrichtung
für die
Wörter
konstruiert, die von der Spracherkennungs-Vorrichtung verwendet werden. Bei der
Modell-Schulung 13a wird ein Modell für ein erkennbares Wort festgelegt.
In der Schulungsphase kann die Wiederholung des zu modellierenden Worts
verwendet werden. Die Modelle werden in einem Speicher 13b gespeichert.
Während
der Spracherkennung wird der Leistungsvektor zu einer tatsächlichen
Erkennungsvorrichtung 14 übertragen, die in einem Block 15a die
Modelle, die während
der Schulungsphase konstruiert wurden, mit den Leistungsvektoren
vergleicht, die aus der erkennbaren Sprache zu konstruieren sind,
und die Entscheidung über
ein Erkennungsergebnis wird in einem Block 15b getroffen.
Das Erkennungsergebnis 15 bezeichnet das Wort, das in dem
Speicher der Spracherkennungs-Vorrichtung gespeichert ist, das dem
von einer Person ausgesprochenen Wort unter Verwendung der Spracherkennungsvorrichtung
am besten entspricht.
-
2 stellt
den Aufbau eines bekannten Analyseblocks des Vorrechners 11 dar,
der auf die vorliegende Erfindung anwendbar ist. Typischerweise
umfasst der Vorrechner 11 ein Vorverzerrungsfilter 20 zum
Verzerren von Frequenzen, die für
die Spracherkennung relevant sind. Typischerweise ist das Vorverzerrungsfilter 20 ein
Hochpassfilter, z.B. ein FIR-Filter 1. Grades mit einem
Ansprechverhalten von H(z) = 1 – 0,95
z–1.
Danach werden in einem Block 21 Frames mit einer Länge von
N Abtastungen aus einem gefilterten Signal ausgebildet. Unter Verwendung
von z.B. einer Abtastlänge
N = 240, wird eine Frame-Struktur von 30 ms bei der Abtastfrequenz
von 8 kHz erzeugt. Typischerweise können die Sprach-Frames auch
unter Verwendung einer so genannten Überlappungstechnik ausgebildet
werden, wobei aufeinander folgende Frames sich bis zum Ausmaß von S
aufeinander folgenden Abtastungen überlappen (z.B. 10 ms). Vor
dem Modellieren einer schnellen Fourier-Transformations- (FFT) Frequenzdarstellung
für das
Sprachsignal in einem Block 23a kann auch eine so genannte
Fenstertechnik ausgeführt
werden, um die Genauigkeit einer Spektrumsschätzung zu verbessern, wobei
z.B. ein Hamming-Fenster in einem Block 22 verwendet wird.
Anschließend
wird die FFT-Darstellung des Signals in eine Mel-Frequenz-Darstellung
in einem Mel-Fensterungsblock 24 umgewandelt. Die Umwandlung
in die Mel-Frequenz-Darstellung ist dem Fachmann bekannt. Die Übertragung
in die Mel-Frequenz-Darstellung wurde dargestellt in dem Quell-Referenzdokument: "J. Picone, "Signal Modelling Techniques
in Speech Recognition",
IEEE Proceedings, Band 81, Nr. 9".
Mit dieser Frequenzumwandlung wird die nicht-lineare Empfindlichkeit
des Ohrs in Bezug auf unterschiedliche Frequenzen berücksichtigt.
Typischerweise kann die Anzahl (k) der verwendeten Frequenzbänder k =
24 sein. Der eigentliche Leistungsvektor 12, die so genannten
Cepstrum-Koeffizienten
c(i), wird erhalten, indem eine so genannte diskrete Kosinus-Transformation
(DCT) für
26 logarithmische Mel-Werte, die in einem Block 25 ausgebildet
werden, ausgeführt
wird. Beispielsweise kann die Grad-Anzahl J = 24 in der diskreten
Kosinus-Transformation
verwendet werden. Typischerweise wird nur die Hälfte der DCT-Koeffizienten
c(i), wobei i der Index eines Kosinus-Ausdrucks ist, verwendet.
Typischerweise enthält
der tatsächliche
Leistungsvektor auch Informationen über Sprachdynamik, indem so
genannte 1. und 2. Stufen-Differenzsignale dc(i), ddc(i) berechnet
werden. Diese Differenzsignale können
aus den nacheinander ausgegebenen Vektoren eines diskreten Kosinus-Transformationsblocks
in einem Block 27 ermittelt werden, indem davon ausgegangen
wird, dass dc(i) = c(i) – c(i – 1) und
ddc(i) = dc(i) – dc(i – 1) ist.
Wenn diese 26 zusätzlichen
Parameter berücksichtigt
werden, beträgt
die Länge
des Leistungsvektor in unserem Beispielfall 13 + 26 = 39 Parameter.
-
Die 3a und 3b stellen
die Struktur der Spracherkennunas-Vorrichtung gemäß einer
ersten Ausführungsform
der vorliegenden Erfindung dar. Ein Vorrechner 30 erzeugt
als ein Ausgabesignal einen Leistungsvektor xi,
wobei i = 1, ..., M (z.B. M = 39) bei 10-ms-Intervallen ist. Der
Leistungsvektor wird in einem Normalisierungspuffer 31 gespeichert,
mit dessen Hilfe ein Mittelwert μi und eine Standardabweichung σi für jede Leistungsvektor-Komponente
xi, wobei i = 1, ..., M ist, wie folgt berechnet
wird:
-
-
I n
den Formeln 1 und 2 ist N die Länge
des Normalisierungspuffers, und M ist die Länge des Leistungsvektors. Danach
wird die Komponente xi des zu erkennenden
Leistungsvektors in einem Block 31 unter Verwendung der
berechneten Normalisierungs-Koeffizienten μi, σi normalisiert.
Der zu normalisierende und zu erkennende Leistungsvektor x befindet
sich in der Mitte des Normalisierungspuffers 31, wie in 4 dargestellt.
-
-
Der
normalisierte Leistungsvektor x ^ wird als ein Eingabesignal entweder
an die Spracherkennungseinheit 14 oder an den Schulungsblock 13 übertragen,
was davon abhängt,
ob es sich um die Schulungsphase der Spracherkennungs-Vorrichtung
oder um die tatsächliche
Spracherkennungsphase handelt. In dem Verfahren gemäß der ersten
Ausführungsform
der vorliegenden Erfindung wird vorzugsweise ein Normalisierungspuffer
mit fester Länge
(N) verwendet, wobei der Puffer über
den Leistungsvektoren verschoben wird. Auf Grund des Gleit-Normalisierungspuffers
kann das Verfahren auch in einem Echtzeit-Spracherkennungssystem implementiert
werden. Ein Normalisierungspuffer 34 ist ein N·M Abtastungen
großer
Puffer, der typischerweise in Verbindung mit der Spracherkennungseinheit
durch Programmieren eines digitalen Signalprozessors (DSP) implementiert
werden kann, wobei entweder die internen Speicherstrukturen oder
der externe Speicher des DSDP verwendet werden kann. In der Lösung weist
der Normalisierungspuffer gemäß dem Beispiel
der vorliegenden Erfindung 100 Leistungsvektoren in der Länge auf.
Der jederzeit zu normalisierende und zu erkennende Leistungsvektor
befindet sich in der Mitte des Normalisierungspuffers 34.
Weil dieser zu normalisierende Leistungsvektor in der Mitte des
Normalisierungspuffers liegt, wird in der Spracherkennung eine Verzögerung N
verursacht, welche die Länge
des Normalisierungspuffers aufweist. Wenn die Parameter aus diesem Beispiel
verwendet werden, beträgt
die Verzögerung
100·10
ms = 1 s. Diese Verzögerung
kann jedoch halbiert werden, wenn nur ein Teil der Länge des
Puffers am Anfang der Spracherkennung verwendet wird, wie im Folgenden
erläutert
wird.
-
5 stellt
in Form eines Ablaufdiagramms den Ablauf des Verfahrens gemäß der vorliegenden
Erfindung dar. Zu Beginn jeder Spracherkennung wird der Normalisierungspuffer
so lange gefüllt,
bis eine Hälfte der
vollen Länge
des Puffers N/2 verwendet worden ist (Blöcke 100–102).
Danach werden der Mittelwert und Standardabweichungs-Vektoren μi, σi (Block 103)
berechnet, und ein erster Leistungsvektor wird unter Verwendung
der ersten N/2-Leistungsvektoren normalisiert. Der tatsächliche
Spracherkennungsprozess wird für diesen
normalisierten Leistungsvektor x ^ unter Verwendung von Viterbi-Decodierung
in einem Block 15b (1) gemäß einer
bekannten Technik ausgeführt.
Anschließend
wird ein neuer Leistungsvektor gepuffert (Block 104), neue
Normalisierungs-Koeffizienten werden unter Verwendung der speicherten
(N/2 – 1)
Leistungsvektoren berechnet, und ein zweiter Leistungsvektor wird
normalisiert und die Erkennung damit ausgeführt (Block 103). Der
entsprechende Prozess wird fortgesetzt, bis der Normalisierungspuffer
voll ist. Dann wird eine Übertragung
im Ablaufdiagramm von einem Block 105 zu einem Block 106 vorgenommen.
Dies bedeutet, dass die ersten N/2-Leistungsvektoren erkannt worden
sind, und sich die zu normalisierenden Leistungsvektoren in der
Mitte des Normalisierungspuffers befinden. Jetzt wird der Puffer
nach dem FIFO-Prinzip (First In-First Out) so verschoben, dass,
nachdem ein neuer Leistungsvektor berechnet und erkannt worden ist (Block 107),
der älteste
Leistungsvektor aus dem Normalisierungspuffer (Block 106)
entfernt wird. Am Ende der Erkennungsphase (Block 107)
werden die Normalisierungs-Koeffizienten unter Verwendung der Werte
berechnet, die in dem Normalisierungspuffer gespeichert sind. Diese
gleichen Normalisierungs-Koeffizienten werden in Verbindung mit
der Erkennung der letzten N/2 Leistungsvektoren verwendet. Daher
werden die Mittelwerte und Standardabweichungen unter Verwendung
von nicht-normalisierten
Leistungsvektoren berechnet. Wenn die Spracherkennung mit allen
der N Leistungsvektoren (Block 108) ausgeführt worden
ist, modelliert die Spracherkennungs-Vorrichtung ein Ergebnis aus
dem erkennbaren Wort (Block 109).
-
Gemäß einer
zweiten Ausführungsform
der vorliegenden Erfindung kann sich die Länge des Normalisierungspuffers
während
der Spracherkennung ändern.
Zu Beginn der Spracherkennung ist es möglich, einen in der Länge kürzeren Puffer
zu verwenden, z.B. N = 45, und die Länge des zu puffernden Signals
kann mit fortschreitender Spracherkennung erhöht werden, z.B. für jeden
Frame (30 ms). Daher kann der zu normalisierende Leistungsvektor,
als eine Ausnahme zu der ersten beispielhaften Anwendung der Erfindung,
der erste Leistungsvektor, der in den Puffer geladen wird, und nicht
der mittlere Leistungsvektor des Puffers sein, und der gesamte Inhalt
des Puffers dieses speziellen Moments kann in der Berechnung der
Normalisierungs-Koeffizienten verwendet werden. In dieser Anwendung
beträgt
die Länge
der Verzögerung
N, wobei N die Länge eines
Segments am Beginn der Spracherkennung ist (z.B. N = 45).
-
Eine
Lösung
gemäß einer
Anwendung der vorliegenden Erfindung ist also, dass nicht alle der
Komponenten eines Leistungsvektors normalisiert werden, sondern
die Normalisierung nur für
einen Teil der Komponenten des Leistungsvektors ausgeführt wird.
Beispielsweise kann die Normalisierung nur für die wichtigsten Komponenten
in Bezug auf das Wahrnehmungsvermögen des menschlichen Hörsinns/der
Spracherkennung ausgeführt
werden. Eine Modifizierung gemäß der Erfindung
ist auch, dass die Normalisierung nur für Leistungsvektoren ausgeführt wird,
die in Beziehung zu dem Mittelwert oder der Standardabweichung stehen.
Die Modifizierung von Leistungsvektoren kann auch allgemeiner in
Bezug auf jede beliebige statistische Menge ausgeführt werden.
-
6 stellt
den Aufbau einer Mobilstation dar, in der eine Spracherkennungs-Vorrichtung 66 bereitgestellt
ist, welche die vorliegende Erfindung einsetzt. Die Mobilstation
umfasst Teile, die für
die Vorrichtung typisch sind, wie beispielsweise ein Mikrofon 61,
eine Tastatur 62, eine Anzeigevorrichtung 63,
ein Lautsprecher 64 sowie ein Steuerblock 65,
der den Betrieb der Mobilstation steuert. Des Weiteren zeigt die
Figur Sende- und Empfangs-Blöcke 67, 68,
die für
die Mobilstation typisch sind. Der Steuerblock 65 steuert
des Weiteren den Betrieb der Spracherkennungs-Vorrichtung 66 in
Verbindung mit der Mobilstation. Wenn die Spracherkennungs-Vorrichtung aktiviert
ist, entweder während
der Schulungsphase der Spracherkennungs-Vorrichtung oder während des
eigentlichen Spracherkennungsprozesses, werden von einem Benutzer
gesprochene Audiobefehle durch den Steuerblock gesteuert vom Mikrofon 61 zu
der Spracherkennungs-Vorrichtung 66 übertragen. Die Audiobefehle
können
auch über
ein separates FH- (Freihand)
Mikrofon übertragen
werden. Typischerweise wurde die Spracherkennungs-Vorrichtung mittels
eines DSP implementiert und umfasst ROM/RAM-Speicherschaltkreise,
die für
ihre Aktivitäten
erforderlich sind.
-
Tabelle
1 stellt die Leistung einer Spracherkennungs-Vorrichtung mit dem Verfahren gemäß der vorliegenden
Erfindung im Vergleich mit anderen Geräuschausgleich-Techniken dar. Die
Erfindung wurde verglichen mit der Verwendung von nicht-normalisierten
Mel-Frequenz- Cepstrum-Koeffizienten
oder der PMC-Technik (parallele Modell-Kombination). Der Test wurde
ausgeführt
unter Verwendung Hidden-Markov-Modellen, die in einer geräuschlosen
Umgebung modelliert wurden. Während
der Spracherkennung wurde dem zu erkennenden Wort ein Rauschsignal
hinzugefügt,
um das erforderliche Signal-Rausch-Verhältnis zu
erreichen. Ein "sauberer" Modus entspricht
einer Situation, in der sowohl die Schulung der Spracherkennungs-Vorrichtung
und der tatsächliche
Spracherkennungsprozess in einer geräuschlosen Umgebung ausgeführt worden sind.
Die Testergebnisse zeigen, dass die Spracherkennungs-Vorrichtung
gemäß der vorliegenden
Erfindung die Zuverlässigkeit
einer Erkennungsvorrichtung in einer lauten Umgebung verbessert.
Des Weiteren wird klar, dass die Spracherkennungs-Vorrichtung gemäß der vorliegenden
Erfindung besser als die PMC-Technik funktioniert, die rechnerisch
viel komplizierter als das erfindungsgemäße Verfahren ist.
-
-
Dieses
Dokument stellt die Implementierung und Ausführungsformen der vorliegenden
Erfindung mit Hilfe von Beispielen dar. Beispielsweise wurde die
Erfindung oben in einer Spracherkennungs-Vorrichtung dargestellt,
die auf HMM basiert. Die Erfindung ist jedoch des Weiteren geeignet
zum Einsatz in Spracherkennungs- Vorrichtungen,
die auf anderen Techniken basieren. Die Erfindung kann beispielsweise
auf Spracherkennungs-Vorrichtungen
angewendet werden, die neuronale Netze verwenden. Für einen
Fachmann ist es offenkundig, dass die vorliegende Erfindung nicht
auf Details der oben vorgestellten Ausführungsformen beschränkt ist,
und dass die Erfindung auch in einer anderen Form implementiert
werden kann, ohne dadurch von den Merkmalen der Erfindung abzuweichen.
Die oben dargestellten Ausführungsformen
sind als beispielhaft, aber nicht als einschränkend zu betrachten. Daher
werden die Möglichkeiten
der Implementierung und Verwendung der Erfindung nur durch die Ansprüche im Anhang
eingeschränkt.