-
Diese
Erfindung bezieht sich auf eine Technik zum Ausführen einer Spracherkennung
unter Verwendung eines Merkmals einer Sprachzeitserie, wie ein Kepstrum
oder dergleichen.
-
Die
Erfindung bezieht sich auch auf die Beseitigung eines Multiplikationsstörgeräuschs, wie
beispielsweise Leitungseigenschaften oder dergleichen.
-
Die
Erfindung bezieht sich des weiteren auf eine Technik zum Ermöglichen
einer plötzlichen
oder nachfolgenden Anpassung an ein Störgeräusch.
-
Bei
Ausführen
einer Spracherkennung in einer realen Umgebung verursacht insbesondere
das Multiplikationsstörgeräusch aufgrund
einer Verzerrung von Leitungseigenschaften Probleme, durch den Einfluß eines
Mikrofons, Fernsprechleitungseigenschaften oder dergleichen und
ein Zusatzstörgeräusch, wie
ein internes Störgeräusch oder
dergleichen. Als Verfahren zum Handhaben der Verzerrung der Leitungseigenschaften ist
ein Kepstrum-Mittelwert-Subtraktionsverfahren
(CMS-Verfahren) vorgeschlagen worden. Das CMS-Verfahren ist in Einzelheiten
offenbart in Rahim, et al., "Signal
Bias Removal for Robust Telephone Based Speech Recognition in Adverse
Environments", Proc.
Of ICASSP'94, 1994,
oder dergleichen.
-
Das
CMS-Verfahren ist ein solches zum Kompensieren der Verzerrung der
Leitungseigenschaften. Nach diesem Verfahren wird auf der Grundlage
einer aus der eingegebenen Sprache ausgelesenen Information die
Leitungsverzerrung auf der Seite der Eingabezeitserie oder der Modellseite,
wie HMM oder dergleichen, korrigiert, wodurch die Eingabeumgebung
adaptiv wird. Selbst wenn die Leitungseigenschaften fluktuieren,
ist es somit möglich,
solche Situation in flexibler Weise zu handhaben.
-
Das
CMS-Verfahren ist ein solches zum Kompensieren von Multiplikationsstörgeräusch (Zeilenverzerrung),
das aufgrund einer Faltung einer Impulsantwort arbeitet. Ein Langzeitspektrum
eingegebener Sprache wird von der eingegebenen Sprache subtrahiert,
und ein Langzeitspektrum einer Sprache, die in der Modellbildung
verwendet wird, wird vom Modell subtrahiert, wodurch eine Differenz
der Leitungseigenschaften normalisiert wird. Der Normalisierprozeß wird üblicherweise
in einer logarithmischen Spektrumzone oder einer Kepstrumzone ausgeführt. Da
das Multiplikationsstörgeräusch als
Zusatzverzerrung in jenen beiden Zonen auftritt, kann das Multiplikationsstörgeräusch durch
Subtraktion kompensiert werden. Ein Verfahren zum Ausführen eines
solchen Prozesses in der Kepstrumzone wird CMS-Verfahren genannt.
-
Unter
Verwendung des CMS-Verfahrens, das zuvor erwähnt wurde, ist es möglich, mit
der Verzerrung der Leitungseigenschaften aufgrund des Einflusses
vom Mikrofon, der Fernsprechleitungseigenschaften oder dergleichen
fertig zu werden. Im Falle der Verwendung des CMS-Verfahrens muß der Benutzer
jedoch auf den Abschluß der
Eingabe der Sprache als Erkennungsziel warten, um ein Kepstrumlangzeitmittel
(CM) aus der eingegebenen Sprache als Erkennungsziel zu errechnen.
Der Erkennungsprozeß erfolgt,
nachdem CM erzielt wurde, nämlich
nach dem Ende der Spracheingabe. Ein Erkennungsalgorithmus kann
folglich nicht synchron mit der Spracheingabe erfolgen. Folglich
ist es unmöglich,
eine Echtzeitverarbeitung nach dem herkömmlichen Verfahren durchzuführen.
-
Aus
dem Dokument US-A-5 583 961 zur Verarbeitung von Sprache zum Erkennen
des Sprechers unter Verwendung der Verarbeitung, bei der Kepstralvektoren
durch Subtrahieren eines laufend errechneten Durchschnitts aus den
Kepstralkoeffizienten für
eine Anzahl von Rahmen normalisiert werden, ist bekannt, daß der laufende
Durchschnitt bei einem Rahmen auf Rahmenbasis aktualisiert wird.
-
Aspekte
der vorliegenden Erfindung sind in den anliegenden Patentansprüchen angegeben.
-
Da
nach einem Ausführungsbeispiel
der Erfindung eine Verzerrung von Leitungseigenschaften, die fluktuieren
können,
mit hoher Geschwindigkeit in Halbechtzeitweise kompensiert werden,
kann die Spracherkennung in Echtzeitart mit hoher Genauigkeit ausgeführt werden,
nachdem eine Normalisierung der Leitungseigenschaften erfolgt ist.
-
KURZE BESCHREIBUNG
DER ZEICHNUNG
-
1 ist ein funktionales Blockaufbaudiagramm
eines Gerätes
nach der Erfindung;
-
2 ist ein Ablaufdiagramm
für ein
Spracherkennungsverfahren unter Verwendung eines Rechenverfahrens
von CM durch einen Wichtungsprozeß einer eingegebenen Länge;
-
3 ist ein Ablaufdiagramm
für ein
Spracherkennungsverfahren unter Verwendung eines CM-Rechenverfahrens
zur Zeit einer Rückwärtssuche
unter Verwendung einer Mehrfachdurchgangssuche;
-
4 ist ein Ablaufdiagramm
für ein
Spracherkennungsverfahren, das das CM-Rechenverfahren durch den
Wichtungsprozeß der
eingegebenen Länge
bei der Zeit einer Vorwärtssuche
anwendet und des weiteren eine Neuerrechnung eines CM zur Zeit der
Rückwärtssuche
ausführt;
-
5 ist ein Vergleichsdiagramm
einer Erkennungsverarbeitungszeit für jedes Verfahren; und
-
6 ist ein Blockaufbaudiagramm
des Gerätes
nach der Erfindung.
-
DETAILLIERTE
BESCHREIBUNG DES BEVORZUGTEN AUSFÜHRUNGSBEISPIELS
-
Ein
Ausführungsbeispiel
nach der Erfindung ist nachstehend detailliert anhand der Zeichnung
beschrieben.
-
6 ist ein Blockdiagramm,
das einen Aufbau eines Spracherkennungsgerätes nach der Erfindung zeigt.
Bezugszeichen 101 bedeutet eine Anzeigeeinheit, wie eine
Kathodenstrahlröhre,
eine Flüssigkristallanzeige
oder dergleichen, zum Darstellen eines Zeichenzuges, der als Ergebnis
einer Spracherkennung gewonnen wird; und Bezugszeichen 102 bedeutet
eine Druckeinheit, wie LBP, Tintenstrahldrucker oder dergleichen, zum
Drucken des Zeichenzuges, der als Ergebnis der Spracherkennung gewonnen
wird. Der Zeichenzug, der von der Anzeigeeinheit 101 oder
der Druckeinheit 102 abgegeben wird, ist ein Zug von Zeichenschrift
gemäß Kandidatenzeichencodes
der Erkennungsergebnisse. Bezugszeichen 103 bedeutet eine
Spracheingabeeinheit, wie ein Mikrofon oder dergleichen. Sprache
kann auch über Übertragungsmittel,
wie öffentliche
Leitung, LAN oder dergleichen, als Spracheingabeeinheit 103 eingegeben
werden. Bezugszeichen 104 bedeutet eine CPU zum Steuern,
um so verschiedene Prozesse auszuführen, die später zu erläutern sind,
gemäß Steuerprogrammen,
die in einer Speichereinheit 105 oder einem herausnehmbaren
Speichermedium 107, wie CD-ROM oder dergleichen, gespeichert
sind. Obwohl die CPU 104 das Ausführen verschiedener Anwendungen
zusätzlich
zu Prozessen steuert, die später
zu erläutern
sind, steuert die CPU 104 ebenfalls (beispielsweise "Drucken", "Ende" und dergleichen),
um so verschiedene Prozesse hinsichtlich Anwendungen gemäß einem
Befehl entsprechend der erkannten Sprache durch das Verfahren der
Erfindung auszuführen.
Bezugszeichen 105 bedeutet die Speichereinheit, die im
Gerät vorgesehen
ist. Die Speichereinheit 105 speichert Steuerprogramme
für verschiedene
Prozesse, die die CPU 104 ausführt und die später zu erläutern sind,
verschiedene Parameter (beispielsweise Daten entsprechend einem
Wörterbuch,
das für
die Spracherkennung verwendet wird, und dergleichen), die für die Steuerprogramme,
zu erkennende Sprachdaten und dergleichen notwendig sind. Die Steuerprogramme und
die verschiedenen Parameter, die in der Speichereinheit 105 gespeichert
sind, können
vom Speichermedium 107 eingegeben werden oder können auch über eine Übertragungsleitung
eingegeben und gespeichert werden. Bezugszeichen 106 bedeutet
eine Übertragungs-I/F
zum Steuern einer Übertragung,
um so Daten durch Übertragungsmittel,
wie öffentliche
Leitung, LAN oder dergleichen, zu senden und zu empfangen. Es ist
auch möglich,
in der Weise vorzugehen, daß die
von einem anderen Gerät
eingegebene Sprache oder Steuerprogramme und verschiedene Parameter,
die in den anderen Geräten gespeichert
sind, über
die Übertragungs-I/F 106 in
das Gerät
geholt werden und in der Speichereinheit 105 gespeichert
werden, und danach wird jeder Prozeß, der nachstehend erläutert ist,
begonnen. Bezugszeichen 107 bedeutet das Speichermedium,
wie CD-ROM, FD oder dergleichen, das in den/vom Gerätegrundkörper eingefügt und herausgenommen
werden kann, nämlich
das Speichermedium, das die Steuerprogramme, verschiedene Parameter
und Sprachdaten speichern kann, die bereits beschrieben und in der
Speichereinheit 105 gespeichert wurden, und das eingefügt und herausgenommen
werden kann in den/vom Gerätegrundkörper. Die
Daten können
aus dem Speichermedium 107 in die Speichereinheit 105 heruntergeladen
werden, bevor verschiedene Prozesse beginnen, die hiernach zu erläutern sind,
oder die CPU 104 kann auch direkt auf das Speichermedium 107 zugreifen.
Steuerprogramme für
verschiedene Prozesse sind in der Speichereinheit 105 gespeichert;
und ein Parameterspeicherabschnitt, ein Sprachdatenspeicherabschnitt,
ein Arbeitsbereich und dergleichen sind daneben ebenfalls vorgesehen.
-
1 ist ein funktionales Blockaufbaudiagramm
eines Spracherkennungsgerätes
des Ausführungsbeispiels
nach der Erfindung. Im Diagramm bedeutet Bezugszeichen 1 ein
Mikrofon zur Spracheingabe. Das Mikrofon 1 ist realisiert
durch die Spracheingabeeinheit 103. Bezugszeichen 2 bedeutet
einen Sprachanalysator zum Umsetzen der eingegebenen Sprache in
eine Merkmalsparameterzeitserie; Bezugszeichen 3 bedeutet eine
Sucheinrichtung, die eine korrekte Erkennungsserie unter Verwendung
von Informationen aus Merkmalsparametern, Grammatik- und Phonemmodellen
sucht. Der Sprachanalysator 2 und die Sucheinrichtung 3 sind
von der CPU 104 in 6 realisiert.
Bezugszeichen 4 bedeutet eine Erkennungsgrammatik, und
Bezugszeichen 5 bedeutet ein Phonemmodell zur Spracherkennung.
Die Erkennungsgrammatik 4 und das Phonemmodell 5 zur
Spracherkennung verwenden in der Speichereinheit 105 oder
im Speichermedium 107 gespeicherte Daten.
-
Nachstehend
zuerst beschrieben ist
-
1) Eine Errechnung eines
Kepstrumlangzeitmittels (CM) durch einen Wichtungsprozeß der eingegebenen
Länge
-
Dieses
Verfahren ist ein solches, das einen Schätzwert von CM immer dann aktualisiert,
wenn ein Sprachrahmen eingegeben ist und der letzte Schätzwert von
CM aus dem letzten Sprachrahmen subtrahiert ist. Da jedoch die Anzahl
von Sprachrahmen, die zum Errechnen des Schätzwertes von CM verwendet werden,
gerade nach dem Start der Sprache gering ist, enthält der Wert
viele Fehler, so daß es
die Gefahr der Verschlechterung der Erkennungsausführung gibt.
Um diesen Nachteil zu überwinden,
wird eine Wichtung gemäß der Anzahl
von Rahmen bei der Errechnung des CM-Schätzwertes, nämlich die Anzahl eingegebener Rahmen
zu diesem Zeitpunkt, CM hinzugefügt.
Wenn die Anzahl eingegebener Rahmen gering ist, ist die hinzuzufügende Wichtung
verringert, wodurch die zu subtrahierende CM-Menge sinkt. Wenn andererseits
die Anzahl eingegebener Rahmen ansteigt, ist die Wichtung erhöht, wodurch
die zu subtrahierende CM-Menge vergrößert wird. Die Wichtung wird
in einem Bereich von 0 bis 1 gemäß der Anzahl
von Rahmen erhöht
oder verringert (Eingabezeitlänge).
-
Der
Sprachanalysator
2 führt
eine allgemeine Kepstrumanalyse der Sprache aus, die vom Mikrofon
1 hereinkommt.
Eine Normalisierung eines Parameters x
n des
n-ten Rahmens in einer eingegebenen Sprache, die nach der Analyse
abgeschnitten wurden, wird nach folgender Gleichung (1) ausgeführt, wodurch
ein normalisierter Parameter (x
n)' des n-ten Rahmens
gewonnen wird.
wobei μ
d CM
einer Datenbank ist und τ eine
Konstante ist.
-
Die
Wichtung n/(n + τ)
von der Rahmenmenge des zweiten Ausdrucks ist nicht auf die obige
Gleichung beschränkt,
sondern kann substituiert werden durch eine Funktion, bei der ein
Wert auf einen Wert innerhalb des Bereichs von 0 bis 1 mit einem
Anstieg in n gesetzt wird. Der Parameter (xn)', gewonnen durch
Normalisierung in der zuvor beschriebenen Weise, wird als Merkmalsparameter
erkannt.
-
Als
nächstes
beschrieben ist
-
(2) Ein Subtrahierprozeß von CM
unter Verwendung der Mehrfachdurchgangssuche
-
Das
Mehrfachdurchgangsverfahren ist ein solches des Annäherns korrekter
Antwortkandidaten durch häufiges
Wiederholen der Suche (wenigstens zweimal). Bei der ersten Suche
wird die Suche ausgeführt,
während
CM der eingegebenen Sprache errechnet wird. Bei der ersten Suche
wird CM der eingegebenen Sprache nicht zur Spracherkennung zurückgegeben.
Zur Zeit der zweiten Suche wird CM, gewonnen aus der gesamten eingegebenen
Sprache, in der die Spracheingabe bereits abgeschlossen ist und
die Errechnung abgeschlossen wurde, vom Spracheingabekepstrum subtrahiert,
wodurch das Multiplikationsstörgeräusch als
Fluktuation von Leitungseigenschaften beseitigt wird.
-
Die
Mehrfachdurchgangssuche wird in der Sucheinrichtung 3 in 1 angewandt. Es gibt ein Baum-Trellis
auf der Grundlage einer Suche oder einer Vorwärts-Rückwärts-Suche als Verfahren der
Erkennung durch Mehrfachdurchgangssuche. Die Suche, die auf Baum-Trellis
beruht, ist in Einzelheiten in der Literatur von F. K. Soong und
E. F. Huang beschrieben in "A
Tree-Trellis Based Fast Search for Finding the N Best Sentence Hypoteses
in Continuous Speech Recognition",
Proc. Of ICASSP91, Seiten 705 bis 708, Mai 1991. Die Vorwärts-Rückwärts-Suche
ist detailliert beschrieben in der Literatur von S. Austin, R. Schwartz
und P.
-
Placeway
in "The Forward-Backward
Search Algorithm",
Proc. Of ICASSP91, Seiten 697 bis 700, Mai 1991. Obwohl ein Beispiel,
das eine Suche verwendet, die auf Baum-Trellis basiert, im Ausführungsbeispiel beschrieben
wird, ist das Suchverfahren einer Sucheinrichtung 3 nicht
auf dieses Beispiel beschränkt.
Das Suchverfahren nach Baum-Trellis ist ein Algorithmus zum Realisieren
einer strikten N-Bestensuche und ist aufgebaut durch Suche zweier
Stufen der Vorwärts-
und der Rückwärtssuche.
Bei der Vorwärtssuche
(die erste Suche) wird eine Viterbi-Suche ausgeführt, die mit dem Rahmen synchronisiert
ist, und eine obere bestimmte Anzahl von Ergebnissen unter den Ergebnissen,
die in der Vorwärtssuche
erzielt werden, wird als Erkennungsergebniskandidaten der eingegebenen
Sprache ausgewählt.
Bei der Rückwärtssuche
(die zweite Suche) wird eine A*-Suche ausgeführt, in der Ergebnisse der
Vorwärtssuche
heuristisch in Hinsicht auf jeden ausgewählten Kandidaten ausgeführt wird.
-
In
den Suchen der beiden Stufen wird CM der gesamten eingegebenen Sprache
parallel mit der Suche zur Zeit der Vorwärtssuche errechnet, und das
sich ergebende CM wird subtrahiert, und der Suchprozeß wird zur
Zeit der Rückwärtssuche
ausgeführt,
wobei die Leitungseigenschaften normalisiert werden. Die Normalisierung
zur Zeit der Rückwärtssuche
erfolgt entweder durch die nachstehende Gleichung (2) oder (3).
wobei
N die Rahmenlänge
der eingegebenen Sprache bedeutet.
-
Da
gemäß Gleichung
(2) der subtrahierte Betrag von CM insbesondere in dem Fall verringert
wird, bei dem die Rahmenlänge
der eingegebenen Sprache kurz ist, können Fehler vom CM, die aufgrund
der kurzen Eingabezeitlänge
auftreten, verringert werden, und es ist effektiv, die Erkennungsleistung
zu verbessern.
-
Durch Ändern des
Normalisierungsverfahrens der eingegebenen Sprache gemäß der Vorwärtssuche und
der Rückwärtssuche,
wie zuvor erwähnt,
kann eine hinreichende Genauigkeit beibehalten werden, obwohl die
Bedingungen der A*-Suche nicht erfüllt sind, durch hinreichendes
Vergrößern eines
Stapels von N-Besten und Sortieren der Erkennungsergebniskandidaten
gemäß der Wahrscheinlichkeit.
-
Die
Verfahren 1) und 2) werden weiterhin kombiniert bei der Vorwärtssuche,
die Suche erfolgt nach dem Verfahren von 1), während das Normalisieren von
CM ausgeführt
wird, gewonnen durch den Wichtungsprozeß der eingegebenen Länge, und
in der Rückwärtssuche
wird die Normalisierung nach dem Verfahren 2) ausgeführt.
-
Ein
Ablauf der oben erwähnten
Rechnung ist in den Ablaufdiagrammen der 2 bis 4 gezeigt. 2 ist das Ablaufdiagramm
für ein
Spracherkennungsverfahren, das das Rechenverfahren mit CM durch
den Wichtungsprozeß der
eingegebenen Länge
von 1) verwendet. Der Eingabeparameter wird normalisiert (22) durch
die Gleichung (1) vor der Vorwärtssuche
(23). Zur Zeit der Rückwärtssuche
wird eine Logarithmuswahrscheinlichkeit eines jeden Parameters zur
Zeit der Vorwärtssuche
(24) errechnet und unverändert verwendet und addiert. 3 ist ein Ablaufdiagramm
für ein
Spracherkennungsverfahren, das das CM-Rechenverfahren zur Zeit der
Rückwärtssuche
unter Verwendung der Mehrfachdurchgangssuche in 2) verwendet. Zur
Zeit der Vorwärtssuche
(32) wird gemäß diesem
Verfahren die Suche unter Verwendung des Kepstrumparameters durch
die übliche
Sprachanalyse, die nicht normalisiert ist, durchgeführt. Nach
Abschluß der
Spracheingabe (33) wird jeder in der Vorwärtssuche
ausgewählte
Kandidat der Normalisierung der eingegebenen Parameter durch die
Gleichungen (2) oder (3) unterzogen, wodurch das Suchen (34)
erfolgt. Die Wahrscheinlichkeit zur Zeit der Vorwärtssuche
und diejenige zur Zeit der Rückwärtssuche
ist unterschiedlich, und die A*-Bedingung wird somit nicht erfüllt. Die
Erkennungsergebniskandidaten werden folglich entsprechend der Wahrscheinlichkeit
(35) sortiert, und das Ergebnis wird abgegeben (36). 4 bezieht sich auf die Kombination
des Verfahrens gemäß 1) und
2). Zur Zeit der Vorwärtssuche
(43) wird die Suche ausgeführt (42) unter Verwendung
der durch Gleichung (1) normalisierten Parameter. Zur Zeit der Rückwärtssuche
(44) wird die Suche ausgeführt unter Verwendung des Parameters
(44), der durch Gleichung (2) oder (3) normalisiert wurde.
Da auch in diesem Falle die Wahrscheinlichkeiten bei der Vorwärtssuche
und der Rückwärtssuche
offensichtlich unterschiedlich ausfallen, werden die Erkennungsergebniskandidaten
entsprechend der Wahrscheinlichkeit (46) gespeichert, und
das Erkennungsergebnis wird abgegeben (47). Die obigen
Prozesse werden für
jede eingegebene Sprache ausgeführt.
-
Das
Ausführungsbeispiel
ist zuvor in Hinsicht auf Beispiel des Normalisierens der Leitungseigenschaften
bei jeder Spracheingabe beschrieben worden. Wenn jedoch herausgefunden
wird, daß es
keine Fluktuation in den Leitungseigenschaften gibt, kann durch
Normalisieren der Leitungseigenschaften in Hinsicht auf die Vielzahl
von Spracheingaben die stabilere Normalisierung der Leitungseigenschaften
ausgeführt
werden. Bei der obigen Beschreibung werden jedesmal bei der Änderung
der eingegebenen Sprache der Wert von n in Gleichung (1) oder der
Wert von N in den Gleichungen (2) und (3) gelöscht. Beim Verfahren des Ausführens der
Normalisierung für
eine Vielzahl eingegebener Sprachen wird jedoch ein solcher Wert
nicht jedesmal gelöscht,
sondern der Wert wird für
eine Vielzahl von Spracheingaben gehalten und die Normalisierung
wird ausgeführt.
-
Obwohl
das obige Ausführungsbeispiel
in Hinsicht auf die Annahme des Kepstrums als Parameter beschrieben
wurde, kann ein Algorithmusspektrum ebenfalls anstelle des Kepstrums
verwendet werden.
-
5 ist ein Diagramm, das
eine Wirkung der Erfindung und eine Erkennungsverarbeitungszeit
eines jeden Verfahrens zeigt.
-
Die
Experimentalbedingungen sind folgende. Zuerst erfolgt die Bewertung
durch eine unspezifizierte Sprechersatzerkennung. Die Anzahl von
Wörtern
wird auf 1.004 gesetzt. Das Wort ist Perplexität 30.2. Die Analysebedingungen
werden eingestellt auf eine Abtastrate von 8 kHz, auf eine Rahmenperiode
von 10 ms, eine Fensterbreite von 25,6 ms und auf eine Anhebung
von 0,97. Hinsichtlich der Merkmalsbeträge werden ein LPC-Melkepstrum
vom 12-ten Grad, ein ΔLPC-Melkepstrum
vom 12-ten Grad und eine Δ-Logarithmushochzahl
verwendet. Bei der Spracherkennung wird ein HMM von 3 Zuständen und
6 Mischungen in einem Erkennungssystem verwendet, bei dem HMM als
Basis dient, und 243 Arten rechter Umgebungsabhängigkeitsphonemen HMM werden
in einer Diagonalisierungs-Covarianzmatrix verwendet. Erkennungsziele
sind 50 Sätze,
die von 10 Sprechern geäußert werden.
Durch Senden der Sprachen durch ein Bandpaßfilter von 300 bis 3.200 Hz
wird eine Verzerrung der Leitungseigenschaften angegeben. Gemäß dem herkömmlichen
Verfahren kann der Normalisierungsprozeß nur zum Zeitpunkt ausgeführt werden,
wenn die Sprachäußerung beendet
ist, so daß es
1 s oder länger
als Erkennungszeit nach dem Ende der Äußerung dauert. In jedem Fall wird
andererseits gemäß dem Ausführungsbeispiel
die Erkennung für
ein Zeitintervall von 0,05 s bis etwa 0,26 s nach dem Ende der Äußerung beendet.
Ein numerischer Wert, der im unteren Abschnitt des Diagramms gezeigt
ist, zeigt eine Erkennungsrate eines jeden Verfahrens im Falle des
Justierens von τ auf.
Zum Vergleich ist eine Erkennungsrate im Falle des Nichtausführens der
Normalisierung von Zeileneigenschaften gleich 65,0%. Gemäß dem Kombinationsverfahren
von 1) + 2) ist die Verringerung der Erkennungsrate sehr gering, wie
leicht zu verstehen ist, und der Rechenumfang kann bemerkenswert
reduziert werden. Nach dem zuvor beschriebenen Verfahren kann die
Verarbeitung der Normalisierung der Verzerrung von den Zeileneigenschaften
synchron mit der Spracheingabe erfolgen und die Leitungseigenschaften
lassen sich mit hoher Geschwindigkeit normalisieren.