DE60018696T2

DE60018696T2 - Robuste sprachverarbeitung von verrauschten sprachmodellen

Info

Publication number: DE60018696T2
Application number: DE60018696T
Authority: DE
Inventors: Chao-Shih Huang
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-07-01
Filing date: 2000-06-27
Publication date: 2006-04-06
Anticipated expiration: 2020-06-28
Also published as: JP2003504653A; JP4818556B2; DE60018696D1; US6865531B1; WO2001003113A1; EP1116219B1; EP1116219A1

Description

Die Erfindung betrifft Sprachverarbeitung, wie z.B. Spracherkennung oder Sprachcodierung, eines verschlechterten Sprachsignals.
Zunehmend werden automatische Spracherkennung und Codierungssysteme verwendet. Obwohl die Leistungsfähigkeit derartiger Systeme sich ständig verbessert, ist es erwünscht, dass die Genauigkeit weiter erhöht wird, insbesondere in ungünstigen Umgebungen, wie z.B. mit geringem Rauschabstand (SNR: signal-to-noise ratio) oder niedrigem Bandbreitensignal. Normalerweise vergleichen Spracherkennungssysteme eine Repräsentation Y, wie z.B. einen Beobachtungsvektor mit LPC oder Cepstralanteilen, eines Eingabesprachsignals mit einem Modell Lx von Bezugssignalen, wie z.B. aus Repräsentationen X, wie z.B. Bezugsvektoren, eines Trainingssprachsignals aufgebaute Hidden-Markov-Modelle (HMMs).
In der Praxis liegt zwischen den Bedingungen, unter denen die Bezugssignale (und damit die Modelle) erhalten wurden und den Eingabesignalbedingungen eine Nichtübereinstimmung vor. Eine derartige Nichtübereinstimmung kann insbesondere in dem SNR und/oder der Bandbreite des Signals liegen. Die Bezugssignale sind gewöhnlich relativ rein (hoher SNR, große Bandbreite), während das Eingabesignal beim tatsächlichen Gebrauch verzerrt ist (niedrigerer SNR, und/oder geringere Bandbreite).
In EP 0 788 090 wird zuerst das Signal analysiert, um die Rauschumgebung zu bestimmen und es wird ein entsprechendes akustisches Modell selektiert, um das Signal weiter zu verarbeiten.
US 5.727.124 beschreibt einen stochastischen Ansatz, um die Nichtübereinstimmung zwischen dem Eingabesignal und dem Bezugsmodell zu verkleinern. Das bekannte Verfahren arbeitet mit einem Maximum-Likelihood-(ML-)Ansatz, um die Nichtübereinstimmung zwischen dem Eingabesignal (beobachtete Äußerung) und den ursprünglichen Sprachmodellen während der Erkennung der Äußerung zu verkleinern. Die Nichtübereinstimmung kann auf die folgenden zwei Weisen verringert werden:

• Eine Repräsentation Y des verzerrten Eingabesignals kann auf eine Schätzung einer ursprünglichen Repräsentation X abgebildet werden, sodass die ursprünglichen Mo delle Λ_x, die aus den ursprünglichen Signalrepräsentationen X abgeleitet wurden, für die Erkennung genutzt werden können. Diese Abbildung operiert im Merkmalraum und kann als F_ν(Y) beschrieben werden, wobei ν zu schätzende Parameter repräsentiert.
• Die ursprünglichen Madelle Λ_x können in transformierte Modelle Λ_y abgebildet werden, die besser mit der beobachteten Äußerung Y übereinstimmen. Diese Abbildung operiert im Modellraum und kann als G_η(Λ_x) beschrieben werden, wobei η zu schätzende Parameter repräsentiert.

Die Parameter ν und/oder η werden unter Verwendung des Erwartungsmaximierungsalgorithmus geschätzt, um die Mutmaßlichkeit der beobachteten Sprache Y bei gegebenen Modellen Λ_x. zu verbessern. Der stochastische Abgleichalgorithmus arbeitet nur mit der gegebenen Testäußerung und der gegebenen Menge von Sprachmodellen. Für die Schätzung der Nichtübereinstimmung ist vor dem tatsächlichen Testen kein Training erforderlich. Die Abbildungen werden in US 5.727,124 beschrieben.
Beide Verfahren können auch kombiniert werden, wobei die Repräsentation Y des verzerrten Eingabesignals auf eine Schätzung einer ursprünglichen Repräsentation X abgebildet wird und die ursprünglichen Modelle Λ_x auf transformierte Modelle abgebildet werden, die besser mit der geschätzten Repräsentation X übereinstimmen. Die Verfahren können in iterativer Weise verwendet werden, wobei das transformierte Signal und/oder die transformierten Modelle das jeweilige ursprüngliche Eingabesignal und/oder die Modelle ersetzen. Auf diese Weise werden das Eingabesignal und die Modelle iterativ transformiert, um eine statistische, bessere Übereinstimmung zwischen dem Eingabesignal und den Modellen zu erhalten. Bei diesem Prozess kann ein relativ verrauschtes Eingabesignal in ein reineres Eingabesignal transformiert werden, während relativ reine Modelle in verrauschtere Modelle transformiert werden könnten.
Zur Erkennung werden Modelle gewöhnlich unter den besten (reinen) Bedingungen trainiert werden, um optimale Erkennung zu erhalten. Bei dem bekannten Verfahren werden die Modelle auf Basis des verzerrten Eingabesignals transformiert. Dies verschlechtert die Leistungsfähigkeit, insbesondere für kleine SNR-Verhältnisse, was es schwierig macht, die optimale Leistungsfähigkeit zu erhalten, die mit den ursprünglichen Modellen erreicht werden könnte. Darüber hinaus nimmt das Risiko zu, das Signal und/oder die Modelle in einer falschen Richtung zu transformieren, wenn die Nichtübereinstimmung zwischen den ursprünglichen Modellen und dem Eingabesignal signifikant ist, (wenngleich sie sich statistisch annähern können.) Dies ist beispielsweise der Fall, wenn das Eingabesignal einen geringen Rauschabstand aufweist, was es schwierig macht, das ursprüngliche Signal zuverlässig zu schätzen.
Der Erfindung liegt unter anderem als Aufgabe zugrunde, ein Sprachverarbeitungsverfahren und Sprachverarbeitungssystem zu verschaffen, das insbesondere unter ungünstige Bedingungen zu verbesserter Sprachverarbeitung fähig ist.
Zur Lösung der Aufgabe der Erfindung, wie in Anspruch 1 und 6 beansprucht, enthält das Verfahren zur Verarbeitung eines verschlechterten Spracheingabesignals:

– Empfangen des verschlechterten Spracheingabesignals;
– Schätzen einer Bedingung, wie z.B. den Rauschabstand oder die Bandbreite, für das empfangene Eingabesignal;
– Selektieren eines Verarbeitungsmodells, das der geschätzten Signalbedingung entspricht;
– Schätzen eines ursprünglich geäußerten Sprachsignals auf Basis des empfangenen Eingabesignals
– Verarbeiten des geschätzten ursprünglichen Signals gemäß dem selektierten Modell; und
– Ausgeben eines Verarbeitungsergebnisses.

Bei dem erfindungsgemäßen Verfahren wird, ausgehend von einer anfänglichen Schätzung für eine Bedingung des Signals (z.B. SNR oder Bandbreite), ein Verarbeitungsmodell selektiert, wobei das neue Modell eine Funktion der geschätzten Signalbedingung ist. Vorzugsweise wird ein Modell selektiert, das optimal für die Signalbedingung trainiert worden ist. Auch eine Schätzung der ursprünglich geäußerten Sprache wird durchgeführt. Indem sowohl ein passendes Modell selektiert wird als auch die ursprüngliche Sprache geschätzt wird, verbessert sich die Verarbeitungsgenauigkeit auf "Push-pull"-Weise. Bei dem bekannten System wird das derzeitige Modell in ein neues transformiert, bei dem die Transformation eine Funktion des Eingabesignals Y (Λ_y = G_η(Λ_x)) ist. Bei dem erfindungsgemäßen Verfahren findet keine Modelltransformation statt, sodass Verschlechterung des Modells vermieden wird. Stattdessen wird ein Modell verwendet, das zu der geschätzten Signalbedingung passt.
Die Schätzung der ursprünglich geäußerten Sprache beruht auf einem zuvor bestimmten Verarbeitungsmodell Λ_x. Vorzugsweise beruht die Schätzung auf einer Maximum-Likelihood-Schätzung (MLE: Maximum Likelihood Estimation). Beispielsweise kann der MLE-Ansatz von US 5.727.124 verwendet werden, bei dem die geschätzte ursprüngliche Sprache X durch: X = F_ν(Y) gegeben ist, wobei die Parameters ν durch:
gegeben sind. Das zum Schätzen der ursprünglichen Sprache verwendete Verarbeitungsmodell ist das Modell Λ_x(ξ), das als zu der geschätzten Signalbedingung ξ passend selektiert worden ist. Auf diese Weise wird die Genauigkeit des Schätzens des ursprünglichen Signals erhöht.
Es wird eine iterative Prozedur verwendet, bei der bei jeder Iteration die Signalbedingung erneut geschätzt, ein auf der neuen Signalbedingung basiertes neues Modell selektiert und eine neue Schätzung der ursprünglichen Sprache (unter Verwendung des dann selektierten Modells) vorgenommen wird. Das zuerst selektierte Modell wirkt als Diskriminationsstartwert für die weiteren Bootstrap-Operationen. Die Iteration hört auf, wenn ein Kriterium erfüllt ist (z.B. die Erkennung mit dem dann selektierten Modell ist adäquat oder verbessert sich nicht mehr (z.B. wird schlechter) im Vergleich zu einer mit einer vorhergehenden Erkennung erhaltenen Mutmaßlichkeit). Der Iterationsprozess kann mit einer konservativen Schätzung der Verschlechterung des Signals starten (z.B. ein relativ großer SNR), wobei bei jeder Iteration die Signalbedingung verschlechtert wird (z.B. wird ein kleinerer SNR selektiert).
Zur Lösung der Aufgabe der Erfindung enthält das Sprachverarbeitungssystem zur Verarbeitung eines verschlechterten Spracheingabesignals:

– einen Eingang zum Empfangen des verschlechterten Spracheingabesignals;
– Mittel zum Schätzen einer Bedingung, wie z.B. den Rauschabstand oder die Bandbreite, des empfangenen Eingabesignals, und um darüber hinaus iterativ eine neue Schätzung der Signalbedingung für das empfangene Eingabesignal auszuführen;
– Mittel zum Selektieren eines der geschätzten Signalbedingung entsprechenden Verarbeitungsmodells, und um darüber hinaus iterativ ein der neu geschätzten Signalbedingung entsprechendes Verarbeitungsmodell zu selektieren;
– Mittel zum Schätzen eines ursprünglich geäußerten Sprachsignals auf Basis des empfangenen Eingabesignals einschließlich Bestimmen eines am wahrscheinlichtsten geäußerten Sprachsignals im Hinblick auf ein zuvor bestimmtes, als der geschätzten Sig nalbedingung entsprechend selektiertes Verarbeitungsmodell, und um darüber hinaus ein ursprünglich geäußertes Sprachsignal auf Basis des geschätzten ursprünglichen Signals einer unmittelbar vorhergehenden Iteration im Hinblick auf das selektierte Verarbeitungsmodell iterativ zu schätzen;
– Mittel zum iterativen Verarbeiten des geschätzten ursprünglichen Signals gemäß dem selektierten Modell;
– Mittel zum Beenden der Iteration, wenn eine zuvor bestimmte Bedingung erfüllt ist, und
– einen Ausgang zum Ausgeben eines Verarbeitungsergebnisses.

Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben.
1 zeigt ein Blockschaltbild eines herkömmlichen Sprachverarbeitungssystems, in dem die Erfindung verwendet werden kann;
2 veranschaulicht herkömmliche bei der Sprachverarbeitung verwendete Wortmodelle;
3 veranschaulicht eine iterative Ausführungsform des erfindungsgemäßen Verfahrens;
4 zeigt ein Blockschaltbild eines erfindungsgemäßen Sprachverarbeitungssystems;
5 zeigt ein Blockschaltbild eines Sprachverarbeitungssystems, bei dem das erfindungsgemäße Verfahren zweimal genutzt wird, um eine Verschlechterung von SNR und Bandbreite zu überwinden; und
6, 7, und 8 veranschaulichen mit dem Verfahren und dem System gemäß der Erfindung erhaltene Ergebnisse.
Allgemeine Beschreibung eines Spracherkennungssystems

Spracherkennungssysteme, wie z.B. Erkennungssysteme für kontinuierliche Sprache mit großem Vokabular, verwenden typischerweise eine Sammlung von Erkennungsmodellen, um ein Eingabemuster zu erkennen. Beispielsweise können ein akustisches Modell und ein Vokabular zum Erkennen von Wörtern und ein Sprachmodell zum Verbessern des Basis-Erkennungsergebnisses verwendet werden. 1 veranschaulicht eine typische Struktur eines Erkennungssystems 100 für kontinuierliche Sprache mit großem Vokabular [vergleiche L.Rabiner, B-H. Juang, "Fundamentals of speech recognition", Prentice Hall 1993, S. 434 bis 454). Die folgenden Definitionen werden zum Beschreiben des Systems und des Erkennungsverfahrens verwendet:

Λ_x:	eine Menge aus trainierten Sprachmodellen
X:	die ursprüngliche Sprache, die zu dem Modell passt, Λ_x
Y:	die Testsprache
Λ_y:	die passenden Modelle für die Testumgebung.
W.	die Wortsequenz.
S:	die decodierten Sequenzen, die Wörter, Silben, Teilworteinheiten, Zustände oder Mischungskomponenten oder andere geeignete Repräsentationen sein können.

Das System 100 umfasst ein Spektralanalyse-Subsystem 110 und ein Untereinheitenvergleichssubsystem ("Unit Matching"-Subsystem) 120. In dem Spektralanalyse-Subsystem 110 wird das Spracheingabesignal (SIS) spektral und/oder zeitlich analysiert, um einen repräsentativen Merkmalsvektor (Beobachtungsvektor, OV) zu berechnen. Typischerweise wird das Sprachsignal digitalisiert (z.B. bei einer Rate von 6,67 kHz abgetastet) und vorverarbeitet, beispielsweise mittels Vorverstärkung. Aufeinander folgende Abtastwerte werden zu Rahmen gruppiert (als Blöcke), die beispielsweise 32 ms eines Sprachsignals entsprechen. Aufeinander folgende Rahmens überlappen teilweise, beispielsweise für 16 ms. Häufig wird das "Linear Predictive Coding"- (LPC: Lineare Prädiktionscodierung)-Spektralanalyseverfahren verwendet, um für jeden Rahmen einen repräsentativen Merkmalsvektor (Beobachtungsvektor) zu berechnen. Der Merkmalsvektor kann beispielsweise 24, 32 oder 63 Komponenten haben. Der Standardansatz für Erkennung kontinuierlicher Sprache mit großem Vokabular ist, ein Wahrscheinlichkeits-Spracherzeugungsmodell anzunehmen, bei dem eine bestimmte Wortsequenz W = w₁w₂w₃...w_q eine Sequenz von akustischen Beobachtungsvektoren Y = y₁y₂y₃...y_T erzeugt. Der Erkennungsfehler kann statistisch minimiert werden, indem die Sequenz von Wörtern w₁w₂w₃...w_q bestimmt wird, die am wahrscheinlichsten die beobachtete Sequenz von Beobachtungsvektoren y₁y₂y₃...y_T bewirkt haben (über die Zeit t = 1,..., T), wobei die Beobachtungsvektoren das Resultat des Spektralanalyse-Subsystems 110 sind. Dies führt zum Bestimmen der maximalen A-posteriori-Wahrscheinlichkeit:
max P(W|Y, Λ_x), für alle möglichen Wortsequenzen W
Durch Anwendung des Theorems von Bayes über bedingte Wahrscheinlichkeiten ergibt sich P(W|Y, Λ_x) zu:
Da P(Y) unabhängig von W ist, ergibt sich die wahrscheinlichste Wortsequenz zu:
Bei dem "Unit Matching"-Subsystem 120 liefert ein akustisches Modell den ersten Term der Gleichung (I). Das akustische Modell wird verwendet, um die Wahrscheinlichkeit P(Y|W) einer Sequenz von Beobachtungsvektoren Y für eine gegebene Wortkette W zu schätzen. Für ein System mit großem Vokabular erfolgt dies gewöhnlich durch Prüfen der Beobachtungsvektoren und eines Bestandes an Spracherkennungseinheiten auf Gleichheit. Eine Spracherkennungseinheit wird durch eine Sequenz von akustischen Referenzen repräsentiert. Verschiedene Formen von Spracherkennungseinheiten können verwendet werden. Als Beispiel kann ein ganzes Wort oder sogar eine Gruppe von Wörtern durch eine einzige Spracherkennungseinheit repräsentiert werden. Ein Wortmodell (WM) liefert für jedes Wort eines gegebenen Vokabulars eine Transkription in eine Sequenz von akustischen Referenzen. Bei den meisten Spracherkennungssystemen mit kleinem Vokabular wird ein ganzes Wort von einer Spracherkennungseinheit repräsentiert, wobei in diesem Fall eine direkte Beziehung zwischen dem Wortmodell und der Spracherkennungseinheit besteht. Bei anderen Systemen mit kleinem Vokabular, die beispielsweise verwendet werden, um eine relativ große Anzahl Wörter (z.B. mehrere Hundert) zu erkennen, oder bei Systemen mit großem Vokabular können linguistisch basierte Teilworteinheiten, wie z.B. Phone, Diphone oder Silben, sowie abgeleitete Einheiten, wie z.B. Fenene und Fenone verwendet werden. Für derartige Systeme wird ein Wortmodell durch ein Lexikon 134 gegeben, das die Sequenz von mit einem Wort des Vokabulars zusammenhängenden Teilworteinheiten beschreibt, und die Teilwortmodelle 132, die Sequenzen von akustischen Referenzen der beteiligten Spracherkennungseinheit beschreiben. Ein Wortmodellcomposer 136 stellt das auf dem Teilwortmodell 132 und dem Lexikon 134 basierende Wortmodell auf.
2A veranschaulicht ein Wortmodell 200 für ein auf Ganzwort-Spracherkennungseinheiten beruhendes System, wobei die Spracherkennungseinheit des dargestellten Wortes unter Verwendung einer Sequenz von zehn akustischen Referenzen (201 to 210) modelliert worden ist. 2B veranschaulicht ein Wortmodell 220 für ein auf Teilworteinheiten beruhendes System, wobei das dargestellte Wort durch ein Sequenz von drei Teilwortmodellen (250, 260 und 270) modelliert worden ist, jedes mit einer Sequenz von vier akustischen Referenzen (251, 252, 253, 254; 261 to 264; 271 to 274). Die in 2 gezeigten Wortmodelle beruhen auf Hidden-Markov-Modellen (HMMs), die viel verwendet werden, um Sprachsignale stochastisch zu modellieren. Bei Verwendung dieses Modells wird jede Erkennungseinheit (Wortmodell oder Teilwortmodell) typischerweise durch ein HMM gekennzeichnet, dessen Parameter aus einer Trainingsmenge von Daten geschätzt werden. Für Spracherkennungssysteme mit großem Vokabular wird gewöhnlich eine begrenzte Menge von beispielsweise 40 Teilworteinheiten verwendet, das es viele Trainingsdaten erfordern würde, um ein HMM für größere Einheiten zu trainieren. Ein HMM-Zustand entspricht einer akustischen Referenz. Verschiedene Techniken sind für das Modellieren einer Referenz bekannt, einschließlich diskrete oder kontinuierliche Wahrscheinlichkeitsdichten. Jede Sequenz von akustische Referenzen, die mit einer bestimmten Äußerung zusammenhängen, wird auch als akustische Transkription der Äußerung bezeichnet. Es versteht sich, dass bei Verwendung anderer Erkennungstechniken als HMMs Details der akustischen Transkription unterschiedlich sein werden.
Ein in 1 dargestelltes Abgleichsystem 130 auf Wortebene prüft die Beobachtungsvektoren und alle Sequenzen von Spracherkennungseinheiten auf Gleichheit und liefert die Mutmaßlichkeiten einer Übereinstimmung zwischen dem Vektor und einer Sequenz. Bei Verwendung von Teilworteinheiten können durch Verwendung des Lexikons 134 Randbedingungen an die Gleichheitsüberprüfung gestellt werden, um die mögliche Sequenz von Teilworteinheiten auf Sequenzen in dem Lexikon 134 zu begrenzen. Dies reduziert das Resultat auf mögliche Sequenzen von Wörtern.
Darüber hinaus kann ein Abgleichsystem 140 auf Satzebene verwendet werden, das, auf einem Sprachmodell (LM) beruhend, weitere Randbedingungen an die Gleichheitsprüfung stellt, sodass die untersuchten Pfade diejenigen sind, die Wortsequenzen entsprechen, welche korrekte Sequenzen sind, wie sie durch das Sprachmodell spezifiziert werden. Als solches liefert das Sprachmodell den zweiten Term P(W) der Gleichung (1). Das Kombinieren der Ergebnisse des akustischen Modells mit jenen des Sprachmodells führt zu einem Resultat des "Unit Matching"-Subsystems 120, das ein erkannter Satz (RS) 152 ist. Das bei der Mustererkennung verwendete Sprachmodell kann syntaktische und/oder semantische Randbedingungen 142 der Sprache und der Erkennungsaufgabe ent halten. Ein auf syntaktischen Randbedingungen beruhendes Sprachmodell wird gewöhnlich als eine Grammatik 144 bezeichnet. Die von dem Sprachmodell verwendete Grammatik 144 liefert die Wahrscheinlichkeit einer Wortsequenz W = w₁w₂w₃...w_q, die im Prinzip durch P(W) = P(w1)P(w2|w1).P(w3|w1w2)...P(wq|w1w2w3...Wq).gegeben wird. Da es in der Praxis unmöglich ist, die bedingten Wortwahrscheinlichkeiten für alle Wörter und alle Sequenzlängen in einer vorgegebenen Sprache zuverlässig zu schätzen, werden N-Gramm-Wortmodelle viel verwendet. In einem N-Gramm-Modell wird der Term P(wj|w1w2w3...wj-1) durch P(wj|wj-N+l...wj-1) angenähert. In der Praxis werden Bigramme oder Trigramme verwendet. In einem Trigramm wird der Term P(wj|w1w2w3...wj-1) durch P(wj|wj-2wj-1) angenähert.
Das erfindungsgemäße Sprachverarbeitungssystem kann mit herkömmlicher Hardware implementiert werden. Beispielsweise kann ein Spracherkennungssystem auf einem Computer, wie z.B. einem PC implementiert werden, wo die Spracheingabe über ein Mikrofon empfangen und mit einer herkömmlichen Audio-Interface-Karte digitalisiert wird. Die gesamte zusätzliche Verarbeitung erfolgt in Form von Software-Prozeduren, die von der Zentraleinheit ausgeführt werden. Insbesondere kann die Sprache über einer Telefonverbindung empfangen werden, z.B. mit einem herkömmlichen Modem in dem Computer. Die Sprachverarbeitung kann auch mit zweckgebundener, z.B. um einen DSP (digitalen Signalprozessor) herum gebauter Hardware ausgeführt werden.
Ausführliche Beschreibung der Erfindung:
Gemäß der Erfindung wird ein Abgleichalgorithmus verwendet, um die abgeglichenen Leistungsfähigkeiten für robuste Spracherkennung zu übertreffen. Vorzugsweise wird der Algorithmus iterativ verwendet, und die Gleichheitsprüfung beruht auf einer stochastischen Gleichheitsprüfung: dem Successive Stochastic Matching (SSM)-Algorithmus. Der Algorithmus kann im Prinzip verwendet werden, um mit einer beliebigen verschlechterten Signalbedingung umzugehen. Insbesondere werden zwei parametrische Formen beschrieben. Die erste wird "SNR-incremental stochastic matching (SISM)" für verrauschte Spracherkennung genannt, wobei SNR den Rauschabstand bezeichnet; die zweite wird "Bandwidth-incremental stochastic matching (BISM)" genannt, um die Erkennungsgenauigkeit für schmalbandige Sprache zu verbessern und sich den Leistungsfähigkeiten der Sprachmodelle anzunähern, die von hochqualitativer Mikrofonsprache aus trai niert worden sind. Beide Formen der Algorithmen können auch kombiniert werden. Der Algorithmus ist speziell für Telefonspracherkennung geeignet. Er kann jedoch auch beispielsweise für Spracherkennung genutzt werden, bei der ein Mikrofon direkt an eine Verarbeitungseinheit, wie z.B. einen PC angeschlossen ist, obwohl in diesem Fall die verwendete Signalbedingung im Allgemeinen besser ist, sodass eine geringere Verbesserung erreicht werden kann. Bei dem erfindungsgemäßen Algorithmus wird ein "bootstrapped" und vorzugsweise gut nachtrainiertes Modell, das gute Diskriminationseigenschaften hat, verwendet, um die Erkennung zu verbessern, die Bootstrap-Operation. Diese wird vorzugsweise während jeder Iteration wiederholt. Außer für Spracherkennung kann der Algorithmus auch für Sprachcodierung verwendet werden (insbesondere für eine Übertragung über ein Telefonsystem). Für diese Anwendung werden Bootstrap-Codebücher/Codierer anstelle von Bootstrap-Modellen/Erkenner verwendet, d.h. Λ_x(ξ) bezeichnet die Bootstrap-Codebücher für die Codierung statt eines Spracherkennungsmodells.
Die iterative Version des Algorithmus ist folgendermaßen und so, wie in 3 veranschaulicht:
Initialisierung:

Schritt 300: Parameter initialisieren: l = 0, wobei l die Iterationszahl bezeichnet, ν^(l) = ν₀, wobei ν die Parametermenge der inversen Funktion F_ν, ist und ^XX^(l) = Y, wobei Y die empfangene Eingabesprache (die Testsprache), und ^XX eine Schätzung der ursprünglich geäußerten Sprache ist; und eine anfängliche Signalbedingung ξ^(l) schätzen (ξ repräsentiert die Signalbedingung, wie den SNR oder die Bandbreite)

Rekursion:
Schritt 310: Ein passendes Bootstrap-Modell Λ_x(ξ^(l)) selektieren, z.B. aus einer Menge von gespeicherten Modellen 320
Schritt 330: Die Sprache erkennen:
Schritt 340: Ein zuvor bestimmtes Stoppkriterium überprüfen. Wenn das Kriterium erfüllt ist, dann STOPPEN und AUSGABE S (350)
Schritt 360: Schätzen ν:
Schritt 370: Die ursprüngliche Sprache schätzen:
Schritt 380: Die Schätzung der Signalbedingung erhöhen: ξ^(l+1) = = ξ^(l) + δ, (δ > 0)
Erneut iterieren: l → l + 1 und zu Schritt 310 weitergehen
In Schritt 310 wird ein Bootstrap-Modell selektiert, das zu der Signalbedingung ξ^(l) passt. Vorzugsweise umfasst das System mehrere Modelle, die je für eine unterschiedliche Signalbedingung optimiert sind. Die Selektion beinhaltet dann einfach das Laden des zu der Signalbedingung ξ^(l) gehörenden Modells. Ein solche Menge von Modellen kann aus der gleichen ursprünglichen "reinen" Sprachaufzeichnung kreiert werden. Für den SISM-Algorithmus kann beispielsweise weißes Gauß'sches Rauschen zu der reinen Sprache hinzugefügt werden, um das Signal so zu "verunreinigen", dass es einen gewünschten SNR hat, gefolgt von einem Training eines Modells zur Erkennung aus den verunreinigten Sprachsignalen. Das Modell wird dann zusammen mit dem SNR (ξ) gespeichert. Dies kann für mehrere SNRs erfolgen, was zu einer Menge von nachtrainierten Modellen führt. Natürlich können auch Sprachaufzeichnungen unter verschiedenen Signalbedingungen gemacht werden, wobei die Modelle dann statt aus verunreinigten Aufzeichnungen aus der ursprünglichen Aufzeichnung kreiert werden.
In Schritt 340 beruht zur Spracherkennung das Stoppkriterium vorzugsweise auf dem Erkennungsergebnis mit dem derzeitigen Modell. Wenn das Erkennungsergebnis ausreichend ist (z.B. auf Vertrauensmaßen beruht) oder die Mutmaßlichkeit nicht mehr zunimmt, kann die Iteration gestoppt werden.
Man wird erkennen, dass in Schritt 360 und 370 eine Schätzung der ursprünglichen Sprache auf der inversen Funktion F_ν beruht. Im Prinzip können auch andere geeignete Verfahren zum Abbilden des derzeitigen Sprachsignals auf eine verbesserte Schätzung verwendet werden, vorzugsweise unter Verwendung des derzeit selektierten Modells Λ_x(f).
Bei einer nicht iterativen Version des Algorithmus ist es ausreichend, nur Schritt 370 auszuführen. Dies kann beispielsweise durch Ausführen der folgenden Sequenz erreicht werden: Schritte 300, 310, 360, 370, 380, 310, und 330, gefolgt durch das Ausgeben des Erkennungsergebnisses (Schritt 350).
Allgemeine Eigenschaften:

1. P{Y(ξ')|Λ_x(ξ')} ≥ P{Y(ξ)|Λ_x(ξ)} für ξ' ≥ ξ, wobei f und f' die Signalbedingung (z.B. SNR oder Bandbreite) angeben und Y(ξ) die Testsprache bei der Signalbedingung ξ angibt. Diese Eigenschaft impliziert, dass die abgeglichene Leistungsfähigkeit beispielsweise bei hohem SNR oder großer Bandbreite besser ist als die bei niedrigem SNR oder kleiner Bandbreite.
2. P{Y(ξ)|Λ_x(ξ)} ≥ P{Y(ξ)|Λ_x(ξ')} für ξ' ≠ ξ, wobei ξ und ξ' SNR nur bei dieser Eigenschaft angeben.

Eigenschaften von SSM:

1. Gemäß den obigen zwei Eigenschaften wird das lokale Maximum von P bei den ~ξξ, ~ξξ ∈ [ξ⁽⁰⁾,ξ⁽⁰⁾ + Θ],Θ > 0 liegen. Das bedeutet, dass es möglich ist, die abgeglichenen Leistungsfähigkeiten zu übertreffen.
2. Von der decodierten Sequenz, S = {S_i, l <= i <= T}, ist zu erwarten, dass sie die optimale Lösung in jedem rekursiven Schritt ist, indem automatisch das passende Bootstrap-Modell selektiert wird.
3. Die Modelle Λ_x(ξ), die bei unterschiedlichen Signalbedingungen (unterschiedliche SNRs für SISM oder unterschiedliche Bandbreiten für BISM) gut trainiert sind, sind die Bootstrap-Modelle zum Gewinnen der Diskrimination.

Die anfängliche gemeinsame Bootstrap-Operation ist ein Kernmerkmal im SSM-Algorithmus. In dem anfänglichen Schritt wird ein passendes Modell als Diskriminationsstartwert für weitere Bootstrap-Operationen selektiert. Es ist eine optimale Initialisierung mit der größten Diskriminationsleistung. Das bedeutet, dass der Startwert die geringste Nichtübereinstimmung zwischen Modell und Eingabesignal annehmen kann, beruhend auf dem Sinn der Maximum-Likelihood-Schätzung. Bei einem Bootstrap-Schritt wird das Modell durch die Funktion der Signaltredingung, wie SNR oder Bandbreite, verändert, d.h. Λ_x(ξ), und die Testsprache wird auch in eine Schätzung der ursprünglichen Sprache (z.B. durch die inverse Funktion, F_ν) aktualisiert. Es impliziert "Push-pull" zu Erkennungsleistungsfähigkeiten mit höherem SNR für SISM oder größerer Bandbreite für BISM. Vorzugsweise wird die Bootstrap-Operation iterativ ausgeführt. Auf diese Weise kann die Sig nalbedingung zur gegenseitigen Optimierung von Merkmalen und Modellen aufeinander folgend verbessert werden (z.B. Erhöhung des SNR oder der Bandbreite).
Bei dem SSM-Algorithmus wird in Schritt 300 eine anfängliche Schätzung der Signalbedingung (SNR für SISM oder Bandbreite für BISM) vorgenommen, um ein passendes Bootstrap-Modell als Diskriminationsstartwert zu selektieren. Die anfängliche Schätzung kann auf typischen Bedingungen für eine spezielle Anwendung beruhen. Auch ein (einfacher) Test des Signals kann erfolgen. Die optimale Zustands/Mischungssequenz kann in jedem rekursive Schritt über passende Bootstrap-Modelle erhalten werden. Ein beispielhaftes Blockschaltbild eines Spracherkennungssystems, das den SSM-Algorithmus nutzt, wird in 4 gezeigt. In Block 410 werden aus dem empfangenen Sprachsignal Merkmale extrahiert. Dies kann in einer für das Spektralanalyse-Subsystem 110 von 1 beschriebenen Weise erfolgen. In Block 420 wird eine Schätzung der Signalbedingung vorgenommen. Dies kann auf Messung/Schätzung einer derartigen Bedingung in bekannter Weise beruhen oder kann einfach eine konservative Schätzung sein (für die gegebene Anwendung gibt es minimal nur eine typische moderate Verschlechterung). In Block 430 wird die Sprache in normaler Weise verarbeitet (z.B. in einer Weise, wie sie für das "Unit Matching"-Subsystem 120 von 1 beschrieben worden ist), wo gemäß der Erfindung aus einem Speicher 440, der eine Menge von Modellen für unterschiedliche Signalbedingungen umfasst, ein Bootstrap-Modell erhalten wird, das zu der geschätzten Signalbedingung passt. Wie für 3 beschrieben, wird die Verarbeitung auch dadurch geändert, dass eine Schätzung der ursprünglichen Spracheingabe erfolgt. Außerdem kann der iterativen Prozedur von 3 gefolgt werden.
Der BISM kann auf schmalbandige Spracherkennung angewendet werden, bei der ein Ansatz mit zunehmender Bandbreite benutzt wird, um die Genauigkeit von hochqualitativen Modellen, die von Mikrofonsprache aus trainiert worden sind, zu erhalten. Es ist wohl bekannt, dass die Leistungsfähigkeit von Telefonsprache selbst unter rauschfreien Bedingungen schlechter ist als von Mikrofonsprache. Der BISM kann die traditionelle Leistungsfähigkeit der Genauigkeit von Telefonspracherkennung durchbrechen. Vorteilhafterweise werden für verrauschte schmalbandige Spracherkennung die SISM- und BISM-Algorithmen kombiniert. 5 zeigt ein Blockschaltbild eines Spracherkennungssystems, das beide Algorithmen verwendet. Bei diesem Ausführungsbeispiel, das beispielsweise für die Erkennung von verrauschter Telefonsprache geeignet ist, werden die SISM- und BISM-Algorithmen in Kaskade verwendet, um die Rauscheffekte bei Verwendung von Telefon- Bootstrap-Modellen zu beseitigen und sich durch Verwendung von Mikrofon-Bootstrap-Modellen der Leistungsfähigkeit hochqualitativer Mikrofonmodelle anzunähern. In Block 500 werden aus dem empfangenen Sprachsignal Merkmale extrahiert. Dies kann in einer Weise erfolgen, wie für das Spektralanalyse-Subsystem 110 von 1 beschrieben worden ist. In Block 510 wird eine Schätzung von zwei Signalbedingungen vorgenommen. In dem Beispiel wird eine Schätzung des SNR und der Signalbandbreite vorgenommen. Die Schätzung kann auf dem Messen/Schätzen einer solchen Bedingung in bekannter Weise beruhen oder einfach eine konservative Schätzung sein (für die gegebene Anwendung gibt es minimal nur eine typische moderate Verschlechterung). In Block 520 wird die Sprache in normaler Weise verarbeitet (z.B. in einer Weise, wie sie für das "Unit Matching"-Subsystem 120 von 1 beschrieben worden ist), wo gemäß der Erfindung aus einem Speicher 530, der eine Menge von Modellen für unterschiedliche Signalbedingungen umfasst, ein Bootstrap-Modell erhalten wird, das zu der geschätzten Signalbedingung passt und eine Menge von Modellen für unterschiedliche Signalbedingungen umfasst. In dem gezeigten Beispiel werden die Bootstrap-Modelle für unterschiedliche SNRs des Eingabesignals optimiert. Wie für 3 beschrieben, wird die Verarbeitung auch dadurch geändert, dass eine Schätzung der ursprünglichen Spracheingabe erfolgt. Außerdem kann der iterativen Prozedur von 3 gefolgt werden. Auf diese Weise wird ein (werden) geeignetes) Modelle) zur Verarbeitung bei diesem SNR lokalisiert und das Eingabesignal wird in ein geschätztes ursprüngliches Signal transformiert, unter der Annahme dieses SNR. Hierauf folgend wird eine gleiche Prozedur in Block 540 für die Bandbreite verwendet, wobei Modelle für die verschiedenen Bandbreiten aus einem Speicher 550 abgerufen werden. In dem Beispiel ist es auch möglich, die Speicher 530 und 550 zu integrieren. Beispielsweise kann für jeden unterstützten SNR-Pegel eine Menge von Modellen gespeichert werden, wobei jedes eine andere Bandbreite aufweist. Dies ermöglicht eine einfache Prozedur, um beide Optimierungen auszuführen. Beispielsweise wird unter der Annahme einer Standard- oder geschätzten Bandbreite erst das passendste Modell für den SNR bestimmt, vorzugsweise iterativ. Dies führt zum Identifizieren einer Menge von Modellen für diesen SNR, wobei die Modelle sich in der Bandbreite unterscheiden. In einem nächsten Prozess wird dann aus dieser Modellmenge das Modell selektiert, das am besten zu der Bandbreite passt. Es versteht sich, dass anstelle eines Kaskadierens der zwei Verarbeitungsschritte auch eine integrierte Prozedur erfolgen kann.
Der SSM-Algorithmus kann auf robuste Sprachcodierung angewendet werden, indem Bootstrap-Codebücher/Codierer statt Bootstrap-Modelle/Erkenner verwendet werden, d.h. Λ_x(ξ) bezeichnet die Bootstrap-Codebücher. Der SISM-Algorithmus kann in ungünstigen Umgebungen die Qualität von Mikrofon- oder Telefon-Sprachcodierung auf hohe SNR-Pegel verbessern. Und der BISM-Algorithmus kann sogar die Telefon-Sprachcodierung auf Mikrofonqualität (oder Qualität größerer Bandbreite) verbessern . Das bedeutet, dass es möglich ist, die codierte Sprache unter Verwendung des BISM-Algorithmus für Telefon-Sprachcodierung mit Mikrofonqualität über Telefonnetze zu übertragen, weil die Telefonsprache durch Verwendung von Mikrofon-Codebüchern decodiert werden kann. Die Implementierung von SSM für Sprachcodierung ist ähnlich derjenigen, die für die Erkennung beschrieben worden ist, indem die Bootstrap-Modelle durch Bootstrap-Codebücher ersetzt werden. Das Blockschaltbild von 5 gilt auch für verrauschte Telefon-Sprachcodierung. Die Ausgabe ist der Codebucheintrag.
Vorzugsweise wird im SSM-Algorithmus ein auf Divergenz basiertes Modelltrennverfahren für das diskriminative Training des Bootstrap-Modells verwendet. Um den SSM-Algorithmus zu implementieren, wird das Bootstrap-Modell von einem reinen Modell aus angepasst, statt von verrauschten Daten aus nachzutrainieren, weil es nicht einfach ist, von vornherein genügend viel verrauschte Sprachdaten zu sammeln. Das bevorzugte Verfahren beruht auf einer auf Divergenz basierten Fehlklassifikationsfunktion, wobei die relative Divergenz aus der Kullback-Leibler(KL)-Information abgeleitet wird. Die KL-Information (oder KL-Divergenz) einer Verteilung ^q(x) in Bezug auf eine andere Verteilung ^p(x) ist wohl definiert durch:
Die KL-Information ist größer oder gleich null, und D_KL (p,q) = 0, wenn die zwei Verteilungen identisch sind. Wenn p und q einzelne Gauß'sche Verteilungen sind, hat der obige Ausdruck eine geschlossene Form
wobei μ_p und μ_q die Mittelwerte der p- und q-Verteilungen sind, und σ 2 / p und σ 2 / q die jeweiligen Varianzen. Für ein HMM kontinuierlicher Dichte (CDHMM: continuous density HMM), wird die Gauß'sche Mischungsverteilungsdichtefunktion als Beobachtungswahr scheinlichkeitsdichtefunktion (pdf) der Zustände viel verwendet. Somit wird eine gemittelte KL-Information zwischen den Zuständen definiert
wobei M_p und M_q die Mischungszahlen des Zustands P und Q sind. Als nächstes formulieren wir eine auf Divergenz basierte Fehlklassifikationsfunktion, um zu messen wie "nahe" zwei CDHMMs beieinander liegen.
N ist die Zustandszahl der Modelle und s_i,Λ gibt den i-ten Zustand der Modelle Λ an. Man beachte, dass die KL-Information nicht symmetrisch ist. So definieren wir eine symmetrisch relative Divergenz zwischen zwei Modellen folgendermaßen.
Die relative Divergenz, RKL (Λ₁, Λ₂), ist ein Maß für den Unterschied zwischen Intrazustands- und Interzustandsabständen für zwei Modelle, Λ₁ und Λ₂. Je kleiner die relative Divergenz ist, desto näher liegen die zwei Modelle beieinander.
Die Verlustfunktion kann dann definiert werden durch:
Es gibt zwei Anwendungen für diskriminatives Training von Bootstrap-Modellen.
Λ₁ = Λ₂ = Λ : Diese Anwendung ist zur Diskriminationsverbesserung von Modellen bestimmt, wobei die Modellparameter in dem auf minimaler relativer Divergenz beruhenden Modellraum eingestellt werden. Das beinhaltet auch die minimale Fehlerrate. Die Modellparameter können adaptiv abgestimmt werden durch wobei n die Iteration und U_n eine positive definite Matrix ist.
Λ₁ ≠ Λ₂: Dieser Ansatz wird Diskriminationanpassung genannt. Angenommen werde, dass die diskriminative Leistung des Modells Λ₂ besser ist als die von Λ₁, beispielsweise unterschiedliche SNR-Pegel. Wir können die Anpassung vornehmen, um die diskriminative Leistung von Λ₁ in Richtung der von Λ₂ zu verbessern, durch A(n+1)1 = A(n)1 – εUn∇l(Λ(n)1 ,Λ2)
Detaillierte Gleichungen von auf Divergenz basierten Modelltrennverfahren:
Die diskriminative Einstellung des mittleren Vektors folgt
Und die Einstellung der Standardabweichung folgt

wobei M_i,Λ die Mischungszahl des i-ten Zustandes von Modell Λ angibt, μ_ijd,Λ und σ_ijd,Λ die Standardabweichung d-ter Ordung, j-ter Mischungsverteilungsdichte bzw. i-ter Zustand des Modells Λ.
Ergebnisse:
Experimente wurden ausgeführt, um die hauptsächlichen Grenzen der Leistungsfähigkeit von angepassten und nachtrainierten Modellen unter Zusatzrauschbedingungen auszuwerten. Angepasste Modelle verändern vollständig die Parameter von Hidden-Markov-Modellen (HMM) gegenüber reinen Modellen, damit sie zu der verrauschten Testumgebung passen. Nachtrainierte Modelle werden vollständig von durch weißes Gaußsches Rauschen verunreinigte Sprache bei Umgebungen mit abgeglichenem Rauschabstand (SNR) trainiert. Wie oben beschrieben können solche nachtrainierten Modelle im SIMD-Algorithmus verwendet werden. Die Fähigkeiten und Beschränkungen angepasster Modelle und nachtrainierter Modelle sind untersucht worden. Die Ergebnisse zeigen, dass das erfindungsgemäße Konzept der Verwendung nachtrainierter Modelle eine bessere Leistungsfähigkeit verschafft als die Verwendung angepasster Modelle. Dies gilt für beliebige Bedingungen, aber insbesondere für niedrige SNRs. Die Ergebnisse zeigen, dass Laut-Fehlerraten für nachtrainierte Modelle um etwa 6% besser sind als für angepasste Modelle. Es hat sich auch gezeigt, dass die nachtrainierten Modelle die Wort-Fehlerrate um 6% für 15-dB SNR und sogar um 18% für 0-dB SNR verbessern. Einzelheiten werden weiter unten gegeben.
Die Modell-Nachtrainingstechnik ist mit der bekannten Technik der Modellanpassung/Transformation verglichen worden. Bei dieser bekannten Technik werden die Modelle an die Testumgebungen angepasst. Die resultierende Leistungsfähigkeit hängt vom Ausrichten des Zustands auf den Rahmen ab und wird häufig durch die Leistungsfähigkeit in abgeglichenen Bedingungen begrenzt. Um die Modelle in neue Umgebungen einzupassen, wird lineare Maximum-Likelihood-Regression (MLLR) verwendet. Stochastische Gleichheitsprüfung (SM) wandelt Merkmale oder Modelle ab, zum Angleichen an die Ungebungsänderung.
Die Hauptbeschränkungen von Algorithmen für Modellanpassung/Transformation sind untersucht worden, indem vollständig angepasste Modelle verwendet wurde, wie oben für US 5.727.124 beschrieben, und nachtrainierte Modelle gemäß der Erfindung. Das vollständig angepasste Modell wird verwendet, um zu simulieren, dass das Zusatzrauschen zur erneuten Modellschätzung genau geschätzt werden kann. Der experimentelle Aufbau der vollständig angepassten Modelle ist folgendermaßen:
Schritt 1: Die reine Sprache des Trainingskorpus wird mit Hilfe reiner Modelle segmentiert, und die Pfade werden für Training mit verrauschtem Modell beibehalten.
Schritt 2: Unterschiedliche Pegel von Zusatzrauschen wurden in die Testäußerungen eingefügt. Alle HMM-Parameter werden ohne eine weitere Iteration erneut geschätzt.
Die nachtrainierten Modelle werden vollständig von verrauschter Sprache bei abgeglichenen SNR-Umgebungen trainiert wie beim Training reiner Modelle. Den Testäußerungen wurde bei unterschiedlichen Gesamt-SNR-Pegeln weißes Gauß'sches Rauschen hinzugefügt. Der Gesamt-SNR wird folgendermaßen definiert, wobei σ 2 / x die Varianz der Testsprachenäußerung und σ 2 / n die Varianz des Zusatzrauschens ist.
Experimente wurden mit dem "Japanese Electronic Industry Development Association's Common Sprachdaten Corpus" (JSDC) durchgeführt, der hauptsächlich ein Korpus aus isolierten Phrasen ist. Der JSDC-Korpus wurde mit dynamischen Mikrofonen aufgezeichnet und bei 16 kHz abgetastet. Der phonetisch reiche JSDC-Teilkorpus mit Städtenamen wurde verwendet, um Laut-basierte HMMs zu trainierern. In den Experimenten wurden 35 monophone HMMs mit drei Zuständen pro Modell und nominal 32 Laplac'schen Mischungsverteilungsdichten pro Zustand eingesetzt. Der JSDC-Kontroll-Wortkorpus mit einem Vokabular von 63 Wörtern wurde als Testmaterial verwendet.
Es wurden Experimente für Decodierung freier Laute und Worterkennung durchgeführt. Die resultierenden Laut- und Wort-Fehlerraten werden in 6 bzw. 7 gezeigt. Horizontal wird der SNR in dB dargestellt. Vertikal werden die jeweiligen Fehlerraten (in Prozent) dargestellt. Die folgenden Kurven werden gezeigt:

1. Beschädigte Leistungsfähigkeit: Die Modelle sind rein und das Testmaterial ist durch hinzugefügtes weißes Gauß'sche Rauschen beschädigt, wobei rein bedeutet, dass kein Rauschen hinzugefigt worden ist.
2. Vollständig angepasste Leistungsfähigkeit: Die Modelle sind von auf bekannten Rauschpegeln beruhenden, reinen Modellen aus angepasst und das Testmaterial ist bei den gleichen SNR-Pegeln beschädigt.
3. Nachtrainierte Leistungsfähigkeit: Die Modelle sind in bekannten SNR-Umgebungen vollständig nachtrainiert und das Testmaterial ist bei den gleichen SNR-Pegeln beschädigt.

Es hat sich gezeigt, dass nachtrainierte Modelle immer bessere Leistung zeigen als unter beliebigen Bedingungen angepasste Modelle, aber insbesondere bei niedrigen SNR-Pegeln. 6 zeigt, dass Laut-Fehlerraten für nachtrainierte Modelle um etwa 6% besser sind als für angepasste Modelle. Aus 7 ist auch ersichtlich, dass nachtrainierte Modelle die Wort-Fehlerrate um 6% für 15-dB SNR und sogar um 18% für 0-dB SNR verbessern.
Weitere Experimente wurden an der JNAS (Japanese Newspaper Article Satz)-Datenbasis, geliefert von ASJ (Acoustic Society of Japan), ausgeführt. JNAS enthält 306 Sprecher (153 männliche und 153 weibliche), die Auszüge aus der Mainichi Newspaper (100 Sätze) und die ATR-503-PB-Sätze (50 phonetisch ausgewogene Sätze) lesen. Wie in den oben beschriebenen Experimenten wurde den Testäußerungen weißes Gauß'sches Rauschen bei unterschiedlichen SNR-Pegeln hinzugefügt. In diesem Experiment wurden 35 kontextunabhängige monophone HMMs mit drei Zuständen pro Modell eingesetzt und bei unseren Experimenten nominal 16 Gauß'sche Mischungsverteilungsdichten pro Zustand. Die japanische Lauterkennung wurde mit der Randbedingung einer Silbentopologie durchgeführt. Die weiteren Experimente, wie in 8 erläutert, zeigen, dass der SISM-Algorithmus die nachtrainierten Leistungsfähigkeiten übertreffen kann, die gewöhnlich als Obergrenzen bei allen SNR-Pegeln betrachtet werden. Horizontal ist der SNR in dB dargestellt. Vertikal sind die jeweiligen Fehlerraten dargestellt (in Prozenten). Inschrift der Zeichnung

3

300: SNR oder Bandbreite ξ₀ schätzen, Parameterinitialisierung
310: passendes Bootstrap-Modell Λ_x(ξ^(l)) selektieren
320: Bootstrap-Modelle
330: Spracherkennung ausführen
340: zum neuen Kriterium konvergieren ?
: yes = ja
350: Ausgabe
: no = nein
360: Parameter der inversen Funktion schätzen
370: ursprüngliche Sprache mittels der inversen Funktion F_u schätzen
380: SNR oder Bandbreite erhöhen

4

: Spracheingabe
410: Merkmalextraktion
420: SNR- oder Bandbreitenschätzung
430: Bootstrap-Iteration/Erkenner
440: Bootstrap-Modelle
: optimale Ausgabe

5

: Telefonsprache
500: Merkmalextraktion
510: SNR- und Bandbreitenschätzung
520: SNR-Bootstrap-Iteration/Erkenner
530: SNR-Bootstrap-Telefonmodelle
540: BB-Bootstrap-Iteration/Erkenne
550: Bandbreiten-Bootstrap-Telefonmodelle
: Ausgabe

6, 7

Lautfehlerrate (%)
Gesamt-SNR (dB)

corrupted beschädigt

fully adapted vollständig angepasst

retrained nachtrainiert

8

Lautfehler

retrained nachtrainiert

corrupted beschädigt

SISM SISM

clean rein

Claims

Verfahren zur Verarbeitung eines verschlechterten Spracheingabesignals, wobei das Verfahren enthält: – Empfangen des verschlechterten Spracheingabesignals; – Schätzen einer Bedingung, wie z.B. den Rauschabstand oder die Bandbreite, für das empfangene Eingabesignal; – Selektieren eines Verarbeitungsmodells, das der geschätzten Signalbedin- gung entspricht; – Schätzen eines ursprünglich geäußerten Sprachsignals auf Basis des empfangenen Eingabesignals einschließlich Bestimmen eines am wahrscheinlichtsten geäußerten Sprachsignals im Hinblick auf ein zuvor bestimmtes, als der geschätzten Signalbedingung entsprechend selektiertes Verarbeitungsmodell; – Verarbeiten des geschätzten ursprünglichen Signals gemäß dem selektierten Modell; und – Ausgeben eines Verarbeitungsergebnisses. wobei das Verfahren iterativ enthält: – Ausführen einer neuen Schätzung der Signalbedingung für das empfangene Eingabesignal; – Selektieren eines Verarbeitungsmodells, das der neu geschätzten Signalbedingung entspricht; – Schätzen eines ursprünglich geäußerten Sprachsignals auf Basis des geschätzten ursprünglichen Signals einer unmittelbar vorhergehenden Iteration im Hinblick auf das selektierte Verarbeitungsmodell; – Verarbeiten des geschätzten ursprünglichen Signals gemäß dem selektierten Modell und – Beenden der Iteration, wenn eine zuvor bestimmte Bedingung erfüllt ist.
Verfahren nach Anspruch 1, bei dem die Iteration beendet wird, wenn ein Verarbeitungsergebnis sich nicht mehr verbessert.
Verfahren nach Anspruch 1, bei dem Ausführen einer neuen Schätzung der Signalbedingung Selektieren einer stärker verschlechterten Signalbedingung enthält.
Verfahren nach Anspruch 1, bei dem die Sprachverarbeitung Erkennen von Sprache beinhaltet und das Verarbeitungsmodell ein Spracherkennungsmodell ist.
Verfahren nach Anspruch 1, bei dem die Sprachverarbeitung Codieren von Sprache beinhaltet und das Verarbeitungsmodell ein Sprachcodebuch/-codierer ist.
Sprachverarbeitungssystem zur Verarbeitung eines verschlechterten Sprach- eingabesignals, wobei das System enthält: – einen Eingang zum Empfangen des verschlechterten Spracheingabesignals; – Mittel zum Schätzen einer Bedingung, wie z.B. den Rauschabstand oder die Bandbreite, des empfangenen Eingabesignals, und um darüber hinaus iterativ eine neue Schätzung der Signalbedingung für das empfangene Eingabesignal auszuführen; – Mittel zum Selektieren eines der geschätzten Signalbedingung entsprechenden Verarbeitungsmodells, und um darüber hinaus iterativ ein der neu geschätzten Signalbedingung entsprechendes Verarbeitungsmodell zu selektieren; – Mittel zum Schätzen eines ursprünglich geäußerten Sprachsignals auf Basis des empfangenen Eingabesignals einschließlich Bestimmen eines am wahrscheinlichtsten geäußerten Sprachsignals im Hinblick auf ein zuvor bestimmtes, als der geschätzten Signalbedingung entsprechend selektiertes Verarbeitungsmodell, und um darüber hinaus ein ursprünglich geäußertes Sprachsignal auf Basis des geschätzten ursprünglichen Signals einer unmittelbar vorhergehenden Iteration im Hinblick auf das selektierte Verarbeitungsmodell iterativ zu schätzen; – Mittel zum iterativen Verarbeiten des geschätzten ursprünglichen Signals gemäß dem selektierten Modell; – Mittel zum Beenden der Iteration, wenn eine zuvor bestimmte Bedingung erfüllt ist, und – einen Ausgang zum Ausgeben eines Verarbeitungsergebnisses.
Verfahren nach Anspruch 1, wobei das Verfahren ein Erzeugen des Verarbeitungsmodells durch auf Divergenz beruhende Modelltrennung für diskriminatives Training eines gegebenen Modells enthält; wobei die Trennung enthält: – Schätzen einer auf Divergenz beruhenden Diskriminantenfunktion; und – Ausführen eines adaptiven Lernschritts für Modellparameter auf Basis von Minimieren einer Funktion der Fehlerrate.
Verfahren nach Anspruch 7, bei dem die Diskriminantenfunktion direkt aus der relativen Divergenz erhalten wird statt durch Eingabesprachdaten gesteuert wird.