DE60018696T2 - Robuste sprachverarbeitung von verrauschten sprachmodellen - Google Patents

Robuste sprachverarbeitung von verrauschten sprachmodellen Download PDF

Info

Publication number
DE60018696T2
DE60018696T2 DE60018696T DE60018696T DE60018696T2 DE 60018696 T2 DE60018696 T2 DE 60018696T2 DE 60018696 T DE60018696 T DE 60018696T DE 60018696 T DE60018696 T DE 60018696T DE 60018696 T2 DE60018696 T2 DE 60018696T2
Authority
DE
Germany
Prior art keywords
signal
model
speech
processing
models
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60018696T
Other languages
English (en)
Other versions
DE60018696D1 (de
Inventor
Chao-Shih Huang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE60018696D1 publication Critical patent/DE60018696D1/de
Publication of DE60018696T2 publication Critical patent/DE60018696T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Description

  • Die Erfindung betrifft Sprachverarbeitung, wie z.B. Spracherkennung oder Sprachcodierung, eines verschlechterten Sprachsignals.
  • Zunehmend werden automatische Spracherkennung und Codierungssysteme verwendet. Obwohl die Leistungsfähigkeit derartiger Systeme sich ständig verbessert, ist es erwünscht, dass die Genauigkeit weiter erhöht wird, insbesondere in ungünstigen Umgebungen, wie z.B. mit geringem Rauschabstand (SNR: signal-to-noise ratio) oder niedrigem Bandbreitensignal. Normalerweise vergleichen Spracherkennungssysteme eine Repräsentation Y, wie z.B. einen Beobachtungsvektor mit LPC oder Cepstralanteilen, eines Eingabesprachsignals mit einem Modell Lx von Bezugssignalen, wie z.B. aus Repräsentationen X, wie z.B. Bezugsvektoren, eines Trainingssprachsignals aufgebaute Hidden-Markov-Modelle (HMMs).
  • In der Praxis liegt zwischen den Bedingungen, unter denen die Bezugssignale (und damit die Modelle) erhalten wurden und den Eingabesignalbedingungen eine Nichtübereinstimmung vor. Eine derartige Nichtübereinstimmung kann insbesondere in dem SNR und/oder der Bandbreite des Signals liegen. Die Bezugssignale sind gewöhnlich relativ rein (hoher SNR, große Bandbreite), während das Eingabesignal beim tatsächlichen Gebrauch verzerrt ist (niedrigerer SNR, und/oder geringere Bandbreite).
  • In EP 0 788 090 wird zuerst das Signal analysiert, um die Rauschumgebung zu bestimmen und es wird ein entsprechendes akustisches Modell selektiert, um das Signal weiter zu verarbeiten.
  • US 5.727.124 beschreibt einen stochastischen Ansatz, um die Nichtübereinstimmung zwischen dem Eingabesignal und dem Bezugsmodell zu verkleinern. Das bekannte Verfahren arbeitet mit einem Maximum-Likelihood-(ML-)Ansatz, um die Nichtübereinstimmung zwischen dem Eingabesignal (beobachtete Äußerung) und den ursprünglichen Sprachmodellen während der Erkennung der Äußerung zu verkleinern. Die Nichtübereinstimmung kann auf die folgenden zwei Weisen verringert werden:
    • • Eine Repräsentation Y des verzerrten Eingabesignals kann auf eine Schätzung einer ursprünglichen Repräsentation X abgebildet werden, sodass die ursprünglichen Mo delle Λx, die aus den ursprünglichen Signalrepräsentationen X abgeleitet wurden, für die Erkennung genutzt werden können. Diese Abbildung operiert im Merkmalraum und kann als Fν(Y) beschrieben werden, wobei ν zu schätzende Parameter repräsentiert.
    • • Die ursprünglichen Madelle Λx können in transformierte Modelle Λy abgebildet werden, die besser mit der beobachteten Äußerung Y übereinstimmen. Diese Abbildung operiert im Modellraum und kann als Gηx) beschrieben werden, wobei η zu schätzende Parameter repräsentiert.
  • Die Parameter ν und/oder η werden unter Verwendung des Erwartungsmaximierungsalgorithmus geschätzt, um die Mutmaßlichkeit der beobachteten Sprache Y bei gegebenen Modellen Λx. zu verbessern. Der stochastische Abgleichalgorithmus arbeitet nur mit der gegebenen Testäußerung und der gegebenen Menge von Sprachmodellen. Für die Schätzung der Nichtübereinstimmung ist vor dem tatsächlichen Testen kein Training erforderlich. Die Abbildungen werden in US 5.727,124 beschrieben.
  • Beide Verfahren können auch kombiniert werden, wobei die Repräsentation Y des verzerrten Eingabesignals auf eine Schätzung einer ursprünglichen Repräsentation X abgebildet wird und die ursprünglichen Modelle Λx auf transformierte Modelle abgebildet werden, die besser mit der geschätzten Repräsentation X übereinstimmen. Die Verfahren können in iterativer Weise verwendet werden, wobei das transformierte Signal und/oder die transformierten Modelle das jeweilige ursprüngliche Eingabesignal und/oder die Modelle ersetzen. Auf diese Weise werden das Eingabesignal und die Modelle iterativ transformiert, um eine statistische, bessere Übereinstimmung zwischen dem Eingabesignal und den Modellen zu erhalten. Bei diesem Prozess kann ein relativ verrauschtes Eingabesignal in ein reineres Eingabesignal transformiert werden, während relativ reine Modelle in verrauschtere Modelle transformiert werden könnten.
  • Zur Erkennung werden Modelle gewöhnlich unter den besten (reinen) Bedingungen trainiert werden, um optimale Erkennung zu erhalten. Bei dem bekannten Verfahren werden die Modelle auf Basis des verzerrten Eingabesignals transformiert. Dies verschlechtert die Leistungsfähigkeit, insbesondere für kleine SNR-Verhältnisse, was es schwierig macht, die optimale Leistungsfähigkeit zu erhalten, die mit den ursprünglichen Modellen erreicht werden könnte. Darüber hinaus nimmt das Risiko zu, das Signal und/oder die Modelle in einer falschen Richtung zu transformieren, wenn die Nichtübereinstimmung zwischen den ursprünglichen Modellen und dem Eingabesignal signifikant ist, (wenngleich sie sich statistisch annähern können.) Dies ist beispielsweise der Fall, wenn das Eingabesignal einen geringen Rauschabstand aufweist, was es schwierig macht, das ursprüngliche Signal zuverlässig zu schätzen.
  • Der Erfindung liegt unter anderem als Aufgabe zugrunde, ein Sprachverarbeitungsverfahren und Sprachverarbeitungssystem zu verschaffen, das insbesondere unter ungünstige Bedingungen zu verbesserter Sprachverarbeitung fähig ist.
  • Zur Lösung der Aufgabe der Erfindung, wie in Anspruch 1 und 6 beansprucht, enthält das Verfahren zur Verarbeitung eines verschlechterten Spracheingabesignals:
    • – Empfangen des verschlechterten Spracheingabesignals;
    • – Schätzen einer Bedingung, wie z.B. den Rauschabstand oder die Bandbreite, für das empfangene Eingabesignal;
    • – Selektieren eines Verarbeitungsmodells, das der geschätzten Signalbedingung entspricht;
    • – Schätzen eines ursprünglich geäußerten Sprachsignals auf Basis des empfangenen Eingabesignals
    • – Verarbeiten des geschätzten ursprünglichen Signals gemäß dem selektierten Modell; und
    • – Ausgeben eines Verarbeitungsergebnisses.
  • Bei dem erfindungsgemäßen Verfahren wird, ausgehend von einer anfänglichen Schätzung für eine Bedingung des Signals (z.B. SNR oder Bandbreite), ein Verarbeitungsmodell selektiert, wobei das neue Modell eine Funktion der geschätzten Signalbedingung ist. Vorzugsweise wird ein Modell selektiert, das optimal für die Signalbedingung trainiert worden ist. Auch eine Schätzung der ursprünglich geäußerten Sprache wird durchgeführt. Indem sowohl ein passendes Modell selektiert wird als auch die ursprüngliche Sprache geschätzt wird, verbessert sich die Verarbeitungsgenauigkeit auf "Push-pull"-Weise. Bei dem bekannten System wird das derzeitige Modell in ein neues transformiert, bei dem die Transformation eine Funktion des Eingabesignals Y (Λy = Gηx)) ist. Bei dem erfindungsgemäßen Verfahren findet keine Modelltransformation statt, sodass Verschlechterung des Modells vermieden wird. Stattdessen wird ein Modell verwendet, das zu der geschätzten Signalbedingung passt.
  • Die Schätzung der ursprünglich geäußerten Sprache beruht auf einem zuvor bestimmten Verarbeitungsmodell Λx. Vorzugsweise beruht die Schätzung auf einer Maximum-Likelihood-Schätzung (MLE: Maximum Likelihood Estimation). Beispielsweise kann der MLE-Ansatz von US 5.727.124 verwendet werden, bei dem die geschätzte ursprüngliche Sprache X durch: X = Fν(Y) gegeben ist, wobei die Parameters ν durch:
    Figure 00040001
    gegeben sind. Das zum Schätzen der ursprünglichen Sprache verwendete Verarbeitungsmodell ist das Modell Λx(ξ), das als zu der geschätzten Signalbedingung ξ passend selektiert worden ist. Auf diese Weise wird die Genauigkeit des Schätzens des ursprünglichen Signals erhöht.
  • Es wird eine iterative Prozedur verwendet, bei der bei jeder Iteration die Signalbedingung erneut geschätzt, ein auf der neuen Signalbedingung basiertes neues Modell selektiert und eine neue Schätzung der ursprünglichen Sprache (unter Verwendung des dann selektierten Modells) vorgenommen wird. Das zuerst selektierte Modell wirkt als Diskriminationsstartwert für die weiteren Bootstrap-Operationen. Die Iteration hört auf, wenn ein Kriterium erfüllt ist (z.B. die Erkennung mit dem dann selektierten Modell ist adäquat oder verbessert sich nicht mehr (z.B. wird schlechter) im Vergleich zu einer mit einer vorhergehenden Erkennung erhaltenen Mutmaßlichkeit). Der Iterationsprozess kann mit einer konservativen Schätzung der Verschlechterung des Signals starten (z.B. ein relativ großer SNR), wobei bei jeder Iteration die Signalbedingung verschlechtert wird (z.B. wird ein kleinerer SNR selektiert).
  • Zur Lösung der Aufgabe der Erfindung enthält das Sprachverarbeitungssystem zur Verarbeitung eines verschlechterten Spracheingabesignals:
    • – einen Eingang zum Empfangen des verschlechterten Spracheingabesignals;
    • – Mittel zum Schätzen einer Bedingung, wie z.B. den Rauschabstand oder die Bandbreite, des empfangenen Eingabesignals, und um darüber hinaus iterativ eine neue Schätzung der Signalbedingung für das empfangene Eingabesignal auszuführen;
    • – Mittel zum Selektieren eines der geschätzten Signalbedingung entsprechenden Verarbeitungsmodells, und um darüber hinaus iterativ ein der neu geschätzten Signalbedingung entsprechendes Verarbeitungsmodell zu selektieren;
    • – Mittel zum Schätzen eines ursprünglich geäußerten Sprachsignals auf Basis des empfangenen Eingabesignals einschließlich Bestimmen eines am wahrscheinlichtsten geäußerten Sprachsignals im Hinblick auf ein zuvor bestimmtes, als der geschätzten Sig nalbedingung entsprechend selektiertes Verarbeitungsmodell, und um darüber hinaus ein ursprünglich geäußertes Sprachsignal auf Basis des geschätzten ursprünglichen Signals einer unmittelbar vorhergehenden Iteration im Hinblick auf das selektierte Verarbeitungsmodell iterativ zu schätzen;
    • – Mittel zum iterativen Verarbeiten des geschätzten ursprünglichen Signals gemäß dem selektierten Modell;
    • – Mittel zum Beenden der Iteration, wenn eine zuvor bestimmte Bedingung erfüllt ist, und
    • – einen Ausgang zum Ausgeben eines Verarbeitungsergebnisses.
  • Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben.
  • 1 zeigt ein Blockschaltbild eines herkömmlichen Sprachverarbeitungssystems, in dem die Erfindung verwendet werden kann;
  • 2 veranschaulicht herkömmliche bei der Sprachverarbeitung verwendete Wortmodelle;
  • 3 veranschaulicht eine iterative Ausführungsform des erfindungsgemäßen Verfahrens;
  • 4 zeigt ein Blockschaltbild eines erfindungsgemäßen Sprachverarbeitungssystems;
  • 5 zeigt ein Blockschaltbild eines Sprachverarbeitungssystems, bei dem das erfindungsgemäße Verfahren zweimal genutzt wird, um eine Verschlechterung von SNR und Bandbreite zu überwinden; und
  • 6, 7, und 8 veranschaulichen mit dem Verfahren und dem System gemäß der Erfindung erhaltene Ergebnisse.
  • Allgemeine Beschreibung eines Spracherkennungssystems
  • Spracherkennungssysteme, wie z.B. Erkennungssysteme für kontinuierliche Sprache mit großem Vokabular, verwenden typischerweise eine Sammlung von Erkennungsmodellen, um ein Eingabemuster zu erkennen. Beispielsweise können ein akustisches Modell und ein Vokabular zum Erkennen von Wörtern und ein Sprachmodell zum Verbessern des Basis-Erkennungsergebnisses verwendet werden. 1 veranschaulicht eine typische Struktur eines Erkennungssystems 100 für kontinuierliche Sprache mit großem Vokabular [vergleiche L.Rabiner, B-H. Juang, "Fundamentals of speech recognition", Prentice Hall 1993, S. 434 bis 454). Die folgenden Definitionen werden zum Beschreiben des Systems und des Erkennungsverfahrens verwendet:
    Λx: eine Menge aus trainierten Sprachmodellen
    X: die ursprüngliche Sprache, die zu dem Modell passt, Λx
    Y: die Testsprache
    Λy: die passenden Modelle für die Testumgebung.
    W. die Wortsequenz.
    S: die decodierten Sequenzen, die Wörter, Silben, Teilworteinheiten, Zustände oder Mischungskomponenten oder andere geeignete Repräsentationen sein können.
  • Das System 100 umfasst ein Spektralanalyse-Subsystem 110 und ein Untereinheitenvergleichssubsystem ("Unit Matching"-Subsystem) 120. In dem Spektralanalyse-Subsystem 110 wird das Spracheingabesignal (SIS) spektral und/oder zeitlich analysiert, um einen repräsentativen Merkmalsvektor (Beobachtungsvektor, OV) zu berechnen. Typischerweise wird das Sprachsignal digitalisiert (z.B. bei einer Rate von 6,67 kHz abgetastet) und vorverarbeitet, beispielsweise mittels Vorverstärkung. Aufeinander folgende Abtastwerte werden zu Rahmen gruppiert (als Blöcke), die beispielsweise 32 ms eines Sprachsignals entsprechen. Aufeinander folgende Rahmens überlappen teilweise, beispielsweise für 16 ms. Häufig wird das "Linear Predictive Coding"- (LPC: Lineare Prädiktionscodierung)-Spektralanalyseverfahren verwendet, um für jeden Rahmen einen repräsentativen Merkmalsvektor (Beobachtungsvektor) zu berechnen. Der Merkmalsvektor kann beispielsweise 24, 32 oder 63 Komponenten haben. Der Standardansatz für Erkennung kontinuierlicher Sprache mit großem Vokabular ist, ein Wahrscheinlichkeits-Spracherzeugungsmodell anzunehmen, bei dem eine bestimmte Wortsequenz W = w1w2w3...wq eine Sequenz von akustischen Beobachtungsvektoren Y = y1y2y3...yT erzeugt. Der Erkennungsfehler kann statistisch minimiert werden, indem die Sequenz von Wörtern w1w2w3...wq bestimmt wird, die am wahrscheinlichsten die beobachtete Sequenz von Beobachtungsvektoren y1y2y3...yT bewirkt haben (über die Zeit t = 1,..., T), wobei die Beobachtungsvektoren das Resultat des Spektralanalyse-Subsystems 110 sind. Dies führt zum Bestimmen der maximalen A-posteriori-Wahrscheinlichkeit:
    max P(W|Y, Λx), für alle möglichen Wortsequenzen W
  • Durch Anwendung des Theorems von Bayes über bedingte Wahrscheinlichkeiten ergibt sich P(W|Y, Λx) zu:
  • Figure 00070001
  • Da P(Y) unabhängig von W ist, ergibt sich die wahrscheinlichste Wortsequenz zu:
  • Figure 00070002
  • Bei dem "Unit Matching"-Subsystem 120 liefert ein akustisches Modell den ersten Term der Gleichung (I). Das akustische Modell wird verwendet, um die Wahrscheinlichkeit P(Y|W) einer Sequenz von Beobachtungsvektoren Y für eine gegebene Wortkette W zu schätzen. Für ein System mit großem Vokabular erfolgt dies gewöhnlich durch Prüfen der Beobachtungsvektoren und eines Bestandes an Spracherkennungseinheiten auf Gleichheit. Eine Spracherkennungseinheit wird durch eine Sequenz von akustischen Referenzen repräsentiert. Verschiedene Formen von Spracherkennungseinheiten können verwendet werden. Als Beispiel kann ein ganzes Wort oder sogar eine Gruppe von Wörtern durch eine einzige Spracherkennungseinheit repräsentiert werden. Ein Wortmodell (WM) liefert für jedes Wort eines gegebenen Vokabulars eine Transkription in eine Sequenz von akustischen Referenzen. Bei den meisten Spracherkennungssystemen mit kleinem Vokabular wird ein ganzes Wort von einer Spracherkennungseinheit repräsentiert, wobei in diesem Fall eine direkte Beziehung zwischen dem Wortmodell und der Spracherkennungseinheit besteht. Bei anderen Systemen mit kleinem Vokabular, die beispielsweise verwendet werden, um eine relativ große Anzahl Wörter (z.B. mehrere Hundert) zu erkennen, oder bei Systemen mit großem Vokabular können linguistisch basierte Teilworteinheiten, wie z.B. Phone, Diphone oder Silben, sowie abgeleitete Einheiten, wie z.B. Fenene und Fenone verwendet werden. Für derartige Systeme wird ein Wortmodell durch ein Lexikon 134 gegeben, das die Sequenz von mit einem Wort des Vokabulars zusammenhängenden Teilworteinheiten beschreibt, und die Teilwortmodelle 132, die Sequenzen von akustischen Referenzen der beteiligten Spracherkennungseinheit beschreiben. Ein Wortmodellcomposer 136 stellt das auf dem Teilwortmodell 132 und dem Lexikon 134 basierende Wortmodell auf.
  • 2A veranschaulicht ein Wortmodell 200 für ein auf Ganzwort-Spracherkennungseinheiten beruhendes System, wobei die Spracherkennungseinheit des dargestellten Wortes unter Verwendung einer Sequenz von zehn akustischen Referenzen (201 to 210) modelliert worden ist. 2B veranschaulicht ein Wortmodell 220 für ein auf Teilworteinheiten beruhendes System, wobei das dargestellte Wort durch ein Sequenz von drei Teilwortmodellen (250, 260 und 270) modelliert worden ist, jedes mit einer Sequenz von vier akustischen Referenzen (251, 252, 253, 254; 261 to 264; 271 to 274). Die in 2 gezeigten Wortmodelle beruhen auf Hidden-Markov-Modellen (HMMs), die viel verwendet werden, um Sprachsignale stochastisch zu modellieren. Bei Verwendung dieses Modells wird jede Erkennungseinheit (Wortmodell oder Teilwortmodell) typischerweise durch ein HMM gekennzeichnet, dessen Parameter aus einer Trainingsmenge von Daten geschätzt werden. Für Spracherkennungssysteme mit großem Vokabular wird gewöhnlich eine begrenzte Menge von beispielsweise 40 Teilworteinheiten verwendet, das es viele Trainingsdaten erfordern würde, um ein HMM für größere Einheiten zu trainieren. Ein HMM-Zustand entspricht einer akustischen Referenz. Verschiedene Techniken sind für das Modellieren einer Referenz bekannt, einschließlich diskrete oder kontinuierliche Wahrscheinlichkeitsdichten. Jede Sequenz von akustische Referenzen, die mit einer bestimmten Äußerung zusammenhängen, wird auch als akustische Transkription der Äußerung bezeichnet. Es versteht sich, dass bei Verwendung anderer Erkennungstechniken als HMMs Details der akustischen Transkription unterschiedlich sein werden.
  • Ein in 1 dargestelltes Abgleichsystem 130 auf Wortebene prüft die Beobachtungsvektoren und alle Sequenzen von Spracherkennungseinheiten auf Gleichheit und liefert die Mutmaßlichkeiten einer Übereinstimmung zwischen dem Vektor und einer Sequenz. Bei Verwendung von Teilworteinheiten können durch Verwendung des Lexikons 134 Randbedingungen an die Gleichheitsüberprüfung gestellt werden, um die mögliche Sequenz von Teilworteinheiten auf Sequenzen in dem Lexikon 134 zu begrenzen. Dies reduziert das Resultat auf mögliche Sequenzen von Wörtern.
  • Darüber hinaus kann ein Abgleichsystem 140 auf Satzebene verwendet werden, das, auf einem Sprachmodell (LM) beruhend, weitere Randbedingungen an die Gleichheitsprüfung stellt, sodass die untersuchten Pfade diejenigen sind, die Wortsequenzen entsprechen, welche korrekte Sequenzen sind, wie sie durch das Sprachmodell spezifiziert werden. Als solches liefert das Sprachmodell den zweiten Term P(W) der Gleichung (1). Das Kombinieren der Ergebnisse des akustischen Modells mit jenen des Sprachmodells führt zu einem Resultat des "Unit Matching"-Subsystems 120, das ein erkannter Satz (RS) 152 ist. Das bei der Mustererkennung verwendete Sprachmodell kann syntaktische und/oder semantische Randbedingungen 142 der Sprache und der Erkennungsaufgabe ent halten. Ein auf syntaktischen Randbedingungen beruhendes Sprachmodell wird gewöhnlich als eine Grammatik 144 bezeichnet. Die von dem Sprachmodell verwendete Grammatik 144 liefert die Wahrscheinlichkeit einer Wortsequenz W = w1w2w3...wq, die im Prinzip durch P(W) = P(w1)P(w2|w1).P(w3|w1w2)...P(wq|w1w2w3...Wq).gegeben wird. Da es in der Praxis unmöglich ist, die bedingten Wortwahrscheinlichkeiten für alle Wörter und alle Sequenzlängen in einer vorgegebenen Sprache zuverlässig zu schätzen, werden N-Gramm-Wortmodelle viel verwendet. In einem N-Gramm-Modell wird der Term P(wj|w1w2w3...wj-1) durch P(wj|wj-N+l...wj-1) angenähert. In der Praxis werden Bigramme oder Trigramme verwendet. In einem Trigramm wird der Term P(wj|w1w2w3...wj-1) durch P(wj|wj-2wj-1) angenähert.
  • Das erfindungsgemäße Sprachverarbeitungssystem kann mit herkömmlicher Hardware implementiert werden. Beispielsweise kann ein Spracherkennungssystem auf einem Computer, wie z.B. einem PC implementiert werden, wo die Spracheingabe über ein Mikrofon empfangen und mit einer herkömmlichen Audio-Interface-Karte digitalisiert wird. Die gesamte zusätzliche Verarbeitung erfolgt in Form von Software-Prozeduren, die von der Zentraleinheit ausgeführt werden. Insbesondere kann die Sprache über einer Telefonverbindung empfangen werden, z.B. mit einem herkömmlichen Modem in dem Computer. Die Sprachverarbeitung kann auch mit zweckgebundener, z.B. um einen DSP (digitalen Signalprozessor) herum gebauter Hardware ausgeführt werden.
  • Ausführliche Beschreibung der Erfindung:
  • Gemäß der Erfindung wird ein Abgleichalgorithmus verwendet, um die abgeglichenen Leistungsfähigkeiten für robuste Spracherkennung zu übertreffen. Vorzugsweise wird der Algorithmus iterativ verwendet, und die Gleichheitsprüfung beruht auf einer stochastischen Gleichheitsprüfung: dem Successive Stochastic Matching (SSM)-Algorithmus. Der Algorithmus kann im Prinzip verwendet werden, um mit einer beliebigen verschlechterten Signalbedingung umzugehen. Insbesondere werden zwei parametrische Formen beschrieben. Die erste wird "SNR-incremental stochastic matching (SISM)" für verrauschte Spracherkennung genannt, wobei SNR den Rauschabstand bezeichnet; die zweite wird "Bandwidth-incremental stochastic matching (BISM)" genannt, um die Erkennungsgenauigkeit für schmalbandige Sprache zu verbessern und sich den Leistungsfähigkeiten der Sprachmodelle anzunähern, die von hochqualitativer Mikrofonsprache aus trai niert worden sind. Beide Formen der Algorithmen können auch kombiniert werden. Der Algorithmus ist speziell für Telefonspracherkennung geeignet. Er kann jedoch auch beispielsweise für Spracherkennung genutzt werden, bei der ein Mikrofon direkt an eine Verarbeitungseinheit, wie z.B. einen PC angeschlossen ist, obwohl in diesem Fall die verwendete Signalbedingung im Allgemeinen besser ist, sodass eine geringere Verbesserung erreicht werden kann. Bei dem erfindungsgemäßen Algorithmus wird ein "bootstrapped" und vorzugsweise gut nachtrainiertes Modell, das gute Diskriminationseigenschaften hat, verwendet, um die Erkennung zu verbessern, die Bootstrap-Operation. Diese wird vorzugsweise während jeder Iteration wiederholt. Außer für Spracherkennung kann der Algorithmus auch für Sprachcodierung verwendet werden (insbesondere für eine Übertragung über ein Telefonsystem). Für diese Anwendung werden Bootstrap-Codebücher/Codierer anstelle von Bootstrap-Modellen/Erkenner verwendet, d.h. Λx(ξ) bezeichnet die Bootstrap-Codebücher für die Codierung statt eines Spracherkennungsmodells.
  • Die iterative Version des Algorithmus ist folgendermaßen und so, wie in 3 veranschaulicht:
  • Initialisierung:
    • Schritt 300: Parameter initialisieren: l = 0, wobei l die Iterationszahl bezeichnet, ν(l) = ν0, wobei ν die Parametermenge der inversen Funktion Fν, ist und ^XX(l) = Y, wobei Y die empfangene Eingabesprache (die Testsprache), und ^XX eine Schätzung der ursprünglich geäußerten Sprache ist; und eine anfängliche Signalbedingung ξ(l) schätzen (ξ repräsentiert die Signalbedingung, wie den SNR oder die Bandbreite)
  • Rekursion:
  • Schritt 310: Ein passendes Bootstrap-Modell Λx(l)) selektieren, z.B. aus einer Menge von gespeicherten Modellen 320
  • Schritt 330: Die Sprache erkennen:
    Figure 00100001
  • Schritt 340: Ein zuvor bestimmtes Stoppkriterium überprüfen. Wenn das Kriterium erfüllt ist, dann STOPPEN und AUSGABE S (350)
  • Schritt 360: Schätzen ν:
    Figure 00110001
  • Schritt 370: Die ursprüngliche Sprache schätzen:
    Figure 00110002
  • Schritt 380: Die Schätzung der Signalbedingung erhöhen: ξ(l+1) = = ξ(l) + δ, (δ > 0)
  • Erneut iterieren: l → l + 1 und zu Schritt 310 weitergehen
  • In Schritt 310 wird ein Bootstrap-Modell selektiert, das zu der Signalbedingung ξ(l) passt. Vorzugsweise umfasst das System mehrere Modelle, die je für eine unterschiedliche Signalbedingung optimiert sind. Die Selektion beinhaltet dann einfach das Laden des zu der Signalbedingung ξ(l) gehörenden Modells. Ein solche Menge von Modellen kann aus der gleichen ursprünglichen "reinen" Sprachaufzeichnung kreiert werden. Für den SISM-Algorithmus kann beispielsweise weißes Gauß'sches Rauschen zu der reinen Sprache hinzugefügt werden, um das Signal so zu "verunreinigen", dass es einen gewünschten SNR hat, gefolgt von einem Training eines Modells zur Erkennung aus den verunreinigten Sprachsignalen. Das Modell wird dann zusammen mit dem SNR (ξ) gespeichert. Dies kann für mehrere SNRs erfolgen, was zu einer Menge von nachtrainierten Modellen führt. Natürlich können auch Sprachaufzeichnungen unter verschiedenen Signalbedingungen gemacht werden, wobei die Modelle dann statt aus verunreinigten Aufzeichnungen aus der ursprünglichen Aufzeichnung kreiert werden.
  • In Schritt 340 beruht zur Spracherkennung das Stoppkriterium vorzugsweise auf dem Erkennungsergebnis mit dem derzeitigen Modell. Wenn das Erkennungsergebnis ausreichend ist (z.B. auf Vertrauensmaßen beruht) oder die Mutmaßlichkeit nicht mehr zunimmt, kann die Iteration gestoppt werden.
  • Man wird erkennen, dass in Schritt 360 und 370 eine Schätzung der ursprünglichen Sprache auf der inversen Funktion Fν beruht. Im Prinzip können auch andere geeignete Verfahren zum Abbilden des derzeitigen Sprachsignals auf eine verbesserte Schätzung verwendet werden, vorzugsweise unter Verwendung des derzeit selektierten Modells Λx(f).
  • Bei einer nicht iterativen Version des Algorithmus ist es ausreichend, nur Schritt 370 auszuführen. Dies kann beispielsweise durch Ausführen der folgenden Sequenz erreicht werden: Schritte 300, 310, 360, 370, 380, 310, und 330, gefolgt durch das Ausgeben des Erkennungsergebnisses (Schritt 350).
  • Allgemeine Eigenschaften:
    • 1. P{Y(ξ')|Λx(ξ')} ≥ P{Y(ξ)|Λx(ξ)} für ξ' ≥ ξ, wobei f und f' die Signalbedingung (z.B. SNR oder Bandbreite) angeben und Y(ξ) die Testsprache bei der Signalbedingung ξ angibt. Diese Eigenschaft impliziert, dass die abgeglichene Leistungsfähigkeit beispielsweise bei hohem SNR oder großer Bandbreite besser ist als die bei niedrigem SNR oder kleiner Bandbreite.
    • 2. P{Y(ξ)|Λx(ξ)} ≥ P{Y(ξ)|Λx(ξ')} für ξ' ≠ ξ, wobei ξ und ξ' SNR nur bei dieser Eigenschaft angeben.
  • Eigenschaften von SSM:
    • 1. Gemäß den obigen zwei Eigenschaften wird das lokale Maximum von P bei den ~ξξ, ~ξξ ∈ [ξ(0)(0) + Θ],Θ > 0 liegen. Das bedeutet, dass es möglich ist, die abgeglichenen Leistungsfähigkeiten zu übertreffen.
    • 2. Von der decodierten Sequenz, S = {Si, l <= i <= T}, ist zu erwarten, dass sie die optimale Lösung in jedem rekursiven Schritt ist, indem automatisch das passende Bootstrap-Modell selektiert wird.
    • 3. Die Modelle Λx(ξ), die bei unterschiedlichen Signalbedingungen (unterschiedliche SNRs für SISM oder unterschiedliche Bandbreiten für BISM) gut trainiert sind, sind die Bootstrap-Modelle zum Gewinnen der Diskrimination.
  • Die anfängliche gemeinsame Bootstrap-Operation ist ein Kernmerkmal im SSM-Algorithmus. In dem anfänglichen Schritt wird ein passendes Modell als Diskriminationsstartwert für weitere Bootstrap-Operationen selektiert. Es ist eine optimale Initialisierung mit der größten Diskriminationsleistung. Das bedeutet, dass der Startwert die geringste Nichtübereinstimmung zwischen Modell und Eingabesignal annehmen kann, beruhend auf dem Sinn der Maximum-Likelihood-Schätzung. Bei einem Bootstrap-Schritt wird das Modell durch die Funktion der Signaltredingung, wie SNR oder Bandbreite, verändert, d.h. Λx(ξ), und die Testsprache wird auch in eine Schätzung der ursprünglichen Sprache (z.B. durch die inverse Funktion, Fν) aktualisiert. Es impliziert "Push-pull" zu Erkennungsleistungsfähigkeiten mit höherem SNR für SISM oder größerer Bandbreite für BISM. Vorzugsweise wird die Bootstrap-Operation iterativ ausgeführt. Auf diese Weise kann die Sig nalbedingung zur gegenseitigen Optimierung von Merkmalen und Modellen aufeinander folgend verbessert werden (z.B. Erhöhung des SNR oder der Bandbreite).
  • Bei dem SSM-Algorithmus wird in Schritt 300 eine anfängliche Schätzung der Signalbedingung (SNR für SISM oder Bandbreite für BISM) vorgenommen, um ein passendes Bootstrap-Modell als Diskriminationsstartwert zu selektieren. Die anfängliche Schätzung kann auf typischen Bedingungen für eine spezielle Anwendung beruhen. Auch ein (einfacher) Test des Signals kann erfolgen. Die optimale Zustands/Mischungssequenz kann in jedem rekursive Schritt über passende Bootstrap-Modelle erhalten werden. Ein beispielhaftes Blockschaltbild eines Spracherkennungssystems, das den SSM-Algorithmus nutzt, wird in 4 gezeigt. In Block 410 werden aus dem empfangenen Sprachsignal Merkmale extrahiert. Dies kann in einer für das Spektralanalyse-Subsystem 110 von 1 beschriebenen Weise erfolgen. In Block 420 wird eine Schätzung der Signalbedingung vorgenommen. Dies kann auf Messung/Schätzung einer derartigen Bedingung in bekannter Weise beruhen oder kann einfach eine konservative Schätzung sein (für die gegebene Anwendung gibt es minimal nur eine typische moderate Verschlechterung). In Block 430 wird die Sprache in normaler Weise verarbeitet (z.B. in einer Weise, wie sie für das "Unit Matching"-Subsystem 120 von 1 beschrieben worden ist), wo gemäß der Erfindung aus einem Speicher 440, der eine Menge von Modellen für unterschiedliche Signalbedingungen umfasst, ein Bootstrap-Modell erhalten wird, das zu der geschätzten Signalbedingung passt. Wie für 3 beschrieben, wird die Verarbeitung auch dadurch geändert, dass eine Schätzung der ursprünglichen Spracheingabe erfolgt. Außerdem kann der iterativen Prozedur von 3 gefolgt werden.
  • Der BISM kann auf schmalbandige Spracherkennung angewendet werden, bei der ein Ansatz mit zunehmender Bandbreite benutzt wird, um die Genauigkeit von hochqualitativen Modellen, die von Mikrofonsprache aus trainiert worden sind, zu erhalten. Es ist wohl bekannt, dass die Leistungsfähigkeit von Telefonsprache selbst unter rauschfreien Bedingungen schlechter ist als von Mikrofonsprache. Der BISM kann die traditionelle Leistungsfähigkeit der Genauigkeit von Telefonspracherkennung durchbrechen. Vorteilhafterweise werden für verrauschte schmalbandige Spracherkennung die SISM- und BISM-Algorithmen kombiniert. 5 zeigt ein Blockschaltbild eines Spracherkennungssystems, das beide Algorithmen verwendet. Bei diesem Ausführungsbeispiel, das beispielsweise für die Erkennung von verrauschter Telefonsprache geeignet ist, werden die SISM- und BISM-Algorithmen in Kaskade verwendet, um die Rauscheffekte bei Verwendung von Telefon- Bootstrap-Modellen zu beseitigen und sich durch Verwendung von Mikrofon-Bootstrap-Modellen der Leistungsfähigkeit hochqualitativer Mikrofonmodelle anzunähern. In Block 500 werden aus dem empfangenen Sprachsignal Merkmale extrahiert. Dies kann in einer Weise erfolgen, wie für das Spektralanalyse-Subsystem 110 von 1 beschrieben worden ist. In Block 510 wird eine Schätzung von zwei Signalbedingungen vorgenommen. In dem Beispiel wird eine Schätzung des SNR und der Signalbandbreite vorgenommen. Die Schätzung kann auf dem Messen/Schätzen einer solchen Bedingung in bekannter Weise beruhen oder einfach eine konservative Schätzung sein (für die gegebene Anwendung gibt es minimal nur eine typische moderate Verschlechterung). In Block 520 wird die Sprache in normaler Weise verarbeitet (z.B. in einer Weise, wie sie für das "Unit Matching"-Subsystem 120 von 1 beschrieben worden ist), wo gemäß der Erfindung aus einem Speicher 530, der eine Menge von Modellen für unterschiedliche Signalbedingungen umfasst, ein Bootstrap-Modell erhalten wird, das zu der geschätzten Signalbedingung passt und eine Menge von Modellen für unterschiedliche Signalbedingungen umfasst. In dem gezeigten Beispiel werden die Bootstrap-Modelle für unterschiedliche SNRs des Eingabesignals optimiert. Wie für 3 beschrieben, wird die Verarbeitung auch dadurch geändert, dass eine Schätzung der ursprünglichen Spracheingabe erfolgt. Außerdem kann der iterativen Prozedur von 3 gefolgt werden. Auf diese Weise wird ein (werden) geeignetes) Modelle) zur Verarbeitung bei diesem SNR lokalisiert und das Eingabesignal wird in ein geschätztes ursprüngliches Signal transformiert, unter der Annahme dieses SNR. Hierauf folgend wird eine gleiche Prozedur in Block 540 für die Bandbreite verwendet, wobei Modelle für die verschiedenen Bandbreiten aus einem Speicher 550 abgerufen werden. In dem Beispiel ist es auch möglich, die Speicher 530 und 550 zu integrieren. Beispielsweise kann für jeden unterstützten SNR-Pegel eine Menge von Modellen gespeichert werden, wobei jedes eine andere Bandbreite aufweist. Dies ermöglicht eine einfache Prozedur, um beide Optimierungen auszuführen. Beispielsweise wird unter der Annahme einer Standard- oder geschätzten Bandbreite erst das passendste Modell für den SNR bestimmt, vorzugsweise iterativ. Dies führt zum Identifizieren einer Menge von Modellen für diesen SNR, wobei die Modelle sich in der Bandbreite unterscheiden. In einem nächsten Prozess wird dann aus dieser Modellmenge das Modell selektiert, das am besten zu der Bandbreite passt. Es versteht sich, dass anstelle eines Kaskadierens der zwei Verarbeitungsschritte auch eine integrierte Prozedur erfolgen kann.
  • Der SSM-Algorithmus kann auf robuste Sprachcodierung angewendet werden, indem Bootstrap-Codebücher/Codierer statt Bootstrap-Modelle/Erkenner verwendet werden, d.h. Λx(ξ) bezeichnet die Bootstrap-Codebücher. Der SISM-Algorithmus kann in ungünstigen Umgebungen die Qualität von Mikrofon- oder Telefon-Sprachcodierung auf hohe SNR-Pegel verbessern. Und der BISM-Algorithmus kann sogar die Telefon-Sprachcodierung auf Mikrofonqualität (oder Qualität größerer Bandbreite) verbessern . Das bedeutet, dass es möglich ist, die codierte Sprache unter Verwendung des BISM-Algorithmus für Telefon-Sprachcodierung mit Mikrofonqualität über Telefonnetze zu übertragen, weil die Telefonsprache durch Verwendung von Mikrofon-Codebüchern decodiert werden kann. Die Implementierung von SSM für Sprachcodierung ist ähnlich derjenigen, die für die Erkennung beschrieben worden ist, indem die Bootstrap-Modelle durch Bootstrap-Codebücher ersetzt werden. Das Blockschaltbild von 5 gilt auch für verrauschte Telefon-Sprachcodierung. Die Ausgabe ist der Codebucheintrag.
  • Vorzugsweise wird im SSM-Algorithmus ein auf Divergenz basiertes Modelltrennverfahren für das diskriminative Training des Bootstrap-Modells verwendet. Um den SSM-Algorithmus zu implementieren, wird das Bootstrap-Modell von einem reinen Modell aus angepasst, statt von verrauschten Daten aus nachzutrainieren, weil es nicht einfach ist, von vornherein genügend viel verrauschte Sprachdaten zu sammeln. Das bevorzugte Verfahren beruht auf einer auf Divergenz basierten Fehlklassifikationsfunktion, wobei die relative Divergenz aus der Kullback-Leibler(KL)-Information abgeleitet wird. Die KL-Information (oder KL-Divergenz) einer Verteilung q(x) in Bezug auf eine andere Verteilung p(x) ist wohl definiert durch:
  • Figure 00150001
  • Die KL-Information ist größer oder gleich null, und DKL (p,q) = 0, wenn die zwei Verteilungen identisch sind. Wenn p und q einzelne Gauß'sche Verteilungen sind, hat der obige Ausdruck eine geschlossene Form
    Figure 00150002
    wobei μp und μq die Mittelwerte der p- und q-Verteilungen sind, und σ 2 / p und σ 2 / q die jeweiligen Varianzen. Für ein HMM kontinuierlicher Dichte (CDHMM: continuous density HMM), wird die Gauß'sche Mischungsverteilungsdichtefunktion als Beobachtungswahr scheinlichkeitsdichtefunktion (pdf) der Zustände viel verwendet. Somit wird eine gemittelte KL-Information zwischen den Zuständen definiert
    Figure 00160001
    wobei Mp und Mq die Mischungszahlen des Zustands P und Q sind. Als nächstes formulieren wir eine auf Divergenz basierte Fehlklassifikationsfunktion, um zu messen wie "nahe" zwei CDHMMs beieinander liegen.
  • Figure 00160002
  • N ist die Zustandszahl der Modelle und si,Λ gibt den i-ten Zustand der Modelle Λ an. Man beachte, dass die KL-Information nicht symmetrisch ist. So definieren wir eine symmetrisch relative Divergenz zwischen zwei Modellen folgendermaßen.
  • Figure 00160003
  • Die relative Divergenz, RKL (Λ1, Λ2), ist ein Maß für den Unterschied zwischen Intrazustands- und Interzustandsabständen für zwei Modelle, Λ1 und Λ2. Je kleiner die relative Divergenz ist, desto näher liegen die zwei Modelle beieinander.
  • Die Verlustfunktion kann dann definiert werden durch:
  • Figure 00160004
  • Es gibt zwei Anwendungen für diskriminatives Training von Bootstrap-Modellen.
  • Λ1 = Λ2 = Λ : Diese Anwendung ist zur Diskriminationsverbesserung von Modellen bestimmt, wobei die Modellparameter in dem auf minimaler relativer Divergenz beruhenden Modellraum eingestellt werden. Das beinhaltet auch die minimale Fehlerrate. Die Modellparameter können adaptiv abgestimmt werden durch wobei n die Iteration und Un eine positive definite Matrix ist.
  • Λ1 ≠ Λ2: Dieser Ansatz wird Diskriminationanpassung genannt. Angenommen werde, dass die diskriminative Leistung des Modells Λ2 besser ist als die von Λ1, beispielsweise unterschiedliche SNR-Pegel. Wir können die Anpassung vornehmen, um die diskriminative Leistung von Λ1 in Richtung der von Λ2 zu verbessern, durch A(n+1)1 = A(n)1 – εUn∇l(Λ(n)1 2)
  • Detaillierte Gleichungen von auf Divergenz basierten Modelltrennverfahren:
    Die diskriminative Einstellung des mittleren Vektors folgt
  • Figure 00170001
  • Und die Einstellung der Standardabweichung folgt
    Figure 00170002
    Figure 00180001
    wobei Mi,Λ die Mischungszahl des i-ten Zustandes von Modell Λ angibt, μijd,Λ und σijd,Λ die Standardabweichung d-ter Ordung, j-ter Mischungsverteilungsdichte bzw. i-ter Zustand des Modells Λ.
  • Ergebnisse:
  • Experimente wurden ausgeführt, um die hauptsächlichen Grenzen der Leistungsfähigkeit von angepassten und nachtrainierten Modellen unter Zusatzrauschbedingungen auszuwerten. Angepasste Modelle verändern vollständig die Parameter von Hidden-Markov-Modellen (HMM) gegenüber reinen Modellen, damit sie zu der verrauschten Testumgebung passen. Nachtrainierte Modelle werden vollständig von durch weißes Gaußsches Rauschen verunreinigte Sprache bei Umgebungen mit abgeglichenem Rauschabstand (SNR) trainiert. Wie oben beschrieben können solche nachtrainierten Modelle im SIMD-Algorithmus verwendet werden. Die Fähigkeiten und Beschränkungen angepasster Modelle und nachtrainierter Modelle sind untersucht worden. Die Ergebnisse zeigen, dass das erfindungsgemäße Konzept der Verwendung nachtrainierter Modelle eine bessere Leistungsfähigkeit verschafft als die Verwendung angepasster Modelle. Dies gilt für beliebige Bedingungen, aber insbesondere für niedrige SNRs. Die Ergebnisse zeigen, dass Laut-Fehlerraten für nachtrainierte Modelle um etwa 6% besser sind als für angepasste Modelle. Es hat sich auch gezeigt, dass die nachtrainierten Modelle die Wort-Fehlerrate um 6% für 15-dB SNR und sogar um 18% für 0-dB SNR verbessern. Einzelheiten werden weiter unten gegeben.
  • Die Modell-Nachtrainingstechnik ist mit der bekannten Technik der Modellanpassung/Transformation verglichen worden. Bei dieser bekannten Technik werden die Modelle an die Testumgebungen angepasst. Die resultierende Leistungsfähigkeit hängt vom Ausrichten des Zustands auf den Rahmen ab und wird häufig durch die Leistungsfähigkeit in abgeglichenen Bedingungen begrenzt. Um die Modelle in neue Umgebungen einzupassen, wird lineare Maximum-Likelihood-Regression (MLLR) verwendet. Stochastische Gleichheitsprüfung (SM) wandelt Merkmale oder Modelle ab, zum Angleichen an die Ungebungsänderung.
  • Die Hauptbeschränkungen von Algorithmen für Modellanpassung/Transformation sind untersucht worden, indem vollständig angepasste Modelle verwendet wurde, wie oben für US 5.727.124 beschrieben, und nachtrainierte Modelle gemäß der Erfindung. Das vollständig angepasste Modell wird verwendet, um zu simulieren, dass das Zusatzrauschen zur erneuten Modellschätzung genau geschätzt werden kann. Der experimentelle Aufbau der vollständig angepassten Modelle ist folgendermaßen:
  • Schritt 1: Die reine Sprache des Trainingskorpus wird mit Hilfe reiner Modelle segmentiert, und die Pfade werden für Training mit verrauschtem Modell beibehalten.
  • Schritt 2: Unterschiedliche Pegel von Zusatzrauschen wurden in die Testäußerungen eingefügt. Alle HMM-Parameter werden ohne eine weitere Iteration erneut geschätzt.
  • Die nachtrainierten Modelle werden vollständig von verrauschter Sprache bei abgeglichenen SNR-Umgebungen trainiert wie beim Training reiner Modelle. Den Testäußerungen wurde bei unterschiedlichen Gesamt-SNR-Pegeln weißes Gauß'sches Rauschen hinzugefügt. Der Gesamt-SNR wird folgendermaßen definiert, wobei σ 2 / x die Varianz der Testsprachenäußerung und σ 2 / n die Varianz des Zusatzrauschens ist.
  • Figure 00190001
  • Experimente wurden mit dem "Japanese Electronic Industry Development Association's Common Sprachdaten Corpus" (JSDC) durchgeführt, der hauptsächlich ein Korpus aus isolierten Phrasen ist. Der JSDC-Korpus wurde mit dynamischen Mikrofonen aufgezeichnet und bei 16 kHz abgetastet. Der phonetisch reiche JSDC-Teilkorpus mit Städtenamen wurde verwendet, um Laut-basierte HMMs zu trainierern. In den Experimenten wurden 35 monophone HMMs mit drei Zuständen pro Modell und nominal 32 Laplac'schen Mischungsverteilungsdichten pro Zustand eingesetzt. Der JSDC-Kontroll-Wortkorpus mit einem Vokabular von 63 Wörtern wurde als Testmaterial verwendet.
  • Es wurden Experimente für Decodierung freier Laute und Worterkennung durchgeführt. Die resultierenden Laut- und Wort-Fehlerraten werden in 6 bzw. 7 gezeigt. Horizontal wird der SNR in dB dargestellt. Vertikal werden die jeweiligen Fehlerraten (in Prozent) dargestellt. Die folgenden Kurven werden gezeigt:
    • 1. Beschädigte Leistungsfähigkeit: Die Modelle sind rein und das Testmaterial ist durch hinzugefügtes weißes Gauß'sche Rauschen beschädigt, wobei rein bedeutet, dass kein Rauschen hinzugefigt worden ist.
    • 2. Vollständig angepasste Leistungsfähigkeit: Die Modelle sind von auf bekannten Rauschpegeln beruhenden, reinen Modellen aus angepasst und das Testmaterial ist bei den gleichen SNR-Pegeln beschädigt.
    • 3. Nachtrainierte Leistungsfähigkeit: Die Modelle sind in bekannten SNR-Umgebungen vollständig nachtrainiert und das Testmaterial ist bei den gleichen SNR-Pegeln beschädigt.
  • Es hat sich gezeigt, dass nachtrainierte Modelle immer bessere Leistung zeigen als unter beliebigen Bedingungen angepasste Modelle, aber insbesondere bei niedrigen SNR-Pegeln. 6 zeigt, dass Laut-Fehlerraten für nachtrainierte Modelle um etwa 6% besser sind als für angepasste Modelle. Aus 7 ist auch ersichtlich, dass nachtrainierte Modelle die Wort-Fehlerrate um 6% für 15-dB SNR und sogar um 18% für 0-dB SNR verbessern.
  • Weitere Experimente wurden an der JNAS (Japanese Newspaper Article Satz)-Datenbasis, geliefert von ASJ (Acoustic Society of Japan), ausgeführt. JNAS enthält 306 Sprecher (153 männliche und 153 weibliche), die Auszüge aus der Mainichi Newspaper (100 Sätze) und die ATR-503-PB-Sätze (50 phonetisch ausgewogene Sätze) lesen. Wie in den oben beschriebenen Experimenten wurde den Testäußerungen weißes Gauß'sches Rauschen bei unterschiedlichen SNR-Pegeln hinzugefügt. In diesem Experiment wurden 35 kontextunabhängige monophone HMMs mit drei Zuständen pro Modell eingesetzt und bei unseren Experimenten nominal 16 Gauß'sche Mischungsverteilungsdichten pro Zustand. Die japanische Lauterkennung wurde mit der Randbedingung einer Silbentopologie durchgeführt. Die weiteren Experimente, wie in 8 erläutert, zeigen, dass der SISM-Algorithmus die nachtrainierten Leistungsfähigkeiten übertreffen kann, die gewöhnlich als Obergrenzen bei allen SNR-Pegeln betrachtet werden. Horizontal ist der SNR in dB dargestellt. Vertikal sind die jeweiligen Fehlerraten dargestellt (in Prozenten). Inschrift der Zeichnung
  • 3
  • 300
    SNR oder Bandbreite ξ0 schätzen, Parameterinitialisierung
    310
    passendes Bootstrap-Modell Λx(l)) selektieren
    320
    Bootstrap-Modelle
    330
    Spracherkennung ausführen
    340
    zum neuen Kriterium konvergieren ?
    yes = ja
    350
    Ausgabe
    no = nein
    360
    Parameter der inversen Funktion schätzen
    370
    ursprüngliche Sprache mittels der inversen Funktion Fu schätzen
    380
    SNR oder Bandbreite erhöhen
  • 4
  • Spracheingabe
    410
    Merkmalextraktion
    420
    SNR- oder Bandbreitenschätzung
    430
    Bootstrap-Iteration/Erkenner
    440
    Bootstrap-Modelle
    optimale Ausgabe
  • 5
  • Telefonsprache
    500
    Merkmalextraktion
    510
    SNR- und Bandbreitenschätzung
    520
    SNR-Bootstrap-Iteration/Erkenner
    530
    SNR-Bootstrap-Telefonmodelle
    540
    BB-Bootstrap-Iteration/Erkenne
    550
    Bandbreiten-Bootstrap-Telefonmodelle
    Ausgabe
  • 6, 7
    • Lautfehlerrate (%)
    • Gesamt-SNR (dB)
      corrupted beschädigt
      fully adapted vollständig angepasst
      retrained nachtrainiert
  • 8
    • Lautfehler
      retrained nachtrainiert
      corrupted beschädigt
      SISM SISM
      clean rein

Claims (8)

  1. Verfahren zur Verarbeitung eines verschlechterten Spracheingabesignals, wobei das Verfahren enthält: – Empfangen des verschlechterten Spracheingabesignals; – Schätzen einer Bedingung, wie z.B. den Rauschabstand oder die Bandbreite, für das empfangene Eingabesignal; – Selektieren eines Verarbeitungsmodells, das der geschätzten Signalbedin- gung entspricht; – Schätzen eines ursprünglich geäußerten Sprachsignals auf Basis des empfangenen Eingabesignals einschließlich Bestimmen eines am wahrscheinlichtsten geäußerten Sprachsignals im Hinblick auf ein zuvor bestimmtes, als der geschätzten Signalbedingung entsprechend selektiertes Verarbeitungsmodell; – Verarbeiten des geschätzten ursprünglichen Signals gemäß dem selektierten Modell; und – Ausgeben eines Verarbeitungsergebnisses. wobei das Verfahren iterativ enthält: – Ausführen einer neuen Schätzung der Signalbedingung für das empfangene Eingabesignal; – Selektieren eines Verarbeitungsmodells, das der neu geschätzten Signalbedingung entspricht; – Schätzen eines ursprünglich geäußerten Sprachsignals auf Basis des geschätzten ursprünglichen Signals einer unmittelbar vorhergehenden Iteration im Hinblick auf das selektierte Verarbeitungsmodell; – Verarbeiten des geschätzten ursprünglichen Signals gemäß dem selektierten Modell und – Beenden der Iteration, wenn eine zuvor bestimmte Bedingung erfüllt ist.
  2. Verfahren nach Anspruch 1, bei dem die Iteration beendet wird, wenn ein Verarbeitungsergebnis sich nicht mehr verbessert.
  3. Verfahren nach Anspruch 1, bei dem Ausführen einer neuen Schätzung der Signalbedingung Selektieren einer stärker verschlechterten Signalbedingung enthält.
  4. Verfahren nach Anspruch 1, bei dem die Sprachverarbeitung Erkennen von Sprache beinhaltet und das Verarbeitungsmodell ein Spracherkennungsmodell ist.
  5. Verfahren nach Anspruch 1, bei dem die Sprachverarbeitung Codieren von Sprache beinhaltet und das Verarbeitungsmodell ein Sprachcodebuch/-codierer ist.
  6. Sprachverarbeitungssystem zur Verarbeitung eines verschlechterten Sprach- eingabesignals, wobei das System enthält: – einen Eingang zum Empfangen des verschlechterten Spracheingabesignals; – Mittel zum Schätzen einer Bedingung, wie z.B. den Rauschabstand oder die Bandbreite, des empfangenen Eingabesignals, und um darüber hinaus iterativ eine neue Schätzung der Signalbedingung für das empfangene Eingabesignal auszuführen; – Mittel zum Selektieren eines der geschätzten Signalbedingung entsprechenden Verarbeitungsmodells, und um darüber hinaus iterativ ein der neu geschätzten Signalbedingung entsprechendes Verarbeitungsmodell zu selektieren; – Mittel zum Schätzen eines ursprünglich geäußerten Sprachsignals auf Basis des empfangenen Eingabesignals einschließlich Bestimmen eines am wahrscheinlichtsten geäußerten Sprachsignals im Hinblick auf ein zuvor bestimmtes, als der geschätzten Signalbedingung entsprechend selektiertes Verarbeitungsmodell, und um darüber hinaus ein ursprünglich geäußertes Sprachsignal auf Basis des geschätzten ursprünglichen Signals einer unmittelbar vorhergehenden Iteration im Hinblick auf das selektierte Verarbeitungsmodell iterativ zu schätzen; – Mittel zum iterativen Verarbeiten des geschätzten ursprünglichen Signals gemäß dem selektierten Modell; – Mittel zum Beenden der Iteration, wenn eine zuvor bestimmte Bedingung erfüllt ist, und – einen Ausgang zum Ausgeben eines Verarbeitungsergebnisses.
  7. Verfahren nach Anspruch 1, wobei das Verfahren ein Erzeugen des Verarbeitungsmodells durch auf Divergenz beruhende Modelltrennung für diskriminatives Training eines gegebenen Modells enthält; wobei die Trennung enthält: – Schätzen einer auf Divergenz beruhenden Diskriminantenfunktion; und – Ausführen eines adaptiven Lernschritts für Modellparameter auf Basis von Minimieren einer Funktion der Fehlerrate.
  8. Verfahren nach Anspruch 7, bei dem die Diskriminantenfunktion direkt aus der relativen Divergenz erhalten wird statt durch Eingabesprachdaten gesteuert wird.
DE60018696T 1999-07-01 2000-06-27 Robuste sprachverarbeitung von verrauschten sprachmodellen Expired - Lifetime DE60018696T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP99202136 1999-07-01
EP99202136 1999-07-01
PCT/EP2000/005963 WO2001003113A1 (en) 1999-07-01 2000-06-27 Robust speech processing from noisy speech models

Publications (2)

Publication Number Publication Date
DE60018696D1 DE60018696D1 (de) 2005-04-21
DE60018696T2 true DE60018696T2 (de) 2006-04-06

Family

ID=8240395

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60018696T Expired - Lifetime DE60018696T2 (de) 1999-07-01 2000-06-27 Robuste sprachverarbeitung von verrauschten sprachmodellen

Country Status (5)

Country Link
US (1) US6865531B1 (de)
EP (1) EP1116219B1 (de)
JP (1) JP4818556B2 (de)
DE (1) DE60018696T2 (de)
WO (1) WO2001003113A1 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002091357A1 (en) * 2001-05-08 2002-11-14 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (lvcsr) system
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US7174292B2 (en) * 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US20040267530A1 (en) * 2002-11-21 2004-12-30 Chuang He Discriminative training of hidden Markov models for continuous speech recognition
US20040181409A1 (en) * 2003-03-11 2004-09-16 Yifan Gong Speech recognition using model parameters dependent on acoustic environment
JPWO2007080886A1 (ja) * 2006-01-11 2009-06-11 日本電気株式会社 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム
US8831943B2 (en) * 2006-05-31 2014-09-09 Nec Corporation Language model learning system, language model learning method, and language model learning program
US7885812B2 (en) * 2006-11-15 2011-02-08 Microsoft Corporation Joint training of feature extraction and acoustic model parameters for speech recognition
US20080243503A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Minimum divergence based discriminative training for pattern recognition
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
US8160878B2 (en) * 2008-09-16 2012-04-17 Microsoft Corporation Piecewise-based variable-parameter Hidden Markov Models and the training thereof
GB2464093B (en) * 2008-09-29 2011-03-09 Toshiba Res Europ Ltd A speech recognition method
CA2832762A1 (en) 2011-04-13 2012-10-18 Man Oil Group Ag Liquid products and method for emulsifying oil, and use thereof in the treatment of oil contaminations
TWI475557B (zh) * 2012-10-31 2015-03-01 Acer Inc 音訊處理裝置
CN109346097B (zh) * 2018-03-30 2023-07-14 上海大学 一种基于Kullback-Leibler差异的语音增强方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04275600A (ja) * 1991-03-01 1992-10-01 Ricoh Co Ltd 音声認識装置
JPH0566790A (ja) * 1991-09-10 1993-03-19 Oki Electric Ind Co Ltd 音声認識方法
JP3098593B2 (ja) * 1991-12-12 2000-10-16 株式会社日立製作所 音声認識装置
JPH06236196A (ja) * 1993-02-08 1994-08-23 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法および装置
JPH06282297A (ja) * 1993-03-26 1994-10-07 Idou Tsushin Syst Kaihatsu Kk 音声符号化方式
JP3102195B2 (ja) * 1993-04-02 2000-10-23 三菱電機株式会社 音声認識装置
DE4325404C2 (de) * 1993-07-29 2002-04-11 Tenovis Gmbh & Co Kg Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
US5727124A (en) 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
JPH08110800A (ja) * 1994-10-12 1996-04-30 Fujitsu Ltd A−b−S法による高能率音声符号化方式
JPH08320698A (ja) * 1995-05-23 1996-12-03 Clarion Co Ltd 音声認識装置
US6067517A (en) * 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
JPH1063293A (ja) * 1996-08-23 1998-03-06 Kokusai Denshin Denwa Co Ltd <Kdd> 電話音声認識装置
JP3587966B2 (ja) * 1996-09-20 2004-11-10 日本電信電話株式会社 音声認識方法、装置そよびその記憶媒体
JP3250604B2 (ja) * 1996-09-20 2002-01-28 日本電信電話株式会社 音声認識方法および装置
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
CN1494055A (zh) * 1997-12-24 2004-05-05 ������������ʽ���� 声音编码方法和声音译码方法以及声音编码装置和声音译码装置
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
US6327565B1 (en) * 1998-04-30 2001-12-04 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on eigenvoices
US6324510B1 (en) * 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
US6275800B1 (en) * 1999-02-23 2001-08-14 Motorola, Inc. Voice recognition system and method

Also Published As

Publication number Publication date
US6865531B1 (en) 2005-03-08
EP1116219B1 (de) 2005-03-16
EP1116219A1 (de) 2001-07-18
JP2003504653A (ja) 2003-02-04
JP4818556B2 (ja) 2011-11-16
WO2001003113A1 (en) 2001-01-11
DE60018696D1 (de) 2005-04-21

Similar Documents

Publication Publication Date Title
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69022237T2 (de) Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.
DE69635655T2 (de) Sprecherangepasste Spracherkennung
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
DE69832393T2 (de) Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE3242866C2 (de)
EP1084490B1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
WO1996029695A1 (de) Verfahren und anordnung zur spracherkennung bei wortkomposita enthaltenden sprachen
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
EP3010014B1 (de) Verfahren zur interpretation von automatischer spracherkennung
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE10119284A1 (de) Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems
EP0633559B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60036522T2 (de) Verziehung der Frequenzen für Spracherkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition