DE69705891T2 - Verfahren und Vorrichtung zur entzerrenden Filterung eines Sprachsignals unter Verwendung eines statistischen Signalmodells - Google Patents
Verfahren und Vorrichtung zur entzerrenden Filterung eines Sprachsignals unter Verwendung eines statistischen SignalmodellsInfo
- Publication number
- DE69705891T2 DE69705891T2 DE69705891T DE69705891T DE69705891T2 DE 69705891 T2 DE69705891 T2 DE 69705891T2 DE 69705891 T DE69705891 T DE 69705891T DE 69705891 T DE69705891 T DE 69705891T DE 69705891 T2 DE69705891 T2 DE 69705891T2
- Authority
- DE
- Germany
- Prior art keywords
- path
- acoustic
- vector
- equalization
- speech signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 43
- 238000001914 filtration Methods 0.000 title claims description 18
- 239000013598 vector Substances 0.000 claims description 40
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000002349 favourable effect Effects 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 239000000654 additive Substances 0.000 claims description 5
- 230000000996 additive effect Effects 0.000 claims description 5
- 238000012417 linear regression Methods 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 27
- 230000003595 spectral effect Effects 0.000 description 11
- 238000010183 spectrum analysis Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000001627 detrimental effect Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005183 dynamical system Methods 0.000 description 1
- LENNRXOJHWNHSD-UHFFFAOYSA-N ethylnorepinephrine Chemical compound CCC(N)C(O)C1=CC=C(O)C(O)=C1 LENNRXOJHWNHSD-UHFFFAOYSA-N 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Filters That Use Time-Delay Elements (AREA)
Description
- Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur entzerrenden Filterung eines Sprachsignals unter Verwendung eines statistischen Signalmodells.
- In der nachstehenden Beschreibung wird unter Nichtbeachtung des Sprachgebrauchs der Begriff "Entzerrung" durchgängig als Synonym für "Dämpfung von Störungen" verwendet.
- Insbesondere sind das Filterverfahren und die Filtervorrichtung gemäß der vorliegenden Erfindung auf ein digitales Sprachsignal anwendbar, auf das sich Störungen nachteilig auswirken können und bei dem es sich um das zu verarbeitende Signal bzw. das eigentliche Signal handelt, unter Heranziehung eines verborgenen Markow-Modells des eigentlichen Signals, das im folgenden als HMM (vom englischen Begriff "Hidden Markov Model") bezeichnet wird, oder einer Näherung des Modells des eigentlichen Signals, die auf der Grundlage reeller Daten hochgerechnet wird, sowie von Filterfunktionen unter Entzerrung der Störungen.
- Das erfindungsgemäße Verfahren und die erfindungsgemäße Vorrichtung finden ihre Anwendung bei der Verbesserung von Verfahren zur automatischen Spracherkennung (nachstehend mit der Abkürzung RAP bezeichnet), insbesondere über das Telefonnetz, gleich ob es sich dabei um ein öffentliches Festnetz (Reseau Telephonique Commuté - RTC) oder um ein Mobilfunknetz (Groupe Special Mobile - GSM) handelt. Ebenso findet die vorliegende Erfindung bei der Rauschbeseitigung bei Sprachsignalen Anwendung.
- Bei den sogenannten RAP-Systemen sind die bekannten Techniken in den Fällen, in denen die Erkennung in geschlossenen Räumen für die Sprachsteuerung von Freisprech- Telefonen, Rechnern, Informations-Terminals oder anderen Geräten vonstatten geht, darauf gerichtet, die durch additives Rauschen hervorgerufenen Störungen zu mindern. Sie umfassen insbesondere die Filterung durch spektrale Subtraktion, die Antennenfilterung, die Filterung durch den Zustand von Markow-Modellen oder die Hinzufügung von Umgebungsrauschen zu Vergleichsmodellen im Online-Betrieb.
- Die Filterung entsprechend dem Markow-Zustand besteht darin, ein Filter mittels spektraler Subtraktion (Filter nach Wiener) einzusetzen, welches das Markow-Modell der Sprache bzw. der Wörter und den Zustand mit der höchsten Wahrscheinlichkeit kennt, in welchem sich das System zu einem Zeitpunkt t befindet. Das Modell des eigentlichen Signals ist durch den Zustand des Markow-Modells gegeben, und das Rauschmodell wird auf der Grundlage der sprachlosen Stellen hochgerechnet, die dem zu entrauschenden Wortvorausgehen.
- Bei der zentralisierten Erkennung zielen die bekannten Techniken darauf ab, die Auswirkungen von Telefonleitungen durch Subtraktion von spektralanalytischen Vektoren ihrer kontinuierlichen Komponente zu mildern, die über einen ausreichend weiten Horizont hochgerechnet werden. Dabei sollte man sich daran erinnern, dass der Begriff "Horizont" bei einem in Fenster unterteilten digitalen Telefonsignal eine vorgegebene ganzzahlige Anzahl von aufeinanderfolgenden Fenstern bedeutet. Zu einer ausführlicheren Beschreibung dieser Art von Ansatz wird auf den Beitrag von C. MOKBEL, J. MONNE und D. JOUVET verwiesen, der den Titel "Online adaptation of a speech recognizer to variations in telephone line conditions" trägt und in Eurospeech, Seiten 1247 bis 1250, Berlin, 1993 veröffentlicht wurde. Für einen ausreichend weiten Horizont wird festgestellt, dass das Mittel der spektralanalytischen Vektoren die Wirkungen von Telefonleitungen repräsentiert, wobei diese Feststellung umso stärker nachgeprüft wird, je langsamer die Veränderungen der Charakteristika des Kanals sind.
- Ganz allgemein baut ein System zur Rauschentfernung bzw. Entzerrung auf der Kenntnis der Charakteristika des eigentlichen Signals und der Störungen auf. Die Situation ist dennoch noch komplizierter, wenn das Modell des eigentlichen Signals oder dessen Parameter nicht bekannt sind.
- Wird beispielsweise angenommen, dass ein eigentliches Sprachsegment das Ausgangssignal eines autoregressiven Systems darstellt, von dem die Parameter nicht bekannt sind, so kann man zur Rauschunterdrückung auf ein Verfahren vom Typ "Estimate-Maximise" zurückgreifen, um eine Hochrechnung der Parameter des autoregressiven Modells zu erhalten und um die Störungen (vgl. beispielsweise den Beitrag von G. CELEUX und J. DIEBOLT mit dem Titel "Une version de type recuit simulé de l'algorithme EM" in: Rapports de Recherche, Nr. 1123, Programme 5, INRIA, November 1989) auszufiltern.
- Es kann auch auf die blinde Entzerrung zurückgegriffen werden, die sich zur Ermittlung des Kriteriums für die Anpassung der Koeffizienten des für die Entzerrung eingesetzten Entzerrers auf die eigenen statistischen Informationen des digitalen Signals stützt. Insbesondere werden in der französischen Vorveröffentlichung FR-A-2 722 631 ein Verfahren und ein System zur adaptiven Filterung durch blinde Entzerrung eines digitalen Telefoniesignals und deren Einsatz in der Übermittlung in der Telefonie und/oder bei AUTOMATISCHER SPRACHERKENNUNG beschrieben. Das in diesem Dokument beschriebene Verfahren beruht vollständig auf den allgemeinen statistischen Informationen im Zusammenhang mit dem Sprachsignal und auf der Hypothese eines gefalteten, nahezu konstanten Effekts des Telefoniekanals.
- Solche Ansätze erbringen befriedigende Ergebnisse, wenn hinsichtlich des Signals selbst einfache Hypothesen aufgestellt werden können, und zwar wenn es als autoregressives und/oder Gaußsches und/oder stationäres Signal angenommen werden kann, was nicht immer möglich ist.
- Weitere neuere Untersuchungen sind auf die Verwendung der statistischen Modelle des Wortschatzes ausgerichtet, um so die Störungen und/oder die Variabilität des Sprachsignals zu verringern, was eine robustere Erkennung ermöglichen könnte.
- So wird auf Seiten 1595 bis 1598 in der Vorveröffentlichung DATABASE INSPEC INSTITUTE OF ELECTRICAL ENGINEERS, INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, 1994, Band 3, 18. - 22. September 1994, Yokohama, Japan ein Verfahren zur Verbesserung eines Sprachsignals beschrieben, auf das sich ein nicht korreliertes Rauschen negativ auswirkt, und zwar mit Hilfe eines im spektralanalytischen Bereich verborgenen Markow-Modells.
- In der Vorveröffentlichung EP 534 837 wird ebenfalls ein Verfahren zur Verarbeitung von Sprache unter Anwendung von verborgenen Markow-Modellen beschrieben, das mittels der nicht-linearen Subtraktion funktioniert.
- In dem Dokument "Speech enhancement using state dependent dynamical system model", EPHRAIM - ICASSP'92, Band 1, 23. - 26. März 1992, SAN FRANCISCO, CA (USA) wird ein Verfahren zur Modellbildung bei einem Sprachsignal unter Einsatz eines verborgenen Markow-Modells beschrieben.
- Alle diese Arbeiten zeigen den Nachteil auf, das sie nicht in der Lage sind, eine Online-Anwendung zu ermöglichen, die synchron mit dem akustischen Raster bzw. Teilmuster läuft. Bei den bisher angeregten Verfahren wird das Ende des zu erkennenden Signals abgewartet, um dann die iterativen Schritte zur Hochrechnung der Neigungen und zur Identifizierung des entrauschten bzw. entzerrten Signals auszuführen. Des weiteren hängen die zu subtrahierenden Komponenten zur Hochrechnung der Neigung direkt - oder im Fall eines Verfahrens vom Typ "Estimate-Maximise" indirekt - vom günstigsten Pfad im Markow-Modell ab, wobei unter einem Pfad bzw. einer Ausrichtung im Sinne von Markow eine Zuordnung zwischen einer Abfolge akustischer Teilmuster und einer Abfolge von Zuständen (bzw. Übergängen) zu verstehen ist, denen Dichtewerte der Wahrscheinlichkeiten des Modells entsprechen. Diese Abhängigkeit birgt die Gefahr in sich, dass dem Ansatz eine bestimmte Tendenz aufgegeben wird, sofern die Ausgangsbeobachtung stark gestört ist, da diese Störungen Fehlausrichtungen herbeiführen können.
- Der mit der vorliegenden Erfindung vorgeschlagene Lösungsweg unterscheidet sich von seinem grundlegenden Prinzip her von den vorstehend beschriebenen Ansätzen, ist allgemeiner als diese und überwindet die vorgenannten Nachteile insofern, als hier eine Synchronisierung mit dem akustischen Teilmuster gegeben ist.
- Hierzu wird erfindungsgemäß ein Verfahren zur Entzerrung eines Sprachsignals vorgeschlagen, welches aus einer beobachteten Abfolge akustischer Teilmuster als aufeinanderfolgende Eingangsinformationen besteht, wobei sich auf das Sprachsignal Störungen nachteilig auswirken können, wobei gemäß diesem Verfahren ein Modell des Sprachsignals in Form von HMM gebildet wird; dieses Verfahren zeichnet sich dadurch aus, dass zu jedem Zeitpunkt t:
- - ausgehend von mehreren vorhergehenden akustischen Teilmustern und ausgehend von mehreren Parametern des Markow-Modells Entzerrungsfilter gebildet werden, die den Pfaden im Sinne von Markow zum Zeitpunkt t zugeordnet sind;
- - mindestens mehrere der Entzerrungsfilter eingesetzt werden, um zum Zeitpunkt t mehrere Abfolgen gefilterter akustischer Einzelmuster und eine Emissions-Wahrscheinlichkeit für jeden den eingesetzten Entzerrungsfiltern jeweils zugeordneten Pfaden zu erhalten;
- das Entzerrungsfilter, das im Sinne von Markow dem Pfad mit der höchsten Wahrscheinlichkeit entspricht, d. h. der Pfad, für den die Wahrscheinlichkeit der Emission der Abfolge gefilterter akustischer Einzelmuster durch das entsprechende eingesetzte Entzerrungsfilter am höchsten ist, herangezogen wird; und
- - als entzerrtes Einzelmuster das vom herangezogenen Entzerrungsfilter gelieferte gefilterte Einzelmuster herangezogen wird.
- Des weiteren wird erfindungsgemäß auch eine Entzerrungsvorrichtung vorgeschlagen, bei welcher das vorgenannte Verfahren zum Einsatz kommt und die sich dadurch auszeichnet, dass sie ein Entzerrungsfilter-Modul aufweist, welches an seinem Eingang das von Störungen nachteilig beeinflusste Sprachsignal empfängt und an seinem Ausgang ein Sprachsignal mit verminderten Störungen liefert.
- Weitere Merkmale und Vorteile der vorliegenden Erfindung ergeben sich aus der nachstehenden Beschreibung und aus der Betrachtung der beiliegenden einzigen Figur, in welcher das Modul zur Berechnung der Spektralanalyse des Sprachsignals, das im Entzerrungsfilter-Modul der erfindungsgemäßen Vorrichtung enthalten ist, bei einem speziellen Ausführungsbeispiel dargestellt wird.
- Im gesamten nachfolgenden Text wird ein Sprachsignal herangezogen, das aus einer beobachteten Abfolge x&sub1;, ... xt, ... xTf aufeinanderfolgender akustischer Einzelmuster besteht, die hier als akustische Eingangs-Einzelmuster bezeichnet werden. Der Index 1 bei x&sub1; gibt einen vorgegebenen Anfangszeitpunkt für die Beobachtung an; der Index t bei xt bezeichnet den aktuellen Zeitpunkt und der Index Tf bei xTf repräsentiert den abschließenden Zeitpunkt der beobachteten Sequenz. Auf dieses Sprachsignal können sich Störungen nachteilig auswirken.
- Es wird davon ausgegangen, dass das Sprachsignal von einem oder mehreren Mischungen erzeugt wird, deren Parameter bekannt sind oder anhand eines Lernmodells hochgerechnet werden können. Somit kann dieses Signal als Realisierung eines HMM- Modells angesehen werden, das als λ bezeichnet wird. Zu einem gegebenen Zeitpunkt wird die Beobachtung von einer der Komponenten der Mischung bzw. der Mischungen erzeugt, die einem Markow-Automaten zugeordnet sind. Die Beobachtung des Signals ermöglicht es jedoch nicht, das Signal und die entsprechende Mischung zu kennen. Die Beobachtungen werden als unvollständig bezeichnet. Bekannt sind nur die Parameter der Mischung bzw. der Mischungen, die Parameter des Markow-Automaten und die Art der Störungen, die sich nachteilig auf das beobachtete Signal auswirken.
- Die HMM-Modelle sind dem Fachmann wohlbekannt, insbesondere im Zusammenhang mit AUTOMATISCHER SPRACHERKENNUNG. In diesem Zusammenhang könnte man auf das Werk von L. RABINER und B.-H. JUANG mit dem Titel "Fundamentals of speech recognition", Prentice Hall Signal Processing Series, herausgegeben in der A. V. Oppenheim Series, 1993, oder auch auf die Doktorarbeit von D. JOUVET, "Reconnaisance de mots connectes independamment du locuteur par des methodes statistiques", E.N.S.T., 1988 verweisen.
- Es wird hier daran erinnert, dass ein HMM-Modell aus einem Markow-Automaten besteht, der durch eine bestimmte Anzahl von Parametern definiert wird, nämlich dessen Zustände oder Übergänge q&sub1;, ... qn (wobei N die Anzahl der Zustände des Modells angibt), die Übergänge zwischen diesen Zuständen und die Werte der Dichte der Emission eines Beobachtungsvektors, der sich in einem gegebenen Zustand befindet (bzw. für einen gegebenen Übergang). Somit beschreiben drei Gruppen von Parametern das HMM-Modell λ:
- - die Gruppe von Wahrscheinlichkeiten, mit denen ein Zustand q&sub1; zu einem Anfangszeitpunkt t&sub0; besetzt ist, die mit π(qi) notiert werden;
- - die Gruppe von Wahrscheinlichkeiten, mit denen ein Beobachtungsvektor x, der sich in einem gegebenen Zustand qi befindet, emittiert wird und welche in der Form bqi(x) notiert werden; für diese Wahrscheinlichkeiten gilt im folgenden die Annahme, dass sie einem Gaußschen Wahrscheinlichkeitsgesetz des mittleren Vektors mqi und der Kovarianz- Matrix Rqi folgen.
- Die Wahrscheinlichkeiten der Emission werden hier den Zuständen des Markow- Automaten zugeordnet. Sie können jedoch auch genauso gut den Übergängen zugeordnet werden: dies ändert nichts an den wesentlichen Merkmalen der Erfindung.
- Dies wird wie folgt geschrieben: λ = (π, a, b).
- Bei diesem Modell handelt es sich bei einem Pfad mit der Länge t im Sinne von Markow - wie vorstehend bereits erläutert - um eine Zuordnung zwischen einer Abfolge von t Einzelmustern und einer Abfolge von t Zuständen, denen Werte für die Dichte der Wahrscheinlichkeiten des Modells entsprechen. Aus Gründen der Vereinfachung wird hier davon ausgegangen, dass ein Pfad eine Folge s von t Zuständen oder Übergängen q&sub1; ..., qt ist. Dies wird wie folgt notiert: s = {q&sub1;, ... qt}.
- Die Verringerung der Störungen in dem beobachteten Signal erfolgt dadurch, dass auf jedes Einzelmuster xt desselben eine Entzerrungsfunktion angewendet wird, welche einem Entzerrungsfilter bzw. einem Entzerrer zugeordnet ist.
- Entsprechend dem erfindungsgemäßen Verfahren werden zu jedem Zeitpunkt t in der nachstehend noch ausführlich beschriebenen Weise Entzerrer gebildet, die den Pfaden zugeordnet sind, die zu dem Zeitpunkt t in dem Markow-Automaten vorhanden sind. Somit hängt die Entwicklung eines Pfades bzw. einer Ausrichtung in dem Automaten nicht nur von dem beobachteten Signal zu einem gegebenen Zeitpunkt ab, sondern auch von dem Zustand des Entzerrers, der in diesem Pfad vorhanden ist, wobei dieser Entzerrer zu jedem Zeitpunkt auf das beobachtete Einzelmuster angewendet wird.
- Nachstehend wird die dem Entzerrer im Pfad s zugeordnete Funktion wie folgt geschrieben: Fθ(s)(.). Sie ist mit einem Vektor θ(s) parametriert.
- Zu einem gegebenen Zeitpunkt t bemüht man sich nun, für einen gegebenen Weg s und in Kenntnis der Parameter des HMM-Modells λ den günstigsten Vektor der Parameter - in der Schreibweise t(s) - für die Entzerrungsfunktion hochzurechnen. Unter Anwendung des Verfahrens der maximalen Glaubhaftigkeit wird dieser Vektör mittels des Vektors der Parameter hochgerechnet, für welchen in Kenntnis des Modells λ für die Emission der Abfolge akustischer Einzelmuster Fθ(s)(xt0), ..., Fθ(s)(xt), welche die Abfolge der akustischen Eingangs-Einzelmuster darstellt, die in dem im Pfad s befindlichen Entzerrer vorhanden sind, die Wahrscheinlichkeit am höchsten ist. Dies wird wie folgt geschrieben:
- t(s) = argmaxθ [P(Fθ(s)(xt&sub0;), ..., Fθ(s)(xt),s/λ)].
- Die Bestimmung von t(s) läuft somit auf die Maximierung
- P(Fθ(s)(xt&sub0;), ..., Fθ(s)(xt),s/λ)
- hinaus. Da die Definition der Parameter des vorstehend umrissenen Markow-Modells gegeben ist, erhält man:
- wobei E = exp[-(1/2)·Fθ(s)(xτ) - mqτ)T·Rqτ&supmin;¹ Fθ(s)(xτ) - mqτ)]· J(Xτ) &supmin;¹,
- wobei t&sub0; einen vorgegebenen anfänglichen Zeitpunkt angibt,
- mqτ und Rqτ jeweils der Vektor sind, welcher das Mittel und die Kovarianz-Matrix repräsentiert, die dem Gesetz der Wahrscheinlichkeit der Emission mit einem Vektor xτ im Zustand oder Übergang qτ zugeordnet sind;
- wobei (·)T die transponierte Matrix bezeichnet,
- wobei (·)&supmin;¹ die invertierte Matrix angibt,
- wobei aus Gründen der klareren Darstellung die Schreibweise q(τ-1) = qτ-i verwendet wird,
- wobei p die Dimension des Beobachtungsraumes angibt, wobei aq(t0-1),qto die Wahrscheinlichkeit repräsentiert, dass der anfängliche Zustand qco eingenommen wird, und wobei J(xτ) die Jacob-Matrix darstellt, deren in der k-ten Zeile und der 1-ten Spalte liegendes Element - wobei k und 1 ganze Zahlen sind - die Ableitung des k-ten Elements des Vektors x, bezogen auf das 1-te Element des Vektors F (s)(xτ) ist.
- Eine Maximierung von P(Fθ(s)(xt&sub0;), ..., Fθ(s)(xt),s/λ) läuft auf eine Maximierung von log P(Fθ(s)(xt&sub0;), ..., Fθ(s)(xt),s/λ) hinaus, da die logarithmische Funktion streng ansteigend ist. Wir schreiben somit
- Cqτ = 1/(2(π)p/2· Rqτ 1/2
- Nach dem zuvor erhaltenen Ausdruck (1) erhält man:
- log P(Fθ(s)(xt&sub0;), ..., Fθ(s)(xt),s/λ) = log(aq(τ-1)·qτ·Cqτ) - D
- wobei D = (1/2) (Fθ(s)(xτ) - mqτ)T·Rqt&supmin;¹·(Fθ(s)(xτ) - mqτ) + 2.1n J(xτ)
- wobei 1n den Neper-Logarithmus bezeichnet.
- Eine Maximierung von P(Fθ(s)(xt&sub0;), ..., Fθ(s)(xt),s/λ) läuft somit auf eine Minimierung des Ausdrucks
- (1/2) (Fθ(s)(xτ) - mqτ)T·Rqt&supmin;¹·(Fθ(s)(xτ) - mqτ) + 2.1n J(xτ) .
- hinaus. Eine Minimierung dieses Ausdrucks führt zu ihrer Ableitung bezüglich θ und zielt auf einen Wert von θ ab, für den diese Ableitung Null ist. Es wird angenommen, dass die Funktion Fθ(s)(·) bezüglich θ(s) ableitbar ist. Die Ableitung und die Bedingung für die Annullierung der Ableitung führen zu der Gleichung
- in welcher (·)&supmin;¹ die invertierte Matrix bezeichnet und δ/δθ die teilweise Ableitung bezüglich θ angibt.
- In der Gleichung (2) verschwand für bestimmte Typen der Entzerrungsfunktion Fθ(s)(·)der zweite Term der Summe, nämlich
- ∂ln J(xτ) /∂θ
- wie nachstehend noch beschrieben wird.
- Die Gleichung (2) macht es möglich, die Parameter des Entzerrers hochzurechnen, welcher als Funktion Fθ(s)(·) aufweist und im Pfad s vorhanden ist. Es ist festzustellen, dass die einzige aufgestellte Hypothese die Ableitbarkeit der Entzerrungsfunktion ist. Die erhaltene Gleichung ermöglicht somit die vollständige Bestimmung des Entzerrers, insbesondere unabhängig von der Art der Störungen und von der beobachteten Sequenz x&sub1;, ..., xt.
- Hierbei wird zwischen zwei grundsätzlichen Ausführungsformen des erfindungsgemäßen Entzerrungsverfahrens unterschieden, nämlich zum einen dessen Anwendung bei der Filterung und zum anderen dessen Einsatz bei einer robusten Erkennung.
- Bei dem ersten Ausführungsbeispiel, nämlich bei der Filterung, wird zur Bildung eines zu einem gegebenen Zeitpunkt entzerrten Einzelmusters nur der Entzerrer berücksichtigt, der sich in dem Pfad mit der höchsten Wahrscheinlichkeit befindet.
- Zur Ausfilterung von Störungen, die sich nachteilig auf das akustische Einzelmuster xt+1 auswirken, wird somit ausschließlich der Entzerrer mit der Funktion Fθ(s)(s(t)), bei welcher θt(s) den günstigsten Vektor der Parameter darstellt, der vorstehend definiert wurde, nämlich den günstigsten Vektor der Parameter des Entzerrers mit der Funktion Fθt(s), und s(t) der wahrscheinlichste Pfad im Sinne von Markow ist nämlich
- s(t) = argmaxs [P(F (s)(x&sub1;), ..., F (s)(xτ),s/λ)] (3)
- d. h. der Pfad, für welchen die Wahrscheinlichkeit der Emission der Abfolge von gefilterten akustischen Einzelmustern F (s)(x&sub1;), ..., F (s)(xt) bei Kenntnis von λ den größtmöglichen Wert besitzt.
- Bei dem zweiten Ausführungsbeispiel, d. h. der Ausführungsform mit robuster Erkennung, wird das Ende des ausgesprochenen Wortes abgewartet, woraufhin man das zu erkennende Wort in dem im HMM-Modell wahrscheinlichsten Pfad identifiziert, wobei bekannt ist, dass die Entzerrer der verschiedenen Pfade über die gesamte akustische Dekodierung wirksam werden, d. h. im gleichen Maße wie die Progression der Pfade bzw. Ausrichtungen mit dem Eintreffen neuer Beobachtungen.
- Somit wird bei der robusten Erkennung zur Ausfilterung von Störungen, die sich nachteilig auf das akustische Einzelmuster xt+1 (Filterung im vorhinein, a priori) bzw. auf das akustische Einzelmuster xt (Filterung im nachhinein, a posteriori) der Entzerrer mit der Funktion F (s) für jeden der Pfade s des Markow-Automaten eingesetzt. Die Entscheidung über die Erkennung wird zum abschließenden Zeitpunkt T für die beobachtete Abfolge aufeinanderfolgender akustischer Eingangs-Einzelmuster getroffen, und zwar wird der Pfad mit der höchsten Wahrscheinlichkeit 's(Tf) zum Zeitpunkt Tf als der Pfad gewählt, welcher folgendes verifiziert:
- (Tf) = argmaxs [P(F (s)(x&sub1;), ..., F (s)(xTf),s/λ)].
- Theoretisch setzt die Gleichung (3) die Berechnung für jeden Zeitpunkt t voraus, zu dem die Wahrscheinlichkeit eines vom anfänglichen Zeitpunkt ausgehenden Modells über den ganzen Pfad gilt. Die entsprechende Realisierung wird von ihrer Komplexität her sehr aufwendig und benötigt somit eine lange Berechnungszeit, wenn die Entzerrungsfunktion komplex ist.
- Um diese Klippe zu umgehen, werden in der Praxis die Berechnungen dadurch erleichtert, dass ein adaptives Verfahren herangezogen wird, bei dem nur die i ersten Punkte des Pfads s bei der Hochrechnung des günstigsten Vektors der Parameter i(s) des auf diesem Pfad befindlichen Entzerrers berücksichtigt werden, wobei i eine ganze Zahl zwischen 1 und t ist.
- Somit wird bei dem ersten Ausführungsbeispiel der wahrscheinlichste Pfad als der Pfad ausgewählt, welcher der folgende Näherung verifiziert:
- (T) = argmaxs [P(F (s)(x&sub1;), ..., F t(s)(xt),s/λ)],
- bei welcher i(s) den günstigsten Vektor der Parameter des Entzerrers mit der Funktion F i(s) darstellt, der über die i ersten Punkte des Pfads s hochgerechnet wird.
- In analoger Weise wird bei dem zweiten Ausführungsbeispiel der wahrscheinlichste Pfad als jener ausgewählt, welcher die folgende Näherung verifiziert:
- (Tf) = argmaxs [P(F 1(s)(x&sub1;), ..., F Tf(s)(xTf),s/λ)],
- bei welcher i(s) den günstigsten Vektor der Parameter des Entzerrers mit der Funktion F i(s) darstellt, der über die i ersten Punkte des Pfads s hochgerechnet wird.
- Daraus wird deutlich; dass Installation die Funktionen zur Näherung der Parameter der in den verschiedenen Pfaden vorhandenen Entzerrer nicht modifiziert. Sie ist jedoch in der Lage, auf die Folgeverarbeitung der Pfade je nach ihren Wahrscheinlichkeiten Einfluss zu nehmen. Um die Auswirkungen dieser Näherung unter völliger Beibehaltung einer angemessenen Komplexität in der Berechnung beizubehalten, lässt sich eine Einstellung der Wahrscheinlichkeiten über die m letzten Einzelmuster realisieren, wobei es sich bei m um eine vorgegebene ganze Zahl handelt. Es kann tatsächlich nachgewiesen werden, dass eine derartige Einstellung nicht die Komplexität der Berechnung erhöht.
- Mit demselben Ziel der Erleichterung der Berechnungen wird in der Praxis eine andere Näherung vorgenommen. Wenn zu jedem Zeitpunkt t die Filter aller in einem HMM- Modell mit N Zuständen möglichen Pfade beachtet werden müssten, erhielte man NTf Filter. Dies ist in der Praxis nicht realisierbar. Man könnte sich dazu entscheiden, ausschließlich die K günstigsten Pfade im Auge zu haben, wobei es sich bei K um eine vorgegebene ganze Zahl handelt. Bei einem speziellen Ausführungsbeispiel im Zusammenhang mit einem RAP-System, bei dem der Algorithmus nach Viterbi verwendet wird, berücksichtigt man zu jedem Zeitpunkt ausschließlich den günstigsten Pfad, der zu einem gegebenen Zustand führt; die Anzahl der möglichen Filter wird infolgedessen auf N reduziert, wobei N die vorgenannte Anzahl der Zustände ist.
- Immer mit der Zielsetzung, die Berechnungen zu erleichtern, lässt sich eine Quantifizierung der Vektoren der Parameter θ(s) vornehmen. Ebenso können die Funktionen der Entzerrung in Familien zusammengefasst werden, die jeweils mit einer selben akustischen Einheit wie beispielsweise einem Phonem verknüpft sind.
- Die nun angetroffenen Störungen können gefaltet und/oder additiv sein.
- Als Beispiel für eine additive Störung lässt sich ein Rauschen infolge von Motorengeräusch oder Hupen nennen, das zur Sprache hinzukommt; dies ist beispielsweise dann der Fall, wenn ein Autofahrer in seinem Fahrzeug telefoniert oder wenn ein Fußgänger in einer verkehrsbelebten Umgebung telefoniert, oder ganz allgemein wenn es um ein Umfeld mit hohem Lärmpegel geht.
- Die Störungen können auch zeitlich geringfügig variabel sein. In diesem Fall können Faktoren zur Auslassung in die Näherung eingeführt werden.
- Die Störungen können ebenso in einer konstanten einseitigen Verzerrung, begleitet von einer Schwankung um diese Verzerrung, bestehen.
- Im folgenden werden nun zwei spezielle Arten der bei dem erfindungsgemäßen Verfahren verwendeten Entzerrungsfunktion beschrieben. Diese beiden speziellen Funktionen zur Entzerrung werden jeweils bei zwei grundlegenden Typen von Störungen eingesetzt.
- Bei der ersten Entzerrungsfunktion wird eine einseitige Verzerrung bei den akustischen Einzelmustern weggelassen. Diese Funktion leitet sich von der Hypothese eines erheblichen Faltungseffekts ab, der auf den Übertragungskanal sowie auf einen Effekt beim Sprecher zurückzuführen ist und den es zu vermindern gilt.
- Die zweite Entzerrungsfunktion stellt eine affine Funktion dar, bei welcher die mehrfache lineare Regression ins Spiel kommt. Sie wird vorteilhafterweise bei einer Störung eingesetzt, die aus einem erheblichen additiven Lärm bzw. Rauschen besteht.
- Im Falle der ersten Entzerrungsfunktion, also in dem Fall, in dem eine einseitige Verzerrung unterdrückt wird, wird, ausgehend von der allgemeinen Näherungsformel (2) zur näherungsweisen Bestimmung der Parameter des Entzerrers, nachgewiesen, dass für jeden Pfad der Entzerrer die folgende Funktion besitzt:
- Fθ(x) = x - b
- wobeiθ = b ist und b durch die folgende Gleichung definiert wird:
- bT = [ (xτ - mqτ)·Rqτ&supmin;¹]·[ Rqτ&supmin;¹] (4)
- In diesem Fall verschwindet in der Gleichung (2) der zweite Term der Summe.
- Zwischenberechnungen, auf die hier nicht näher eingegangen wird, ermöglichen die Interpretation der vorstehenden Näherungsformel (4) auf folgende Weise. Bei einem gegebenen Pfad entspricht die einseitige Verzerrung der Summe der Abstände der Vektoren der entsprechenden Mittelwerte auf dem Pfad, wobei diese Abstände mit dem Kehrwert der Varianzen um die Mittelwerte gewichtet werden (plus die Varianz, die erheblich ist, abzüglich des Abstands a der Gewichtung in der Summe) und wobei die Summe mit dem Kehrwert der Summe der Kehrwerte der Varianzen entlang des betreffenden Pfads gewichtet wird (wobei die angenäherte einseitige Verzerrung somit gut und gerne die Dimension eines akustischen Vektors erreicht).
- Im Falle der zweiten Entzerrungsfunktion, also in dem Fall einer mehrfachen linearen Regression, zeigt sich - ausgehend von der allgemeinen Näherungsformel (2) zur näherungsweisen Ermittlung der Parameter des Entzerrers, dass die Störungen durch mehrfache lineare Regression mit Hilfe eines Entzerrers ausgefiltert werden, der für jeden Pfad eine affine Funktion wie folgt aufweist:
- Fθ(x) = A·x + b
- wobei θ = (A, b) ist, worin A eine quadratische Matrix darstellt und b ein Spaltenvektor ist.
- Bei einem speziellen Ausführungsbeispiel ist die Matrix A diagonal.
- Es zeigt sich, dass die Regression ein Verhältnis zwischen den Vektoren der Mittelwerte ist und den Vektoren der entlang des jeweiligen Pfads gewichteten akustischen Einzelmuster darstellt.
- Im folgenden wird nun die erfindungsgemäße Vorrichtung anhand spezieller Ausführungsbeispiele beschrieben.
- Die Entzerrungsvorrichtung, die mit dem vorstehend beschriebenen Verfahren arbeitet, umfasst ein Filtermodul zur Entzerrung. Dieses Modul übernimmt an seinem Eingang das mit Störungen behaftete Sprachsignal, führt an diesem Signal alle Filteroperationen gemäß dem vorstehend dargestellten Verfahren aus und liefert an seinem Ausgang ein Sprachsignal mit verringertem Störungspegel.
- Die akustischen Einzelmuster x&sub1;, ... xt, ... xTf werden so gewählt, dass sie die in diesem Signal enthaltene mögliche Information mit dem höchsten Grad der Richtigkeit bzw. Stichhaltigkeit repräsentieren.
- Wird die Vorrichtung bei automatischer Spracherkennung eingesetzt, stellen die spektralanalytischen Vektoren ein Beispiel für geeignete akustische Einzelmuster dar, das hier ohne jede Einschränkung herangezogen wird. Ganz allgemein wird nur das erste Dutzend von spektralanalytischen Koeffizienten berücksichtigt. Diese bilden in ausreichend befriedigender Weise die Impulsantwort des Sprachkanals und enthalten somit die für die Erkennung sachdienlichen Informationen. Außerdem sind diese Koeffizienten gegenüber der Energie des Eingangssignals unempfindlich, was bei automatischer Spracherkennung ein Qualitätskriterium darstellt.
- Die spektralanalytischen Vektoren können ausgehend von dem Sprachsignal innerhalb von Zeitfenstern berechnet werden, die sich teilweise überlappen. Diese Fenster können eine feststehende zeitliche Länge aufweisen, die beispielsweise zwischen 10 und 40 ms liegt.
- In der einzigen Figur ist für den Fall einer Anwendung bei automatischer Spracherkennung ein spezielles Ausführungsbeispiel eines Moduls 1 zur Berechnung der Spektralanalyse dargestellt, das in das Filtermodul zur Entzerrung einbezogen ist.
- Am Eingang des KAP-Systems setzt ein (hier nicht dargestelltes) Modul zur Digitalisierung der herkömmlichen Art das analoge Sprachsignal in ein digitales Sprachsignal s(n) um. Das Signal s(n) wird an den Eingang des Moduls 1 geführt.
- Das Modul 1 weist am Eingang ein Modul zur Berechnung der spektralen Energie des Sprachsignals auf. Das Modul 10 umfasst ein Modul 12 zur schnellen Fourier-Transformation auf, welches an seinem Ausgang das Spektrum des Signals liefert.
- Der Ausgang des Moduls 12 ist mit dem Eingang eine Serie von Filtern 14 auf, mit denen eine Glättung des Spektrums für die Näherung der spektralen Einhüllenden vorgenommen wird, und zwar werden die kritischen Bänder der Filterbank 14 entsprechend einer nicht-linearen Skala - der MEL- oder BARK-Skala - verteilt, was zu einer erhöhten spektralen Auflösung sowohl in den niedrigen Frequenzbereichen als auch in den hohen Frequenzbereichen führt und somit eine bessere adäquate Anpassung an das menschliche Gehör ermöglicht. Es wurde tatsächlich nachgewiesen, dass die niedrigen Frequenzen vom Gehörsystem mit höherer Auflösung als die hohen Frequenzen analysiert werden. Im typischen Fall zählt die Filterbank 14 24 Frequenzbänder.
- Am Ausgang der Filterbank 14 erhält man für jedes Fenster des Signals einen Vektor, der aus Spektralenergien in jedem der 24 Frequenzbänder gebildet ist, wodurch sich ein geglättetes Spektrum S(f) bildet.
- Der Ausgang der Filterbank 14, der auch den Ausgang des Moduls 10 zur Berechnung der Spektralenergie darstellt, ist mit dem Eingang eines Moduls 16 zur Berechnung des Logarithmus der Spektralenergie des Sprachsignals verbunden. Der Ausgang des Moduls 16 ist an den Eingang eines Moduls 18 für die schnelle invertierte Fourier-Transformation geführt, in welchem die Durchführung der inversen Fourier-Transformation mittels einer inversen Kosinus-Transformation abläuft. Das Modul 18 liefert an seinem Ausgang die Spektralanalyse C(n) des Sprachsignals s(n) in Form einer Gruppe spektralanalytischer Vektoren, die als MFCC (vom englischen Begriff "Mel Frequency-based Cepstral Coefficients") bezeichnet werden.
- Das erfindungsgemäße Verfahren bzw. die erfindungsgemäße Vorrichtung erbringt den Vorteil, dass eine problemlose Kombination mit jedem anderen Verfahren bzw. jeder anderen Vorrichtung zur Vorverarbeitung des Signals möglich ist.
- Die unter Verwendung des erfindungsgemäßen Verfahrens und der erfindungsgemäßen Vorrichtung erzielten Resultate sind sehr befriedigend. Sie führen vor allem dazu, dass bei automatischer Spracherkennung eine Verringerung der Fehlerrate ermöglicht wird, die unter bestimmten Bedingungen bis zu 30% gehen kann.
Claims (14)
1. Verfahren zum Entzerren eines Sprachsignals, das aus einer überwachten
Abfolge aufeinanderfolgender akustischer Eingangs-Rasterbilder besteht und
welches durch Störungen beeinflussbar ist, bei welchem das Sprachsignal mittels
eines verborgenen Markow-Modells geformt wird, dadurch gekennzeichnet, dass zu
jedem Zeitpunkt t:
- aus mehreren vorhergehenden akustischen Rasterbildern und aus mehreren
Parametern des Markow-Modells Entzerrungsfilter gebildet werden, welche den
Pfaden nach Markow zum Zeitpunkt t zugeordnet sind;
- zumindest einige der Entzerrungsfilter so eingesetzt werden, dass man zum
Zeitpunkt t mehrere Abfolgen gefilterter akustischer Rasterbilder und eine
Sendewahrscheinlichkeit für jeden der jeweils den eingesetzten Entzerrungsfiltern
zugeordneten Pfade erhält;
- das Entzerrungsfilter belegt wird, das dem Pfad mit der höchsten
Wahrscheinlichkeit im Sinne von Markow zugeordnet ist, d. h. dem Pfad, für
welchen die Sendewahrscheinlichkeit der Abfolge der akustischen Rasterbilder, die
mittels des entsprechenden eingesetzten Entzerrungsfilters gefiltert wurden, am
höchsten ist; und
- als entzerrtes Rasterbild das gefilterte Rasterbild belegt wird, das von dem
festgehaltenen Entzerrungsfilter geliefert wurde.
2. Verfahren nach Anspruch 1, bei welchem
jedes akustische Rasterbild durch einen Vektor xt dargestellt wird,
ein Pfad mit der Länge t nach Markow eine Abfolge von t Zuständen oder
Übergängen in der Schreibweise s = {q&sub1;, ..., qt} ist, und
- die Funktion, welche das dem Pfad s zugeordnete Entzerrungsfilter in der
Schreibweise F (s)(·) notiert wird, wobei (s) ein Vektor der Parameter des dem
Pfad s zugeordneten Entzerrungsfilters ist,
dadurch gekennzeichnet, dass für jeden Pfad s das Entzerrungsfilter Parameter
erhält, die nach der Gleichung
hochgerechnet werden,
bei welcher t&sub0; ein vorgegebener Anfangszeitpunkt ist,
mqτ und Rqτ jeweils den Vektor angeben, welcher den Mittelwert und die dem
Verlauf der Sendewahrscheinlichkeit eines Vektors xT im Zustand oder Übergang
gT zugeordnete Kovarianz-Matrix repräsentiert,
(.)T die transponierte Matrix bezeichnet,
(.)&supmin;¹ die umgekehrte Matrix angibt,
δ/δ die teilweise Abweichung gegenüber O bezeichnet, und
J(xr) die Jakobsche Matrix ist, deren in der k-ten Zeile und der I-ten Spalte
befindliches Element - wobei k und I ganzzahlig sind - die Ableitung des k-ten Elements
des Vektors xT bezüglich des I-ten Elements des Vektors F (s) ist.
3. Verfahren nach einem der Ansprüche 1 und 2, bei welchem das
verborgene Markow-Modell als Ä geschrieben wird, dadurch gekennzeichnet, dass zum
Filtern der Störungen, welche das akustische Rasterbild xt-1 (Filterung im voraus)
oder das akustische Raserbild xt (Filterung im nachhinein) ausschließlich das Filter
mit der Entzerrungsfunktion Fθt(S)(t)) eingesetzt wird,
- wobei t(s) der günstigste Vektor der Parameter des Entzerrungsfilters mit der
Funktion Fθt(S)(t)) ist, und zwar
t(s) = argmax [P Fθ(S)(xt0)... Fθt(S),s/λ)], d. h. der Parametervektor, bei
dem die Sendewahrscheinlichkeit der Abfolge gefilterter akustischer Rasterbilder
Fθ(S)(xt0)... Fθ(S)(xt) in Kenntnis von A den größtmöglichen Wert hat, und
- wobei (t) den wahrscheinlichsten Pfad im Sinne von Markow darstellt, und zwar
(t) = argmaxs [P Fθ(S)(x&sub1;)... Fθ(S)(xt),s/λ)], d. h. der Pfad, bei dem die
Sendewahrscheinlichkeit der Abfolge gefilterter akustischer Rasterbilder Fθ(S)(x&sub1;)...
Fθ(S)(xt) in Kenntnis von A den größtmöglichen Wert hat.
4. Verfahren Anspruch 3, eingesetzt zur stabilen Worterkennung,
dadurch gekennzeichnet, dass als Pfad mit der höchsten Wahrscheinlichkeit s(Tl)
zum Endzeitpunkt Tf der überwachten Abfolge aufeinanderfolgender akustischer
Eingangs-Rasterbilder als jener ausgewählt wird, der folgende Bedingung erfüllt:
(Tf) = argmaxs [P F (S)(x&sub1;), ... F (S)(xTf), s/λ)].
5. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass als Pfad mit
der höchsten Wahrscheinlichkeit als jener ausgewählt wird, der folgende
Näherung erfüllt:
(t) = argmaxs [P F 1(S)(x&sub1;), ... F t(S)(xt), s/λ)]
wobei &sub1;(s) den günstigsten Vektor der Parameter des Entzerrungsfilters mit der
Funktion Fθ1(s) darstellt, der über die i ersten Punkt des Pfades s hochgerechnet
wird.
6. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass als Pfad mit
der höchsten Wahrscheinlichkeit jener ausgewählt wird, der die Näherung erfüllt:
(t) = argmaxs [P F 1(S)(x&sub1;), ... F Tf(S)(xTf), s/λ)]
wobei &sub1;(s) den günstigsten Vektor der Parameter des Entzerrungsfilters mit der
Funktion Fθ1(s) darstellt, der über die i ersten Punkt des Pfades s hochgerechnet
wird.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet,
dass für jeden Pfad das Entzerrungsfilter die Funktion
F (x) = x - b
besitzt, wobei = b ist und b durch folgende Beziehung definiert wird:
bT = [ (XT - mqT)T·RqT&supmin;¹]·[ RqT&supmin;¹].&supmin;¹
8. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet,
dass die Störungen durch mehrfache lineare Regression mit Hilfe eines
Entzerrungsfilters ausgefiltert werden, welches für jeden Pfad eine affine Funktion
F (x) = A·x - b
besitzt, bei welcher = (A, b) ist, wobei es sich bei A um eine quadratische Matrix
handelt und b ein Spaltenvektor ist.
9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Matrix A
diagonal ist.
10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet,
dass die akustischen Eingangs-Rasterbilder Vektorenbündel sind, welche aus
dem Sprachsignal über Zeitfenstern berechnet werden, die sich teilweise
überdecken.
11. Verfahren nach einem der Ansprüche 1 bis 10, bei welchem die
Störungen Faltungen aufweisen und/oder additiv sind.
12. Verfahren nach einem der Ansprüche 1 bis 11, bei welchem die
Störungen sich über die Zeit nur wenig verändern.
13. Vorrichtung zum Entzerren eines Sprachsignals unter Einsatz des
Verfahrens nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, dass es
Filtereinrichtungen zur Entzerrung aufweist, welche am Eingang das von
Störungen beeinflusste Sprachsignal empfängt und am Ausgang ein Sprachsignal mit
verringerten Störungen liefert.
14. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die
Filtereinrichtungen zur Entzerrung folgendes umfassen:
- Einrichtungen (10) zum Berechnen der Spektrumsenergie in mehreren
Frequenzbändern, um so das Spektrum (S(f)) der akustischen Rasterbilder des
Sprachsignals (s(n)) zu erhalten,
- Einrichtungen (16) zum Berechnen des Logarithmus der Spektrumsenergie
der akustischen Raserbilder, die am Ausgang der Einrichtungen (10) zum
Berechnen der Spektrumsenergie angeordnet sind, und
- Einrichtungen (18) zur Transformierung in eine umgekehrte
Kosinus-Funktion, die am Ausgang der Einrichtungen (16) zum Berechnen des Logarithmus der
Spektrumsenergie angeordnet sind, um so am Ausgang des Bündel (C(n)) der
akustischen Rasterbilder zu liefern.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9605629A FR2748342B1 (fr) | 1996-05-06 | 1996-05-06 | Procede et dispositif de filtrage par egalisation d'un signal de parole, mettant en oeuvre un modele statistique de ce signal |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69705891D1 DE69705891D1 (de) | 2001-09-06 |
DE69705891T2 true DE69705891T2 (de) | 2002-04-11 |
Family
ID=9491861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69705891T Expired - Fee Related DE69705891T2 (de) | 1996-05-06 | 1997-05-02 | Verfahren und Vorrichtung zur entzerrenden Filterung eines Sprachsignals unter Verwendung eines statistischen Signalmodells |
Country Status (5)
Country | Link |
---|---|
US (1) | US5864806A (de) |
EP (1) | EP0806760B1 (de) |
JP (1) | JP3919287B2 (de) |
DE (1) | DE69705891T2 (de) |
FR (1) | FR2748342B1 (de) |
Families Citing this family (176)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6038528A (en) * | 1996-07-17 | 2000-03-14 | T-Netix, Inc. | Robust speech processing with affine transform replicated data |
US6415253B1 (en) * | 1998-02-20 | 2002-07-02 | Meta-C Corporation | Method and apparatus for enhancing noise-corrupted speech |
US6292776B1 (en) * | 1999-03-12 | 2001-09-18 | Lucent Technologies Inc. | Hierarchial subband linear predictive cepstral features for HMM-based speech recognition |
SE514875C2 (sv) * | 1999-09-07 | 2001-05-07 | Ericsson Telefon Ab L M | Förfarande och anordning för konstruktion av digitala filter |
US6652489B2 (en) * | 2000-02-07 | 2003-11-25 | Medrad, Inc. | Front-loading medical injector and syringes, syringe interfaces, syringe adapters and syringe plungers for use therewith |
US6477488B1 (en) * | 2000-03-10 | 2002-11-05 | Apple Computer, Inc. | Method for dynamic context scope selection in hybrid n-gram+LSA language modeling |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US20020065649A1 (en) * | 2000-08-25 | 2002-05-30 | Yoon Kim | Mel-frequency linear prediction speech recognition apparatus and method |
TW473704B (en) * | 2000-08-30 | 2002-01-21 | Ind Tech Res Inst | Adaptive voice recognition method with noise compensation |
DE10050331C2 (de) * | 2000-10-11 | 2002-11-28 | Deutsch Zentr Luft & Raumfahrt | Verfahren zur Anhebung des Signal/Rausch-Verhältnisses bei der Verarbeitung mehrkanaliger digitaler Datensätze |
US7117145B1 (en) * | 2000-10-19 | 2006-10-03 | Lear Corporation | Adaptive filter for speech enhancement in a noisy environment |
JP3826008B2 (ja) | 2001-10-15 | 2006-09-27 | キヤノン株式会社 | 像加熱装置 |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7103541B2 (en) * | 2002-06-27 | 2006-09-05 | Microsoft Corporation | Microphone array signal enhancement using mixture models |
US7356466B2 (en) * | 2002-06-28 | 2008-04-08 | Samsung Electronics Co., Ltd. | Method and apparatus for performing observation probability calculations |
JP2004356894A (ja) * | 2003-05-28 | 2004-12-16 | Mitsubishi Electric Corp | 音質調整装置 |
US20050027530A1 (en) * | 2003-07-31 | 2005-02-03 | Tieyan Fu | Audio-visual speaker identification using coupled hidden markov models |
JP4542790B2 (ja) * | 2004-01-16 | 2010-09-15 | 株式会社東芝 | ノイズサプレッサ及びノイズサプレッサを備えた音声通信装置 |
KR100827097B1 (ko) * | 2004-04-22 | 2008-05-02 | 삼성전자주식회사 | 음성신호 전처리를 위한 가변 길이의 프레임 결정 방법과이를 이용한 음성신호 전처리 방법 및 장치 |
US8284947B2 (en) * | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
US7852912B2 (en) * | 2005-03-25 | 2010-12-14 | Agilent Technologies, Inc. | Direct determination equalizer system |
JP4501071B2 (ja) * | 2005-03-31 | 2010-07-14 | 住友電気工業株式会社 | シングルキャリアブロック伝送用受信機及び受信方法 |
US8924212B1 (en) * | 2005-08-26 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | System and method for robust access and entry to large structured data using voice form-filling |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) * | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
JP4396646B2 (ja) * | 2006-02-07 | 2010-01-13 | ヤマハ株式会社 | 応答波形合成方法、応答波形合成装置、音響設計支援装置および音響設計支援プログラム |
JP2007221445A (ja) * | 2006-02-16 | 2007-08-30 | Sharp Corp | サラウンドシステム |
US8251924B2 (en) | 2006-07-07 | 2012-08-28 | Ambient Corporation | Neural translator |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080129520A1 (en) * | 2006-12-01 | 2008-06-05 | Apple Computer, Inc. | Electronic device with enhanced audio feedback |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) * | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) * | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) * | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) * | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) * | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
CN102256201A (zh) * | 2010-05-19 | 2011-11-23 | 上海聪维声学技术有限公司 | 用于助听器的自动环境识别方法 |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US9704495B2 (en) | 2012-02-21 | 2017-07-11 | Tata Consultancy Services Limited | Modified mel filter bank structure using spectral characteristics for sound analysis |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
CN112230878B (zh) | 2013-03-15 | 2024-09-27 | 苹果公司 | 对中断进行上下文相关处理 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (de) | 2013-06-13 | 2019-09-25 | Apple Inc. | System und verfahren für durch sprachsteuerung ausgelöste notrufe |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2681715B1 (fr) * | 1991-09-25 | 1994-02-11 | Matra Communication | Procede de traitement de la parole en presence de bruits acoustiques: procede de soustraction spectrale non lineaire . |
US5664059A (en) * | 1993-04-29 | 1997-09-02 | Panasonic Technologies, Inc. | Self-learning speaker adaptation based on spectral variation source decomposition |
US5590242A (en) * | 1994-03-24 | 1996-12-31 | Lucent Technologies Inc. | Signal bias removal for robust telephone speech recognition |
US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
US5778336A (en) * | 1996-10-01 | 1998-07-07 | Lucent Technologies Inc. | Speech coding and joint data/channel bias estimation using finite state vector quantizer derived from sequential constraints |
-
1996
- 1996-05-06 FR FR9605629A patent/FR2748342B1/fr not_active Expired - Fee Related
-
1997
- 1997-05-02 DE DE69705891T patent/DE69705891T2/de not_active Expired - Fee Related
- 1997-05-02 EP EP97401001A patent/EP0806760B1/de not_active Expired - Lifetime
- 1997-05-05 US US08/841,866 patent/US5864806A/en not_active Expired - Fee Related
- 1997-05-06 JP JP11544297A patent/JP3919287B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP3919287B2 (ja) | 2007-05-23 |
FR2748342B1 (fr) | 1998-07-17 |
FR2748342A1 (fr) | 1997-11-07 |
EP0806760A1 (de) | 1997-11-12 |
EP0806760B1 (de) | 2001-08-01 |
US5864806A (en) | 1999-01-26 |
JPH1074099A (ja) | 1998-03-17 |
DE69705891D1 (de) | 2001-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69705891T2 (de) | Verfahren und Vorrichtung zur entzerrenden Filterung eines Sprachsignals unter Verwendung eines statistischen Signalmodells | |
DE69831288T2 (de) | An Umgebungsgeräusche angepasste Sprachverarbeitung | |
DE112015004785B4 (de) | Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal | |
DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
DE60123161T2 (de) | Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel | |
DE69524994T2 (de) | Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen | |
DE69823954T2 (de) | Quellen-normalisierendes Training zur Sprachmodellierung | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE60207784T2 (de) | Sprecheranpassung für die Spracherkennung | |
DE69806557T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE69827586T2 (de) | Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung | |
DE69616568T2 (de) | Mustererkennung | |
DE69423588T2 (de) | Spracherkennungsgerät | |
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE60314128T2 (de) | Parametrische online-histogramm normierung zur rauschrobusten spracherkennung | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE69121145T2 (de) | Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung | |
DE4229577A1 (de) | Verfahren zur Spracherkennung mit dem eine Anpassung von Mikrofon- und Sprachcharakteristiken erreicht wird | |
DE60212477T2 (de) | Spracherkennung mit Kompensation konvolutiver Verzerrung und additiven Rauschens | |
EP0747880B1 (de) | Spracherkennungssystem | |
EP0862160A2 (de) | Verfahren zur Spracherkennung mit Sprachmodellanpassung | |
DE602004000716T2 (de) | Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung | |
DE112017007005B4 (de) | Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung | |
DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |