DE10209324C1 - Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen - Google Patents

Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen

Info

Publication number
DE10209324C1
DE10209324C1 DE10209324A DE10209324A DE10209324C1 DE 10209324 C1 DE10209324 C1 DE 10209324C1 DE 10209324 A DE10209324 A DE 10209324A DE 10209324 A DE10209324 A DE 10209324A DE 10209324 C1 DE10209324 C1 DE 10209324C1
Authority
DE
Germany
Prior art keywords
speaker
independent
speech signal
code book
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10209324A
Other languages
English (en)
Inventor
Udo Haiber
Fritz Class
Alfred Kaltenmeier
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mercedes Benz Group AG
Original Assignee
DaimlerChrysler AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DaimlerChrysler AG filed Critical DaimlerChrysler AG
Priority to DE10209324A priority Critical patent/DE10209324C1/de
Application granted granted Critical
Publication of DE10209324C1 publication Critical patent/DE10209324C1/de
Priority to JP2003056314A priority patent/JP2003263193A/ja
Priority to US10/378,517 priority patent/US20030187645A1/en
Priority to EP03004363A priority patent/EP1345208A3/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Character Discrimination (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

In vielen realen Applikationen, wie z. B. "Sprachbedienung im Kraftfahrzeug", stellt sich das Problem, dass die Benutzer relativ häufig wechseln. Wenn nun für jeden (oder auch nur einige) Benutzer sprecherspezifische Datensätze angelegt wurden, stellt sich die Frage, welches der richtige Datensatz für den aktuellen Benutzer ist. Dies könnte natürlich durch Abfragen beim System-Neustart erfolgen. Abgesehen davon, dass dies eine sehr umständliche und nicht sehr benutzerfreundliche Methode ist, kommt es auch häufig vor, dass der Sprecher wechselt, während das System aktiviert ist und so keine neue Vorinitialisierung möglich ist. Es ist also notwendig, ein Verfahren zu finden, welches es ermöglicht, automatisch zur Laufzeit ein System zu erkennen, ob der Sprecher wechselte bzw. welcher (sprecherabhängige) Datensatz für den aktuellen Sprecher der richtige ist. Dies wird mittels eines Spracherkennungssystems erreicht, welches auf sogenannten Semi-Continuous Hidden Markov Modellen (SCHMM) basiert. Im Zusammenhang mit der Klassifikation auf Basis der Semi-Continuous Hidden Markov Modelle werden Codebücher erstellt, welche aus n-dimensionalen Normalverteilungen bestehen. Dabei wird jede Normalverteilung durch ihren Mittelwertvektor mu und ihre Kovarianzmatrix K repräsentiert. Im Rahmen einer Sprecheradaption werden in der Regel die Parameter dieser Normalverteilungen, also Mittelwerte und/oder Kovarianzmatrizen, sprecherspezifisch verändert. Dieser sprecherspezifische Datensatz ...

Description

Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Patentanspruchs 1.
Die automatische Spracherkennung wird heutzutage in einfa­ chen Versionen schon in Produkten eingesetzt, z. B. zur Steuerung und Bedienung von Geräten und Maschinen oder te­ lefonbasierten Auskunftssystemen. Diese Spracherkenner sind in der Regel im Prinzip für sprecherunabhängige Erkennung ausgelegt, d. h. jeder beliebige Benutzer kann ohne expli­ zite Trainingsphase das System benutzen und die zulässigen Wörter bzw. Kommandos entsprechen. Diese Sprecherunabhän­ gigkeit wird erreicht, indem man beim Grundtraining des Systems im Labor sehr viele Sprachstichproben von vielen Sprechern und großem Vokabular zugrunde legt.
Darüber hinaus werden Methoden eingesetzt das Spracherken­ nungssystem auch online während einer aktuellen Anwendung an die speziellen Bedingungen hinsichtlich Sprecher und Equipment (Mikrofon, Verstärkern, Raum) zu adaptieren. Diese Adaptionsmethoden können sowohl überwacht als auch unüberwacht eingesetzt werden.
Unüberwachte Adaption bedeutet, dass sich das Erkennungs­ system unbemerkt vom Benutzer ständig an die aktuelle Si­ tuation adaptiert. Dafür werden in der Regel Schleppfenster eingesetzt, die gleitend über der Zeit bestimmte Parameter des Systems nachführen. Die Zeitkonstante des Schleppfen­ sters (häufig auch Vergessensrate genannt) bestimmt die Adaptionsgeschwindigkeit.
Bei der Überwachten Adaption muss ein Benutzer explizit in einer Trainingsphase gezielt Wörter bzw. Sätze nachspre­ chen, die ihm vom System (akustisch oder optisch) vorge­ geben werden. Aus diesen Eingaben (Sprachproben) werden sprecherspezifische Parameter im System generiert bzw. nachoptimiert. Die Methode der überwachten Adaption wird häufig bei solchen Sprechern angewandt, für die das spre­ cherunabhängige Basissystem sehr schlechte Erkennungsraten hat und für die auch mit den Methoden der unüberwachten Adaption keine deutliche Verbesserung der Erkennungslei­ stung erreichbar ist. Diese überwachte Adaption soll natür­ lich nur einmal erfolgen und der entsprechende sprecherspe­ zifische Datensatz jedesmal verwendet werden, wenn dieser spezielle Benutzer das System bedient.
Bei beiden Methoden, der überwachten als auch der unüber­ wachten Adaptation, werden sprecherspezifische Parametersätze zusätzlich zu den Basisparametern abgespeichert. In vielen realen Applikation, wie z. B. "Sprachbedienung im Kraftfahrzeug", stellt sich das Problem, dass die Benutzer relativ häufig wechseln. Wenn nun für jeden (oder auch nur einige) Benutzer sprecherspezifische Datensätze angelegt wurden, stellt sich die Frage, welches der richtige Daten­ satz für den aktuellen Benutzer ist. Dies könnte natürlich durch Abfragen beim System-Neustart erfolgen. Abgesehen da­ von, dass dies eine sehr umständliche und nicht sehr benut­ zerfreundliche Methode ist, kommt es auch häufig vor, dass der Sprecher wechselt, während das System aktiviert ist und so keine neue Vorinitialisierung möglich ist.
Aufgabe der Erfindung ist es, ein Verfahren zu finden, wel­ ches es ermöglicht, automatisch zur Laufzeit des Systems zu erkennen, ob der Sprecher wechselte, bzw. welcher (spre­ cherabhängige) Datensatz für den aktuellen Sprecher der richtige ist.
Die Aufgabe wird durch ein Spracherkennungssystem gelöst, welches auf sogenannten Semi-Continuous Hidden Markov Modellen (SCHMM) basiert (Huang, Xuedong D., Y. Ariki und M. A. Jack Hidden Markov models for speech recognition, Edinburgh information technology series, Edinburgh University Press, Schottland, 1990). In Zusammenhang mit der Klassifikation auf Basis der Semi-Continuous Hidden Markov Modelle werden Codebücher erstellt, welche aus n- dimensionalen Normalverteilungen bestehen. Dabei wird jede Normalverteilung durch ihren Mittelwertvektor µ und ihre Kovarianzmatrix K repräsentiert. Im Rahmen einer Sprecher­ adaption werden in der Regel die Parameter dieser Normal­ verteilungen, also Mittelwerte und/oder Kovarianzmatrizen, sprecherspezifisch verändert. Dieser sprecherspezifische Datensatz wird dann zusätzlich zum sogenannten Baseline- Datensatz, welcher einem sprecher-unabhängigen Codebuch entspricht, abgespeichert. In erfinderischer Weise korre­ liert das Spracherkennungssystem das Sprachsignal mittels Vektorquantisierung mit dem sprecher-unabhängigen und den sprecher-abhängigen Codebüchern. Auf Grundlage dieser Kor­ relation ist es dem Erkennungssystem sodann möglich das Sprachsignal einem dieser Codebücher zuzuordnen und somit die Identität eines Sprechers festzustellen.
Auf diese vorteilhafte Verfahrensweise erlaubt es die Er­ findung, einen Sprecherwechsel ausschließlich am Sprachsi­ gnal selbst zu detektieren, ohne auf die Verwendung von aus dem Stand der Technik bekannten Methoden zur Sprechererken­ nung zurückgreifen zu müssen. Eine derart naheliegende Lö­ sung der Aufgabe hätte den Nachteil, dass infolge der Spre­ chererkennung bzw. Sprecherverifikation ein separates Er­ kennungssystem erforderlich wäre, welches parallel zum Spracherkennungssystem aktiv sein müßte. Ein solches zwei­ tes System ist jedoch aus Aufwands- bzw. Kostengründen in manchen Systemen nicht praktikabel.
Der vorliegende Erfindungsgegenstand beschreibt also eine Methode, mit welcher direkt mittels vom Sprachsignal abge­ leiteten Parametern erkannt werden kann, ob ein Sprecher­ wechsel vorliegt. Im selben Schritt wird es in vorteilhaf­ ter Weise auch möglich festzustellen, welcher gespeicherte Satz von Parametern (Codebuch) des Klassifikators für die Spracherkennung bei dem aktuellen Sprecher optimal ist.
Bei den oben erwähnten Methoden zur Sprecheradaption werden gewinnbringend in den sprecher-spezifischen Codebüchern die Parameter der Normalverteilungen, also Mittelwerte und/oder Kovarianzmatrizen, sprecher-spezifisch gegenüber dem spre­ cher unabhängigen Codebuch verändert. Dieser sprecherspe­ zifische Datensatz (sprecher-abhängiges Codebuch) wird dann zusätzlich zum sog. Baseline-Datensatz (sprecher-unabhängi­ ges Codebuch) abgespeichert.
In der Anwendungsphase dieses Erkennungssystems findet eine sog. Vektorquantisierung statt. Dies ist eine Klassifika­ tion von Merkmalsvektoren, die aus dem Sprachsignal berech­ net werden, an den Normalverteilungen. Diese Klassifikation liefert "Wahrscheinlichkeitswerte" p(x, k) eines Merkmals­ vektors für jede Normalverteilung des Codebuchs.
Anhand des nachfolgenden Beispielszenarios wird das Prinzip des erfinderischen Verfahrens im Detail erläutert.
Dabei zeigt die Figur zwei beispielhafte Codebücher, wie sie zur Erkennung von Sprecherwechseln herangezogen werden könnten.
Das sprecher-unabhängige Codebuch 1 in der Figur besteht aus jeweils 4 Normalverteilungen ("Standard-Codebuch") mit den Parametern µ1 . . ., µ4 (Mittelwertvektoren) und den zu­ gehörigen Kovarianzmatrizen K1 . . . K4. In einer Adaptions­ phase trainiert nun ein Sprecher das System nach. Dabei werden die Mittelwertvektoren und Kovarianzmatrizen des Standard-Codebuchs modifiziert und es entsteht ein spre­ cher abhängiges Codebuch 2 mit den neuen sprecher-spezifi­ schen Mittelwerten µ1' . . ., µ4'. Dieses nachtrainierte Codebuch 2 (bzw. nur die neuen Mittelwertvektoren) werden zusätzlich gespeichert.
In der Anwendungsphase des Erkennungssystems liegen bei­ spielsweise nun 2 Codebücher vor: das Standard-Codebuch 1 für sprecher-unabhängige Erkennung, sowie das für einen speziellen Sprecher nach trainierte Codebuch 2; prinzipiell können natürlich beliebig viele nachtrainierte Codebücher vorliegen, ohne dass dies etwas an dem erfinderischen Ver­ fahren änderte. Für jeden ankommenden Merkmalsvektor X aus dem Sprachsignal wird nun eine Klassifikation (sog. "Vek­ torquantisierung") an allen Normalverteilungen beider Code­ bücher durchgeführt. In unserem Beispiel erhalten wir für das Standard-Codebuch 1 die Werte p(X, 1) = 0.2 (Wahrschein­ lichkeit der ersten Normalverteilung), p(X, 2) = 0.6, p(X, 3) = 0.1, p(X, 4) = 0.1. Entsprechende Werte ergeben sich für das nach trainierte Codebuch 2, beispielhaft p(X, 1) = 0.3, p(X, 2) = 0.4, p(X, 3) = 0.1 sowie p(X, 4) = 0.2.
Üblicherweise wird ein Schwellwert eingesetzt, um sehr kleine Wahrscheinlichkeitswerte auszuschließen. Im vorlieg­ enden Beispiel sei dieser Schwellwert 0.15. Das bedeutet, dass hier nur die Wahrscheinlichkeitswerte p(X, 1) = 0.2 und p(X, 2) = 0.6 des Standard-Codebuchs 1 sowie p(X, 1) = 0.3, p(X, 2) = 0.4 und p(X, 4) = 0.2 des nach trainierten Codebuchs 2 über dem Schwellwert liegen und für die weitere Betrachtung relevant sind. Als nächster Schritt wird eine Normierung auf "Summe = 1" durchgeführt:
N ist die Anzahl der Wahrscheinlichkeiten, die über dem Schwellwert liegen; d. h. in unserem Beispiel ist N = 2 für das Standard-Codebuch 1 und N = 3 für das nachtrainierte Codebuch 2 und k bezeichnet die Normalverteilung innerhalb der Codebücher denen der entsprechende Wahrscheinlichkeits­ wert zuzuordnen ist. Der erste Teil der Gleichung ergibt den sogenannten Normierungsfaktor F gemäß
Für jedes Codebuch ergibt sich somit ein spezieller Normie­ rungsfaktor, in unserem Beispiel ist.
Fstndrd = 1.25 für das Codebuch 1
Fnachtr = 1.11 für das Codebuch 2
Der Normierungsfaktor F wird nun folgendermaßen interpre­ tiert: je näher ein Merkmalsvektor im Mittel den Normalver­ teilungen eines Codebuchs ist, das heißt je größer die Wahrscheinlichkeitswerte für diesen Vektor sind, desto eher entspricht dieses Codebuch dem aktuellen Sprecher. Aus Gleichung (2) ist ersichtlich, dass der Normierungsfaktor um so kleiner wird, je größer die Wahrscheinlichkeitswerte sind. In unserem Beispiel würde sich das Verfahren für den nachtrainierten Sprecher entscheiden.
Das Entscheidungskriterium für einen Sprecherwechsel ist also der Normierungsfaktor nach Gleichung (2).
Verschiedene Ausprägungen der Erfindung sind nun möglich:
  • - Entscheidung für jeden einzelnen Merkmalsvektor während des gesamten Erkennungsbetriebes, wobei in gewinnbrin­ gender Weise die Entscheidungen in Folge so schnell als möglich getroffen werden, so dass noch ein Betrieb des Verfahrens in Echtzeit möglich ist, oder
  • - Entscheidung nur für die erste Äußerung (Wort, Satz) ei­ nes Sprechers; danach wird die Entscheidung eingefroren; d. h. für einen gewissen Zeitraum, beispielsweise bis eine signifikante Sprechpause eintritt, wird nur das der ersten Äußerung zugeordnete Codebuch weiterverwendet.

Claims (7)

1. Verfahren zur automatischen Detektion von Sprecher­ wechseln in Spracherkennungssystemen, welche auf Basis von Hidden Markov Modellen arbeiten, und über ein sprecher-un­ abhängiges Codebuch verfügen, welche aus n-dimensionalen Normalverteilungen besteht, dadurch gekennzeichnet,
dass neben dem sprecher-unabhängigen Codebuch, wenigstens ein sprecher-abhängiges Codebuch existiert,
und dass das Spracherkennungssystem ein Sprachsignal mit­ tels Vektorquantisierung mit dem sprecher-unabhängigen und den sprecher-abhängigen Codebüchern korreliert, und auf Grundlage dieser Korrelation auf die Identität eines Spre­ chers entscheidet.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass von den aus der Vektorquantisierung resultierenden Wahrscheinlichkeitswerten nur diejenigen zur Korrelation herangezogen werden, welche einen bestimmten, vorgebbaren Schwellwert überschreiten.
3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass vor der Korrelation aus den aus der Vektorquantisierung resultierenden Wahrscheinlichkeitswer­ ten für jedes der Codebücher ein Normierungsfaktor F berechnet wird, dergestalt dass gilt:
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass dasjenige Codebuch dem Sprachsignal als zugehörig zu­ geordnet wird, welches den bezüglich dieses Sprachsignals kleinsten Normierungsfaktor F aufweist.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass das Verfahren kontinuierlich, nach Möglichkeit in Echtzeit, das Sprachsignal auf Sprecherwech­ sel hin untersucht.
6. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass das Verfahren nur in Bezug auf einen Teil einer Sequenz des Sprachsignals eine Sprecheridentifi­ kation vornimmt, und die daraus resultierende Wahl für die gesamte Sequenz aufrecht erhält.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass sich diese Teilsequenz auf den Anfang eines Wortes oder auf den Anfang eines Satzes bezieht.
DE10209324A 2002-03-02 2002-03-02 Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen Expired - Fee Related DE10209324C1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE10209324A DE10209324C1 (de) 2002-03-02 2002-03-02 Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen
JP2003056314A JP2003263193A (ja) 2002-03-02 2003-03-03 音声認識システムで話者の交代を自動検出する方法
US10/378,517 US20030187645A1 (en) 2002-03-02 2003-03-03 Automatic detection of change in speaker in speaker adaptive speech recognition system
EP03004363A EP1345208A3 (de) 2002-03-02 2003-03-03 Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10209324A DE10209324C1 (de) 2002-03-02 2002-03-02 Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen

Publications (1)

Publication Number Publication Date
DE10209324C1 true DE10209324C1 (de) 2002-10-31

Family

ID=7714003

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10209324A Expired - Fee Related DE10209324C1 (de) 2002-03-02 2002-03-02 Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen

Country Status (4)

Country Link
US (1) US20030187645A1 (de)
EP (1) EP1345208A3 (de)
JP (1) JP2003263193A (de)
DE (1) DE10209324C1 (de)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004030054A1 (de) * 2004-06-22 2006-01-12 Bayerische Motoren Werke Ag Verfahren zur sprecherabhängigen Spracherkennung in einem Kraftfahrzeug
DE102008024258A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung
DE102008024257A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Sprecheridentifikation bei einer Spracherkennung
EP2189976A1 (de) 2008-11-21 2010-05-26 Harman Becker Automotive Systems GmbH Verfahren zur Adaption eines Codierungsbuches für Spracherkennung
EP2216775A1 (de) 2009-02-05 2010-08-11 Harman Becker Automotive Systems GmbH Lautsprechererkennung

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2161718B1 (de) * 2008-09-03 2011-08-31 Harman Becker Automotive Systems GmbH Spracherkennung
US9767793B2 (en) 2012-06-08 2017-09-19 Nvoq Incorporated Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4031638A1 (de) * 1989-10-05 1991-04-18 Ricoh Kk Spracherkennungseinrichtung
DE4300159C2 (de) * 1993-01-07 1995-04-27 Lars Dipl Ing Knohl Verfahren zur gegenseitigen Abbildung von Merkmalsräumen
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4031638A1 (de) * 1989-10-05 1991-04-18 Ricoh Kk Spracherkennungseinrichtung
DE4300159C2 (de) * 1993-01-07 1995-04-27 Lars Dipl Ing Knohl Verfahren zur gegenseitigen Abbildung von Merkmalsräumen
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004030054A1 (de) * 2004-06-22 2006-01-12 Bayerische Motoren Werke Ag Verfahren zur sprecherabhängigen Spracherkennung in einem Kraftfahrzeug
DE102008024258A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung
DE102008024257A1 (de) * 2008-05-20 2009-11-26 Siemens Aktiengesellschaft Verfahren zur Sprecheridentifikation bei einer Spracherkennung
EP2189976A1 (de) 2008-11-21 2010-05-26 Harman Becker Automotive Systems GmbH Verfahren zur Adaption eines Codierungsbuches für Spracherkennung
EP2216775A1 (de) 2009-02-05 2010-08-11 Harman Becker Automotive Systems GmbH Lautsprechererkennung

Also Published As

Publication number Publication date
EP1345208A2 (de) 2003-09-17
EP1345208A3 (de) 2004-12-22
US20030187645A1 (en) 2003-10-02
JP2003263193A (ja) 2003-09-19

Similar Documents

Publication Publication Date Title
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69833987T2 (de) Halbüberwachte Sprecheradaptation
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE60000134T2 (de) Unüberwachte Anpassung eines Spracherkenners unter Verwendung zuverlässiger Informationen aus den besten N Rechenhypothesen
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE69800320T2 (de) Verfahren und Vorrichtung zur Sprechererkennung durch Prüfung von mündlicher Information mittels Zwangsdekodierung
EP0862161A2 (de) Verfahren zur Spracherkennung mit Sprachmodellanpassung
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE60312374T2 (de) Verfahren und system zur trennung von mehreren akustischen signalen erzeugt durch eine mehrzahl akustischer quellen
DE10119284A1 (de) Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems
EP1417678A1 (de) Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge
EP0633559B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE10209324C1 (de) Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
DE10304460B3 (de) Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
EP1723636A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
EP1435087A1 (de) Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters
EP1224661B1 (de) Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners
EP0548460A2 (de) Verfahren zur schnellen Sprecheradaption in einem Spracherkenner für grossen Wortschatz
EP0965088A1 (de) Sichere identifikation mit vorauswahl und rückweisungsklasse

Legal Events

Date Code Title Description
8100 Publication of patent without earlier publication of application
D1 Grant (no unexamined application published) patent law 81
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE

8327 Change in the person/name/address of the patent owner

Owner name: DAIMLER AG, 70327 STUTTGART, DE

8320 Willingness to grant licences declared (paragraph 23)
8339 Ceased/non-payment of the annual fee