DE10209324C1 - Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen - Google Patents
Automatische Detektion von Sprecherwechseln in sprecheradaptiven SpracherkennungssystemenInfo
- Publication number
- DE10209324C1 DE10209324C1 DE10209324A DE10209324A DE10209324C1 DE 10209324 C1 DE10209324 C1 DE 10209324C1 DE 10209324 A DE10209324 A DE 10209324A DE 10209324 A DE10209324 A DE 10209324A DE 10209324 C1 DE10209324 C1 DE 10209324C1
- Authority
- DE
- Germany
- Prior art keywords
- speaker
- independent
- speech signal
- code book
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 9
- 230000001419 dependent effect Effects 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 title claims description 25
- 239000013598 vector Substances 0.000 claims abstract description 16
- 238000009826 distribution Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 6
- 238000013139 quantization Methods 0.000 claims description 5
- 150000001768 cations Chemical class 0.000 claims 1
- 230000006978 adaptation Effects 0.000 description 9
- 241000190053 Aeschynanthus Species 0.000 description 1
- 101150087426 Gnal gene Proteins 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
- Character Discrimination (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
In vielen realen Applikationen, wie z. B. "Sprachbedienung im Kraftfahrzeug", stellt sich das Problem, dass die Benutzer relativ häufig wechseln. Wenn nun für jeden (oder auch nur einige) Benutzer sprecherspezifische Datensätze angelegt wurden, stellt sich die Frage, welches der richtige Datensatz für den aktuellen Benutzer ist. Dies könnte natürlich durch Abfragen beim System-Neustart erfolgen. Abgesehen davon, dass dies eine sehr umständliche und nicht sehr benutzerfreundliche Methode ist, kommt es auch häufig vor, dass der Sprecher wechselt, während das System aktiviert ist und so keine neue Vorinitialisierung möglich ist. Es ist also notwendig, ein Verfahren zu finden, welches es ermöglicht, automatisch zur Laufzeit ein System zu erkennen, ob der Sprecher wechselte bzw. welcher (sprecherabhängige) Datensatz für den aktuellen Sprecher der richtige ist. Dies wird mittels eines Spracherkennungssystems erreicht, welches auf sogenannten Semi-Continuous Hidden Markov Modellen (SCHMM) basiert. Im Zusammenhang mit der Klassifikation auf Basis der Semi-Continuous Hidden Markov Modelle werden Codebücher erstellt, welche aus n-dimensionalen Normalverteilungen bestehen. Dabei wird jede Normalverteilung durch ihren Mittelwertvektor mu und ihre Kovarianzmatrix K repräsentiert. Im Rahmen einer Sprecheradaption werden in der Regel die Parameter dieser Normalverteilungen, also Mittelwerte und/oder Kovarianzmatrizen, sprecherspezifisch verändert. Dieser sprecherspezifische Datensatz ...
Description
Die Erfindung betrifft ein Verfahren nach dem Oberbegriff
des Patentanspruchs 1.
Die automatische Spracherkennung wird heutzutage in einfa
chen Versionen schon in Produkten eingesetzt, z. B. zur
Steuerung und Bedienung von Geräten und Maschinen oder te
lefonbasierten Auskunftssystemen. Diese Spracherkenner sind
in der Regel im Prinzip für sprecherunabhängige Erkennung
ausgelegt, d. h. jeder beliebige Benutzer kann ohne expli
zite Trainingsphase das System benutzen und die zulässigen
Wörter bzw. Kommandos entsprechen. Diese Sprecherunabhän
gigkeit wird erreicht, indem man beim Grundtraining des
Systems im Labor sehr viele Sprachstichproben von vielen
Sprechern und großem Vokabular zugrunde legt.
Darüber hinaus werden Methoden eingesetzt das Spracherken
nungssystem auch online während einer aktuellen Anwendung
an die speziellen Bedingungen hinsichtlich Sprecher und
Equipment (Mikrofon, Verstärkern, Raum) zu adaptieren.
Diese Adaptionsmethoden können sowohl überwacht als auch
unüberwacht eingesetzt werden.
Unüberwachte Adaption bedeutet, dass sich das Erkennungs
system unbemerkt vom Benutzer ständig an die aktuelle Si
tuation adaptiert. Dafür werden in der Regel Schleppfenster
eingesetzt, die gleitend über der Zeit bestimmte Parameter
des Systems nachführen. Die Zeitkonstante des Schleppfen
sters (häufig auch Vergessensrate genannt) bestimmt die
Adaptionsgeschwindigkeit.
Bei der Überwachten Adaption muss ein Benutzer explizit in
einer Trainingsphase gezielt Wörter bzw. Sätze nachspre
chen, die ihm vom System (akustisch oder optisch) vorge
geben werden. Aus diesen Eingaben (Sprachproben) werden
sprecherspezifische Parameter im System generiert bzw.
nachoptimiert. Die Methode der überwachten Adaption wird
häufig bei solchen Sprechern angewandt, für die das spre
cherunabhängige Basissystem sehr schlechte Erkennungsraten
hat und für die auch mit den Methoden der unüberwachten
Adaption keine deutliche Verbesserung der Erkennungslei
stung erreichbar ist. Diese überwachte Adaption soll natür
lich nur einmal erfolgen und der entsprechende sprecherspe
zifische Datensatz jedesmal verwendet werden, wenn dieser
spezielle Benutzer das System bedient.
Bei beiden Methoden, der überwachten als auch der unüber
wachten Adaptation, werden sprecherspezifische Parametersätze
zusätzlich zu den Basisparametern abgespeichert. In
vielen realen Applikation, wie z. B. "Sprachbedienung im
Kraftfahrzeug", stellt sich das Problem, dass die Benutzer
relativ häufig wechseln. Wenn nun für jeden (oder auch nur
einige) Benutzer sprecherspezifische Datensätze angelegt
wurden, stellt sich die Frage, welches der richtige Daten
satz für den aktuellen Benutzer ist. Dies könnte natürlich
durch Abfragen beim System-Neustart erfolgen. Abgesehen da
von, dass dies eine sehr umständliche und nicht sehr benut
zerfreundliche Methode ist, kommt es auch häufig vor, dass
der Sprecher wechselt, während das System aktiviert ist und
so keine neue Vorinitialisierung möglich ist.
Aufgabe der Erfindung ist es, ein Verfahren zu finden, wel
ches es ermöglicht, automatisch zur Laufzeit des Systems zu
erkennen, ob der Sprecher wechselte, bzw. welcher (spre
cherabhängige) Datensatz für den aktuellen Sprecher der
richtige ist.
Die Aufgabe wird durch ein Spracherkennungssystem gelöst,
welches auf sogenannten Semi-Continuous Hidden Markov
Modellen (SCHMM) basiert (Huang, Xuedong D., Y. Ariki und
M. A. Jack Hidden Markov models for speech recognition,
Edinburgh information technology series, Edinburgh
University Press, Schottland, 1990). In Zusammenhang mit
der Klassifikation auf Basis der Semi-Continuous Hidden
Markov Modelle werden Codebücher erstellt, welche aus n-
dimensionalen Normalverteilungen bestehen. Dabei wird jede
Normalverteilung durch ihren Mittelwertvektor µ und ihre
Kovarianzmatrix K repräsentiert. Im Rahmen einer Sprecher
adaption werden in der Regel die Parameter dieser Normal
verteilungen, also Mittelwerte und/oder Kovarianzmatrizen,
sprecherspezifisch verändert. Dieser sprecherspezifische
Datensatz wird dann zusätzlich zum sogenannten Baseline-
Datensatz, welcher einem sprecher-unabhängigen Codebuch
entspricht, abgespeichert. In erfinderischer Weise korre
liert das Spracherkennungssystem das Sprachsignal mittels
Vektorquantisierung mit dem sprecher-unabhängigen und den
sprecher-abhängigen Codebüchern. Auf Grundlage dieser Kor
relation ist es dem Erkennungssystem sodann möglich das
Sprachsignal einem dieser Codebücher zuzuordnen und somit
die Identität eines Sprechers festzustellen.
Auf diese vorteilhafte Verfahrensweise erlaubt es die Er
findung, einen Sprecherwechsel ausschließlich am Sprachsi
gnal selbst zu detektieren, ohne auf die Verwendung von aus
dem Stand der Technik bekannten Methoden zur Sprechererken
nung zurückgreifen zu müssen. Eine derart naheliegende Lö
sung der Aufgabe hätte den Nachteil, dass infolge der Spre
chererkennung bzw. Sprecherverifikation ein separates Er
kennungssystem erforderlich wäre, welches parallel zum
Spracherkennungssystem aktiv sein müßte. Ein solches zwei
tes System ist jedoch aus Aufwands- bzw. Kostengründen in
manchen Systemen nicht praktikabel.
Der vorliegende Erfindungsgegenstand beschreibt also eine
Methode, mit welcher direkt mittels vom Sprachsignal abge
leiteten Parametern erkannt werden kann, ob ein Sprecher
wechsel vorliegt. Im selben Schritt wird es in vorteilhaf
ter Weise auch möglich festzustellen, welcher gespeicherte
Satz von Parametern (Codebuch) des Klassifikators für die
Spracherkennung bei dem aktuellen Sprecher optimal ist.
Bei den oben erwähnten Methoden zur Sprecheradaption werden
gewinnbringend in den sprecher-spezifischen Codebüchern die
Parameter der Normalverteilungen, also Mittelwerte und/oder
Kovarianzmatrizen, sprecher-spezifisch gegenüber dem spre
cher unabhängigen Codebuch verändert. Dieser sprecherspe
zifische Datensatz (sprecher-abhängiges Codebuch) wird dann
zusätzlich zum sog. Baseline-Datensatz (sprecher-unabhängi
ges Codebuch) abgespeichert.
In der Anwendungsphase dieses Erkennungssystems findet eine
sog. Vektorquantisierung statt. Dies ist eine Klassifika
tion von Merkmalsvektoren, die aus dem Sprachsignal berech
net werden, an den Normalverteilungen. Diese Klassifikation
liefert "Wahrscheinlichkeitswerte" p(x, k) eines Merkmals
vektors für jede Normalverteilung des Codebuchs.
Anhand des nachfolgenden Beispielszenarios wird das Prinzip
des erfinderischen Verfahrens im Detail erläutert.
Dabei zeigt die Figur zwei beispielhafte Codebücher, wie
sie zur Erkennung von Sprecherwechseln herangezogen werden
könnten.
Das sprecher-unabhängige Codebuch 1 in der Figur besteht
aus jeweils 4 Normalverteilungen ("Standard-Codebuch") mit
den Parametern µ1 . . ., µ4 (Mittelwertvektoren) und den zu
gehörigen Kovarianzmatrizen K1 . . . K4. In einer Adaptions
phase trainiert nun ein Sprecher das System nach. Dabei
werden die Mittelwertvektoren und Kovarianzmatrizen des
Standard-Codebuchs modifiziert und es entsteht ein spre
cher abhängiges Codebuch 2 mit den neuen sprecher-spezifi
schen Mittelwerten µ1' . . ., µ4'. Dieses nachtrainierte
Codebuch 2 (bzw. nur die neuen Mittelwertvektoren) werden
zusätzlich gespeichert.
In der Anwendungsphase des Erkennungssystems liegen bei
spielsweise nun 2 Codebücher vor: das Standard-Codebuch 1
für sprecher-unabhängige Erkennung, sowie das für einen
speziellen Sprecher nach trainierte Codebuch 2; prinzipiell
können natürlich beliebig viele nachtrainierte Codebücher
vorliegen, ohne dass dies etwas an dem erfinderischen Ver
fahren änderte. Für jeden ankommenden Merkmalsvektor X aus
dem Sprachsignal wird nun eine Klassifikation (sog. "Vek
torquantisierung") an allen Normalverteilungen beider Code
bücher durchgeführt. In unserem Beispiel erhalten wir für
das Standard-Codebuch 1 die Werte p(X, 1) = 0.2 (Wahrschein
lichkeit der ersten Normalverteilung), p(X, 2) = 0.6,
p(X, 3) = 0.1, p(X, 4) = 0.1. Entsprechende Werte ergeben sich
für das nach trainierte Codebuch 2, beispielhaft
p(X, 1) = 0.3, p(X, 2) = 0.4, p(X, 3) = 0.1 sowie p(X, 4) = 0.2.
Üblicherweise wird ein Schwellwert eingesetzt, um sehr
kleine Wahrscheinlichkeitswerte auszuschließen. Im vorlieg
enden Beispiel sei dieser Schwellwert 0.15. Das bedeutet,
dass hier nur die Wahrscheinlichkeitswerte p(X, 1) = 0.2 und
p(X, 2) = 0.6 des Standard-Codebuchs 1 sowie p(X, 1) = 0.3,
p(X, 2) = 0.4 und p(X, 4) = 0.2 des nach trainierten Codebuchs 2
über dem Schwellwert liegen und für die weitere Betrachtung
relevant sind. Als nächster Schritt wird eine Normierung
auf "Summe = 1" durchgeführt:
N ist die Anzahl der Wahrscheinlichkeiten, die über dem
Schwellwert liegen; d. h. in unserem Beispiel ist N = 2 für
das Standard-Codebuch 1 und N = 3 für das nachtrainierte
Codebuch 2 und k bezeichnet die Normalverteilung innerhalb
der Codebücher denen der entsprechende Wahrscheinlichkeits
wert zuzuordnen ist. Der erste Teil der Gleichung ergibt
den sogenannten Normierungsfaktor F gemäß
Für jedes Codebuch ergibt sich somit ein spezieller Normie
rungsfaktor, in unserem Beispiel ist.
Fstndrd = 1.25 für das Codebuch 1
Fnachtr = 1.11 für das Codebuch 2
Fstndrd = 1.25 für das Codebuch 1
Fnachtr = 1.11 für das Codebuch 2
Der Normierungsfaktor F wird nun folgendermaßen interpre
tiert: je näher ein Merkmalsvektor im Mittel den Normalver
teilungen eines Codebuchs ist, das heißt je größer die
Wahrscheinlichkeitswerte für diesen Vektor sind, desto eher
entspricht dieses Codebuch dem aktuellen Sprecher. Aus
Gleichung (2) ist ersichtlich, dass der Normierungsfaktor
um so kleiner wird, je größer die Wahrscheinlichkeitswerte
sind. In unserem Beispiel würde sich das Verfahren für den
nachtrainierten Sprecher entscheiden.
Das Entscheidungskriterium für einen Sprecherwechsel ist
also der Normierungsfaktor nach Gleichung (2).
Verschiedene Ausprägungen der Erfindung sind nun möglich:
- - Entscheidung für jeden einzelnen Merkmalsvektor während des gesamten Erkennungsbetriebes, wobei in gewinnbrin gender Weise die Entscheidungen in Folge so schnell als möglich getroffen werden, so dass noch ein Betrieb des Verfahrens in Echtzeit möglich ist, oder
- - Entscheidung nur für die erste Äußerung (Wort, Satz) ei nes Sprechers; danach wird die Entscheidung eingefroren; d. h. für einen gewissen Zeitraum, beispielsweise bis eine signifikante Sprechpause eintritt, wird nur das der ersten Äußerung zugeordnete Codebuch weiterverwendet.
Claims (7)
1. Verfahren zur automatischen Detektion von Sprecher
wechseln in Spracherkennungssystemen, welche auf Basis von
Hidden Markov Modellen arbeiten, und über ein sprecher-un
abhängiges Codebuch verfügen, welche aus n-dimensionalen
Normalverteilungen besteht,
dadurch gekennzeichnet,
dass neben dem sprecher-unabhängigen Codebuch, wenigstens ein sprecher-abhängiges Codebuch existiert,
und dass das Spracherkennungssystem ein Sprachsignal mit tels Vektorquantisierung mit dem sprecher-unabhängigen und den sprecher-abhängigen Codebüchern korreliert, und auf Grundlage dieser Korrelation auf die Identität eines Spre chers entscheidet.
dass neben dem sprecher-unabhängigen Codebuch, wenigstens ein sprecher-abhängiges Codebuch existiert,
und dass das Spracherkennungssystem ein Sprachsignal mit tels Vektorquantisierung mit dem sprecher-unabhängigen und den sprecher-abhängigen Codebüchern korreliert, und auf Grundlage dieser Korrelation auf die Identität eines Spre chers entscheidet.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
dass von den aus der Vektorquantisierung resultierenden
Wahrscheinlichkeitswerten nur diejenigen zur Korrelation
herangezogen werden, welche einen bestimmten, vorgebbaren
Schwellwert überschreiten.
3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch
gekennzeichnet, dass vor der Korrelation aus den aus der
Vektorquantisierung resultierenden Wahrscheinlichkeitswer
ten für jedes der Codebücher ein Normierungsfaktor F
berechnet wird, dergestalt dass gilt:
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet,
dass dasjenige Codebuch dem Sprachsignal als zugehörig zu
geordnet wird, welches den bezüglich dieses Sprachsignals
kleinsten Normierungsfaktor F aufweist.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch
gekennzeichnet, dass das Verfahren kontinuierlich, nach
Möglichkeit in Echtzeit, das Sprachsignal auf Sprecherwech
sel hin untersucht.
6. Verfahren nach einem der Ansprüche 1 bis 4, dadurch
gekennzeichnet, dass das Verfahren nur in Bezug auf einen
Teil einer Sequenz des Sprachsignals eine Sprecheridentifi
kation vornimmt, und die daraus resultierende Wahl für die
gesamte Sequenz aufrecht erhält.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet,
dass sich diese Teilsequenz auf den Anfang eines Wortes
oder auf den Anfang eines Satzes bezieht.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10209324A DE10209324C1 (de) | 2002-03-02 | 2002-03-02 | Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen |
JP2003056314A JP2003263193A (ja) | 2002-03-02 | 2003-03-03 | 音声認識システムで話者の交代を自動検出する方法 |
US10/378,517 US20030187645A1 (en) | 2002-03-02 | 2003-03-03 | Automatic detection of change in speaker in speaker adaptive speech recognition system |
EP03004363A EP1345208A3 (de) | 2002-03-02 | 2003-03-03 | Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10209324A DE10209324C1 (de) | 2002-03-02 | 2002-03-02 | Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10209324C1 true DE10209324C1 (de) | 2002-10-31 |
Family
ID=7714003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10209324A Expired - Fee Related DE10209324C1 (de) | 2002-03-02 | 2002-03-02 | Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen |
Country Status (4)
Country | Link |
---|---|
US (1) | US20030187645A1 (de) |
EP (1) | EP1345208A3 (de) |
JP (1) | JP2003263193A (de) |
DE (1) | DE10209324C1 (de) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004030054A1 (de) * | 2004-06-22 | 2006-01-12 | Bayerische Motoren Werke Ag | Verfahren zur sprecherabhängigen Spracherkennung in einem Kraftfahrzeug |
DE102008024258A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung |
DE102008024257A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Sprecheridentifikation bei einer Spracherkennung |
EP2189976A1 (de) | 2008-11-21 | 2010-05-26 | Harman Becker Automotive Systems GmbH | Verfahren zur Adaption eines Codierungsbuches für Spracherkennung |
EP2216775A1 (de) | 2009-02-05 | 2010-08-11 | Harman Becker Automotive Systems GmbH | Lautsprechererkennung |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2161718B1 (de) * | 2008-09-03 | 2011-08-31 | Harman Becker Automotive Systems GmbH | Spracherkennung |
US9767793B2 (en) | 2012-06-08 | 2017-09-19 | Nvoq Incorporated | Apparatus and methods using a pattern matching speech recognition engine to train a natural language speech recognition engine |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4031638A1 (de) * | 1989-10-05 | 1991-04-18 | Ricoh Kk | Spracherkennungseinrichtung |
DE4300159C2 (de) * | 1993-01-07 | 1995-04-27 | Lars Dipl Ing Knohl | Verfahren zur gegenseitigen Abbildung von Merkmalsräumen |
DE19944325A1 (de) * | 1999-09-15 | 2001-03-22 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Spracherkennung |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5913192A (en) * | 1997-08-22 | 1999-06-15 | At&T Corp | Speaker identification with user-selected password phrases |
-
2002
- 2002-03-02 DE DE10209324A patent/DE10209324C1/de not_active Expired - Fee Related
-
2003
- 2003-03-03 EP EP03004363A patent/EP1345208A3/de not_active Withdrawn
- 2003-03-03 US US10/378,517 patent/US20030187645A1/en not_active Abandoned
- 2003-03-03 JP JP2003056314A patent/JP2003263193A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4031638A1 (de) * | 1989-10-05 | 1991-04-18 | Ricoh Kk | Spracherkennungseinrichtung |
DE4300159C2 (de) * | 1993-01-07 | 1995-04-27 | Lars Dipl Ing Knohl | Verfahren zur gegenseitigen Abbildung von Merkmalsräumen |
DE19944325A1 (de) * | 1999-09-15 | 2001-03-22 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Spracherkennung |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004030054A1 (de) * | 2004-06-22 | 2006-01-12 | Bayerische Motoren Werke Ag | Verfahren zur sprecherabhängigen Spracherkennung in einem Kraftfahrzeug |
DE102008024258A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung |
DE102008024257A1 (de) * | 2008-05-20 | 2009-11-26 | Siemens Aktiengesellschaft | Verfahren zur Sprecheridentifikation bei einer Spracherkennung |
EP2189976A1 (de) | 2008-11-21 | 2010-05-26 | Harman Becker Automotive Systems GmbH | Verfahren zur Adaption eines Codierungsbuches für Spracherkennung |
EP2216775A1 (de) | 2009-02-05 | 2010-08-11 | Harman Becker Automotive Systems GmbH | Lautsprechererkennung |
Also Published As
Publication number | Publication date |
---|---|
EP1345208A2 (de) | 2003-09-17 |
EP1345208A3 (de) | 2004-12-22 |
US20030187645A1 (en) | 2003-10-02 |
JP2003263193A (ja) | 2003-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE60111329T2 (de) | Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung | |
DE69833987T2 (de) | Halbüberwachte Sprecheradaptation | |
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE60000134T2 (de) | Unüberwachte Anpassung eines Spracherkenners unter Verwendung zuverlässiger Informationen aus den besten N Rechenhypothesen | |
DE69823954T2 (de) | Quellen-normalisierendes Training zur Sprachmodellierung | |
DE69800320T2 (de) | Verfahren und Vorrichtung zur Sprechererkennung durch Prüfung von mündlicher Information mittels Zwangsdekodierung | |
EP0862161A2 (de) | Verfahren zur Spracherkennung mit Sprachmodellanpassung | |
DE602004000716T2 (de) | Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung | |
EP1193688A2 (de) | Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern | |
DE60312374T2 (de) | Verfahren und system zur trennung von mehreren akustischen signalen erzeugt durch eine mehrzahl akustischer quellen | |
DE10119284A1 (de) | Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems | |
EP1417678A1 (de) | Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge | |
EP0633559B1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE10209324C1 (de) | Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen | |
DE10040063A1 (de) | Verfahren zur Zuordnung von Phonemen | |
DE10304460B3 (de) | Generieren und Löschen von Aussprachevarianten zur Verringerung der Wortfehlerrate in der Spracherkennung | |
WO2001086634A1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
EP1723636A1 (de) | Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen | |
EP1435087A1 (de) | Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters | |
EP1224661B1 (de) | Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners | |
EP0548460A2 (de) | Verfahren zur schnellen Sprecheradaption in einem Spracherkenner für grossen Wortschatz | |
EP0965088A1 (de) | Sichere identifikation mit vorauswahl und rückweisungsklasse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of patent without earlier publication of application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: DAIMLER AG, 70327 STUTTGART, DE |
|
8320 | Willingness to grant licences declared (paragraph 23) | ||
8339 | Ceased/non-payment of the annual fee |