DE69924596T2 - Auswahl akustischer Modelle mittels Sprecherverifizierung - Google Patents

Auswahl akustischer Modelle mittels Sprecherverifizierung Download PDF

Info

Publication number
DE69924596T2
DE69924596T2 DE1999624596 DE69924596T DE69924596T2 DE 69924596 T2 DE69924596 T2 DE 69924596T2 DE 1999624596 DE1999624596 DE 1999624596 DE 69924596 T DE69924596 T DE 69924596T DE 69924596 T2 DE69924596 T2 DE 69924596T2
Authority
DE
Germany
Prior art keywords
speaker
model set
individual
adaptation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE1999624596
Other languages
English (en)
Other versions
DE69924596D1 (de
Inventor
Silke Goronzy
Peter Buchner
Ralf Kompe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Deutschland GmbH
Original Assignee
Sony International Europe GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony International Europe GmbH filed Critical Sony International Europe GmbH
Publication of DE69924596D1 publication Critical patent/DE69924596D1/de
Application granted granted Critical
Publication of DE69924596T2 publication Critical patent/DE69924596T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Description

  • Diese Erfindung betrifft ein Verfahren und eine Vorrichtung zur Durchführung automatischer Spracherkennung, insbesondere ein Verfahren und eine Vorrichtung zum Erhöhen der Erkennungsrate bei Spracherkennungssystemen, welche von unterschiedlichen Benutzern verwendet werden.
  • Spracherkenner gemäß dem Stand der Technik bestehen aus einem Satz von statistischen Verteilungen, welche die akustischen Eigenschaften von bestimmten Sprachsegmenten modifizieren. Diese akustischen Eigenschaften sind in Merkmalsvektoren kodiert. Als ein Beispiel kann eine Gauss-Verteilung für jedes Phonem verwendet werden. Diese Verteilungen sind Zuständen zugeordnet. Ein (stochastisches) Zustandsübergangsnetzwerk (gewöhnlich Hidden-Markov-Modelle) definiert die Wahrscheinlichkeiten für Sequenzen bzw. Folgen von Zuständen und Sequenzen bzw. Folgen von Merkmalsvektoren. Das Durchlaufen eines Zustandes verbraucht einen Merkmalsvektor, welcher einen Rahmen (Englisch: Frame) von beispielsweise 10 ms des Sprachsignals abdeckt.
  • Die stochastischen Parameter eines solchen Erkenners werden trainiert unter Verwendung einer großen Menge von Sprachdaten, entweder eines Einzelsprechers, was zu einem sprecher-abhängigen-(SD-)System führt, oder von vielen Sprechern, was zu einem sprecher-unabhängigen-(SI-)System führt.
  • Sprecheranpassung (SA) ist ein weithin verwendetes Verfahren zur Erhöhung der Erkennungsraten von SI-Systemen. Sprecher-abhängige Systeme gemäß dem Stand der Technik ergeben wesentlich höhere Erkennungsraten als sprecher-unabhängige Systeme. Für viele Anwendungen ist es jedoch nicht möglich bzw. geeignet, genügend Daten eines Einzelsprechers bzw. einzelnen Sprechers zu sammeln, um das System zu trainieren. Für den Fall eines Endverbraucher- bzw. Konsumentenendgeräts kann dies sogar nicht gewollt sein. Um dieses Missverhältnis bei den Erkennungsraten zu bewälti gen, werden weithin Sprecheranpassungsalgorithmen verwendet, um Erkennungsraten zu erreichen, welche denjenigen von sprecher-abhängigen Systemen nahe kommen, jedoch nur einen Bruchteil von sprecher-abhängigen Daten verwenden, verglichen mit sprecher-abhängigen Systemen. Diese Systeme verwenden anfänglich sprecher-unabhängige Modelle, welche anschließend angepasst werden, so dass sie besser an die Sprecher-Akustiken angepasst sind.
  • Gewöhnlich wird die Anpassung im Überwacht-Modus (Englisch: supervised mode) durchgeführt. Das heißt, dass die gesprochenen Wörter bekannt sind und der Erkenner gezwungen wird, sie zu erkennen. Hierdurch wird eine Zeitausrichtung (alignment) der Segment-spezifischen Verteilungen erreicht. Die Nichtübereinstimmung zwischen den tatsächlichen Merkmalsvektoren und den Parametern der entsprechenden Verteilung bildet die Basis für die Anpassung. Die Überwacht-Anpassung benötigt eine Anpassungssitzung, welche für jeden neuen Sprecher durchgeführt werden muss, bevor er/sie den Erkenner tatsächlich verwenden kann.
  • Gewöhnlich modifizieren Sprecheranpassungstechniken die Parameter der Hidden-Markov-Modelle, so dass sie besser an die akustischen Charakteristiken des neuen Sprechers angepasst sind. Normalerweise muss ein Sprecher bei der Batch- oder Off-Line-Anpassung einen vorher festgelegten Text lesen, bevor er/sie das System zur Erkennung verwenden kann, welcher anschließend verarbeitet wird, um die Anpassung durchzuführen. Sobald dies abgeschlossen ist, kann das System zur Erkennung verwendet werden. Dieser Modus wird auch als Überwacht-Anpassung bzw. Supervised-Anpassung bezeichnet, da der Text dem System bekannt war und eine erzwungene Ausrichtung bzw. Zeitausrichtung (Englisch: forced alignment) des entsprechenden Sprachsignals zu den Modellen entsprechend dem Text durchgeführt wird und für die Anpassung verwendet wird.
  • Ein nicht-überwachtes oder On-Line-Verfahren ist jedoch für die meisten Arten von Verbraucher-Endgeräten besser geeignet. In diesem Fall findet die Anpassung statt, während das System in Verwendung ist. Die erkannte Äußerung wird zur Anpassung verwendet und die modifizierten bzw. geänderten Modelle werden zur Erkennung der nächsten Äußerung verwendet und so fort. In diesem Fall ist der gesprochene Text dem System unbekannt, und es werden stattdessen die Wörter bzw. das Wort, welche erkannt wurden bzw. welches erkannt wurde, verwendet.
  • Eine Anpassung eines sprecher-angepassten Modellsatzes kann wiederholt durchgeführt werden zur weiteren Verbesserung der Leistung für bestimmte Sprecher. Es gibt mehrere bestehende Verfahren zur Sprecheranpassung, z. B. Maximum-A-Posteriori-Anpassung (MAP) oder Maximum-Likelihood-Linear-Regression-(MLLR-)Anpassung.
  • Diese Sprecheranpassungs-Spracherkennungssysteme, besonders Systeme, welche mit nicht-überwachter Anpassung arbeiten, sind stets nur an einen Sprecher angepasst. Daher muss, falls sich der Sprecher ändert, die Anpassung wieder bzw. neugestartet werden (unter Verwendung der SI-Modelle) für diesen neuen Sprecher bevor er/sie das System mit einer verbesserten Erkennungsrate verwenden kann.
  • Sprecheranpassungstechniken werden weithin in vielen Arten von Spracherkennungssystemen verwendet, beispielsweise Diktiersystemen. In einigen dieser Systeme ist es möglich, sprecher-angepasste Modelle zu speichern, so dass unterschiedliche Sprecher das System mit unterschiedlichen sprecher-angepassten Modellen verwenden können. Jedoch muss jedes Mal von Hand festgelegt werden, welches der angepassten Modelle verwendet werden soll.
  • Andererseits ist es bekannt, dass Sprecherverifikations- und Identifikationstechniken für Zugangskontrollen von beispielsweise Gebäuden oder Systemen verwendet werden.
  • In „Integration of speaker and speech recognition systems" von D. A. Reynolds und L. P. Heck, International Conference on Acoustics, Speech and Signal Processing, 1991, ist eine Kombination eines Hochleistungssprecher-Identifikationssystems und eines Isoliert-Wort-Erkenners vorgestellt. Dabei bestimmt das Front- und Text-unabhängige Sprecheridentifikationssystem den wahrscheinlichsten Sprecher für ein Eingabewort. Die Sprecheridentität wird anschließend verwendet zum Auswählen des Referenzwortmodells für den Spracherkenner. Für einen offenen Satz von Sprechern verhält sich das Sprecherkennungssystem als ein „Sprecher-Quantisierer", welches den unbekannten Sprecher mit einem akustisch ähnlichen Sprecher assoziiert.
  • In WO 96/22514 wird ein Verfahren und eine Vorrichtung zur automatischen Spracherkennung vorgestellt, welches sich an einen bestimmten Sprecher anpasst unter Verwendung von Anpassungsdaten zum Entwickeln einer Transformation durch welche sprecher-unabhängige Modelle in sprecher-abhängige Modelle transformiert bzw. umgewandelt werden. Die sprecher-angepassten Modelle werden anschließend für die Spracherkennung verwendet.
  • Ein weiteres Dokument zum Stand der Technik ist „On-Line Bayes adaption of SCHMM parameters for speech recognition" von Qiang Huo und Chorkin Chan, International Conference on Acoustics, Speech and Signal Processing, 1995. In diesem Dokument zum Stand der Technik wird eine On-Line-Anpassung von semi-kontinuierlichen Hidden-Markov-Modellen (SCHMM) untersucht.
  • Es ist daher eine der vorliegenden Erfindung zugrunde liegende Aufgabe, ein Verfahren und eine Vorrichtung zur Sprecheranpassung anzugeben, welche die oben beschriebenen Probleme überwinden.
  • Das erfindungsgemäße Verfahren ist im unabhängigen Anspruch 1 angegeben. Bevorzugte Ausführungsformen sind in entsprechenden folgenden abhängigen Ansprüchen definiert.
  • Wie oben erwähnt, muss die Anpassung gemäß dem Stand der Technik neu gestartet werden, unter Verwendung der sprecher-unabhängigen(SI-)Modelle, falls eine Änderung des Sprechers vorliegt.
  • Bei einer Haus- bzw. Zuhause- oder Auto-Umgebung wird eine Änderung des Sprechers sehr häufig auftreten, es wird jedoch ein mehr oder weniger unveränderlicher Satz von Sprechern vorliegen, beispielsweise die Mitglieder einer Familie. Es ist somit nicht besonders sinnvoll, die Anpassung jedes Mal von Neuem zu starten, jedes Mal, wenn ein Sprecher beginnt, das System zu verwenden, und alle vorherigen Anpassungen an bestimmte Sprecher zu verwerfen.
  • Gemäß der vorliegenden Erfindung erkennt das System andererseits den Sprecher, und, falls eine Anpassung für diesen Sprecher bereits durchgeführt wurde, werden die bereits bestehenden Modelle zur weiteren Anpassung verwendet. Sprecherverifikationstechniken werden verwendet zur Erkennung, wer spricht.
  • Gemäß der vorliegenden Erfindung wird diese Änderung des Sprechers automatisch detektiert. Daher startet, bei einem Netzwerksystem, welches tatsächlich von den gleichen Personen verwendet wird, jedoch mit einer häufigen Änderung zwischen diesen, das Spracherkennungssystem gemäß der vorliegenden Erfindung die Anpassung an einen unterschiedlichen Sprecher nicht wiederholt, jedes Mal, wenn sich der Sprecher ändert, sondern es überprüft zuerst die Identität des Sprechers, so dass das System zu dem angepassten Modellsatz für diesen bestimmten Sprecher umschalten kann, falls dieses existiert. In diesem Fall wird der Modellsatz gespeichert und für die Erkennung und weitere Anpassung verwendet. Zusammen mit dem sprecher-angepassten Modellsatz werden die statistischen Hyper-Parameter, welche für die Anpassung nötig sind, gespeichert, so dass die Anpassung fortfahren kann und nicht wieder gestartet bzw. neu gestartet werden muss, wenn der gleiche Sprecher das System wiederholt verwendet. Solche Hyper-Parameter können beispielsweise Gewichte sein, die die Anpassungsgeschwindigkeit bestimmen, zur Anpassung eines bestimmten sprecher-angepassten Modellsatzes an den entsprechenden Sprecher. Falls kein Modellsatz für diesen bestimmten Sprecher existiert bzw. verfügbar ist, wird ein neuer aufgebaut unter Verwendung einer Anpassung, welche mit den SI-Modellen beginnt.
  • Das Verfahren und die Vorrichtung gemäß der vorliegenden Erfindung werden besser verstanden anhand der folgenden detaillierten Beschreibung einer beispielhaften Ausführungsform in Verbindung mit den angehängten Figuren, wobei:
  • 1 ein Spracherkennungssystem gemäß der vorliegenden Erfindung unter Verwendung der Sprecheranpassung und automatischen Identifikation des Sprechers zeigt; und
  • 2 den Verifikations- und Anpassungsablauf, welcher gemäß der vorliegenden Erfindung durchgeführt wird, zeigt.
  • 1 zeigt nur den Teil des automatischen Spracherkennungssystems gemäß der vorliegenden Erfindung, welcher für die Sprecheranpassung und die automatische Identifikation des Sprechers verwendet wird.
  • Das analoge Sprachsignal, welches durch ein Mikrofon 1 generiert wurde, wird in einer A/D-Konvertierungsstufe 2 in ein digitales Signal konvertiert bevor eine Merkmalsextraktion durchgeführt wird durch ein Merkmalsextrahierungsmodul 3 zum Erhalten eines Merkmalsvektors, beispielsweise alle 10 ms. Dieser Merkmalsvektor wird einem Verifikationsmodul 4 und einem Erkennungsmodul 5 zugeführt. Im Verifikationsmodul 4 wird eine automatische Identifikation des Sprechers durchgeführt, wie oben beschrieben. Im Erkennungsmodul 5 wird die Erkennung der gesprochenen Äußerung durchgeführt auf Basis der extrahierten Merkmalsvektoren und einem Satz von HMM-Modellen. Das Erkennungsmodul 5 führt das Erkennungsergebnis ebenso einem Anpassungsmodul 6 zu, welches einen bestimmten HMM-Modellsatz an einen bestimmten Sprecher anpassen kann.
  • Der HMM-Modellsatz, auf welchen durch das Erkennungsmodul 5 oder das Anpassungsmodell 6 zugegriffen werden soll oder welcher von diesen Modulen angepasst werden soll, wird durch das Verifikationsmodul 4 aus einem sprecher-unabhängigen Modellsatz oder einem oder mehreren Sätzen von sprecher-angepassten Modellsätzen ausgewählt, welche entsprechend an unterschiedliche individuelle Sprecher angepasst sind. Diese unterschiedlichen Modellsätze sind bzw. werden in Speichern 7, 8, 9 und 10 gespeichert und via einem Schalter 11 ausgewählt, dessen unveränderlicher Anschluss mit dem Erkennungsmodul 5 und dem Anpassungsmodul 6 verbunden ist, und dessen beweglicher Anschluss in Abhängigkeit eines Steuersignals, welches vom Verifikationsmodul 4 empfangen wird, mit einem der zuvor beschriebenen Modellsätze verbunden ist bzw. wird.
  • Es ist auch möglich, dass die sprecher-angepassten Modellsätze nicht an individuelle Sprecher angepasst sind bzw. werden, sondern an individuelle Gruppen von Sprechern, wie beispielsweise an Deutsche, britische Leute, Englisch-sprechende Deutsche, amerikanische Leute usw. oder an mit unterschiedlichen Dialekten sprechende Leute. Diese Gruppen können auch automatisch identifiziert werden in Übereinstimmung mit weithin bekannten Sprach- oder Dialekt-Identifikationsalgorithmen, welche direkt auf bzw. mit dem Sprachsignal arbeiten.
  • Selbstverständlich kann anstelle des Schalters 11 eine unterschiedliche Lösung mit der gleichen Funktion gewählt werden.
  • 2 zeigt den Verifikations- und Anpassungsablauf, welcher in dem Erkennungssystem gemäß der vorliegenden Erfindung durchgeführt wird. In einem ersten Schritt S1 wird eine gesprochene Äußerung eines Benutzers empfangen, A/D-konvertiert und weiterverarbeitet zum Extrahieren der Merkmalsvektoren. Daraufhin wird in einem Schritt S2 überprüft, ob ein neuer Sprecher spricht oder nicht. Falls ein neuer Sprecher spricht, wird im Schritt S3 überprüft, ob ein angepasster Modellsatz für diesen Sprecher bereits existiert oder nicht. Falls ein angepasster Modellsatz bereits existiert, wird dieser Modellsatz für die weitere Anpassung in einem Schritt S4 verwendet, worauf die nächste gesprochene Äußerung im Schritt S1 verarbeitet wird und der gesamte Ablauf damit wiederholt wird.
  • Falls im Schritt S3 kein angepasster Modellsatz existiert, wird im Schritt S6 die Anpassung mit dem sprecher-unabhängigen Modell gestartet bzw. begonnen und ein neuer Modellsatz (sprecher-angepasst) wird dem System hinzugefügt, worauf die nächste Äußerung im Schritt S1 verarbeitet wird und der gesamte Ablauf mit dieser nächsten Äußerung wiederholt wird. Falls im Schritt S2 bestimmt wird, dass kein neuer Sprecher spricht, wird die Anpassung durchgeführt mit dem aktuellen Modellsatz im Schritt S5, worauf die nächste bzw. folgende gesprochene Äußerung im Schritt S1 verarbeitet wird und der gesamte Ablauf wird wiederholt mit dieser nächsten Äußerung.

Claims (6)

  1. Verfahren zum Durchführen einer automatischen Spracherkennung, gekennzeichnet durch – automatisches Detektieren einer Änderung des Sprechers; – Identifizieren eines Sprechers; und – Verwenden eines individuellen Modellsatzes, welcher angepasst ist an den identifizierten Sprecher, für den Spracherkennungsablauf, falls der individuelle Modellsatz verfügbar ist, – ansonsten, Neuerzeugen eines solchen an einen individuellen Sprecher angepassten Modellsatzes für den Sprecher, und – Hinzufügen eines entsprechenden neuen Modellsatzes zu dem System; – wobei der neu erzeugte an einen individuellen Sprecher angepasste Modellsatz auf Basis eines sprecher-unabhängigen Modells generiert wird.
  2. Verfahren gemäß Anspruch 1, gekennzeichnet durch – Umschalten zu einem angepassten individuellen Modellsatz für den identifizierten Sprecher, falls dieser Modellsatz existiert, und – weiteres Anpassen des entsprechenden angepassten individuellen Modellsatzes für den identifizierten Sprecher.
  3. Verfahren gemäß Anspruch 1 oder 2, gekennzeichnet durch – Speichern von Hyper-Parametern zusammen mit dem individuellen Modellsatz für einen bestimmten Sprecher, wobei die Hyper-Parameter notwendig sind zur Anpassung, so dass die Anpassung fortfahren kann und nicht wiedergestartet werden muss, wenn der gleiche Sprecher das System wieder verwendet, – Anpassen des an einen individuellen Sprecher angepassten Modellsatzes auf Basis von Hyper-Parametern des entsprechenden Sprechers.
  4. Verfahren gemäß Anspruch 3, dadurch gekennzeichnet, dass – die Hyper-Parameter Gewichte umfassen, die die Anpassungsgeschwindigkeit festlegen zur Anpassung eines bestimmten individuellen Modellsatzes an den entsprechenden Sprecher.
  5. Verfahren gemäß einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass ein an einen individuellen Sprecher angepasster Modellsatz auf Basis von Äußerungen des entsprechenden Sprechers angepasst wird.
  6. Verfahren gemäß einem der vorstehenden Ansprüche, dadurch gekennzeichnet, dass die Spracherkennung auf Basis von Hidden-Markov-Modellen durchgeführt wird.
DE1999624596 1999-01-20 1999-01-20 Auswahl akustischer Modelle mittels Sprecherverifizierung Expired - Lifetime DE69924596T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP99100951A EP1022725B1 (de) 1999-01-20 1999-01-20 Auswahl akustischer Modelle mittels Sprecherverifizierung

Publications (2)

Publication Number Publication Date
DE69924596D1 DE69924596D1 (de) 2005-05-12
DE69924596T2 true DE69924596T2 (de) 2006-02-09

Family

ID=8237374

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1999624596 Expired - Lifetime DE69924596T2 (de) 1999-01-20 1999-01-20 Auswahl akustischer Modelle mittels Sprecherverifizierung

Country Status (3)

Country Link
EP (1) EP1022725B1 (de)
JP (1) JP2000214880A (de)
DE (1) DE69924596T2 (de)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766295B1 (en) 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
JP3437492B2 (ja) * 1999-06-21 2003-08-18 松下電器産業株式会社 音声認識方法及び装置
US6535851B1 (en) * 2000-03-24 2003-03-18 Speechworks, International, Inc. Segmentation approach for speech recognition systems
EP1213706B1 (de) * 2000-12-11 2006-07-19 Sony Deutschland GmbH Verfahren zur Online-Anpassung von Aussprachewörterbüchern
US20030125947A1 (en) * 2002-01-03 2003-07-03 Yudkowsky Michael Allen Network-accessible speaker-dependent voice models of multiple persons
DE60213195T8 (de) 2002-02-13 2007-10-04 Sony Deutschland Gmbh Verfahren, System und Computerprogramm zur Sprach-/Sprechererkennung unter Verwendung einer Emotionszustandsänderung für die unüberwachte Anpassung des Erkennungsverfahrens
US7620547B2 (en) 2002-07-25 2009-11-17 Sony Deutschland Gmbh Spoken man-machine interface with speaker identification
EP1387350A1 (de) * 2002-07-25 2004-02-04 Sony International (Europe) GmbH Mensch-Maschine-Sprachschnittstelle mit Sprechererkennung
GB2403327B (en) * 2003-06-25 2006-08-02 Domain Dynamics Ltd Method of adapting a speech-based identity verification system
ES2311344B1 (es) * 2006-04-28 2009-12-17 France Telecom España, S.A. Metodo de reconocimiento del habla con entrenamiento progresivo.
US20080004876A1 (en) * 2006-06-30 2008-01-03 Chuang He Non-enrolled continuous dictation
US8538755B2 (en) 2007-01-31 2013-09-17 Telecom Italia S.P.A. Customizable method and system for emotional recognition
WO2008137616A1 (en) 2007-05-04 2008-11-13 Nuance Communications, Inc. Multi-class constrained maximum likelihood linear regression
ATE457511T1 (de) * 2007-10-10 2010-02-15 Harman Becker Automotive Sys Sprechererkennung
KR101529918B1 (ko) * 2008-09-10 2015-06-18 엘지전자 주식회사 다중 스레드를 이용한 음성 인식 장치 및 그 방법
EP2189976B1 (de) 2008-11-21 2012-10-24 Nuance Communications, Inc. Verfahren zur Adaption eines Codierungsbuches für Spracherkennung
KR101154011B1 (ko) * 2010-06-07 2012-06-08 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
KR101214251B1 (ko) * 2011-12-22 2013-01-21 주식회사 서비전자 다중 모델 적응화방법
KR101214252B1 (ko) 2011-12-22 2012-12-20 주식회사 서비전자 다중 모델 적응화장치 및 방법
CN103077713B (zh) * 2012-12-25 2019-02-01 青岛海信电器股份有限公司 一种语音处理方法及装置
CN113823263A (zh) * 2020-06-19 2021-12-21 深圳Tcl新技术有限公司 一种语音识别方法以及系统
CN113643690A (zh) * 2021-10-18 2021-11-12 深圳市云创精密医疗科技有限公司 针对患者不规则声音的高精密医疗设备的语言识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864810A (en) * 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker

Also Published As

Publication number Publication date
EP1022725A1 (de) 2000-07-26
DE69924596D1 (de) 2005-05-12
JP2000214880A (ja) 2000-08-04
EP1022725B1 (de) 2005-04-06

Similar Documents

Publication Publication Date Title
DE69924596T2 (de) Auswahl akustischer Modelle mittels Sprecherverifizierung
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
DE60111329T2 (de) Anpassung des phonetischen Kontextes zur Verbesserung der Spracherkennung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE69229816T2 (de) Einrichtung und Verfahren für Sprachmusteridentifizierung
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE60302407T2 (de) Umgebungs- und sprecheradaptierte Spracherkennung
DE20004416U1 (de) Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme
DE10030105A1 (de) Spracherkennungseinrichtung
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
EP1084490A1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE69519229T2 (de) Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten
DE69512961T2 (de) Spracherkennung auf Grundlage von "HMMs"
DE69609531T2 (de) Sprachanpassungsgerät
EP1251489A2 (de) Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
EP0987682A2 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
EP0633559A2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69905030T2 (de) Anpassung eines spracherkenners zu dialektischen und linguistischen gebietsvarianten
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
EP1704561A1 (de) Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung
WO2005088607A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen

Legal Events

Date Code Title Description
8327 Change in the person/name/address of the patent owner

Owner name: SONY DEUTSCHLAND GMBH, 50829 KOELN, DE

8364 No opposition during term of opposition