DE4240978A1 - Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation - Google Patents

Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation

Info

Publication number
DE4240978A1
DE4240978A1 DE19924240978 DE4240978A DE4240978A1 DE 4240978 A1 DE4240978 A1 DE 4240978A1 DE 19924240978 DE19924240978 DE 19924240978 DE 4240978 A DE4240978 A DE 4240978A DE 4240978 A1 DE4240978 A1 DE 4240978A1
Authority
DE
Germany
Prior art keywords
word
speaker
index
speech
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19924240978
Other languages
English (en)
Inventor
Joachim Zinke
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tenovis GmbH and Co KG
Telenorma GmbH
Original Assignee
Telefonbau und Normalzeit GmbH
Telenorma GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonbau und Normalzeit GmbH, Telenorma GmbH filed Critical Telefonbau und Normalzeit GmbH
Priority to DE19924240978 priority Critical patent/DE4240978A1/de
Publication of DE4240978A1 publication Critical patent/DE4240978A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Verbesserung der Er­ kennungsqualität bei sprecherabhängiger Spracherkennung, insbe­ sondere Sprecherverifikation, nach dem Oberbegriff des Patent­ anspruchs 1.
In der DE-Fachzeitschrift "Funkschau" 8/1991 ist ab Seite 59 ein Aufsatz abgedruckt mit dem Titel "Telefon versteht Spra­ che". Es ist dort im einzelnen beschrieben, für welche Aufgaben eine Spracherkennung benutzt wird und welche Arten von Erken­ nungsverfahren angewendet werden können. Am Anfang des Aufsat­ zes wird erwähnt, daß es durch die Sprachanalyse möglich ist, entsprechend einem in der Erkennungseinrichtung vorhandenen Wortschatz eine akustische Bedienung von Systemen oder Geräten zu erreichen. Der Benutzer kann also mit gesprochenen Worten gewünschte Funktionen bewirken.
Eine Sprachanalyse kann außerdem dazu benutzt werden, Sprecher an ihrer Stimme zu erkennen, um diese eindeutig zu identifizie­ ren oder zu verifizieren. In der rechten Spalte auf Seite 59 ist unter dem mit: "Variabilität der Sprecher" überschriebenen Absatz der Unterschied zwischen einer Verifikation und einer Identifikation herausgestellt. Weitere Einzelheiten zum Thema Sprechererkennung sind ab Seite 61 beschrieben. Mit einer Spre­ cherverifikation kann unter anderem eine erhöhte Sicherheit er­ reicht werden, wenn es darum geht, die Identität einer Person zusätzlich zu anderen bekannten Identifizierungsmitteln (Ausweis, Chipkarte) festzustellen. Eine mögliche Bedienungs­ weise für eine Verifikationseinrichtung ist auf Seite 62 rechte Spalte und Seite 63 linke Spalte beschrieben.
In diesem Aufsatz ist nicht genau angegeben, wie-niedrig die derzeit erreichbare Fehlerrate bei der Sprechererkennung ist. Zu diesem Thema wird aber in dem mit "Entscheidungsschwellen" überschriebenen Absatz auf Seite 62 Stellung genommen. Es ist zu vermuten, daß mit großem Speicheraufwand für eine sehr ge­ naue Darstellung der für einen Sprecher vorhandenen Referenzmu­ ster eine sehr niedrige Fehlerrate erreichbar ist. Einen großen Einfluß auf die erreichbare Fehlerrate hat auch das zur Anwen­ dung kommende Spracherkennungsverfahren. Hierzu gehören: Dyna­ mic-Time-Warp (DTW), Hidden-Markov-Modelle (HMM) und die Vek­ torquantisierung (VQ). Erläuterungen dazu sind auf Seite 60 in der rechten Spalte des vorgenannten Aufsatzes abgedruckt.
Ausgehend von diesem Stand der Technik besteht die Aufgabe der Erfindung darin, die Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere bei der Sprecherverifikation zu verbessern, daß heißt die Fehlerrate zu verringern, ohne daß der Speicher- und Rechenaufwand sich wesentlich erhöht. Dabei sollen bereits bekannte Verfahren zur Spracherkennung angewen­ det werden können.
Zur Lösung dieser Aufgabe ist eine Merkmalskombination vorgese­ hen, wie sie im Patentanspruch 1 angegeben ist.
Damit wird in vorteilhafter Weise erreicht, daß ein hohes Maß an Erkennungssicherheit gegeben ist. Durch eine Kombination der Ergebnisse aus mehreren Erkennungsmodulen wird die Fehlerrate bei der Erkennung eines Sprechers drastisch gesenkt.
Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand einer Zeichnung näher erläutert. In der Zeichnung ist eine Übersicht einer Spracherkennungseinrichtung dargestellt, wobei das Vektorquantisierungsverfahren VQ und das Vergleichsverfah­ ren nach Dynamic-Time-Warp DTW miteinander kombiniert sind. An­ stelle des Dynamic-Time-Warp-Verfahrens kann auch ein Erken­ nungsverfahren mit Hidden-Markov-Modellen angewendet werden, welches in diesem Ausführungsbeispiel nicht näher beschrieben ist.
Die für eine Sprechererkennung zum Zweck der Sprecherverifika­ tion eingesetzte Spracherkennungseinrichtung besteht aus einer Sprachanalyseeinrichtung SA, welche die eingegebene Sprache SPR analysiert und Merkmalsfolgen MF erzeugt. Um einen Sprecher eindeutig erkennen zu können, müssen von diesem gesprochene Worte als Referenzmuster vorhanden sein. Zu diesem Zweck werden in einer Trainingsphase mehrere Worte vom gleichen Sprecher ge­ sprochen, deren Merkmalsfolgen in den zur Spracherkennungsein­ richtung gehörenden Speichern, einem Codebuch CB und einem Wortmusterspeicher abgelegt werden. Dies geschieht auf folgende Weise:
Wenn die Spracherkennungseinrichtung auf den Trainingsmodus eingestellt ist, so bildet die Sprachanalyseeinrichtung SA Merkmalsfolgen für das Training MFT, welche als Merkmalsvekto­ ren MV im Vektorspeicherbereich VS des Wortmusterspeichers WMSP abgelegt werden. Die Merkmalsvektoren MV gelangen für das Trai­ ning eines Sprechercodebuchs vom Wortmusterspeicher WMSP über eine Codebuchtrainingseinheit CBT in das zu erstellende Code­ buch CB des betreffenden Sprechers, wo speziell auf den Spre­ cher angepaßte Codebuchvektoren CBV gespeichert werden, deren Anzahl wesentlich geringer ist als die Summe der vom Sprecher analysierten Merkmalsvektoren MV. Selbstverständlich kann ein Codebuch CB auch die Codebuchvektoren CBV von anderen Sprechern aufnehmen. Jedem einzelnen Sprecher, der verifiziert werden soll, ist dann innerhalb des Codebuchs CB ein eigener Speicher­ bereich zugeordnet, wo die individuellen Codebuchvektoren CBV abgelegt sind. Im Codebuch CB wird jedem einzelnen Codebuchvek­ tor CBV ein Index zugeordnet. Nach Bildung des Codebuchs CB mit den Codebuchvektoren CBV, die unter ihrem Index abgelegt sind, können allen Merkmalsvektoren MV der vom Sprecher im Training gesprochenen Worte über die Vektorquantisierung Indexfolgen IF zugeordnet werden. Die Ergebnisse der Vektorquantisierung VQ gelangen von dort in zeitlicher Reihenfolge, das heißt den Merkmalsfolgen MF eines gesprochenen Wortes entsprechend als Indexfolgen IF in den dafür vorgesehenen Indexfolgen-Speicher­ bereich IFS des Wortmusterspeichers WMSP. Der Wortmusterspei­ cher WMSP kann ebenso wie das Codebuch CB die individuellen Wortmusterreferenzen für mehrere Sprecher aufnehmen. Jedem einzelnen zu verifizierenden Sprecher ist dann ein eigener Be­ reich im Indexfolgenspeicherbereich IFS und im Vektorspei­ cherbereich VS zugeordnet. Die beim Trainingsmodus sich erge­ benden Signalwege sind in der Zeichnung gestrichelt darge­ stellt.
Der Wortmusterspeicher WMSP ist so strukturiert, daß keine starren Grenzen zwischen dem Vektorspeicherbereich VS und dem Indexfolgenspeicherbereich IFS bestehen. Wenn bei wenigen zu verifizierenden Sprechern und wenigen Wortmustern die Kapazität des Wortmusterspeichers WMSP noch ausreicht, können sowohl In­ dexfolgen im Indexfolgenspeicherbereich IFS als auch die Merk­ malsfolgen MF als Vektoren im Vektorspeicherbereich VS aufbe­ wahrt werden. Wenn weitere zu verifizierende Sprecher hinzukom­ men, so können die im Vektorspeicherbereich VS befindlichen Mu­ ster der Merkmalsfolgen MF von denjenigen Sprechern gelöscht werden, bei denen die Trainingsphase abgeschlossen ist. Für den Verifizierungsvorgang genügt es, die Indexfolgen im Indexfol­ genspeicherbereich IFS gespeichert zu haben. Innerhalb des Wortmusterspeichers WMSP sind sowohl die von den Merkmals folgen MF generierten Vektoren als auch über das Codebuch CB entstan­ denen Indexfolgen jeweils in einer zeitlichen Abfolge so ge­ speichert, wie sie nacheinander bei einem gesprochenen Wort auftreten.
Wenn die Trainingsphase für den Spracherkenner abgeschlossen ist, so kann auf den Erkennungsmodus umgeschaltet werden. Es ist jedoch zweckmäßig, die von einem jeden Sprecher trainierten Worte zuvor mit dem Erkennungsmodus zu überprüfen, bevor eine echte Verifikation stattfindet. Hierzu kann es notwendig sein, mehrmals vom Trainingsmodus auf den Erkennungsmodus umzuschal­ ten, um festzustellen, ob die im Wortmusterspeicher WMSP und im Codebuch CB abgelegten Referenzen für den betreffenden Sprecher einwandfrei erkannt werden. Es kann ebenfalls überprüft werden, ob von einem anderen Sprecher gesprochene Worte nicht erkannt werden, wie dies bei einer Sprecherverifikation sein soll. Auf diese Weise lassen sich die für einen jeden Sprecher im Wortmu­ sterspeicher WMSP und im Codebuch CB abgelegten Referenzmuster der zu sprechenden Worte so optimieren, daß nur noch eine ge­ ringe Fehlerrate bei der echten Verifikation auftreten kann.
Wenn die Trainingsphase für alle zu erkennenden Sprecher er­ folgreich abgeschlossen ist, so kann die Spracherkennungsein­ richtung zur Verifikation der vorgegebenen Sprecher eingesetzt werden. Dabei wird der zu verifizierende Sprecher aufgefordert, mindestens eines von mehreren Worten zu sprechen, deren Refe­ renzen in der Spracherkennungseinrichtung abgelegt sind. Diese Sprache SPR gelangt zunächst in die Sprachanalyseeinrichtung SA, welche daraus Merkmalsfolgen MF erzeugt. Diese Merkmalsfol­ gen MF werden nacheinander mit in dem Codebuch CB abgelegten Merkmalsvektoren MV verglichen. Da jedem Merkmalsvektor MV ein Index zugeordnet ist, entsteht dabei eine Indexfolge IF, welche der Dynamic-Time-Warp-Vergleichseinrichtung DTW angeboten wird. Bei dem DTW-Vergleichsverfahren handelt es sich um eine nicht­ lineare Zeitanpassung, daß heißt die Indexfolgen IF eines ge­ sprochenen Wortes werden bei der Gegenüberstellung zu den im Indexfolgenspeicher IFS abgelegten Indexfolgen innerhalb des Vergleichsalgorithmus auf eine gleiche zeitliche Länge ge­ bracht. Einzelheiten zum Dynamic-Time-Warp-Vergleichsverfahren sind in einem Fachbuch mit dem Titel: "Automatische Sprachein­ gabe- und Sprachausgabe" (Verfasser K. Sickert), welches im Verlag Markt und Technik 1983 erschienen ist, beschrieben. Ab Seite 235 ist unter dem Abschnitt 6.1.4. genau erläutert, wie eine nichtlineare Zeitanpassung stattfindet, damit bei unter­ schiedlichen Dauern von gleichartigen Sprachäußerungen ein op­ timaler Vergleich stattfinden kann. Auf diese Weise werden nun die in zeitlicher Reihenfolge eintreffenden Indexfolgen IF, die von dem aktuell gesprochenen Wort stammen, mit den für dieses Wort und dem betreffenden Sprecher im Indexfolgenspeicher­ bereich IFS abgelegten Referenzen verglichen.
Beim Vergleich der Merkmals folgen MF mit den im Codebuch CB ab­ gelegten Codebuchvektoren CBV innerhalb der Vektorquantisie­ rungseinheit VQ ergeben sich Abstandswerte, wovon ein erster gemittelter Gesamtabstandswert AVQ für das gesamte Wort gebil­ det wird. Die Dynamic-Time-Warp-Vergleichseinrichtung DTW stellt beim Vergleich der Indexfolgen mit den im Indexfolgen­ speicherbereich IFS des Wortmusterspeichers WMSP abgelegten Indexfolgen, welche in zeitlicher Reihenfolge in Form von vek­ torquantisierten Indexfolgen VQ-DTW angeboten werden, ebenfalls einzelne Differenzen fest. Von diesen Differenzen wird für das gesamte Wort ein geeigneter Abstandswert AIF gebildet, der sich aus den Einzeldifferenzen beim Indexvergleich ergibt. Der Abstandswert AVQ von der Vektorquantisiereinheit VQ und der Ab­ standswert AIF von der Dynamic-Time-Warp-Vergleichseinheit DTW werden einem Kombinationsrechner KR angeboten.
Dieser Kombinationsrechner bildet im einfachsten Fall aus den beiden Abstandswerten AVQ und AIF einen arithmetischen Mittel­ wert, der als kombinierter Wert KW einer Vergleichseinrichtung VG angeboten wird. Diese Vergleichseinrichtung VG vergleicht diesen kombinierten Wert KW mit einer vorgegebenen Schwelle S. Wenn der kombinierte Wert KW unterhalb der vorgegebenen Schwel­ le S liegt, so gibt der Vergleicher ein Signal aus, welches als positives Erkennungsergebnis EE+ gewertet wird. Damit steht fest, daß das aktuell eingesprochene Wort von demjenigen Sprecher stammt, der verifiziert werden soll. Wenn der kombi­ nierte Wert KW oberhalb der vorgegebenen Schwelle S liegt, so ergibt sich ein negatives Erkennungsergebnis EE-, womit fest­ steht, daß es sich nicht um den zu verifizierenden Sprecher handelt.
Beim Bilden eines einfachen arithmetischen Mittelwertes aus den Abstandswerten AVQ und AIF sind die beiden einzelnen Werte je zur Hälfte berücksichtigt. Dabei werden jedoch nicht für alle Fälle optimale Ergebnisse erzielt. Deshalb wird der kombinierte Wert KW so gebildet, daß die beiden einzelnen Abstandswerte AVQ und AIF mit unterschiedlicher Gewichtung in die Rechnung eingehen. Es wird in diesem Fall ein Faktor F nach der folgen­ den Formel in die Rechnung eingefügt
W = F * AVQ + (1-F) * AIF.
Für den zuvor beschriebenen Fall, daß eine gleichmäßige Gewich­ tung der beiden einzelnen Abstandswerte AVQ und AIF vorliegt, wäre der Faktor F = 0,5. Der Faktor F liegt also immer zwischen 0 und 1. Um optimale Ergebnisse zu erzielen, kann dieser Fak­ tor F für jeden Sprecher und für jedes zu diesem Sprecher gehö­ rende Wortmuster individuell festgelegt werden. Während der Trainingsphase kann durch wiederholtes Überprüfen von gespro­ chenen Worten mit bereits eingespeicherten Wortmustern heraus­ gefunden werden, bei welchem Faktor F die Fehlerrate am gering­ sten ist. Es lassen sich auf diese Weise Fehlerraten erreichen, welche unterhalb von 1% liegen, obwohl durch die Kombination von zwei Erkennungsverfahren, wie dies zuvor beschrieben worden ist, bereits sehr geringe Fehlerraten erreichbar sind, wenn die Vergleichsergebnisse mit gleicher Gewichtung in die Rechnung eingehen.
Anstelle eines Vergleiches von Indexfolgen IF mit im Indexfol­ genspeicherbereich IFS des Wortmusterspeichers WMSP abgelegten Werten kann auch ein direkter Vergleich der aus Merkmals folgen MF gebildeten Merkmalsvektoren MV durchgeführt werden. Diese Merkmalsvektoren MV werden dann in zeitlicher Reihenfolge der Dynamic-Time-Warp-Vergleichseinrichtung DTW angeboten. Sie wer­ den dann mit Merkmalsvektoren verglichen, die im Vektorspei­ cherbereich VS des Wortmusterspeichers WMSP abgelegt sind. Diese Werte DTW-VS werden der Dynamic-Time-Warp-Vergleichsein­ richtung DTW zugeführt. Der Signalverlauf für diese Art des Wortmustervergleichs ist in der Zeichnung strichpunktiert dar­ gestellt. Hierfür wird jedoch eine größere Speicherkapazität im Wortmusterspeicher WMSP benötigt. Diese Vergleichsversion wird also nur dann angewendet, wenn bei wenigen Sprechern und/oder wenigen Worten genügend Kapazität im Wortmusterspeicher WMSP zur Verfügung steht. Bei vielen Sprechern und vielen Worten werden die im Wortmusterspeicher WMSP gespeicherten Trainings­ ergebnisse höher verdichtet und vorwiegend im Indexfolgen­ speicherbereich IFS abgelegt. Somit ergibt sich, daß ein vor­ handener Wortmusterspeicher WMSP nicht erweitert werden muß, wenn die Anzahl der zu verifizierenden Sprecher oder die Anzahl der Wortmuster erhöht wird.

Claims (4)

1. Verfahren zur Verbesserung der Erkennungsqualität bei spre­ cherabhängiger Spracherkennung, insbesondere Sprecherverifi­ kation, wobei Sprachanalyseverfahren angewendet werden, um aus der Sprache von bekannten Sprechern Sprachmuster zu bil­ den und zu speichern, die dann mit aus aktuell gesprochenen Worten gebildeten Sprachmustern verglichen werden, und das Vergleichsergebnis eine Entscheidung darüber ist, ob eine Erkennung vorliegt oder nicht, dadurch gekennzeichnet,
daß die Merkmals folgen (MF) eines aktuell von einem zu er­ kennenden Sprecher gesprochenen Wortes oder einer Wort folge einem Vektorquantisierungsverfahren (VQ) unterzogen werden und dabei mit in einem Codebuch (CB) befindlichen, zuvor für diesen Sprecher erstellten sprechertypischen Merkmalen (Merkmalsvektoren) verglichen werden, wobei sich Abstands­ werte (AVQ) bei diesem Vergleich ergeben,
daß außerdem bei der Vektorquantisierung (VQ) des gesproche­ nen Wortes eine Indexfolge (IF) gebildet wird, die der zeit­ lichen Reihenfolge der Merkmalsfolge (MF) entspricht,
daß diese Indexfolge (IF) mit in einem Wortmusterspeicher (WMSP) abgelegten Indexfolgen (IFS) des zu erkennenden Spre­ chers, die nach einem bekannten Vergleichs- und Normierungs­ verfahren, z. B. Dynamic-Time-Warp (DTW), erstellt wurden, verglichen wird, oder mit den Ergebnissen von stochastischen sprecherspezifischen, nach dem Hidden-Markov-Modell (HMM) erstellten Wortmodellen verglichen wird, die von den glei­ chen Worten, bzw. Wortfolgen stammen, und gespeichert sind, wobei sich ebenfalls Abstandswerte (AIF) bei diesem Ver­ gleich ergeben,
und daß die beiden Abstandswerte (AVQ und AIF) in einem Kom­ binationsrechner (KR) miteinander kombiniert werden und zu einem positiven Erkennungsergebnis (EE+) führen, wenn dieser kombinierte Wert (KW) unterhalb einer vorgegebenen Schwelle (S) liegt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei der Kombination der beiden Abstandswerte (AVQ und AIF) ein Faktor (F) eingerechnet wird, der die Anteile der einzelnen Abstandswerte (AVQ und AIF) so berücksichtigt, daß sich durch den dabei entstehenden kombinierten Wert (KW) die geringste Fehlerrate bei der Erkennung ergibt.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei geringem Sicherheitsbedürfnis nur ein einziges text­ unabhängiges Erkennungsverfahren, beispielsweise die Vektor­ quantisierung (VQ), eingesetzt wird und bei gesteigertem Si­ cherheitsanspruch eine zusätzliche wortabhängige Erkennung vollzogen wird, wobei die Kombination von Erkennungsergeb­ nissen weiterer Erkennungsverfahren (DTW, HMM) benutzt wird.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Wortmusterspeicher (WMSP) beim Trainieren zunächst alle zur Referenz dienenden Wortmuster sowohl in Vektorform (VS) als auch in Indexform (IF) enthält, wobei die Indexform (IF) eines Wortmusters jeweils automatisch mit Hilfe des Codebuchs (CB) erstellt wird, und daß bereits vorhandene fertige Wortmuster in Vektorform (VS) im Wortmusterspeicher (WMSP) gelöscht werden, wenn für neu zu trainierende Worte oder für zusätzliche aufzunehmende Wortmuster eines neuen Sprechers nicht mehr genügend Spei­ cherplatz zur Verfügung steht.
DE19924240978 1992-12-05 1992-12-05 Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation Withdrawn DE4240978A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19924240978 DE4240978A1 (de) 1992-12-05 1992-12-05 Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19924240978 DE4240978A1 (de) 1992-12-05 1992-12-05 Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation

Publications (1)

Publication Number Publication Date
DE4240978A1 true DE4240978A1 (de) 1994-06-09

Family

ID=6474481

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19924240978 Withdrawn DE4240978A1 (de) 1992-12-05 1992-12-05 Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation

Country Status (1)

Country Link
DE (1) DE4240978A1 (de)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995005656A1 (en) * 1993-08-12 1995-02-23 The University Of Queensland A speaker verification system
EP0821346A2 (de) * 1996-07-25 1998-01-28 Siemens Aktiengesellschaft Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE19738846C1 (de) * 1997-09-05 1998-10-22 Philips Patentverwaltung Verfahren und Anordnung zur Berechnung von Abständen in hochdimensionalen Vektorräumen
DE19723294A1 (de) * 1997-06-04 1998-12-10 Daimler Benz Ag Mustererkennungsverfahren
DE19842151A1 (de) * 1998-09-15 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Adaption von linguistischen Sprachmodellen

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0430615A2 (de) * 1989-11-28 1991-06-05 Kabushiki Kaisha Toshiba System zur Spracherkennung

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0430615A2 (de) * 1989-11-28 1991-06-05 Kabushiki Kaisha Toshiba System zur Spracherkennung

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZINKE, Joachim: Die Stimme als Ausweis. In: net 45 (1991), Heft 3, S. 85-89 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995005656A1 (en) * 1993-08-12 1995-02-23 The University Of Queensland A speaker verification system
EP0821346A2 (de) * 1996-07-25 1998-01-28 Siemens Aktiengesellschaft Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE19630109A1 (de) * 1996-07-25 1998-01-29 Siemens Ag Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner
EP0821346A3 (de) * 1996-07-25 1998-09-09 Siemens Aktiengesellschaft Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
US6298323B1 (en) 1996-07-25 2001-10-02 Siemens Aktiengesellschaft Computer voice recognition method verifying speaker identity using speaker and non-speaker data
DE19723294A1 (de) * 1997-06-04 1998-12-10 Daimler Benz Ag Mustererkennungsverfahren
DE19723294C2 (de) * 1997-06-04 2003-06-18 Daimler Chrysler Ag Mustererkennungsverfahren
DE19738846C1 (de) * 1997-09-05 1998-10-22 Philips Patentverwaltung Verfahren und Anordnung zur Berechnung von Abständen in hochdimensionalen Vektorräumen
EP0901118A2 (de) * 1997-09-05 1999-03-10 Philips Patentverwaltung GmbH Verfahren und Anordnung zur Berechnung von Abständen in hochdimensionalen Vektorräumen
EP0901118A3 (de) * 1997-09-05 1999-10-20 Philips Patentverwaltung GmbH Verfahren und Anordnung zur Berechnung von Abständen in hochdimensionalen Vektorräumen
DE19842151A1 (de) * 1998-09-15 2000-03-23 Philips Corp Intellectual Pty Verfahren zur Adaption von linguistischen Sprachmodellen

Similar Documents

Publication Publication Date Title
DE2953262C2 (de)
EP0821346B1 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69132996T2 (de) Gleichzeitige sprecherunabhängige Spracherkennung und -verifizierung über ein Telefonnetz
DE69329855T2 (de) Methode zur erkennung alphanumerischer zeichenketten, die über ein telefonnetz gesprochen werden
WO2009140781A1 (de) Verfahren zur klassifizierung und entfernung unerwünschter anteile aus einer äusserung bei einer spracherkennung
DE2844156C2 (de)
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE3238855A1 (de) Spracherkennungseinrichtung
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
EP0964390A2 (de) Vorrichtung zur Verifizierung von Signalen
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
EP0981129A2 (de) Verfahren und Anordnung zum Durchführen einer Datenbankabfrage
DE3853702T2 (de) Spracherkennung.
WO2005088607A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
EP1640969B1 (de) Verfahren zur Sprecheradaption für ein Hidden-Markov-Modell basiertes Spracherkennungssystem
DE4240978A1 (de) Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation
WO1993002448A1 (de) Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache
EP1224661B1 (de) Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners
EP0817167B1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
DE4325404C2 (de) Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
DE4110300C2 (de) Verfahren zur Erweiterung des Wortschatzes für sprecherunabhängige Spracherkennung
EP0834859B1 (de) Verfahren zum Bestimmen eines akustischen Modells für ein Wort
DE102008024257A1 (de) Verfahren zur Sprecheridentifikation bei einer Spracherkennung
DE19933323C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung vorgegebener Sprachmuster, insbesondere zur Sprachsteuerung von Kraftfahrzeugsystemen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8130 Withdrawal