DE4240978A1 - Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation - Google Patents
Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere SprecherverifikationInfo
- Publication number
- DE4240978A1 DE4240978A1 DE19924240978 DE4240978A DE4240978A1 DE 4240978 A1 DE4240978 A1 DE 4240978A1 DE 19924240978 DE19924240978 DE 19924240978 DE 4240978 A DE4240978 A DE 4240978A DE 4240978 A1 DE4240978 A1 DE 4240978A1
- Authority
- DE
- Germany
- Prior art keywords
- word
- speaker
- index
- speech
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 239000013598 vector Substances 0.000 title claims abstract description 37
- 230000015654 memory Effects 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 238000013139 quantization Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/10—Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung betrifft ein Verfahren zur Verbesserung der Er
kennungsqualität bei sprecherabhängiger Spracherkennung, insbe
sondere Sprecherverifikation, nach dem Oberbegriff des Patent
anspruchs 1.
In der DE-Fachzeitschrift "Funkschau" 8/1991 ist ab Seite 59
ein Aufsatz abgedruckt mit dem Titel "Telefon versteht Spra
che". Es ist dort im einzelnen beschrieben, für welche Aufgaben
eine Spracherkennung benutzt wird und welche Arten von Erken
nungsverfahren angewendet werden können. Am Anfang des Aufsat
zes wird erwähnt, daß es durch die Sprachanalyse möglich ist,
entsprechend einem in der Erkennungseinrichtung vorhandenen
Wortschatz eine akustische Bedienung von Systemen oder Geräten
zu erreichen. Der Benutzer kann also mit gesprochenen Worten
gewünschte Funktionen bewirken.
Eine Sprachanalyse kann außerdem dazu benutzt werden, Sprecher
an ihrer Stimme zu erkennen, um diese eindeutig zu identifizie
ren oder zu verifizieren. In der rechten Spalte auf Seite 59
ist unter dem mit: "Variabilität der Sprecher" überschriebenen
Absatz der Unterschied zwischen einer Verifikation und einer
Identifikation herausgestellt. Weitere Einzelheiten zum Thema
Sprechererkennung sind ab Seite 61 beschrieben. Mit einer Spre
cherverifikation kann unter anderem eine erhöhte Sicherheit er
reicht werden, wenn es darum geht, die Identität einer Person
zusätzlich zu anderen bekannten Identifizierungsmitteln
(Ausweis, Chipkarte) festzustellen. Eine mögliche Bedienungs
weise für eine Verifikationseinrichtung ist auf Seite 62 rechte
Spalte und Seite 63 linke Spalte beschrieben.
In diesem Aufsatz ist nicht genau angegeben, wie-niedrig die
derzeit erreichbare Fehlerrate bei der Sprechererkennung ist.
Zu diesem Thema wird aber in dem mit "Entscheidungsschwellen"
überschriebenen Absatz auf Seite 62 Stellung genommen. Es ist
zu vermuten, daß mit großem Speicheraufwand für eine sehr ge
naue Darstellung der für einen Sprecher vorhandenen Referenzmu
ster eine sehr niedrige Fehlerrate erreichbar ist. Einen großen
Einfluß auf die erreichbare Fehlerrate hat auch das zur Anwen
dung kommende Spracherkennungsverfahren. Hierzu gehören: Dyna
mic-Time-Warp (DTW), Hidden-Markov-Modelle (HMM) und die Vek
torquantisierung (VQ). Erläuterungen dazu sind auf Seite 60 in
der rechten Spalte des vorgenannten Aufsatzes abgedruckt.
Ausgehend von diesem Stand der Technik besteht die Aufgabe der
Erfindung darin, die Erkennungsqualität bei sprecherabhängiger
Spracherkennung, insbesondere bei der Sprecherverifikation zu
verbessern, daß heißt die Fehlerrate zu verringern, ohne daß
der Speicher- und Rechenaufwand sich wesentlich erhöht. Dabei
sollen bereits bekannte Verfahren zur Spracherkennung angewen
det werden können.
Zur Lösung dieser Aufgabe ist eine Merkmalskombination vorgese
hen, wie sie im Patentanspruch 1 angegeben ist.
Damit wird in vorteilhafter Weise erreicht, daß ein hohes Maß
an Erkennungssicherheit gegeben ist. Durch eine Kombination der
Ergebnisse aus mehreren Erkennungsmodulen wird die Fehlerrate
bei der Erkennung eines Sprechers drastisch gesenkt.
Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand
einer Zeichnung näher erläutert. In der Zeichnung ist eine
Übersicht einer Spracherkennungseinrichtung dargestellt, wobei
das Vektorquantisierungsverfahren VQ und das Vergleichsverfah
ren nach Dynamic-Time-Warp DTW miteinander kombiniert sind. An
stelle des Dynamic-Time-Warp-Verfahrens kann auch ein Erken
nungsverfahren mit Hidden-Markov-Modellen angewendet werden,
welches in diesem Ausführungsbeispiel nicht näher beschrieben
ist.
Die für eine Sprechererkennung zum Zweck der Sprecherverifika
tion eingesetzte Spracherkennungseinrichtung besteht aus einer
Sprachanalyseeinrichtung SA, welche die eingegebene Sprache SPR
analysiert und Merkmalsfolgen MF erzeugt. Um einen Sprecher
eindeutig erkennen zu können, müssen von diesem gesprochene
Worte als Referenzmuster vorhanden sein. Zu diesem Zweck werden
in einer Trainingsphase mehrere Worte vom gleichen Sprecher ge
sprochen, deren Merkmalsfolgen in den zur Spracherkennungsein
richtung gehörenden Speichern, einem Codebuch CB und einem
Wortmusterspeicher abgelegt werden. Dies geschieht auf folgende
Weise:
Wenn die Spracherkennungseinrichtung auf den Trainingsmodus
eingestellt ist, so bildet die Sprachanalyseeinrichtung SA
Merkmalsfolgen für das Training MFT, welche als Merkmalsvekto
ren MV im Vektorspeicherbereich VS des Wortmusterspeichers WMSP
abgelegt werden. Die Merkmalsvektoren MV gelangen für das Trai
ning eines Sprechercodebuchs vom Wortmusterspeicher WMSP über
eine Codebuchtrainingseinheit CBT in das zu erstellende Code
buch CB des betreffenden Sprechers, wo speziell auf den Spre
cher angepaßte Codebuchvektoren CBV gespeichert werden, deren
Anzahl wesentlich geringer ist als die Summe der vom Sprecher
analysierten Merkmalsvektoren MV. Selbstverständlich kann ein
Codebuch CB auch die Codebuchvektoren CBV von anderen Sprechern
aufnehmen. Jedem einzelnen Sprecher, der verifiziert werden
soll, ist dann innerhalb des Codebuchs CB ein eigener Speicher
bereich zugeordnet, wo die individuellen Codebuchvektoren CBV
abgelegt sind. Im Codebuch CB wird jedem einzelnen Codebuchvek
tor CBV ein Index zugeordnet. Nach Bildung des Codebuchs CB mit
den Codebuchvektoren CBV, die unter ihrem Index abgelegt sind,
können allen Merkmalsvektoren MV der vom Sprecher im Training
gesprochenen Worte über die Vektorquantisierung Indexfolgen IF
zugeordnet werden. Die Ergebnisse der Vektorquantisierung VQ
gelangen von dort in zeitlicher Reihenfolge, das heißt den
Merkmalsfolgen MF eines gesprochenen Wortes entsprechend als
Indexfolgen IF in den dafür vorgesehenen Indexfolgen-Speicher
bereich IFS des Wortmusterspeichers WMSP. Der Wortmusterspei
cher WMSP kann ebenso wie das Codebuch CB die individuellen
Wortmusterreferenzen für mehrere Sprecher aufnehmen. Jedem
einzelnen zu verifizierenden Sprecher ist dann ein eigener Be
reich im Indexfolgenspeicherbereich IFS und im Vektorspei
cherbereich VS zugeordnet. Die beim Trainingsmodus sich erge
benden Signalwege sind in der Zeichnung gestrichelt darge
stellt.
Der Wortmusterspeicher WMSP ist so strukturiert, daß keine
starren Grenzen zwischen dem Vektorspeicherbereich VS und dem
Indexfolgenspeicherbereich IFS bestehen. Wenn bei wenigen zu
verifizierenden Sprechern und wenigen Wortmustern die Kapazität
des Wortmusterspeichers WMSP noch ausreicht, können sowohl In
dexfolgen im Indexfolgenspeicherbereich IFS als auch die Merk
malsfolgen MF als Vektoren im Vektorspeicherbereich VS aufbe
wahrt werden. Wenn weitere zu verifizierende Sprecher hinzukom
men, so können die im Vektorspeicherbereich VS befindlichen Mu
ster der Merkmalsfolgen MF von denjenigen Sprechern gelöscht
werden, bei denen die Trainingsphase abgeschlossen ist. Für den
Verifizierungsvorgang genügt es, die Indexfolgen im Indexfol
genspeicherbereich IFS gespeichert zu haben. Innerhalb des
Wortmusterspeichers WMSP sind sowohl die von den Merkmals folgen
MF generierten Vektoren als auch über das Codebuch CB entstan
denen Indexfolgen jeweils in einer zeitlichen Abfolge so ge
speichert, wie sie nacheinander bei einem gesprochenen Wort
auftreten.
Wenn die Trainingsphase für den Spracherkenner abgeschlossen
ist, so kann auf den Erkennungsmodus umgeschaltet werden. Es
ist jedoch zweckmäßig, die von einem jeden Sprecher trainierten
Worte zuvor mit dem Erkennungsmodus zu überprüfen, bevor eine
echte Verifikation stattfindet. Hierzu kann es notwendig sein,
mehrmals vom Trainingsmodus auf den Erkennungsmodus umzuschal
ten, um festzustellen, ob die im Wortmusterspeicher WMSP und im
Codebuch CB abgelegten Referenzen für den betreffenden Sprecher
einwandfrei erkannt werden. Es kann ebenfalls überprüft werden,
ob von einem anderen Sprecher gesprochene Worte nicht erkannt
werden, wie dies bei einer Sprecherverifikation sein soll. Auf
diese Weise lassen sich die für einen jeden Sprecher im Wortmu
sterspeicher WMSP und im Codebuch CB abgelegten Referenzmuster
der zu sprechenden Worte so optimieren, daß nur noch eine ge
ringe Fehlerrate bei der echten Verifikation auftreten kann.
Wenn die Trainingsphase für alle zu erkennenden Sprecher er
folgreich abgeschlossen ist, so kann die Spracherkennungsein
richtung zur Verifikation der vorgegebenen Sprecher eingesetzt
werden. Dabei wird der zu verifizierende Sprecher aufgefordert,
mindestens eines von mehreren Worten zu sprechen, deren Refe
renzen in der Spracherkennungseinrichtung abgelegt sind. Diese
Sprache SPR gelangt zunächst in die Sprachanalyseeinrichtung
SA, welche daraus Merkmalsfolgen MF erzeugt. Diese Merkmalsfol
gen MF werden nacheinander mit in dem Codebuch CB abgelegten
Merkmalsvektoren MV verglichen. Da jedem Merkmalsvektor MV ein
Index zugeordnet ist, entsteht dabei eine Indexfolge IF, welche
der Dynamic-Time-Warp-Vergleichseinrichtung DTW angeboten wird.
Bei dem DTW-Vergleichsverfahren handelt es sich um eine nicht
lineare Zeitanpassung, daß heißt die Indexfolgen IF eines ge
sprochenen Wortes werden bei der Gegenüberstellung zu den im
Indexfolgenspeicher IFS abgelegten Indexfolgen innerhalb des
Vergleichsalgorithmus auf eine gleiche zeitliche Länge ge
bracht. Einzelheiten zum Dynamic-Time-Warp-Vergleichsverfahren
sind in einem Fachbuch mit dem Titel: "Automatische Sprachein
gabe- und Sprachausgabe" (Verfasser K. Sickert), welches im
Verlag Markt und Technik 1983 erschienen ist, beschrieben. Ab
Seite 235 ist unter dem Abschnitt 6.1.4. genau erläutert, wie
eine nichtlineare Zeitanpassung stattfindet, damit bei unter
schiedlichen Dauern von gleichartigen Sprachäußerungen ein op
timaler Vergleich stattfinden kann. Auf diese Weise werden nun
die in zeitlicher Reihenfolge eintreffenden Indexfolgen IF, die
von dem aktuell gesprochenen Wort stammen, mit den für dieses
Wort und dem betreffenden Sprecher im Indexfolgenspeicher
bereich IFS abgelegten Referenzen verglichen.
Beim Vergleich der Merkmals folgen MF mit den im Codebuch CB ab
gelegten Codebuchvektoren CBV innerhalb der Vektorquantisie
rungseinheit VQ ergeben sich Abstandswerte, wovon ein erster
gemittelter Gesamtabstandswert AVQ für das gesamte Wort gebil
det wird. Die Dynamic-Time-Warp-Vergleichseinrichtung DTW
stellt beim Vergleich der Indexfolgen mit den im Indexfolgen
speicherbereich IFS des Wortmusterspeichers WMSP abgelegten
Indexfolgen, welche in zeitlicher Reihenfolge in Form von vek
torquantisierten Indexfolgen VQ-DTW angeboten werden, ebenfalls
einzelne Differenzen fest. Von diesen Differenzen wird für das
gesamte Wort ein geeigneter Abstandswert AIF gebildet, der sich
aus den Einzeldifferenzen beim Indexvergleich ergibt. Der
Abstandswert AVQ von der Vektorquantisiereinheit VQ und der Ab
standswert AIF von der Dynamic-Time-Warp-Vergleichseinheit DTW
werden einem Kombinationsrechner KR angeboten.
Dieser Kombinationsrechner bildet im einfachsten Fall aus den
beiden Abstandswerten AVQ und AIF einen arithmetischen Mittel
wert, der als kombinierter Wert KW einer Vergleichseinrichtung
VG angeboten wird. Diese Vergleichseinrichtung VG vergleicht
diesen kombinierten Wert KW mit einer vorgegebenen Schwelle S.
Wenn der kombinierte Wert KW unterhalb der vorgegebenen Schwel
le S liegt, so gibt der Vergleicher ein Signal aus, welches als
positives Erkennungsergebnis EE+ gewertet wird. Damit steht
fest, daß das aktuell eingesprochene Wort von demjenigen
Sprecher stammt, der verifiziert werden soll. Wenn der kombi
nierte Wert KW oberhalb der vorgegebenen Schwelle S liegt, so
ergibt sich ein negatives Erkennungsergebnis EE-, womit fest
steht, daß es sich nicht um den zu verifizierenden Sprecher
handelt.
Beim Bilden eines einfachen arithmetischen Mittelwertes aus den
Abstandswerten AVQ und AIF sind die beiden einzelnen Werte je
zur Hälfte berücksichtigt. Dabei werden jedoch nicht für alle
Fälle optimale Ergebnisse erzielt. Deshalb wird der kombinierte
Wert KW so gebildet, daß die beiden einzelnen Abstandswerte AVQ
und AIF mit unterschiedlicher Gewichtung in die Rechnung
eingehen. Es wird in diesem Fall ein Faktor F nach der folgen
den Formel in die Rechnung eingefügt
W = F * AVQ + (1-F) * AIF.
Für den zuvor beschriebenen Fall, daß eine gleichmäßige Gewich
tung der beiden einzelnen Abstandswerte AVQ und AIF vorliegt,
wäre der Faktor F = 0,5. Der Faktor F liegt also immer zwischen
0 und 1. Um optimale Ergebnisse zu erzielen, kann dieser Fak
tor F für jeden Sprecher und für jedes zu diesem Sprecher gehö
rende Wortmuster individuell festgelegt werden. Während der
Trainingsphase kann durch wiederholtes Überprüfen von gespro
chenen Worten mit bereits eingespeicherten Wortmustern heraus
gefunden werden, bei welchem Faktor F die Fehlerrate am gering
sten ist. Es lassen sich auf diese Weise Fehlerraten erreichen,
welche unterhalb von 1% liegen, obwohl durch die Kombination
von zwei Erkennungsverfahren, wie dies zuvor beschrieben worden
ist, bereits sehr geringe Fehlerraten erreichbar sind, wenn die
Vergleichsergebnisse mit gleicher Gewichtung in die Rechnung
eingehen.
Anstelle eines Vergleiches von Indexfolgen IF mit im Indexfol
genspeicherbereich IFS des Wortmusterspeichers WMSP abgelegten
Werten kann auch ein direkter Vergleich der aus Merkmals folgen
MF gebildeten Merkmalsvektoren MV durchgeführt werden. Diese
Merkmalsvektoren MV werden dann in zeitlicher Reihenfolge der
Dynamic-Time-Warp-Vergleichseinrichtung DTW angeboten. Sie wer
den dann mit Merkmalsvektoren verglichen, die im Vektorspei
cherbereich VS des Wortmusterspeichers WMSP abgelegt sind.
Diese Werte DTW-VS werden der Dynamic-Time-Warp-Vergleichsein
richtung DTW zugeführt. Der Signalverlauf für diese Art des
Wortmustervergleichs ist in der Zeichnung strichpunktiert dar
gestellt. Hierfür wird jedoch eine größere Speicherkapazität im
Wortmusterspeicher WMSP benötigt. Diese Vergleichsversion wird
also nur dann angewendet, wenn bei wenigen Sprechern und/oder
wenigen Worten genügend Kapazität im Wortmusterspeicher WMSP
zur Verfügung steht. Bei vielen Sprechern und vielen Worten
werden die im Wortmusterspeicher WMSP gespeicherten Trainings
ergebnisse höher verdichtet und vorwiegend im Indexfolgen
speicherbereich IFS abgelegt. Somit ergibt sich, daß ein vor
handener Wortmusterspeicher WMSP nicht erweitert werden muß,
wenn die Anzahl der zu verifizierenden Sprecher oder die Anzahl
der Wortmuster erhöht wird.
Claims (4)
1. Verfahren zur Verbesserung der Erkennungsqualität bei spre
cherabhängiger Spracherkennung, insbesondere Sprecherverifi
kation, wobei Sprachanalyseverfahren angewendet werden, um
aus der Sprache von bekannten Sprechern Sprachmuster zu bil
den und zu speichern, die dann mit aus aktuell gesprochenen
Worten gebildeten Sprachmustern verglichen werden, und das
Vergleichsergebnis eine Entscheidung darüber ist, ob eine
Erkennung vorliegt oder nicht,
dadurch gekennzeichnet,
daß die Merkmals folgen (MF) eines aktuell von einem zu er kennenden Sprecher gesprochenen Wortes oder einer Wort folge einem Vektorquantisierungsverfahren (VQ) unterzogen werden und dabei mit in einem Codebuch (CB) befindlichen, zuvor für diesen Sprecher erstellten sprechertypischen Merkmalen (Merkmalsvektoren) verglichen werden, wobei sich Abstands werte (AVQ) bei diesem Vergleich ergeben,
daß außerdem bei der Vektorquantisierung (VQ) des gesproche nen Wortes eine Indexfolge (IF) gebildet wird, die der zeit lichen Reihenfolge der Merkmalsfolge (MF) entspricht,
daß diese Indexfolge (IF) mit in einem Wortmusterspeicher (WMSP) abgelegten Indexfolgen (IFS) des zu erkennenden Spre chers, die nach einem bekannten Vergleichs- und Normierungs verfahren, z. B. Dynamic-Time-Warp (DTW), erstellt wurden, verglichen wird, oder mit den Ergebnissen von stochastischen sprecherspezifischen, nach dem Hidden-Markov-Modell (HMM) erstellten Wortmodellen verglichen wird, die von den glei chen Worten, bzw. Wortfolgen stammen, und gespeichert sind, wobei sich ebenfalls Abstandswerte (AIF) bei diesem Ver gleich ergeben,
und daß die beiden Abstandswerte (AVQ und AIF) in einem Kom binationsrechner (KR) miteinander kombiniert werden und zu einem positiven Erkennungsergebnis (EE+) führen, wenn dieser kombinierte Wert (KW) unterhalb einer vorgegebenen Schwelle (S) liegt.
daß die Merkmals folgen (MF) eines aktuell von einem zu er kennenden Sprecher gesprochenen Wortes oder einer Wort folge einem Vektorquantisierungsverfahren (VQ) unterzogen werden und dabei mit in einem Codebuch (CB) befindlichen, zuvor für diesen Sprecher erstellten sprechertypischen Merkmalen (Merkmalsvektoren) verglichen werden, wobei sich Abstands werte (AVQ) bei diesem Vergleich ergeben,
daß außerdem bei der Vektorquantisierung (VQ) des gesproche nen Wortes eine Indexfolge (IF) gebildet wird, die der zeit lichen Reihenfolge der Merkmalsfolge (MF) entspricht,
daß diese Indexfolge (IF) mit in einem Wortmusterspeicher (WMSP) abgelegten Indexfolgen (IFS) des zu erkennenden Spre chers, die nach einem bekannten Vergleichs- und Normierungs verfahren, z. B. Dynamic-Time-Warp (DTW), erstellt wurden, verglichen wird, oder mit den Ergebnissen von stochastischen sprecherspezifischen, nach dem Hidden-Markov-Modell (HMM) erstellten Wortmodellen verglichen wird, die von den glei chen Worten, bzw. Wortfolgen stammen, und gespeichert sind, wobei sich ebenfalls Abstandswerte (AIF) bei diesem Ver gleich ergeben,
und daß die beiden Abstandswerte (AVQ und AIF) in einem Kom binationsrechner (KR) miteinander kombiniert werden und zu einem positiven Erkennungsergebnis (EE+) führen, wenn dieser kombinierte Wert (KW) unterhalb einer vorgegebenen Schwelle (S) liegt.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß bei der Kombination der beiden Abstandswerte (AVQ und
AIF) ein Faktor (F) eingerechnet wird, der die Anteile der
einzelnen Abstandswerte (AVQ und AIF) so berücksichtigt, daß
sich durch den dabei entstehenden kombinierten Wert (KW) die
geringste Fehlerrate bei der Erkennung ergibt.
3. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß bei geringem Sicherheitsbedürfnis nur ein einziges text
unabhängiges Erkennungsverfahren, beispielsweise die Vektor
quantisierung (VQ), eingesetzt wird und bei gesteigertem Si
cherheitsanspruch eine zusätzliche wortabhängige Erkennung
vollzogen wird, wobei die Kombination von Erkennungsergeb
nissen weiterer Erkennungsverfahren (DTW, HMM) benutzt wird.
4. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß der Wortmusterspeicher (WMSP) beim Trainieren zunächst
alle zur Referenz dienenden Wortmuster sowohl in Vektorform
(VS) als auch in Indexform (IF) enthält, wobei die Indexform
(IF) eines Wortmusters jeweils automatisch mit Hilfe des
Codebuchs (CB) erstellt wird,
und daß bereits vorhandene fertige Wortmuster in Vektorform
(VS) im Wortmusterspeicher (WMSP) gelöscht werden, wenn für
neu zu trainierende Worte oder für zusätzliche aufzunehmende
Wortmuster eines neuen Sprechers nicht mehr genügend Spei
cherplatz zur Verfügung steht.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19924240978 DE4240978A1 (de) | 1992-12-05 | 1992-12-05 | Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19924240978 DE4240978A1 (de) | 1992-12-05 | 1992-12-05 | Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation |
Publications (1)
Publication Number | Publication Date |
---|---|
DE4240978A1 true DE4240978A1 (de) | 1994-06-09 |
Family
ID=6474481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19924240978 Withdrawn DE4240978A1 (de) | 1992-12-05 | 1992-12-05 | Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE4240978A1 (de) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995005656A1 (en) * | 1993-08-12 | 1995-02-23 | The University Of Queensland | A speaker verification system |
EP0821346A2 (de) * | 1996-07-25 | 1998-01-28 | Siemens Aktiengesellschaft | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals |
DE19738846C1 (de) * | 1997-09-05 | 1998-10-22 | Philips Patentverwaltung | Verfahren und Anordnung zur Berechnung von Abständen in hochdimensionalen Vektorräumen |
DE19723294A1 (de) * | 1997-06-04 | 1998-12-10 | Daimler Benz Ag | Mustererkennungsverfahren |
DE19842151A1 (de) * | 1998-09-15 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Adaption von linguistischen Sprachmodellen |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0430615A2 (de) * | 1989-11-28 | 1991-06-05 | Kabushiki Kaisha Toshiba | System zur Spracherkennung |
-
1992
- 1992-12-05 DE DE19924240978 patent/DE4240978A1/de not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0430615A2 (de) * | 1989-11-28 | 1991-06-05 | Kabushiki Kaisha Toshiba | System zur Spracherkennung |
Non-Patent Citations (1)
Title |
---|
ZINKE, Joachim: Die Stimme als Ausweis. In: net 45 (1991), Heft 3, S. 85-89 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995005656A1 (en) * | 1993-08-12 | 1995-02-23 | The University Of Queensland | A speaker verification system |
EP0821346A2 (de) * | 1996-07-25 | 1998-01-28 | Siemens Aktiengesellschaft | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals |
DE19630109A1 (de) * | 1996-07-25 | 1998-01-29 | Siemens Ag | Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner |
EP0821346A3 (de) * | 1996-07-25 | 1998-09-09 | Siemens Aktiengesellschaft | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals |
US6298323B1 (en) | 1996-07-25 | 2001-10-02 | Siemens Aktiengesellschaft | Computer voice recognition method verifying speaker identity using speaker and non-speaker data |
DE19723294A1 (de) * | 1997-06-04 | 1998-12-10 | Daimler Benz Ag | Mustererkennungsverfahren |
DE19723294C2 (de) * | 1997-06-04 | 2003-06-18 | Daimler Chrysler Ag | Mustererkennungsverfahren |
DE19738846C1 (de) * | 1997-09-05 | 1998-10-22 | Philips Patentverwaltung | Verfahren und Anordnung zur Berechnung von Abständen in hochdimensionalen Vektorräumen |
EP0901118A2 (de) * | 1997-09-05 | 1999-03-10 | Philips Patentverwaltung GmbH | Verfahren und Anordnung zur Berechnung von Abständen in hochdimensionalen Vektorräumen |
EP0901118A3 (de) * | 1997-09-05 | 1999-10-20 | Philips Patentverwaltung GmbH | Verfahren und Anordnung zur Berechnung von Abständen in hochdimensionalen Vektorräumen |
DE19842151A1 (de) * | 1998-09-15 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Adaption von linguistischen Sprachmodellen |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2953262C2 (de) | ||
EP0821346B1 (de) | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals | |
DE69226796T2 (de) | Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung | |
DE69132996T2 (de) | Gleichzeitige sprecherunabhängige Spracherkennung und -verifizierung über ein Telefonnetz | |
DE69329855T2 (de) | Methode zur erkennung alphanumerischer zeichenketten, die über ein telefonnetz gesprochen werden | |
WO2009140781A1 (de) | Verfahren zur klassifizierung und entfernung unerwünschter anteile aus einer äusserung bei einer spracherkennung | |
DE2844156C2 (de) | ||
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE3238855A1 (de) | Spracherkennungseinrichtung | |
DE69614937T2 (de) | Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche | |
EP0964390A2 (de) | Vorrichtung zur Verifizierung von Signalen | |
DE60034772T2 (de) | Zurückweisungsverfahren in der spracherkennung | |
EP0981129A2 (de) | Verfahren und Anordnung zum Durchführen einer Datenbankabfrage | |
DE3853702T2 (de) | Spracherkennung. | |
WO2005088607A1 (de) | Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen | |
EP1640969B1 (de) | Verfahren zur Sprecheradaption für ein Hidden-Markov-Modell basiertes Spracherkennungssystem | |
DE4240978A1 (de) | Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation | |
WO1993002448A1 (de) | Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache | |
EP1224661B1 (de) | Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners | |
EP0817167B1 (de) | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens | |
DE4325404C2 (de) | Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen | |
DE4110300C2 (de) | Verfahren zur Erweiterung des Wortschatzes für sprecherunabhängige Spracherkennung | |
EP0834859B1 (de) | Verfahren zum Bestimmen eines akustischen Modells für ein Wort | |
DE102008024257A1 (de) | Verfahren zur Sprecheridentifikation bei einer Spracherkennung | |
DE19933323C2 (de) | Spracherkennungssystem und Verfahren zur Spracherkennung vorgegebener Sprachmuster, insbesondere zur Sprachsteuerung von Kraftfahrzeugsystemen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8130 | Withdrawal |