DE4310190A1 - Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn - Google Patents
Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster NachbarnInfo
- Publication number
- DE4310190A1 DE4310190A1 DE4310190A DE4310190A DE4310190A1 DE 4310190 A1 DE4310190 A1 DE 4310190A1 DE 4310190 A DE4310190 A DE 4310190A DE 4310190 A DE4310190 A DE 4310190A DE 4310190 A1 DE4310190 A1 DE 4310190A1
- Authority
- DE
- Germany
- Prior art keywords
- speaker
- distance
- verification
- words
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012795 verification Methods 0.000 title claims abstract description 93
- 238000012360 testing method Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 32
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims 1
- 230000000977 initiatory effect Effects 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000009826 distribution Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000003608 fece Anatomy 0.000 description 2
- 206010013887 Dysarthria Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Die Erfindung betrifft Sprecher-Verifizierungs
systeme allgemein, insbesondere betrifft sie ein
System, bei dem die Beurteilungen der Sprecheriden
tifizierung auf der Grundlage der Abstände zwischen
nächsten Nachbarn beruhen, wie sie zwischen gerade
geäußerten Wörtern und gespeicherten Registrier-
Wörtern errechnet werden.
Ein Sprecher-Verifizierungssystem bestimmt, ob eine
Person, welche eine zuvor innerhalb des Systems
festgelegte Identität beansprucht, die identifi
zierte Person ist oder nicht, indem ein Paßwort
(welches mehrere Sprach-"Wörter" umfassen kann),
das von einer die Identifizierung anstrebenden
Person zur Zeit der Identifizierungs-Anforderung
ausgesprochen wird, verglichen wird mit zuvor abge
speicherter Sprache, welche entsprechende "Wörter"
enthält, die von der identifizierten Person in das
System eingegeben wurden. Ein solches System ist
besonders brauchbar als Einrichtung zum Steuern des
Zugangs/Ausgangs in einem oder aus einem Sicher
heitsbereich, oder um Zugang zu einem gesicherten
Nachrichtensystem zu erhalten.
Bei den meisten existierenden Sprecher-Verifizie
rungssystemen basiert der Vergleich zwischen dem
ausgesprochenen Paßwort und dem Bezugs-Sprachvoka
bular, welches vorab in das System von dem identi
fizierten Sprecher eingegeben wurde, auf einer
Messung des euklidischen Abstands zwischen Elemen
ten der Paßwort-Sprache und der Referenzsprache,
wobei ein Rechner verwendet wird, der diese
Sprachelemente verarbeitet, die zu diesem Zweck in
digitale Form umgesetzt worden sind. Ein solcher
Vergleich kann darüber hinaus eine Messung solcher
Abstände von Elementen der Paßwort-Sprache und als
Bezugsgrundlage eingerichteten Gattungs-Sprachele
menten beinhalten. Wenn der so gemessene Abstand
geringer ist als ein vorbestimmter Wert und im Fall
eines Verifizierungssystems unter Verwendung der
Referenzsprache-Messung kleiner ist als jegliche
derartige Referenzmessung, so wird der Sprecher als
identifizierter Sprecher eingestuft, und falls der
Abstand größer ist als der Schwellenwert (oder eine
oder mehrere der Referenzmessungen) wird der
Sprecher als Betrüger eingestuft. Ein Beispiel für
ein solches Sprecher-Verifizierungssystem findet
sich in der US-PS 4 694 493 (Sakoe) mit dem Titel
"Speaker Verification System" vom 15. September
1987.
Eine Beschränkung, die sämtlichen Sprecher-Verifi
zierungssystemen gemeinsam ist, besteht darin, daß
eine exakte Abgleichung zwischen der Paßwort-
Sprache und der Referenz-Sprache wenn überhaupt,
dann nur sehr selten erzielbar ist. Der Grund hier
für ist der, daß naturgemäß Unterschiede in der
speziellen Stimme des Sprechers auftreten zwischen
dem Zeitpunkt der Eingabe der Referenz-Sprache in
das System einerseits und der Verifizierungs-Anfor
derung andererseits, und außerdem der Umstand, daß
der Prozeß der Umsetzung der Analog-Wellenform der
Stimme des Sprechers in digitalisierte Sprachkompo
nenten geringfügige Schwankungen in diesen
Komponenten zwischen der Referenz-Sprache einer
seits und der Paßwort-Sprache andererseits hervor
rufen kann, auch wenn Schwankungen der Wellenform
der Sprache des Sprechers zwischen der Referenz-
Sprache und der Paßwort-Sprache nicht vorhanden
sein sollten.
Diese Beschränkung manifestiert sich in zwei mög
lichen Fehlern des Sprecher-Verifizierungssystems:
entweder eine fälschliche Zurückweisung des identi
fizierten Sprechers oder ein fälschliches
Akzeptieren eines Betrügers. Die Konsequenz eines
solchen Fehlers besteht in der speziellen Auswahl
eines Schwellenwertes, der als Grundlage für den
Vergleich mit dem gemessenen Abstand zwischen den
Elementen der Paßwort-Sprache und den Elementen
der Referenz-Sprache hergenommen wird. Von einem
niedrigen Schwellenwert kann erwartet werden, daß
er die Wahrscheinlichkeit des Akzeptierens eines
Betrügers minimiert, jedoch auch die Wahrschein
lichkeit erhöht, daß die identifizierte Person
abgewiesen wird. Ein hoher Schwellenwert anderer
seits verringert die Wahrscheinlichkeit des Zurück
weisens der identifizierten Person, erhöht jedoch
die Wahrscheinlichkeit des Akzeptierens eines
Betrügers. Während die Zuverlässigkeit (d. h. die
Vermeidung fehlerhafter Ergebnisse) eines solchen
Sprecher-Verifizierungssystems sich verbessern läßt
durch Erhöhung der Anzahl von analysierten Sprach
komponenten, so leidet diese Vorgehensweise jedoch
an folgenden, miteinander in Beziehung stehenden
Beschränkungen: (1) die Arbeitsleistung des
Rechners ist begrenzt und (2) durch menschliche
Eigenarten bedingte "Akzeptanz" seitens des
Benutzers begrenzt die Verifizierungs-Verarbei
tungszeit auf einen sehr kurzen Zeitraum (mög
licherweise nicht mehr als 15 bis 20 Sekunden).
Auf der Suche nach einem auf Vergleichsmessung
basierenden Sprecher-Verifizierungssystem, welches
ein akzeptierbares Sicherheitsniveau gewährleistet
und gleichzeitig die Wahrscheinlichkeit der Zurück
weisung eines identifizierten Sprechers minimiert,
wurden auch Methoden der willkürlichen Verteilung
angewendet, um Komponenten des Paßworts aus einem
Vokabular von Referenz-"Wörtern" zu bestimmen, die
von dem identifizierten Sprecher in das System
eingegeben wurden. Herkömmliche Sprecher-Verifizie
rungssysteme forderten typischerweise die um Iden
tifizierung nachsuchende Person auf, als Paßwort
eine fixe Wortverbindung zu lesen, um das so ge
sprochene Paßwort mit früheren Äußerungen der
selben Wortverbindung oder desselben Paßworts
seitens des identifizierten Sprechers zu
vergleichen. Durch Verwendung fixer Vorgaben boten
derartige Systeme potentiellen Betrügern die Mög
lichkeit, Antworten (auch auf Band gezeichnete
Antworten) vorab vorzubereiten, um so die Chancen
einer ungerechtfertigten Verifizierung zu erhöhen.
Durch die Benutzung von zum Zeitpunkt der Verifi
zierung zufallsbedingt zusammengesetzter Prüf-Wort
verbindungen, verbunden mit dem Erfordernis, daß
der Wortinhalt der gesprochenen Äußerung mit der
Vorgabe übereinstimme, wird die Wahrscheinlichkeit,
mit der ein Betrüger akzeptiert wird, spürbar ver
ringert. Es gibt nämlich derart viele Sprach
vorgaben, daß ein möglicher Betrüger praktisch
keine Chance hat, mit einer akzeptablen Antwort
vorbereitet zu sein. Ein Beispiel für den Einsatz
derartiger Methoden willkürlicher oder zufalls
bedingter Verteilung in Sprach-Verifizierungs
systemen findet sich in einem Artikel mit dem Titel
"Personal Identity Verification Using Voice", dar
gestellt von Dr. George R. Doddington, abgedruckt
in Proc. ELECTRO-76, 11.-14. Mai 1976, Seiten 22-4,
1-5.
Die Zufallsverteilung von Prüf-Wortverbindungen
führt jedoch zu einem neuen Problem. Es treten
Wörter in Kontexten (Umgebungswörtern) auf, die in
den registrierten Wortverbindungen nicht vorkommen.
Der Kontext, in welchem ein Wort ausgesprochen
wird, beeinflußt dessen Aussprache aufgrund von
Koartikulation, verursacht durch Beschränkungen bei
der Bewegung der Sprach-Artikulatoren. Derartige
Koartikulationen, die bei dem Verifizierungs-
Analysemodell nicht berücksichtigt worden sind,
haben Anteil an der gemessen Unähnlichkeit zwischen
den Prüf- und den registrierten Äußerungen, was die
Wahrscheinlichkeit einer falschen Abweisung des
identifizierten Sprechers erhöht.
Frühere Arbeiten des Erfinders überwinden diese
Schwierigkeit teilweise durch ein als Wahrschein
lichkeits-Wertung (Likelihood Scoring) bezeichnetes
Wertungsverfahren. Vergleiche A. Higgins, L. Bahler
und J. Porter, "Speaker Verification Using
Randomized Phrase Prompting", 1991 (Manuskript in
Vorbereitung). Die vorliegende Erfindung baut auf
diesen früheren Arbeiten auf und schafft eine
fertige Lösung des Koartikulations-Problems. Aller
dings ist anzumerken, daß die vorliegende Erfindung
auch auf Verifizierungs-Systeme anwendbar ist, die
mit fixen (d. h. nicht auf Zufallsverteilung
beruhenden) Wortverteilungs-Vorgaben beruht.
Frühere Sprecher-Verifizierungssysteme verwendeten
üblicherweise Wortschablonen als Grundlage für die
Abgleichung von Sprachäußerungen. Bei diesen Ver
fahren werden Wortschablonen aus den Vorkommen der
Wörter, die während der Registrierung ausgesprochen
werden. Als Beispiel für die Verwendung derartiger
Schablonen sei verwiesen auf die US-PS 4 773 093
(Higgins et al.) mit dem Titel "Test-Independent
Speaker Recognition System And Methods Based On
Acoustic Segment Matching" vom 20. September 1988
(Anmelder ITT Corporation). Bei dem Verifizierungs
vorgang werden die Wortschablonen vorübergehend mit
dem Auftreten derselben Wörter in denselben Wort
verbindungen ausgerichtet und dazu benutzt, einen
Abstand oder eine Unähnlichkeits-Wertung abzu
leiten. Im allgemeinen werden zwei Verfahren zum
Ableiten von Wortschablonen verwendet, die beide
unterschiedliche Probleme bezüglich der Koarti
kulation aufweisen. Bei dem einen Verfahren werden
gemittelte Schablonen dadurch hergeleitet, daß
vorübergehend sämtliche registrierten Vorkommen
jedes Wortes ausgerichtet und die Blockbestandteile
gemittelt werden. Das Problem bei gemittelten Scha
blonen besteht darin, daß die Verschiedenheit von
Koartikulationen in der Nähe von Wortgrenzen durch
die Mittelwertbildung kaum repräsentiert wird. Bei
dem zweiten Verfahren werden Mehrfach-Schablonen
für individuelle Wort-Vorkommen aus den registrier
ten Wortverbindungen extrahiert (mit Mehrfach-Dar
stellungen jedes Worts). Das Problem bei Mehrfach-
Schablonen besteht darin, daß die Koartikulation
sowohl den Anfang als auch das Ende jedes Worts
beeinflußt, und man müßte eine vorsorglich große
Anzahl von Schablonen pro Wort bereitstellen, um
gleichzeitig sämtliche möglichen Kontexte auf
beiden Seiten zu berücksichtigen.
Diese Probleme mit dem Wortschablonen-Abgleich
wurden durch eine jüngere Entwicklung im Bereich
der Sprecher-Verifizierungssysteme zurückgedrängt:
ein Vergleich von Prüf-Wortverbindungen mit
registrierten Wortverbindungen unter Verwendung von
einzelnen Blöcken und nicht von Wörtern als unteil
bare Einheiten. Blöcke (Frames) der registrierten
Daten werden direkt, ohne Mittelwertbildung, für
den Vergleich herangezogen. Dadurch lassen sich die
Probleme bei Mehrfachschablonen deshalb vermeiden,
weil jeder Block effektiv ein "Schnappschuß" ist,
der einen einzelnen zeitlichen Augenblick repräsen
tiert. Die Verwendung derartiger Blöcke von Sprach
daten ist ausführlich beschrieben in dem US-Patent
4 720 863 (Li et al.) mit der Bezeichnung "Method
and Apparatus For Text-Independent Speaker
Recognition" vom 19. Januar 1988 (ITT Corporation).
Es sei weiter verwiesen auf die US-PS 4 837 830
Wrench, Jr. et al. mit dem Titel "Multiple Parameter
Speaker Recognition System And Methods" vom 6. Juni
1989 (ITT Corporation).
Eine weitere Verbesserung bei der Analyse und bei
dem Vergleich von Sprachdaten wurde von L. Bahler
entwickelt und findet ihren Niederschlag in seiner
als "Speaker Sorter" bezeichneten Erfindung (US-SN
07/699 217, eingereicht am 13. Mai 1991). Hier ist
die Verwendung eines Basislinien-Algorithmus für
die Sprechererkennung vorgeschlagen, der von nicht
parametrischer Natur ist und keine Annahme bezüg
lich der statistischen Verteilungen von Sprachmerk
malen vornimmt. Die Referenzdaten zur Kennzeichnung
der Sprachmuster eines gegebenen Sprechers umfassen
einen umfangreichen Satz von Sprachmerkmalsvektoren
und nicht einen Satz von abgeschätzten Verteilungs
parametern. Ein bedeutender Vorteil dieser von
Bahler vorgeschlagenen Vorgehensweise besteht in
der Verwendung von nicht-parametrischen Verfahren,
da die Weiterentwicklung der parametrischen Ver
fahren - in Richtung auf noch kompliziertere Ver
teilungen, die die wirkliche Sprache möglicherweise
noch exakter approximieren - die Schwierigkeit in
sich birgt, eine erhöhte Anzahl von statistischen
Parametern abzuschätzen, die derartige Modelle mit
sich bringen.
Es ist ein Ziel der vorliegenden Erfindung, ein
verbessertes Sprecher-Verifizierungssystem zu
schaffen, welches sich durch eine niedrige Fehler
rate auszeichnet und dennoch die Verifizierungs-
Verarbeitungszeit minimiert und/oder die erforder
liche Rechnerleistung reduziert.
Erfindungsgemäß umfaßt ein Sprecher-Verifizierungs
system: einen Eingabesprachprozessor zum Verar
beiten von in das System eingegebener Sprache,
wodurch die Sprache abgetastet, digitalisiert und
in Blöcke umgesetzt wird, von denen jeder Block aus
mehreren Sprachvektorkomponenten besteht; einen
Registriermechanismus, durch den ein oder mehrere
Sprecher in dem System registriert werden können
und ein von einem Sprecher gesprochener
vorbestimmter Text durch den Eingabesprachprozessor
verarbeitet und in dem System gespeichert wird;
einen auf eine Identifizierungs-Anforderung seitens
eines Sprechers, der ein registrierter Sprecher zu
sein behauptet, ansprechenden Mechanismus zum Er
zeugen einer Vorgabe-Wortverbindung, die ein oder
mehrere "Wörter" enthält, die von dem vorbestimmten
gesprochenen Text abgeleitet sind, der von dem
bestimmten registrierten Sprecher eingegeben ist,
woraufhin die Vorgabe-Wortverbindung durch den
behaupteten Sprecher ausgesprochen wird und die
gesprochene Vorgabe-Wortverbindung in das System
eingegeben wird, um von dem Eingabesprachprozessor
verarbeitet zu werden; einen Mechanismus zum Analy
sieren einer solchen gesprochenen Wortverbindung,
um die Endpunkte der eine solche gesprochene Vor
gabe-Wortverbindung bildenden "Wörter" zu erfassen;
ein Verifikations-Modul, welches (1) die Abstände
di,T nächster Nachbarn und Abstände dj,E nächster
Nachbarn bestimmt, wobei die Abstände di,T nächster
Nachbarn berechnet werden als Euklidische Abstände
zwischen jedem Block der verarbeiteten gesprochenen
Vorgabe-Wortverbindung und Sprach-Blöcken aus
entsprechenden Zonen jedes Auftretens desselben
"Wortes", welches während der Registrierung des
bestimmten registrierten Sprechers in das System
gespeichert wurde, während die Abstände dj,E
nächster Nachbarn berechnet werden als die
Euklidischen Abstände zwischen jedem Block jedes
Auftretens jedes "Wortes", welches Bestandteil der
Vorgabe-Wortverbindung ist, und Sprach-Blöcken aus
entsprechenden Zonen jedes Auftretens desselben
"Wortes" in der verarbeiteten gesprochenen Vorgabe-
Wortverbindung, und (2) einen Abstand dT,E bestimmt
zwischen der verarbeiteten gesprochenen Vorgabe-
Wortverbindung und entsprechenden "Wörtern", die
bei der Registrierung des bestimmten registrierten
Sprechers in dem System in das System eingegeben
worden sind, wobei der Abstand dT,E abgeleitet wird
aus einem Mittelwert sämtlicher Nächster-Nachbar-
Abstände di,T und einem Mittelwert sämtlicher
Nächster-Nachbar-Abstände dj,E, (3), eine
Verifikations-Wertung aus solchen Abstandsdaten
bestimmt, und (4) daraus bestimmt, ob der
behauptete Sprecher der bestimmte, registrierte
Sprecher ist.
Gemäß einem weiteren Aspekt der Erfindung umfaßt
die Bestimmung der Nächster-Nachbar-Abstände di,T
und der Nächster-Nachbar-Abstände dj,E durch das
Verifikations-Modul einen zusätzlichen Schritt des
Wichtens jedes der Abstände durch einen Grundwert,
der berechnet wird, um die Einflüsse der
Verschiedenheit unter wiederholten Auftritten eines
vorbestimmten besprochenen Textes, der von dem
speziellen registrierten Sprecher in das System
eingegeben wurde, in Abzug zu bringen, wobei die
Berechnung der Euklidischen Abstände beschränkt
wird auf einen Bereich, der durch einen Wertungs-
Grenzwert definiert wird.
Gemäß einem noch weiteren Aspekt der vorliegenden
Erfindung umfaßt die Bestimmung einer
Verifikations-Wertung durch das Verifikations-Modul
zusätzlich eine Einrichtung zum Bestimmen eines
Abstands dT,R zwischen der verarbeiteten
gesprochenen Vorgabe-Wortverbindung und den ent
sprechenden "Wörtern", die durch eine Gruppe von
Referenz-Sprechern in das System eingegeben wurden,
wobei die Abstände in ähnlicher Weise berechnet
werden wie der Abstand dT,E, wobei die Bestimmung,
ob der behauptete Sprecher der bestimmte
registrierte Sprecher ist, abgeleitet wird aus
einer Beziehung zwischen dem Abstand dT,R, dem
Abstand dT,E und dem vorbestimmten Schwellenwert.
Im folgenden werden Ausführungsbeispiele der Erfin
dung anhand der Zeichnung näher erläutert. Es
zeigen:
Fig. 1 ein Blockdiagramm einer bevorzugten
Ausführungsform der vorliegenden Erfin
dung; und
Fig. 2 eine Skizze, die die Vorgehensweise bei
der Abstandsmessung gemäß der Erfindung
veranschaulicht.
Fig. 1 zeigt in Form eines Blockdiagramms den
Aufbau, der den Betrieb gemäß der Erfindung ermög
licht. Wenn eine Identitätsanforderung über eine
Tastatur 1 eingegeben wird, bringt ein Zufalls-
Vorgabe-Generator 2 eine Vorgabe-Wortverbindung auf
dem Bildschirm 3 einer Kathodenstrahlröhre (CRT)
zur Anzeige, damit der Benutzer diese Wortverbin
dung in einen Telephon-Handapparat spricht. Das von
dem Handapparat kommende elektrische Signal wird
verstärkt und in digitale Form umgesetzt. Bei
dieser Umwandlung wird das Signal mit einer
Frequenz von 8000 Hz zu Zwölf-Bit-Abtastwerten
abgetastet. Die Sequenz von Abtastungen wird in
Blöcken von 22,4 Millisekunden analysiert. Diese
Analyse übernimmt das in Fig. 1 dargestellte
Steuerteil 5. Bei dieser Ausführungsform erzeugt
die Analyse einen Vektor von 20 Komponenten für
jeden Block. Die ersten zehn Komponenten des
Vektors sind Cepstral-Koeffizienten, wie sie z. B.
beschrieben sind in B. Gold und C.M. Radar, Digital
Processing of Signals, McGraw Hill, New York, 1969,
und die letzten zehn Komponenten sind Log-Bereichs-
Verhältnisse, wie sie z. B. beschrieben sind in V.
Viswanathan und J. Makhoul, Quantization Properties
of Transmission Parameters in Linear Predictive
Systems, IEEE Trans. on Acoustics, Speach and Sig.
Proc., Vol. ASSP-23, Seiten 309-321, Juni 1975.
Sowohl die Cepstral-Koeffizienten als auch die Log-
Bereichs-Verhältnisse werden aus der Standard-LPC-
10-Analyse abgeleitet. Bezüglich einer Beschreibung
einer solchen Linear Predictive Coding-Analyse wird
verwiesen auf T. Tremain, The Government Standard
Linear Predictive Coding Algorithm: LPC-10, Speech
Technology, Seiten 40-49, April 1982 und J.D.
Markel und A.H. Gray Jr., Linear Prediction of
Speech, Springer Verlag, New York, 1976. Die Ein
zelheiten des Steuerteils 5 sind bezüglich der
Erfindung nicht speziell oder kritisch. Andere
Analyse-Arten könnten ebenfalls verwendet werden.
Der Strom von Blöcken aus dem Steuerteil 5 wird zu
den Komponenten "Worterkenner" 6 und "Sprecher-
Verifizierer" des Systems gesendet. Der Worter
kenner 6 markiert die Endpunkte jedes "Wortes" in
diesem Datenstrom, und in der bevorzugten
Ausführungsform bestimmt er, ob die gesprochene
Verifizierungs-Wortverbindung mit der Vorgabe-Wort
verbindung übereinstimmt. Bei der Durchführung
einer solchen Wortverbindungs-Erkennungsfunktion
verwendet der Worterkenner 6 einen Standard-Erken
nungs-Algorithmus zum Erkennen verbundener Wörter,
wobei die diesbezüglichen Einzelheiten nicht für
die Erfindung relevant sind. Der Benutzer wird
abgewiesen, wenn der Worterkenner 6 feststellt, daß
die Vorgabe-Wortverbindung nicht ausgesprochen
wurde. Wenn von der Wortverbindung festgestellt
wird, daß sie so, wie sie vorgegeben wurde, ausge
sprochen worden ist, gibt der Worterkenner 6 eine
Liste aus, die die Anfangs- und End-Blocknummern
jedes Wortes in der gesprochenen Wortverbindung
enthält. Der Sprecher-Verifizierer 7 beginnt dann
mit der Aufnahme seines Betriebs, wie es unten
unter "Verifizierungsfunktion" beschrieben ist.
Der Registriervorgang ist der gleiche, wie er oben
erläutert wurde, mit der Ausnahme, daß solche
Wortverbindungen (Sätze), die als fehlerhaft ausge
sprochen eingestuft wurden, erneut vorgegeben
werden und eine Registrierungs-Komponente die
Sprecher-Verifizierkomponente ersetzt.
Eine wichtige Verbesserung gegenüber dem Stand der
Technik besteht in den Verifizierfunktionen des
Systems. Um diese Sprecher-Verifizierfunktion zu
verstehen, soll als erstes die folgende Messung des
Euklidischen Abstands zwischen einer Prüf-Aufnahme
T und einer Registrier-Aufnahme E betrachtet
werden, wie sie von Bahler (siehe oben) beschrieben
wird. Es sei tj der j-te Block von T, und ei sei
der i-te Block von E. Der Abstand des nächsten
Nachbarn oder der Nächste-Nachbar-Abstand dj,E von
tj zu E beträgt
und der Abstand nächster Nachbarn di,T von ei zu T
beträgt
Die Zwischen-Block-Abstände (|tj-ei|2) werden für
sämtliche Paare von Blöcken tj und ei berechnet,
wobei j über sämtliche Prüf-Blöcke und i über
sämtliche Registrier-Blöcke reicht. Das Maß des
Abstands von T zu E (d. h. der Abstand dT,E) beträgt
dann,
Der hier vorgestellte Sprecher-Verifizierer stellt
gegenüber diesem bekannten Abstandsmaß eine Verbes
serung in zweierlei Hinsicht dar. Anstatt daß
jeder Block jeder Prüf-Aufnahme mit jedem Block der
Registrier-Aufnahme verglichen wird, vergleicht
die Erfindung lediglich Prüf- und Registrier-Blöcke
aus denselben Zonen desselben Worts. Beispielsweise
wird ein Prüf-Block bei einem Viertel des Wegs
durch das Wort "twen" (das Vokabular wird unten
beschrieben) lediglich verglichen mit den
Registrier-Blöcken, die sich ebenfalls etwa bei
einem Viertel des Wegs durch das Wort "twen"
befinden. Dies ist in Fig. 2 veranschaulicht. Die
Positionen von Blöcken innerhalb von Wörtern in den
Prüf- und Registrier-Aufnahmen werden aus den Wort-
Endpunkten bestimmt und durch den Worterkenner 6
geliefert. Jeder zu einem Wort gehörige Block wird
einem Wortindex und einem Blockindex zugeordnet.
Für einen Block i identifiziert der Wortindex W(j)
das Wort, und der Block F(i) ist ein Wert im
Bereich von 0F(i)<8. Dem n-ten Block eines k-
Blöcke enthaltenden Worts wird der Index
F(n)=md[n*(8-1)/(N-1)0] zugeordnet, wobei md(*) die
Rundung auf den nächsten ganzzahligen Wert bedeu
tet. Prüf-Blöcke mit dem Index f werden mit
sämtlichen Registrier-Blöcken desselben Worts mit
Indices 0 und 1 verglichen, falls f=0, oder mit f-1,
f und f+1, falls 1f<7; oder mit 6 und 7, falls
f<7. Der Suchbereich für übereinstimmende
Registrier-Blöcke wird in ähnlicher Weise
beschränkt. Dann wären die Gleichungen 1a und 1b
zu:
Ein solches Beschränken des Suchbereichs auf die
Abstände nächster Nachbarn hat den doppelten
Vorteil, daß zum einen die Verifiziergenauigkeit
des Systems verbessert und zum anderen die zu
bewältigende Rechenleistung herabgesetzt wird,
verglichen mit der Suche, die sich über sämtliche
Blöcke erstreckt. Man sieht außerdem, daß bei einem
gegebenen Sicherheitsgrad die Verarbeitungszeit für
einen Verifiziervorgang minimiert wird.
Die zweite Verbesserung gegenüber dem Stand der
Technik betrifft die Berechnung der Abstände
nächster Nachbarn. Jedem Registrier-Block ei wird
ein Grundwert bi und ein Wertungs-Grenzwert li
während der Registrierprozedur zugeordnet (wobei
die Prozedur gemäß der unten beschriebenen
Vorgehensweise abläuft). Der Grundwert wird so
gewählt, daß die Einflüsse der Ungleichheiten
z. B. Sprachschwankungen unter den Registrier-
Wortverbindungen eines gegebenen Sprechers, in
Abzug gelangen, und der Wertungs-Grenzwert wird so
bestimmt, daß der Einschluß der Registrier-Sprach
komponenten, die außerhalb des Bereichs liegen, in
welchem die meisten derartigen Werte gefunden
werden, reduziert wird. Durch Anwendung dieser
Faktoren werden der Abstand nächster Nachbarn, dj,T
und der Abstand di,T nächster Nachbarn erneut
folgendermaßen modifiziert:
wobei hlim (*) die folgende harte Begrenzung
darstellt:
Nachdem gemäß Fig. 1 die oben beschriebenen
Berechnungen der Zwischenblock-Abstände der
nächsten Nachbarn durch den Sprecher-Verifizierer 3
vorgenommen wurden, wird anschließend der Abstand
dT,E zwischen der Prüf-Wortverbindung T zu der
Registrier-Aufnahme E gemäß Gleichung 2 festge
stellt. Im abschließenden Schritt des Betriebs des
Sprecher-Verifizierers kann eine Verifizierung auf
der Grundlage der Beziehung des Abstands dT,E zu
einem vorbestimmten Schwellenwert erfolgen, bei der
bevorzugten Ausführungsform jedoch ist ein zusätz
licher Schritt der Berechnung des Abstands von der
Prüf-Aufnahme zu den Registrier-Aufnahmen des
anfordernden Benutzers und von der Prüf-Aufnahme zu
den Registrier-Aufnahmen einer Gruppe von M weite
ren Sprechern, die als Referenzsprecher bezeichnet
sind, vorgesehen.
In einer Ausführungsform werden 20 Referenzsprecher
benutzt. Die Gruppe von Referenzsprechern für eine
gegebene Verifizierungs-Prüfung hängt von der
beanspruchten Identität ab. Referenzsprecher werden
aus der Population solcher Sprecher auf der Grund
lage der Ähnlichkeit der Stimmen der Referenz
sprecher mit der Stimme des anfordernden Benutzers
ausgewählt. Ein geeigneter Algorithmus für die
Auswahl von Referenzsprechern ist beschrieben in A.
Higgins, L. Bahler und J. Porter in "Speaker
Verification Using Randomized Phrase Prompting",
1991; Digital Signal Processing, Vol. 1, No. 2,
April 1991, veröffentlicht von Academic Press,
Inc., Seite 89.
Die endgültige Verifizierungs-Wertung lautete dann:
wobei C der anfordernde oder behauptete Sprecher
ist, S(C) die Anzahl von Registrier-Aufnahmen von
C, ci die i-te Registrier-Aufnahme des behaupteten
Sprechers, S(j) die Anzahl von Registrier-Aufnahmen
des Referenzsprechers j und rj k die k-te
Registrier-Aufnahme des Referenzsprechers j ist.
Die endgültige Verifizier-Wertung wird verglichen
mit einem fixen Schwellenwert, der für das ge
wünschte Verhältnis von Fehlerraten der ungerecht
fertigten Akzeptierung und der fehlerhaften Zu
rückweisung eingestellt werden kann. Der Benutzer
wird abgewiesen, wenn die Verifizier-Wertung den
Schwellenwert übersteigt, ansonsten wird er akzep
tiert.
Wie oben beschrieben, werden ein Grundwert und ein
Wertungs-Grenzwert während des Registrierprozesses
für jeden Block jeder Registrieraufnahme bestimmt.
Der Grundwert bj für den Block j einer Registrier-
Aufnahme beträgt
und der Wertungs-Grenzwert lj beträgt
wobei die Variablen Wi, Wj, Fi und Fj vorab für die
Gleichungen 3(a) und 3(b) definiert sind.
In der bevorzugten Ausführungsform der Erfindung
besteht das Registrier-Sprachmaterial aus "Kombina
tions-Verbund-"Wortverbindungen. Ein Beispiel ist
"35-72-41", ausgesprochen "thirty-five, seventy-
two, fourty-one". Jede Wortverbindung besteht aus
Zahlen zwischen 21 und 97. Das Registrier-Vokabular
umfaßt 56 derartige Zahlen, beginnend mit den 90
zweiziffrigen Zahlen ohne (1) "12" und die Zehner;
(2) Dekaden (20, 30 usw.); (3) Doppelziffern; und
(4) Zahlen, die mit "8" enden. Mithin gibt es 563
oder 175.616 mögliche Drei-Wort-Vorgabe-Wortverbin
dungen, wobei derartige Drei-Wort-Vorgabe-Wortver
bindungen die bevorzugte Ausführungsform der Erfin
dung darstellen. Der Worterkenner 6 gleicht die
Wortverbindungen unter Verwendung von Teilwort-
Schablonen ab ("Thir-ti-five-Seven-ti-two-Four-ti-
one"). Hierdurch läßt sich das gesamte Vokabular
unter Verwendung von lediglich zehn Schablonen
darstellen. Bei der bevorzugten Ausführungsform
erfordert eine Verifizier-Aufnahme das Sprechen von
vier vorgegebenen Wortverbindungen. Eine
Registrier-Aufnahme besteht aus 24 Wortverbindun
gen, die typischerweise etwa drei Minuten zur Aus
sprache benötigen.
Die "Wörter" in den vorgezeigten Verifizier-Wort
verbindungen werden aus dem Registrier-Vokabular
herausgezogen und bei der bevorzugten Ausführungs
form dadurch kombiniert, daß eine zufällige Wort
reihenfolge gemäß einer Endzustand-Syntax ausge
wählt wird, die zahlreiche mögliche Wortfolgen
erlaubt. Registrier-Wortverbindungen setzen sich
aus denselben "Wörtern" zusammen und werden gemäß
der gleichen Syntax erzeugt, jedoch nicht auf Zu
fallsbasis. Der Satz von Registrier-Wortverbindun
gen wird so ausgewählt, daß eine ausgewogene Darst
ellung sämtlicher "Wörter" des Vokabulars angefor
dert wird. Die Registrier- und die Verifizier-Wort
verbindungen werden zusammenhängend ausgesprochen,
ohne Pausen zwischen den Wörtern.
Claims (29)
1. Sprecher-Verifizierungssystem, umfassend:
- - Eine Verarbeitungseinrichtung zum Verar beiten von gesprochenem Text zu Sprach blöcken;
- - eine Registriereinrichtung zum Registrie ren eines Sprechers in dem System;
- - eine Abrufeinrichtung zum Abrufen einer gesprochenen Prüf-Wortverbindung von einem Sprecher, der ein bestimmter registrierter Sprecher zu sein behauptet;
- - eine Abstandsbestimmungseinrichtung zum Bestimmen eines oder mehrerer Verifizie rungsabstände zwischen der gesprochenen Prüf-Wortverbindung und den entsprechen den "Wörtern", die bei der Registrierung des bestimmten registrierten Sprechers in dem System in das System eingegeben wurden und
- - eine Einrichtung zum Bestimmen einer Verifizierungs-Wertung aus derartigen Verifizierungs-Abstandsdaten, und zum Bestimmen daraus, ob der behauptete Sprecher der bestimmte registrierte Sprecher ist,
- gekennzeichnet durch
- - eine in der Abstandsbestimmungseinrich tung vorhandene Einrichtung, die Euklidische Abstände nächster Nachbarn zwischen Sprachblöcken bestimmt, die zu den gesprochenen Prüf-Wortverbindungen gehören, und entsprechenden Sprach blöcken, die zu den "Wörtern" gehören, die während der Registrierung des bestim mten registrierten Sprechers in dem System in das System eingegeben wurden.
2. System nach Anspruch 1, bei dem die Abstands
bestimmungseinrichtung zusätzlich eine Ein
richtung enthält, um eine Gewichtung der so
bestimmten Abstände vorzunehmen mit Hilfe
eines Grundwerts, der so berechnet ist, daß
die Auswirkungen der Ungleichmäßigkeit unter
wiederholten Auftritten der in das System bei
der Registrierung des bestimmten registrierten
Sprechers eingegebenen "Wörter" in Abzug
gelangen, wobei die Bestimmung der
Euklidischen Abstände nächster Nachbarn be
schränkt ist auf einen Bereich, der durch
einen Wertungs-Grenzwert definiert ist.
3. System nach Anspruch 1 oder 2, bei dem die
Einrichtung zum Bestimmen einer
Verifizierungs-Wertung einen Vergleich
zwischen dem Verifizierungsabstand und einem
vorbestimmten Schwellenwert umfaßt, wobei die
Bestimmung, ob der behauptete Sprecher der
bestimmte registrierte Sprecher ist, aus dem
Vergleich hergeleitet wird.
4. System nach Anspruch 3, bei dem die Einrich
tung zum Bestimmen einer Verifizierungs-Wer
tung zusätzlich eine Einrichtung aufweist, um
einen Referenzabstand zwischen der gesproche
nen Prüf-Wortverbindung und entsprechenden
"Wörtern", die in das System durch eine Gruppe
von Referenzsprechern angegeben worden sind,
zu bestimmen, der in ähnlicher Weise wie der
Verifizierungsabstand berechnet wird, wobei
die Bestimmung, ob der behauptete Sprecher der
bestimmte registrierte Sprecher ist, abgelei
tet wird aus einer Beziehung zwischen dem
Verifizierungsabstand, dem Referenz-Abstand
und dem vorbestimmten Schwellenwert.
5. System nach Anspruch 2, bei dem die Einrich
tung zum Bestimmen einer Verifizierungsein
richtung einen Vergleich zwischen dem Verifi
zierungs-Abstand und einem Schwellenwert auf
weist, wobei die Bestimmung, ob der behauptete
Sprecher der bestimmte registrierte Sprecher
ist, aus dem Vergleich hergeleitet ist.
6. System nach Anspruch 2, bei dem die Einrich
tung zum Bestimmen einer Verifizierungs-Wer
tung zusätzlich eine Einrichtung aufweist, um
einen Referenzabstand zwischen der gesproche
nen Prüf-Wortverbindung und entsprechenden
"Wörtern", die in das System durch eine Gruppe
von Referenzsprechern angegeben worden sind,
zu bestimmen, der in ähnlicher Weise wie der
Verifizierungs-Abstand berechnet wird, wobei
die Bestimmung, ob der behauptete Sprecher der
bestimmte registrierte Sprecher ist, abgelei
tet wird aus einer Beziehung zwischen dem
Verifizierungs-Abstand, dem Referenzabstand
und dem vorbestimmten Schwellenwert.
7. Sprecher-Verifizierungs-System, umfassend:
- - Eine Verarbeitungseinrichtung zum Verar beiten von in das System eingegebenem, gesprochenem Text, wobei der gesprochene Text abgetastet, digitalisiert und in Sprachblöcke umgesetzt wird, von denen jeder aus Mehrfach-Sprachvektorkomponen ten besteht;
- - eine Registriereinrichtung zum Registrie ren eines Sprechers in dem System, indem vorbestimmter, gesprochener Text von dem Sprecher in das System eingegeben und durch die Verarbeitungseinrichtung verar beitet wird, um anschließend von dem System gespeichert zu werden;
- - eine Einrichtung, die auf eine Identifi zierungsanforderung seitens eines Sprechers, der ein bestimmter, registrierter Sprecher zu sein behauptet, anspricht, um eine Vorgabe-Wortverbindung zu generieren, welche eines oder mehrere "Wörter" umfaßt, die aus dem vorbestimm ten gesprochenen Text, der von dem be stimmten, registrierten Sprecher eingege ben wurde, abgeleitet ist, woraufhin die Vorgabe-Wortverbindung von dem behaupte ten Sprecher ausgesprochen wird und die ausgesprochene Vorgabe-Wortverbindung in das System eingegeben und durch die Ver arbeitungseinrichtung verarbeitet wird;
- - eine Einrichtung zum Analysieren der verarbeiteten, gesprochenen Vorgabe-Wort verbindung, um die Endpunkte der die gesprochene Vorgabe-Wortverbindung bil denden Wörter zu erfassen;
- - eine Einrichtung zum Bestimmen der Ab stände di,T nächster Nachbarn, wobei die Abstände di,T nächster Nachbarn berechnet werden als die Euklidischen Abstände zwischen jedem Block der verarbeiteten gesprochenen Vorgabe-Wortverbindung und Sprachblöcken aus entsprechenden Zonen jedes Auftretens desselben "Wortes", welches während der Registrierung des bestimmten registrierten Sprechers in dem System gespeichert wurden;
- - eine Einrichtung zum Bestimmen der Ab stände dj,E nächster Nachbarn, wobei diese Abstände dj,T berechnet werden als die Euklidischen Abstände zwischen jedem Block jedes Auftretens jedes "Wortes", der Vorgabe-Wortverbindung und den Sprachblöcken aus entsprechenden Zonen jedes Auftretens desselben "Wortes" in der verarbeiteten gesprochenen Vorgabe- Wortverbindung;
- - eine Einrichtung zum Bestimmen eines Abstands dT,E zwischen der verarbeiteten, gesprochenen Vorgabe-Wortverbindung und entsprechenden "Wörtern", die während der Registrierung des bestimmten registrier ten Sprechers in dem System in das System eingegeben wurden, wobei der Abstand dT,E abgeleitet wird aus einem Mittelwert sämtlicher Abstände di,T nächster Nach barn und einem Mittelwert sämtlicher Abstände dj,T nächster Nachbarn; und
- - eine Einrichtung zum Bestimmen einer Verifizierungs-Wertung aus derartigen Abstandsdaten, und zum Bestimmen daraus, ob der behauptete Sprecher der bestimmte, registrierte Sprecher ist.
8. System nach Anspruch 7, bei dem die Bestimmung
der Abstände di,T nächster Nachbarn und der
Abstände dj,E nächster Nachbarn einen zusätz
lichen Schritt enthält, bei dem jeder der
Abstände gewichtet wird durch einen Grundwert,
der berechnet wurde, um die Einflüsse der
Ungleichheit zwischen wiederholten Auftritten
des vorbestimmten gesprochenen Texts, der von
dem bestimmten registrierten Sprecher eingege
ben wurde, in Abzug zu bringen, wobei die
Berechnung der Euklidischen Abstände begrenzt
wird auf einen Bereich, welcher durch einen
Wertungs-Grenzwert definiert wird.
9. System nach Anspruch 7, bei dem die Einrich
tung zum Bestimmen einer Verifizierungs-Wer
tung einen Vergleich beinhaltet zwischen dem
Abstand dT,E und einem vorbestimmten Schwel
lenwert, wobei die Bestimmung, ob der behaup
tete Sprecher der bestimmte, registrierte
Sprecher ist, aus dem Vergleich abgeleitet
wird.
10. System nach Anspruch 9, bei dem die Einrich
tung zum Bestimmen einer Verifizierungs-Wer
tung zusätzlich aufweist: Eine Einrichtung zum
Bestimmen eines Abstands dT,R zwischen der
verarbeiteten gesprochenen Vorgabe-Wortverbin
dung und entsprechenden "Wörtern", die von
einer Gruppe von Referenzsprechern in das
System eingegeben wurden, wobei der Abstand in
ähnlicher Weise berechnet wird wie der Abstand
dT,E und wobei die Bestimmung, ob der behaup
tete Sprecher der bestimmte, registrierte
Sprecher ist, abgeleitet wird aus einer Bezie
hung zwischen dem Abstand dT,R, dem Abstand
dT,E und dem vorbestimmten Schwellenwert.
11. System nach Anspruch 8, bei dem die Einrich
tung zum Bestimmen einer Verifizierungs-Wer
tung aufweist: einen Vergleich zwischen dem
Abstand dT,E und einem vorbestimmten Schwel
lenwert, wobei die Bestimmung, ob der behaup
tete Sprecher der spezielle registrierte
Sprecher ist, aus dem Vergleich abgeleitet
wird.
12. System nach Anspruch 11, bei dem die Einrich
tung zum Bestimmen einer Verifizierungs-Wer
tung zusätzlich aufweist: Eine Einrichtung zum
Bestimmen eines Abstands dT,R zwischen der
verarbeiteten gesprochenen Vorgabe-Wortverbin
dung und entsprechenden "Wörtern", die von
einer Gruppe von Referenzsprechern in das
System eingegeben wurden, wobei der Abstand in
ähnlicher Weise berechnet wird wie der Abstand
dT,E, und wobei die Bestimmung, ob der behaup
tete Sprecher der bestimmte registrierte
Sprecher ist, abgeleitet wird aus einer Bezie
hung zwischen dem Abstand dT,R, dem Abstand
dT,E und dem vorbestimmten Schwellenwert.
13. System nach Anspruch 7, bei dem die Einrich
tung zum Analysieren zusätzlich bestimmt, ob
die "Wörter", die die gesprochene Vorgabe-
Wortverbindung bilden, den Wörtern in der
Vorgabe-Wortverbindung entsprechen, um den
behaupteten Sprecher für den Fall abzuweisen,
daß eine solche Entsprechung nicht existiert.
14. Sprecher-Verifizierungssystem, umfassend:
- - Eine Einrichtung zum Eingeben eines gesprochenen Textes in das System;
- - eine Einrichtung zum Abtasten und zum Digitalisieren des gesprochenen Texts;
- - eine Einrichtung zum Umsetzen der digita lisierten Abtastwerte in Sprachblöcke, von denen jeder Block aus Mehrfach- Sprachvektorkomponenten besteht;
- - eine Einrichtung zum Registrieren eines Sprechers oder mehrerer Sprecher in dem System im Zuge einer Registrieraufnahme, bei der ein vorbestimmter, gesprochener Text von jedem Sprecher in das System eingegeben wird und der Text von der Abtasteinrichtung und der Umwandlungs- Einrichtung verarbeitet wird, um an schließend von dem System gespeichert zu werden;
- - eine Einrichtung zum Identifizieren eines speziellen Sprechers unter den im System registrierten Sprechern als denjenigen Sprecher, für den die Verifizierung gewünscht ist;
- - eine Einrichtung zum Identifizieren eines oder mehrerer "Wörter", die aus dem von dem speziellen Sprecher während der Registrieraufnahme eingegebenen Text abgeleitet sind und eine Einrichtung zum Darstellen der "Wörter" als von einem Sprecher während der Verifizier-Aufnahme auszusprechenden Vorgabe, wobei die vorgegebenen gesprochenen "Wörter" an schließend in das System über die Einga be-Einrichtung eingegeben und von der Abtast- und Umsetzeinrichtung verarbeitet werden;
- - eine Einrichtung zum Analysieren der vorgegebenen, gesprochenen "Wörter", um deren Endpunkte zu erfassen;
- - eine Einrichtung zum Speichern der vorge gebenen "Wörter";
- - eine Einrichtung zum Vergleichen jedes Sprachblocks aus der Verifizier-Aufnahme mit Sprachblöcken aus entsprechenden Zonen jedes Auftretens desselben "Worts", das während der besonderen Registrier- Aufnahme des Sprechers gespeichert wurde, und zum Berechnen der Abstände di,T nächster Nachbarn zwischen all solchen Paaren von Verifizier- und Registrier- Blöcken;
- - eine Einrichtung zum Vergleichen jedes Sprachblocks aus jedem Auftritt von "Wörtern", die die Vorgabe bilden und während der Registrier-Aufnahme für den speziellen Sprecher gespeichert wurden, mit Sprachblöcken aus entsprechenden Zonen der vorgegebenen gesprochenen "Wörter", und zum Berechen der Abstände dj,E nächster Nachbarn zwischen all solchen Paaren von Registrier- und Veri fizier-Blöcken;
- - eine Einrichtung zum Berechnen eines Abstands dT,E aus einem Mittelwert sämt licher Nächster-Nachbar-Abstände di,T und einem Mittelwert sämtlicher Nächster- Nachbar-Abstände dj,E;
- - eine Einrichtung zum Vergleichen des Abstands dT,E mit einem vorbestimmten Wert und zur Veranlassung einer Signal ausgabe auf der Grundlage der Differenz zwischen dem Abstand dT,E und dem vorbe stimmten Wert.
15. System nach Anspruch 14, bei dem die Bestim
mung der Abstände di,T nächster Nachbarn und
der Abstände dj,T nächster Nachbarn einen
zusätzlichen Schritt umfaßt, bei dem jeder der
Abstände durch einen Grundwert gewichtet wird,
und wobei die Berechnung der Abstände be
schränkt wird auf einen Bereich, der durch
einen Wertungs-Grenzwert definiert wird.
16. System nach Anspruch 14, bei dem die Einrich
tung zum Vergleichen des Abstands dT,E mit
einem vorbestimmten Wert zusätzlich eine
Einrichtung enthält, um einen Abstand dT,R
zwischen den vorgegebenen, gesprochenen "Wör
tern" und entsprechenden "Wörtern", die von
einer Gruppe von Referenzsprechern eingegeben
wurden, zu bestimmen, der in gleicher Weise
berechnet wird wie der Abstand dT,E, wobei das
Ausgangssignal erzeugt wird auf der Grundlage
einer Beziehung zwischen dem Abstand dT,R, dem
Abstand dT,E und dem vorbestimmten Schwellen
wert.
17. System nach Anspruch 14, bei dem die Einrich
tung zum Analysieren der vorgegebenen ge
sprochenen "Wörter" zum Erfassen der Endpunkte
der "Wörter" zusätzlich bestimmt, ob die die
gesprochenen Vorgabe-Wortverbindungen bilden
den "Wörter" den "Wörtern" in der vorgegebenen
Verbindung entsprechen, um den behaupteten
Sprecher für den Fall abzuweisen, daß eine
derartige Entsprechung nicht existiert.
18. Verfahren zum automatischen Verifizieren eines
Sprechers als einen solchen, der eine behaup
tete Identität besitzt, umfassend die
Schritte:
Verarbeiten von gesprochenen Eingabe-Sprach signalen zu einer Folge von Blöcken digitaler Daten, die die Eingabesprache repräsentieren,
Identifizieren der Endpunkte der die Eingabe sprache bildenden "Wörter",
Analysieren der Sprachblöcke durch ein Sprecher-Verifizier-Modul, welches die ankom mende Sprache vergleicht mit einem Referenz satz von Sprachmerkmalen, um daraus entspre chende Übereinstimmungswertungen zu generie ren, und
Bestimmen anhand der Übereinstimmungs-Wertun gen, ob die Eingabesprache dem identifizierten Sprecher entspricht, gekennzeichnet durch folgende Merkmale:
Der Vergleich der Eingangssprache mit den Referenz-Sprachmerkmalen durch das Sprecher- Erkennungsmodul umfaßt das Erzeugen einer Übereinstimmungs-Wertung, bei der es sich um eine Summe einer ersten Wertung gleich dem Mittelwert der kleinsten Euklidischen quadrierten Abstände zwischen einem Eingangs- Sprachblock für eine gegebene Zone eines speziellen "Wortes" und Sprachblöcken aus dem Referenzsatz von Sprachmerkmalen entsprechend derselben Zone desselben "Wortes" für sämt liche Blöcke aller "Wörter" der Eingangs sprache einer zweiten Wertung handelt, die gleich ist dem Mittelwert der kleinsten Eukli dischen quadrierten Abstände zwischen einem Sprachblock für eine gegebene Zone eines spe ziellen "Wortes" aus dem Referenzsatz an Sprachmerkmalen, und einem Eingabe-Sprachblock entsprechend derselben Zone desselben "Wortes" für sämtliche Blöcke sämtlicher "Wörter", die den Referenzsatz von Sprachmerkmalen bilden.
Verarbeiten von gesprochenen Eingabe-Sprach signalen zu einer Folge von Blöcken digitaler Daten, die die Eingabesprache repräsentieren,
Identifizieren der Endpunkte der die Eingabe sprache bildenden "Wörter",
Analysieren der Sprachblöcke durch ein Sprecher-Verifizier-Modul, welches die ankom mende Sprache vergleicht mit einem Referenz satz von Sprachmerkmalen, um daraus entspre chende Übereinstimmungswertungen zu generie ren, und
Bestimmen anhand der Übereinstimmungs-Wertun gen, ob die Eingabesprache dem identifizierten Sprecher entspricht, gekennzeichnet durch folgende Merkmale:
Der Vergleich der Eingangssprache mit den Referenz-Sprachmerkmalen durch das Sprecher- Erkennungsmodul umfaßt das Erzeugen einer Übereinstimmungs-Wertung, bei der es sich um eine Summe einer ersten Wertung gleich dem Mittelwert der kleinsten Euklidischen quadrierten Abstände zwischen einem Eingangs- Sprachblock für eine gegebene Zone eines speziellen "Wortes" und Sprachblöcken aus dem Referenzsatz von Sprachmerkmalen entsprechend derselben Zone desselben "Wortes" für sämt liche Blöcke aller "Wörter" der Eingangs sprache einer zweiten Wertung handelt, die gleich ist dem Mittelwert der kleinsten Eukli dischen quadrierten Abstände zwischen einem Sprachblock für eine gegebene Zone eines spe ziellen "Wortes" aus dem Referenzsatz an Sprachmerkmalen, und einem Eingabe-Sprachblock entsprechend derselben Zone desselben "Wortes" für sämtliche Blöcke sämtlicher "Wörter", die den Referenzsatz von Sprachmerkmalen bilden.
19. Verfahren nach Anspruch 18, bei dem der Ver
gleich der Eingangssprache mit den Referenz
sprachmerkmalen durch das Sprecher-Erkennungs
modul einen zusätzlichen Schritt aufweist, bei
dem jeder der Euklidischen Abstände gewichtet
wird durch einen Grundwert, der so berechnet
wird, daß die Auswirkungen von Ungleichmäßig
keiten unter wiederholten Auftritten des vor
bestimmten gesprochenen Textes, der von dem
bestimmten registrierten Sprecher in das
System eingegeben wird, in Abzug gebracht
werden, wobei die Euklidischen Abstände in
einem Bereich berechnet werden, welcher durch
einen Wertungs-Grenzwert beschränkt ist.
20. Verfahren nach Anspruch 18, bei dem der Ver
gleich der Eingangssprache mit den Referenz-
Sprachmerkmalen durch das Sprecher-Erkennungs
modul einen weiteren Schritt beinhaltet, bei
dem eine Übereinstimmungs-Wertung geschaffen
wird durch Bildung eines Nächster-Nachbar-
Abstands zwischen Eingabe-Sprachblöcken und
Registrier-Sprachblöcken für einen Satz von
Referenzsprechern.
21. Verfahren nach Anspruch 18, umfassend eine
Schwellenwertverifizierung, bei der der Teil
schritt des Identifizierens der Endpunkte der
Eingabesprach-"Wörter" zusätzlich erkennt, ob
die "Wörter" der Verifizier-Wortverbindung
gemäß Vorgabe gesprochen wurden, und die
Verifizier-Anforderung bei Nicht-Bestehen
einer solchen Schwellenwert-Verifizierung
zurückweist.
22. Verfahren nach Anspruch 19, bei dem der Ver
gleich der ankommenden Sprache mit den Re
ferenzsprachmerkmalen durch das Sprecherer
kennungsmodul einen weiteren Schritt beinhal
tet, bei dem eine Übereinstimmungswertung
erzeugt wird, wobei ein Nächster-Nachbar-Ab
stand zwischen Eingabesprachblöcken und
Registriersprachblöcken für einen Satz von
Referenzsprechern geschaffen wird.
23. Verfahren nach Anspruch 19, umfassend eine
Schwellenwertverifizierung, bei der der Teil
schritt des Identifizierens der Endpunkte der
Eingabesprach-"Wörter" zusätzlich erkennt, ob
die "Wörter" der Verifizier-Wortverbindung
gemäß Vorgabe gesprochen wurde, und die Veri
fizier-Anforderung bei Nicht-Bestehen einer
solchen Schwellenwertverifizierprüfung zurück
weist.
24. Verfahren zum automatischen Verifizieren eines
Sprechers als solchen, der zu einer be
haupteten Identität paßt, umfassend die
Schritte:
Etablieren der behaupteten Identität,
Erzeugen einer Verifizier-Wortverbindung, welche ein oder mehrere "Wörter" aufweist, die von dem Sprecher gesprochen werden,
Digitalisieren der gesprochenen Eingangs sprachsignale zu einer Folge von Blöcken digi taler Daten, welche die Eingangssprache reprä sentieren,
Identifizieren der Endpunkte der Eingabe sprach- "Wörter",
Analysieren der Sprachblöcke durch ein Sprecherverifiziermodul, welches die Eingangs sprache vergleicht mit einem Referenzsatz von Sprachmerkmalen des identifizierten Sprechers, welche bei früheren Registrieraufnahmen erhalten wurden, und welches daraus ent sprechende Übereinstimmungswertungen gene riert, und
auf der Grundlage der Übereinstimmungs wertungen, bestimmen, ob die Eingangssprache mit dem identifizierten Sprecher identifiziert wird, dadurch gekennzeichnet, daß
der Vergleich der ankommenden Sprache mit den Referenzsprachmerkmalen durch das Sprecherer kennungsmodul das Generieren einer Überein stimmungswertung beinhaltet, wobei es sich um die Summe einer ersten Wertung gleich dem Mittelwert der kleinsten euklidischen quadrierten Abstände zwischen einem Eingabe sprachblock für eine gegebene Zone eines spe ziellen "Wortes" und Registrier-Sprachblöcken, die derselben Zone desselben "Wortes" ent sprechen über sämtliche Blöcke sämtlicher "Wörter" der Eingangssprache, und einer zweiten Wertung handelt, die gleich ist dem Mittelwert des kleinsten euklidischen qua drierten Abstands zwischen einem Registrier- Sprachblock für eine gegebene Zone eines spe ziellen "Wortes" und einem Eingabesprachblock, welcher derselben Zone desselben "Wortes" entspricht, und zwar über sämtliche Blöcke sämtlicher "Wörter", die den Referenzsatz von Sprachmerkmalen bilden,
wobei der Abstand von tj zu dem entsprechenden Registrier-"Wort" E beträgt: und der Abstand von ei zu dem entsprechenden Prüf-"Wort" T beträgt: wobei tj der j-te Block in dem Eingangs-"Wort" T und ei der i-te Block des Registrier-"Worts" E ist, Wi und Fi die Wort- bzw. Blockindices für den Block i und Wj und Fj die Wort- bzw. Blockindices für den Block j sind, und
wobei die erste Wertung gleich dem Mittelwert von dj,E über sämtliche Blöcke und die zweite Wertung gleich dem Mittelwert von di,T über sämtliche Blöcke ist.
Etablieren der behaupteten Identität,
Erzeugen einer Verifizier-Wortverbindung, welche ein oder mehrere "Wörter" aufweist, die von dem Sprecher gesprochen werden,
Digitalisieren der gesprochenen Eingangs sprachsignale zu einer Folge von Blöcken digi taler Daten, welche die Eingangssprache reprä sentieren,
Identifizieren der Endpunkte der Eingabe sprach- "Wörter",
Analysieren der Sprachblöcke durch ein Sprecherverifiziermodul, welches die Eingangs sprache vergleicht mit einem Referenzsatz von Sprachmerkmalen des identifizierten Sprechers, welche bei früheren Registrieraufnahmen erhalten wurden, und welches daraus ent sprechende Übereinstimmungswertungen gene riert, und
auf der Grundlage der Übereinstimmungs wertungen, bestimmen, ob die Eingangssprache mit dem identifizierten Sprecher identifiziert wird, dadurch gekennzeichnet, daß
der Vergleich der ankommenden Sprache mit den Referenzsprachmerkmalen durch das Sprecherer kennungsmodul das Generieren einer Überein stimmungswertung beinhaltet, wobei es sich um die Summe einer ersten Wertung gleich dem Mittelwert der kleinsten euklidischen quadrierten Abstände zwischen einem Eingabe sprachblock für eine gegebene Zone eines spe ziellen "Wortes" und Registrier-Sprachblöcken, die derselben Zone desselben "Wortes" ent sprechen über sämtliche Blöcke sämtlicher "Wörter" der Eingangssprache, und einer zweiten Wertung handelt, die gleich ist dem Mittelwert des kleinsten euklidischen qua drierten Abstands zwischen einem Registrier- Sprachblock für eine gegebene Zone eines spe ziellen "Wortes" und einem Eingabesprachblock, welcher derselben Zone desselben "Wortes" entspricht, und zwar über sämtliche Blöcke sämtlicher "Wörter", die den Referenzsatz von Sprachmerkmalen bilden,
wobei der Abstand von tj zu dem entsprechenden Registrier-"Wort" E beträgt: und der Abstand von ei zu dem entsprechenden Prüf-"Wort" T beträgt: wobei tj der j-te Block in dem Eingangs-"Wort" T und ei der i-te Block des Registrier-"Worts" E ist, Wi und Fi die Wort- bzw. Blockindices für den Block i und Wj und Fj die Wort- bzw. Blockindices für den Block j sind, und
wobei die erste Wertung gleich dem Mittelwert von dj,E über sämtliche Blöcke und die zweite Wertung gleich dem Mittelwert von di,T über sämtliche Blöcke ist.
25. Verfahren nach Anspruch 24, bei dem der Ver
gleich der ankommenden Sprache mit den Refe
renzsprachmerkmalen durch das Sprecherer
kennungsmodul einen zusätzlichen Schritt bein
haltet, bei dem jeder der euklidischen Abstän
de durch einen Grundwert gewichtet wird, der
so berechnet ist, daß die Einflüsse von Un
gleichmäßigkeiten unter wiederholten Auftritten
des vorbestimmten gesprochenen und in das
System durch den speziellen registrierten
Sprecher eingegebenen Texts in Abzug gebracht
werden, und wobei die euklidischen Abstände
über einen Bereich berechnet werden, der durch
einen Wertungsgrenzwert beschränkt ist.
26. Verfahren nach Anspruch 24, bei dem der Ver
gleich der ankommenden Sprache mit Referenz
sprachmerkmalen durch das Sprechererkennungs
modul einen weiteren Schritt beinhaltet, bei
dem eine Übereinstimmungswertung der Schaffung
eines Nächster-Nachbar-Abstands zwischen
Eingabesprachblöcken und Registriersprach
blöcken für einen Satz von Referenzsprechern
erzeugt wird.
27. Verfahren nach Anspruch 24, weiterhin umfas
send eine Schwellenwertverifizierung, bei der
der Teilschritt des Identifizierens der End
punkte der Eingabesprach-"Wörter" zusätzlich
erkennt, ob die "Wörter" der Verifizierwort
verbindung gemäß Vorgabe gesprochen wurden,
und die Verifizieranforderung bei Nicht-Be
stehen dieser Schwellenwertverifizierprüfung
zurückweist.
28. Verfahren nach Anspruch 25, bei dem der Ver
gleich der ankommenden Sprache mit Referenz
sprachmerkmalen durch das Sprechererkennungs
modul einen weiteren Schritt beinhaltet, bei
dem eine Übereinstimmungswertung der Schaffung
eines Nächster-Nachbar-Abstands zwischen
Eingabesprachblöcken und Registriersprach
blöcken für einen Satz von Referenzsprechern
erzeugt wird.
29. Verfahren nach Anspruch 25, weiterhin umfas
send eine Schwellenwertverifizierung, bei der
der Teilschritt des Identifizierens der End
punkte der Eingabesprach-"Wörter" zusätzlich
erkennt, ob die "Wörter" der Verifizierwort
verbindung gemäß Vorgabe gesprochen wurden,
und die Verifizieranforderung bei Nicht-Beste
hen dieser Schwellenwertverifizierprüfung
zurückweist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/918,560 US5339385A (en) | 1992-07-22 | 1992-07-22 | Speaker verifier using nearest-neighbor distance measure |
Publications (1)
Publication Number | Publication Date |
---|---|
DE4310190A1 true DE4310190A1 (de) | 1994-01-27 |
Family
ID=25440583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4310190A Withdrawn DE4310190A1 (de) | 1992-07-22 | 1993-03-29 | Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn |
Country Status (3)
Country | Link |
---|---|
US (1) | US5339385A (de) |
JP (1) | JPH06175680A (de) |
DE (1) | DE4310190A1 (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998035118A1 (de) * | 1997-02-06 | 1998-08-13 | Siemens Aktiengesellschaft | Identifikationsvorrichtung |
DE19930522A1 (de) * | 1999-07-05 | 2001-02-01 | Univ Ilmenau Tech | Verfahren zur Erkennung von Lautsignalen |
CN109564759A (zh) * | 2016-08-03 | 2019-04-02 | 思睿逻辑国际半导体有限公司 | 说话人识别 |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4207837A1 (de) * | 1992-03-12 | 1993-09-16 | Sel Alcatel Ag | Verfahren und vorrichtung zur ueberpruefung und erlangung einer zugangsberechtigung |
US5623539A (en) * | 1994-01-27 | 1997-04-22 | Lucent Technologies Inc. | Using voice signal analysis to identify authorized users of a telephone system |
US5752231A (en) * | 1996-02-12 | 1998-05-12 | Texas Instruments Incorporated | Method and system for performing speaker verification on a spoken utterance |
US5937381A (en) * | 1996-04-10 | 1999-08-10 | Itt Defense, Inc. | System for voice verification of telephone transactions |
DE19630109A1 (de) * | 1996-07-25 | 1998-01-29 | Siemens Ag | Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner |
US5946654A (en) * | 1997-02-21 | 1999-08-31 | Dragon Systems, Inc. | Speaker identification using unsupervised speech models |
US6182037B1 (en) | 1997-05-06 | 2001-01-30 | International Business Machines Corporation | Speaker recognition over large population with fast and detailed matches |
US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US5924070A (en) * | 1997-06-06 | 1999-07-13 | International Business Machines Corporation | Corporate voice dialing with shared directories |
AU752317B2 (en) | 1998-06-17 | 2002-09-12 | Motorola Australia Pty Ltd | Cohort model selection apparatus and method |
US6141644A (en) * | 1998-09-04 | 2000-10-31 | Matsushita Electric Industrial Co., Ltd. | Speaker verification and speaker identification based on eigenvoices |
GB9822931D0 (en) * | 1998-10-20 | 1998-12-16 | Canon Kk | Speech processing apparatus and method |
AU1393899A (en) * | 1998-11-10 | 2000-05-29 | Sherrie Ann Adcock | Method of comparing utterances for security control |
JP3699608B2 (ja) * | 1999-04-01 | 2005-09-28 | 富士通株式会社 | 話者照合装置及び方法 |
ATE276557T1 (de) * | 2000-07-10 | 2004-10-15 | Voice Trust Ag | Verfahren und system zur authentifizierung eines teilnehmers an einem geschäftsvorgang |
DE50012605D1 (de) * | 2000-07-14 | 2006-05-24 | Voice Trust Ag | Verfahren und System zur Autorisierung einer kommerziellen Transaktion |
US6961703B1 (en) | 2000-09-13 | 2005-11-01 | Itt Manufacturing Enterprises, Inc. | Method for speech processing involving whole-utterance modeling |
US7185197B2 (en) * | 2000-12-08 | 2007-02-27 | Itt Manufacturing Enterprises, Inc. | Method and apparatus to facilitate secure network communications with a voice responsive network interface device |
TW490655B (en) * | 2000-12-27 | 2002-06-11 | Winbond Electronics Corp | Method and device for recognizing authorized users using voice spectrum information |
JP4489994B2 (ja) * | 2001-05-11 | 2010-06-23 | 富士通株式会社 | 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体 |
US6810146B2 (en) * | 2001-06-01 | 2004-10-26 | Eastman Kodak Company | Method and system for segmenting and identifying events in images using spoken annotations |
WO2004075168A1 (ja) * | 2003-02-19 | 2004-09-02 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置及び音声認識方法 |
KR100571574B1 (ko) * | 2004-07-26 | 2006-04-17 | 한양대학교 산학협력단 | 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템 |
US7363223B2 (en) * | 2004-08-13 | 2008-04-22 | International Business Machines Corporation | Policy analysis framework for conversational biometrics |
US7890510B2 (en) * | 2005-10-05 | 2011-02-15 | International Business Machines Corporation | Method and apparatus for analyzing community evolution in graph data streams |
US8078618B2 (en) | 2006-01-30 | 2011-12-13 | Eastman Kodak Company | Automatic multimode system for organizing and retrieving content data files |
US7769583B2 (en) * | 2006-05-13 | 2010-08-03 | International Business Machines Corporation | Quantizing feature vectors in decision-making applications |
GB0616070D0 (en) * | 2006-08-12 | 2006-09-20 | Ibm | Speech Recognition Feedback |
US8831941B2 (en) * | 2007-05-29 | 2014-09-09 | At&T Intellectual Property Ii, L.P. | System and method for tracking fraudulent electronic transactions using voiceprints of uncommon words |
WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
RU2419890C1 (ru) | 2009-09-24 | 2011-05-27 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания |
US8990085B2 (en) * | 2009-09-30 | 2015-03-24 | At&T Intellectual Property I, L.P. | System and method for handling repeat queries due to wrong ASR output by modifying an acoustic, a language and a semantic model |
US9318114B2 (en) * | 2010-11-24 | 2016-04-19 | At&T Intellectual Property I, L.P. | System and method for generating challenge utterances for speaker verification |
US8903929B2 (en) * | 2012-07-05 | 2014-12-02 | Microsoft Corporation | Forgotten attachment detection |
US8700396B1 (en) * | 2012-09-11 | 2014-04-15 | Google Inc. | Generating speech data collection prompts |
RU2530314C1 (ru) * | 2013-04-23 | 2014-10-10 | Общество с ограниченной ответственностью "ЦРТ-инновации" | Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке |
US10303706B2 (en) * | 2013-11-27 | 2019-05-28 | William Scott Harten | Condensed hierarchical data viewer |
US10223512B2 (en) * | 2016-08-25 | 2019-03-05 | Sensory, Incorporated | Voice-based liveness verification |
US11170790B2 (en) | 2019-06-27 | 2021-11-09 | Bose Corporation | User authentication with audio reply |
CN111260836A (zh) * | 2019-12-31 | 2020-06-09 | 云南电网有限责任公司楚雄供电局 | 门禁控制方法、装置、系统、仓储系统及电子设备 |
US11823684B2 (en) * | 2020-11-19 | 2023-11-21 | Google Llc | Generating and/or utilizing voice authentication biasing parameters for assistant devices |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4720863A (en) * | 1982-11-03 | 1988-01-19 | Itt Defense Communications | Method and apparatus for text-independent speaker recognition |
JPS59178587A (ja) * | 1983-03-30 | 1984-10-09 | Nec Corp | 話者確認システム |
US4773093A (en) * | 1984-12-31 | 1988-09-20 | Itt Defense Communications | Text-independent speaker recognition system and method based on acoustic segment matching |
US4837830A (en) * | 1987-01-16 | 1989-06-06 | Itt Defense Communications, A Division Of Itt Corporation | Multiple parameter speaker recognition system and methods |
US5121428A (en) * | 1988-01-20 | 1992-06-09 | Ricoh Company, Ltd. | Speaker verification system |
US5216720A (en) * | 1989-05-09 | 1993-06-01 | Texas Instruments Incorporated | Voice verification circuit for validating the identity of telephone calling card customers |
US5167004A (en) * | 1991-02-28 | 1992-11-24 | Texas Instruments Incorporated | Temporal decorrelation method for robust speaker verification |
-
1992
- 1992-07-22 US US07/918,560 patent/US5339385A/en not_active Expired - Fee Related
-
1993
- 1993-03-29 DE DE4310190A patent/DE4310190A1/de not_active Withdrawn
- 1993-07-16 JP JP5177018A patent/JPH06175680A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998035118A1 (de) * | 1997-02-06 | 1998-08-13 | Siemens Aktiengesellschaft | Identifikationsvorrichtung |
DE19930522A1 (de) * | 1999-07-05 | 2001-02-01 | Univ Ilmenau Tech | Verfahren zur Erkennung von Lautsignalen |
CN109564759A (zh) * | 2016-08-03 | 2019-04-02 | 思睿逻辑国际半导体有限公司 | 说话人识别 |
CN109564759B (zh) * | 2016-08-03 | 2023-06-09 | 思睿逻辑国际半导体有限公司 | 说话人识别 |
Also Published As
Publication number | Publication date |
---|---|
JPH06175680A (ja) | 1994-06-24 |
US5339385A (en) | 1994-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4310190A1 (de) | Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn | |
DE3236832C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69831114T2 (de) | Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen | |
DE69814195T2 (de) | Vorrichtung zur Sprechererkennung | |
DE60124842T2 (de) | Rauschrobuste Mustererkennung | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE69914839T2 (de) | Sprecherverifikation und -erkennung mittels Eigenstimmen | |
DE4436692C2 (de) | Trainingssystem für ein Spracherkennungssystem | |
DE69432570T2 (de) | Spracherkennung | |
EP0821346B1 (de) | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69636057T2 (de) | Sprecherverifizierungssystem | |
DE19636739C1 (de) | Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem | |
DE60124408T2 (de) | System und Verfahren für automatische Spracherkennung unter Verwendung von Mapping bzw. Abbildung | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE69816177T2 (de) | Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen | |
DE60124551T2 (de) | Verfahren und vorrichtung zur erzeugung der referenzmuster für ein sprecherunabhängiges spracherkennungssystem | |
DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE60004331T2 (de) | Sprecher-erkennung | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE2918533A1 (de) | Spracherkennungssystem | |
DE19942178C1 (de) | Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung | |
DE69813597T2 (de) | Mustererkennung, die mehrere referenzmodelle verwendet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8139 | Disposal/non-payment of the annual fee |