DE4310190A1 - Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn - Google Patents

Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn

Info

Publication number
DE4310190A1
DE4310190A1 DE4310190A DE4310190A DE4310190A1 DE 4310190 A1 DE4310190 A1 DE 4310190A1 DE 4310190 A DE4310190 A DE 4310190A DE 4310190 A DE4310190 A DE 4310190A DE 4310190 A1 DE4310190 A1 DE 4310190A1
Authority
DE
Germany
Prior art keywords
speaker
distance
verification
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE4310190A
Other languages
English (en)
Inventor
Alan Lawrence Higgins
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Standard Electric Corp
Original Assignee
International Standard Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Standard Electric Corp filed Critical International Standard Electric Corp
Publication of DE4310190A1 publication Critical patent/DE4310190A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/30Individual registration on entry or exit not involving the use of a pass
    • G07C9/32Individual registration on entry or exit not involving the use of a pass in combination with an identity check
    • G07C9/37Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

Die Erfindung betrifft Sprecher-Verifizierungs­ systeme allgemein, insbesondere betrifft sie ein System, bei dem die Beurteilungen der Sprecheriden­ tifizierung auf der Grundlage der Abstände zwischen nächsten Nachbarn beruhen, wie sie zwischen gerade geäußerten Wörtern und gespeicherten Registrier- Wörtern errechnet werden.
Ein Sprecher-Verifizierungssystem bestimmt, ob eine Person, welche eine zuvor innerhalb des Systems festgelegte Identität beansprucht, die identifi­ zierte Person ist oder nicht, indem ein Paßwort (welches mehrere Sprach-"Wörter" umfassen kann), das von einer die Identifizierung anstrebenden Person zur Zeit der Identifizierungs-Anforderung ausgesprochen wird, verglichen wird mit zuvor abge­ speicherter Sprache, welche entsprechende "Wörter" enthält, die von der identifizierten Person in das System eingegeben wurden. Ein solches System ist besonders brauchbar als Einrichtung zum Steuern des Zugangs/Ausgangs in einem oder aus einem Sicher­ heitsbereich, oder um Zugang zu einem gesicherten Nachrichtensystem zu erhalten.
Bei den meisten existierenden Sprecher-Verifizie­ rungssystemen basiert der Vergleich zwischen dem ausgesprochenen Paßwort und dem Bezugs-Sprachvoka­ bular, welches vorab in das System von dem identi­ fizierten Sprecher eingegeben wurde, auf einer Messung des euklidischen Abstands zwischen Elemen­ ten der Paßwort-Sprache und der Referenzsprache, wobei ein Rechner verwendet wird, der diese Sprachelemente verarbeitet, die zu diesem Zweck in digitale Form umgesetzt worden sind. Ein solcher Vergleich kann darüber hinaus eine Messung solcher Abstände von Elementen der Paßwort-Sprache und als Bezugsgrundlage eingerichteten Gattungs-Sprachele­ menten beinhalten. Wenn der so gemessene Abstand geringer ist als ein vorbestimmter Wert und im Fall eines Verifizierungssystems unter Verwendung der Referenzsprache-Messung kleiner ist als jegliche derartige Referenzmessung, so wird der Sprecher als identifizierter Sprecher eingestuft, und falls der Abstand größer ist als der Schwellenwert (oder eine oder mehrere der Referenzmessungen) wird der Sprecher als Betrüger eingestuft. Ein Beispiel für ein solches Sprecher-Verifizierungssystem findet sich in der US-PS 4 694 493 (Sakoe) mit dem Titel "Speaker Verification System" vom 15. September 1987.
Eine Beschränkung, die sämtlichen Sprecher-Verifi­ zierungssystemen gemeinsam ist, besteht darin, daß eine exakte Abgleichung zwischen der Paßwort- Sprache und der Referenz-Sprache wenn überhaupt, dann nur sehr selten erzielbar ist. Der Grund hier­ für ist der, daß naturgemäß Unterschiede in der speziellen Stimme des Sprechers auftreten zwischen dem Zeitpunkt der Eingabe der Referenz-Sprache in das System einerseits und der Verifizierungs-Anfor­ derung andererseits, und außerdem der Umstand, daß der Prozeß der Umsetzung der Analog-Wellenform der Stimme des Sprechers in digitalisierte Sprachkompo­ nenten geringfügige Schwankungen in diesen Komponenten zwischen der Referenz-Sprache einer­ seits und der Paßwort-Sprache andererseits hervor­ rufen kann, auch wenn Schwankungen der Wellenform der Sprache des Sprechers zwischen der Referenz- Sprache und der Paßwort-Sprache nicht vorhanden sein sollten.
Diese Beschränkung manifestiert sich in zwei mög­ lichen Fehlern des Sprecher-Verifizierungssystems: entweder eine fälschliche Zurückweisung des identi­ fizierten Sprechers oder ein fälschliches Akzeptieren eines Betrügers. Die Konsequenz eines solchen Fehlers besteht in der speziellen Auswahl eines Schwellenwertes, der als Grundlage für den Vergleich mit dem gemessenen Abstand zwischen den Elementen der Paßwort-Sprache und den Elementen der Referenz-Sprache hergenommen wird. Von einem niedrigen Schwellenwert kann erwartet werden, daß er die Wahrscheinlichkeit des Akzeptierens eines Betrügers minimiert, jedoch auch die Wahrschein­ lichkeit erhöht, daß die identifizierte Person abgewiesen wird. Ein hoher Schwellenwert anderer­ seits verringert die Wahrscheinlichkeit des Zurück­ weisens der identifizierten Person, erhöht jedoch die Wahrscheinlichkeit des Akzeptierens eines Betrügers. Während die Zuverlässigkeit (d. h. die Vermeidung fehlerhafter Ergebnisse) eines solchen Sprecher-Verifizierungssystems sich verbessern läßt durch Erhöhung der Anzahl von analysierten Sprach­ komponenten, so leidet diese Vorgehensweise jedoch an folgenden, miteinander in Beziehung stehenden Beschränkungen: (1) die Arbeitsleistung des Rechners ist begrenzt und (2) durch menschliche Eigenarten bedingte "Akzeptanz" seitens des Benutzers begrenzt die Verifizierungs-Verarbei­ tungszeit auf einen sehr kurzen Zeitraum (mög­ licherweise nicht mehr als 15 bis 20 Sekunden).
Auf der Suche nach einem auf Vergleichsmessung basierenden Sprecher-Verifizierungssystem, welches ein akzeptierbares Sicherheitsniveau gewährleistet und gleichzeitig die Wahrscheinlichkeit der Zurück­ weisung eines identifizierten Sprechers minimiert, wurden auch Methoden der willkürlichen Verteilung angewendet, um Komponenten des Paßworts aus einem Vokabular von Referenz-"Wörtern" zu bestimmen, die von dem identifizierten Sprecher in das System eingegeben wurden. Herkömmliche Sprecher-Verifizie­ rungssysteme forderten typischerweise die um Iden­ tifizierung nachsuchende Person auf, als Paßwort eine fixe Wortverbindung zu lesen, um das so ge­ sprochene Paßwort mit früheren Äußerungen der­ selben Wortverbindung oder desselben Paßworts seitens des identifizierten Sprechers zu vergleichen. Durch Verwendung fixer Vorgaben boten derartige Systeme potentiellen Betrügern die Mög­ lichkeit, Antworten (auch auf Band gezeichnete Antworten) vorab vorzubereiten, um so die Chancen einer ungerechtfertigten Verifizierung zu erhöhen. Durch die Benutzung von zum Zeitpunkt der Verifi­ zierung zufallsbedingt zusammengesetzter Prüf-Wort­ verbindungen, verbunden mit dem Erfordernis, daß der Wortinhalt der gesprochenen Äußerung mit der Vorgabe übereinstimme, wird die Wahrscheinlichkeit, mit der ein Betrüger akzeptiert wird, spürbar ver­ ringert. Es gibt nämlich derart viele Sprach­ vorgaben, daß ein möglicher Betrüger praktisch keine Chance hat, mit einer akzeptablen Antwort vorbereitet zu sein. Ein Beispiel für den Einsatz derartiger Methoden willkürlicher oder zufalls­ bedingter Verteilung in Sprach-Verifizierungs­ systemen findet sich in einem Artikel mit dem Titel "Personal Identity Verification Using Voice", dar­ gestellt von Dr. George R. Doddington, abgedruckt in Proc. ELECTRO-76, 11.-14. Mai 1976, Seiten 22-4, 1-5.
Die Zufallsverteilung von Prüf-Wortverbindungen führt jedoch zu einem neuen Problem. Es treten Wörter in Kontexten (Umgebungswörtern) auf, die in den registrierten Wortverbindungen nicht vorkommen. Der Kontext, in welchem ein Wort ausgesprochen wird, beeinflußt dessen Aussprache aufgrund von Koartikulation, verursacht durch Beschränkungen bei der Bewegung der Sprach-Artikulatoren. Derartige Koartikulationen, die bei dem Verifizierungs- Analysemodell nicht berücksichtigt worden sind, haben Anteil an der gemessen Unähnlichkeit zwischen den Prüf- und den registrierten Äußerungen, was die Wahrscheinlichkeit einer falschen Abweisung des identifizierten Sprechers erhöht.
Frühere Arbeiten des Erfinders überwinden diese Schwierigkeit teilweise durch ein als Wahrschein­ lichkeits-Wertung (Likelihood Scoring) bezeichnetes Wertungsverfahren. Vergleiche A. Higgins, L. Bahler und J. Porter, "Speaker Verification Using Randomized Phrase Prompting", 1991 (Manuskript in Vorbereitung). Die vorliegende Erfindung baut auf diesen früheren Arbeiten auf und schafft eine fertige Lösung des Koartikulations-Problems. Aller­ dings ist anzumerken, daß die vorliegende Erfindung auch auf Verifizierungs-Systeme anwendbar ist, die mit fixen (d. h. nicht auf Zufallsverteilung beruhenden) Wortverteilungs-Vorgaben beruht.
Frühere Sprecher-Verifizierungssysteme verwendeten üblicherweise Wortschablonen als Grundlage für die Abgleichung von Sprachäußerungen. Bei diesen Ver­ fahren werden Wortschablonen aus den Vorkommen der Wörter, die während der Registrierung ausgesprochen werden. Als Beispiel für die Verwendung derartiger Schablonen sei verwiesen auf die US-PS 4 773 093 (Higgins et al.) mit dem Titel "Test-Independent Speaker Recognition System And Methods Based On Acoustic Segment Matching" vom 20. September 1988 (Anmelder ITT Corporation). Bei dem Verifizierungs­ vorgang werden die Wortschablonen vorübergehend mit dem Auftreten derselben Wörter in denselben Wort­ verbindungen ausgerichtet und dazu benutzt, einen Abstand oder eine Unähnlichkeits-Wertung abzu­ leiten. Im allgemeinen werden zwei Verfahren zum Ableiten von Wortschablonen verwendet, die beide unterschiedliche Probleme bezüglich der Koarti­ kulation aufweisen. Bei dem einen Verfahren werden gemittelte Schablonen dadurch hergeleitet, daß vorübergehend sämtliche registrierten Vorkommen jedes Wortes ausgerichtet und die Blockbestandteile gemittelt werden. Das Problem bei gemittelten Scha­ blonen besteht darin, daß die Verschiedenheit von Koartikulationen in der Nähe von Wortgrenzen durch die Mittelwertbildung kaum repräsentiert wird. Bei dem zweiten Verfahren werden Mehrfach-Schablonen für individuelle Wort-Vorkommen aus den registrier­ ten Wortverbindungen extrahiert (mit Mehrfach-Dar­ stellungen jedes Worts). Das Problem bei Mehrfach- Schablonen besteht darin, daß die Koartikulation sowohl den Anfang als auch das Ende jedes Worts beeinflußt, und man müßte eine vorsorglich große Anzahl von Schablonen pro Wort bereitstellen, um gleichzeitig sämtliche möglichen Kontexte auf beiden Seiten zu berücksichtigen.
Diese Probleme mit dem Wortschablonen-Abgleich wurden durch eine jüngere Entwicklung im Bereich der Sprecher-Verifizierungssysteme zurückgedrängt: ein Vergleich von Prüf-Wortverbindungen mit registrierten Wortverbindungen unter Verwendung von einzelnen Blöcken und nicht von Wörtern als unteil­ bare Einheiten. Blöcke (Frames) der registrierten Daten werden direkt, ohne Mittelwertbildung, für den Vergleich herangezogen. Dadurch lassen sich die Probleme bei Mehrfachschablonen deshalb vermeiden, weil jeder Block effektiv ein "Schnappschuß" ist, der einen einzelnen zeitlichen Augenblick repräsen­ tiert. Die Verwendung derartiger Blöcke von Sprach­ daten ist ausführlich beschrieben in dem US-Patent 4 720 863 (Li et al.) mit der Bezeichnung "Method and Apparatus For Text-Independent Speaker Recognition" vom 19. Januar 1988 (ITT Corporation). Es sei weiter verwiesen auf die US-PS 4 837 830 Wrench, Jr. et al. mit dem Titel "Multiple Parameter Speaker Recognition System And Methods" vom 6. Juni 1989 (ITT Corporation).
Eine weitere Verbesserung bei der Analyse und bei dem Vergleich von Sprachdaten wurde von L. Bahler entwickelt und findet ihren Niederschlag in seiner als "Speaker Sorter" bezeichneten Erfindung (US-SN 07/699 217, eingereicht am 13. Mai 1991). Hier ist die Verwendung eines Basislinien-Algorithmus für die Sprechererkennung vorgeschlagen, der von nicht­ parametrischer Natur ist und keine Annahme bezüg­ lich der statistischen Verteilungen von Sprachmerk­ malen vornimmt. Die Referenzdaten zur Kennzeichnung der Sprachmuster eines gegebenen Sprechers umfassen einen umfangreichen Satz von Sprachmerkmalsvektoren und nicht einen Satz von abgeschätzten Verteilungs­ parametern. Ein bedeutender Vorteil dieser von Bahler vorgeschlagenen Vorgehensweise besteht in der Verwendung von nicht-parametrischen Verfahren, da die Weiterentwicklung der parametrischen Ver­ fahren - in Richtung auf noch kompliziertere Ver­ teilungen, die die wirkliche Sprache möglicherweise noch exakter approximieren - die Schwierigkeit in sich birgt, eine erhöhte Anzahl von statistischen Parametern abzuschätzen, die derartige Modelle mit sich bringen.
Es ist ein Ziel der vorliegenden Erfindung, ein verbessertes Sprecher-Verifizierungssystem zu schaffen, welches sich durch eine niedrige Fehler­ rate auszeichnet und dennoch die Verifizierungs- Verarbeitungszeit minimiert und/oder die erforder­ liche Rechnerleistung reduziert.
Erfindungsgemäß umfaßt ein Sprecher-Verifizierungs­ system: einen Eingabesprachprozessor zum Verar­ beiten von in das System eingegebener Sprache, wodurch die Sprache abgetastet, digitalisiert und in Blöcke umgesetzt wird, von denen jeder Block aus mehreren Sprachvektorkomponenten besteht; einen Registriermechanismus, durch den ein oder mehrere Sprecher in dem System registriert werden können und ein von einem Sprecher gesprochener vorbestimmter Text durch den Eingabesprachprozessor verarbeitet und in dem System gespeichert wird; einen auf eine Identifizierungs-Anforderung seitens eines Sprechers, der ein registrierter Sprecher zu sein behauptet, ansprechenden Mechanismus zum Er­ zeugen einer Vorgabe-Wortverbindung, die ein oder mehrere "Wörter" enthält, die von dem vorbestimmten gesprochenen Text abgeleitet sind, der von dem bestimmten registrierten Sprecher eingegeben ist, woraufhin die Vorgabe-Wortverbindung durch den behaupteten Sprecher ausgesprochen wird und die gesprochene Vorgabe-Wortverbindung in das System eingegeben wird, um von dem Eingabesprachprozessor verarbeitet zu werden; einen Mechanismus zum Analy­ sieren einer solchen gesprochenen Wortverbindung, um die Endpunkte der eine solche gesprochene Vor­ gabe-Wortverbindung bildenden "Wörter" zu erfassen; ein Verifikations-Modul, welches (1) die Abstände di,T nächster Nachbarn und Abstände dj,E nächster Nachbarn bestimmt, wobei die Abstände di,T nächster Nachbarn berechnet werden als Euklidische Abstände zwischen jedem Block der verarbeiteten gesprochenen Vorgabe-Wortverbindung und Sprach-Blöcken aus entsprechenden Zonen jedes Auftretens desselben "Wortes", welches während der Registrierung des bestimmten registrierten Sprechers in das System gespeichert wurde, während die Abstände dj,E nächster Nachbarn berechnet werden als die Euklidischen Abstände zwischen jedem Block jedes Auftretens jedes "Wortes", welches Bestandteil der Vorgabe-Wortverbindung ist, und Sprach-Blöcken aus entsprechenden Zonen jedes Auftretens desselben "Wortes" in der verarbeiteten gesprochenen Vorgabe- Wortverbindung, und (2) einen Abstand dT,E bestimmt zwischen der verarbeiteten gesprochenen Vorgabe- Wortverbindung und entsprechenden "Wörtern", die bei der Registrierung des bestimmten registrierten Sprechers in dem System in das System eingegeben worden sind, wobei der Abstand dT,E abgeleitet wird aus einem Mittelwert sämtlicher Nächster-Nachbar- Abstände di,T und einem Mittelwert sämtlicher Nächster-Nachbar-Abstände dj,E, (3), eine Verifikations-Wertung aus solchen Abstandsdaten bestimmt, und (4) daraus bestimmt, ob der behauptete Sprecher der bestimmte, registrierte Sprecher ist.
Gemäß einem weiteren Aspekt der Erfindung umfaßt die Bestimmung der Nächster-Nachbar-Abstände di,T und der Nächster-Nachbar-Abstände dj,E durch das Verifikations-Modul einen zusätzlichen Schritt des Wichtens jedes der Abstände durch einen Grundwert, der berechnet wird, um die Einflüsse der Verschiedenheit unter wiederholten Auftritten eines vorbestimmten besprochenen Textes, der von dem speziellen registrierten Sprecher in das System eingegeben wurde, in Abzug zu bringen, wobei die Berechnung der Euklidischen Abstände beschränkt wird auf einen Bereich, der durch einen Wertungs- Grenzwert definiert wird.
Gemäß einem noch weiteren Aspekt der vorliegenden Erfindung umfaßt die Bestimmung einer Verifikations-Wertung durch das Verifikations-Modul zusätzlich eine Einrichtung zum Bestimmen eines Abstands dT,R zwischen der verarbeiteten gesprochenen Vorgabe-Wortverbindung und den ent­ sprechenden "Wörtern", die durch eine Gruppe von Referenz-Sprechern in das System eingegeben wurden, wobei die Abstände in ähnlicher Weise berechnet werden wie der Abstand dT,E, wobei die Bestimmung, ob der behauptete Sprecher der bestimmte registrierte Sprecher ist, abgeleitet wird aus einer Beziehung zwischen dem Abstand dT,R, dem Abstand dT,E und dem vorbestimmten Schwellenwert.
Im folgenden werden Ausführungsbeispiele der Erfin­ dung anhand der Zeichnung näher erläutert. Es zeigen:
Fig. 1 ein Blockdiagramm einer bevorzugten Ausführungsform der vorliegenden Erfin­ dung; und
Fig. 2 eine Skizze, die die Vorgehensweise bei der Abstandsmessung gemäß der Erfindung veranschaulicht.
Fig. 1 zeigt in Form eines Blockdiagramms den Aufbau, der den Betrieb gemäß der Erfindung ermög­ licht. Wenn eine Identitätsanforderung über eine Tastatur 1 eingegeben wird, bringt ein Zufalls- Vorgabe-Generator 2 eine Vorgabe-Wortverbindung auf dem Bildschirm 3 einer Kathodenstrahlröhre (CRT) zur Anzeige, damit der Benutzer diese Wortverbin­ dung in einen Telephon-Handapparat spricht. Das von dem Handapparat kommende elektrische Signal wird verstärkt und in digitale Form umgesetzt. Bei dieser Umwandlung wird das Signal mit einer Frequenz von 8000 Hz zu Zwölf-Bit-Abtastwerten abgetastet. Die Sequenz von Abtastungen wird in Blöcken von 22,4 Millisekunden analysiert. Diese Analyse übernimmt das in Fig. 1 dargestellte Steuerteil 5. Bei dieser Ausführungsform erzeugt die Analyse einen Vektor von 20 Komponenten für jeden Block. Die ersten zehn Komponenten des Vektors sind Cepstral-Koeffizienten, wie sie z. B. beschrieben sind in B. Gold und C.M. Radar, Digital Processing of Signals, McGraw Hill, New York, 1969, und die letzten zehn Komponenten sind Log-Bereichs- Verhältnisse, wie sie z. B. beschrieben sind in V. Viswanathan und J. Makhoul, Quantization Properties of Transmission Parameters in Linear Predictive Systems, IEEE Trans. on Acoustics, Speach and Sig. Proc., Vol. ASSP-23, Seiten 309-321, Juni 1975. Sowohl die Cepstral-Koeffizienten als auch die Log- Bereichs-Verhältnisse werden aus der Standard-LPC- 10-Analyse abgeleitet. Bezüglich einer Beschreibung einer solchen Linear Predictive Coding-Analyse wird verwiesen auf T. Tremain, The Government Standard Linear Predictive Coding Algorithm: LPC-10, Speech Technology, Seiten 40-49, April 1982 und J.D. Markel und A.H. Gray Jr., Linear Prediction of Speech, Springer Verlag, New York, 1976. Die Ein­ zelheiten des Steuerteils 5 sind bezüglich der Erfindung nicht speziell oder kritisch. Andere Analyse-Arten könnten ebenfalls verwendet werden.
Der Strom von Blöcken aus dem Steuerteil 5 wird zu den Komponenten "Worterkenner" 6 und "Sprecher- Verifizierer" des Systems gesendet. Der Worter­ kenner 6 markiert die Endpunkte jedes "Wortes" in diesem Datenstrom, und in der bevorzugten Ausführungsform bestimmt er, ob die gesprochene Verifizierungs-Wortverbindung mit der Vorgabe-Wort­ verbindung übereinstimmt. Bei der Durchführung einer solchen Wortverbindungs-Erkennungsfunktion verwendet der Worterkenner 6 einen Standard-Erken­ nungs-Algorithmus zum Erkennen verbundener Wörter, wobei die diesbezüglichen Einzelheiten nicht für die Erfindung relevant sind. Der Benutzer wird abgewiesen, wenn der Worterkenner 6 feststellt, daß die Vorgabe-Wortverbindung nicht ausgesprochen wurde. Wenn von der Wortverbindung festgestellt wird, daß sie so, wie sie vorgegeben wurde, ausge­ sprochen worden ist, gibt der Worterkenner 6 eine Liste aus, die die Anfangs- und End-Blocknummern jedes Wortes in der gesprochenen Wortverbindung enthält. Der Sprecher-Verifizierer 7 beginnt dann mit der Aufnahme seines Betriebs, wie es unten unter "Verifizierungsfunktion" beschrieben ist.
Der Registriervorgang ist der gleiche, wie er oben erläutert wurde, mit der Ausnahme, daß solche Wortverbindungen (Sätze), die als fehlerhaft ausge­ sprochen eingestuft wurden, erneut vorgegeben werden und eine Registrierungs-Komponente die Sprecher-Verifizierkomponente ersetzt.
Verifizierfunktion
Eine wichtige Verbesserung gegenüber dem Stand der Technik besteht in den Verifizierfunktionen des Systems. Um diese Sprecher-Verifizierfunktion zu verstehen, soll als erstes die folgende Messung des Euklidischen Abstands zwischen einer Prüf-Aufnahme T und einer Registrier-Aufnahme E betrachtet werden, wie sie von Bahler (siehe oben) beschrieben wird. Es sei tj der j-te Block von T, und ei sei der i-te Block von E. Der Abstand des nächsten Nachbarn oder der Nächste-Nachbar-Abstand dj,E von tj zu E beträgt
und der Abstand nächster Nachbarn di,T von ei zu T beträgt
Die Zwischen-Block-Abstände (|tj-ei|2) werden für sämtliche Paare von Blöcken tj und ei berechnet, wobei j über sämtliche Prüf-Blöcke und i über sämtliche Registrier-Blöcke reicht. Das Maß des Abstands von T zu E (d. h. der Abstand dT,E) beträgt dann,
Der hier vorgestellte Sprecher-Verifizierer stellt gegenüber diesem bekannten Abstandsmaß eine Verbes­ serung in zweierlei Hinsicht dar. Anstatt daß jeder Block jeder Prüf-Aufnahme mit jedem Block der Registrier-Aufnahme verglichen wird, vergleicht die Erfindung lediglich Prüf- und Registrier-Blöcke aus denselben Zonen desselben Worts. Beispielsweise wird ein Prüf-Block bei einem Viertel des Wegs durch das Wort "twen" (das Vokabular wird unten beschrieben) lediglich verglichen mit den Registrier-Blöcken, die sich ebenfalls etwa bei einem Viertel des Wegs durch das Wort "twen" befinden. Dies ist in Fig. 2 veranschaulicht. Die Positionen von Blöcken innerhalb von Wörtern in den Prüf- und Registrier-Aufnahmen werden aus den Wort- Endpunkten bestimmt und durch den Worterkenner 6 geliefert. Jeder zu einem Wort gehörige Block wird einem Wortindex und einem Blockindex zugeordnet. Für einen Block i identifiziert der Wortindex W(j) das Wort, und der Block F(i) ist ein Wert im Bereich von 0F(i)<8. Dem n-ten Block eines k- Blöcke enthaltenden Worts wird der Index F(n)=md[n*(8-1)/(N-1)0] zugeordnet, wobei md(*) die Rundung auf den nächsten ganzzahligen Wert bedeu­ tet. Prüf-Blöcke mit dem Index f werden mit sämtlichen Registrier-Blöcken desselben Worts mit Indices 0 und 1 verglichen, falls f=0, oder mit f-1, f und f+1, falls 1f<7; oder mit 6 und 7, falls f<7. Der Suchbereich für übereinstimmende Registrier-Blöcke wird in ähnlicher Weise beschränkt. Dann wären die Gleichungen 1a und 1b zu:
Ein solches Beschränken des Suchbereichs auf die Abstände nächster Nachbarn hat den doppelten Vorteil, daß zum einen die Verifiziergenauigkeit des Systems verbessert und zum anderen die zu bewältigende Rechenleistung herabgesetzt wird, verglichen mit der Suche, die sich über sämtliche Blöcke erstreckt. Man sieht außerdem, daß bei einem gegebenen Sicherheitsgrad die Verarbeitungszeit für einen Verifiziervorgang minimiert wird.
Die zweite Verbesserung gegenüber dem Stand der Technik betrifft die Berechnung der Abstände nächster Nachbarn. Jedem Registrier-Block ei wird ein Grundwert bi und ein Wertungs-Grenzwert li während der Registrierprozedur zugeordnet (wobei die Prozedur gemäß der unten beschriebenen Vorgehensweise abläuft). Der Grundwert wird so gewählt, daß die Einflüsse der Ungleichheiten z. B. Sprachschwankungen unter den Registrier- Wortverbindungen eines gegebenen Sprechers, in Abzug gelangen, und der Wertungs-Grenzwert wird so bestimmt, daß der Einschluß der Registrier-Sprach­ komponenten, die außerhalb des Bereichs liegen, in welchem die meisten derartigen Werte gefunden werden, reduziert wird. Durch Anwendung dieser Faktoren werden der Abstand nächster Nachbarn, dj,T und der Abstand di,T nächster Nachbarn erneut folgendermaßen modifiziert:
wobei hlim (*) die folgende harte Begrenzung darstellt:
Nachdem gemäß Fig. 1 die oben beschriebenen Berechnungen der Zwischenblock-Abstände der nächsten Nachbarn durch den Sprecher-Verifizierer 3 vorgenommen wurden, wird anschließend der Abstand dT,E zwischen der Prüf-Wortverbindung T zu der Registrier-Aufnahme E gemäß Gleichung 2 festge­ stellt. Im abschließenden Schritt des Betriebs des Sprecher-Verifizierers kann eine Verifizierung auf der Grundlage der Beziehung des Abstands dT,E zu einem vorbestimmten Schwellenwert erfolgen, bei der bevorzugten Ausführungsform jedoch ist ein zusätz­ licher Schritt der Berechnung des Abstands von der Prüf-Aufnahme zu den Registrier-Aufnahmen des anfordernden Benutzers und von der Prüf-Aufnahme zu den Registrier-Aufnahmen einer Gruppe von M weite­ ren Sprechern, die als Referenzsprecher bezeichnet sind, vorgesehen.
In einer Ausführungsform werden 20 Referenzsprecher benutzt. Die Gruppe von Referenzsprechern für eine gegebene Verifizierungs-Prüfung hängt von der beanspruchten Identität ab. Referenzsprecher werden aus der Population solcher Sprecher auf der Grund­ lage der Ähnlichkeit der Stimmen der Referenz­ sprecher mit der Stimme des anfordernden Benutzers ausgewählt. Ein geeigneter Algorithmus für die Auswahl von Referenzsprechern ist beschrieben in A. Higgins, L. Bahler und J. Porter in "Speaker Verification Using Randomized Phrase Prompting", 1991; Digital Signal Processing, Vol. 1, No. 2, April 1991, veröffentlicht von Academic Press, Inc., Seite 89.
Die endgültige Verifizierungs-Wertung lautete dann:
wobei C der anfordernde oder behauptete Sprecher ist, S(C) die Anzahl von Registrier-Aufnahmen von C, ci die i-te Registrier-Aufnahme des behaupteten Sprechers, S(j) die Anzahl von Registrier-Aufnahmen des Referenzsprechers j und rj k die k-te Registrier-Aufnahme des Referenzsprechers j ist. Die endgültige Verifizier-Wertung wird verglichen mit einem fixen Schwellenwert, der für das ge­ wünschte Verhältnis von Fehlerraten der ungerecht­ fertigten Akzeptierung und der fehlerhaften Zu­ rückweisung eingestellt werden kann. Der Benutzer wird abgewiesen, wenn die Verifizier-Wertung den Schwellenwert übersteigt, ansonsten wird er akzep­ tiert.
Festlegung von Grund- und Wertungs-Grenzwerten
Wie oben beschrieben, werden ein Grundwert und ein Wertungs-Grenzwert während des Registrierprozesses für jeden Block jeder Registrieraufnahme bestimmt. Der Grundwert bj für den Block j einer Registrier- Aufnahme beträgt
und der Wertungs-Grenzwert lj beträgt
wobei die Variablen Wi, Wj, Fi und Fj vorab für die Gleichungen 3(a) und 3(b) definiert sind.
Registrier-Vokabular
In der bevorzugten Ausführungsform der Erfindung besteht das Registrier-Sprachmaterial aus "Kombina­ tions-Verbund-"Wortverbindungen. Ein Beispiel ist "35-72-41", ausgesprochen "thirty-five, seventy- two, fourty-one". Jede Wortverbindung besteht aus Zahlen zwischen 21 und 97. Das Registrier-Vokabular umfaßt 56 derartige Zahlen, beginnend mit den 90 zweiziffrigen Zahlen ohne (1) "12" und die Zehner; (2) Dekaden (20, 30 usw.); (3) Doppelziffern; und (4) Zahlen, die mit "8" enden. Mithin gibt es 563 oder 175.616 mögliche Drei-Wort-Vorgabe-Wortverbin­ dungen, wobei derartige Drei-Wort-Vorgabe-Wortver­ bindungen die bevorzugte Ausführungsform der Erfin­ dung darstellen. Der Worterkenner 6 gleicht die Wortverbindungen unter Verwendung von Teilwort- Schablonen ab ("Thir-ti-five-Seven-ti-two-Four-ti- one"). Hierdurch läßt sich das gesamte Vokabular unter Verwendung von lediglich zehn Schablonen darstellen. Bei der bevorzugten Ausführungsform erfordert eine Verifizier-Aufnahme das Sprechen von vier vorgegebenen Wortverbindungen. Eine Registrier-Aufnahme besteht aus 24 Wortverbindun­ gen, die typischerweise etwa drei Minuten zur Aus­ sprache benötigen.
Die "Wörter" in den vorgezeigten Verifizier-Wort­ verbindungen werden aus dem Registrier-Vokabular herausgezogen und bei der bevorzugten Ausführungs­ form dadurch kombiniert, daß eine zufällige Wort­ reihenfolge gemäß einer Endzustand-Syntax ausge­ wählt wird, die zahlreiche mögliche Wortfolgen erlaubt. Registrier-Wortverbindungen setzen sich aus denselben "Wörtern" zusammen und werden gemäß der gleichen Syntax erzeugt, jedoch nicht auf Zu­ fallsbasis. Der Satz von Registrier-Wortverbindun­ gen wird so ausgewählt, daß eine ausgewogene Darst­ ellung sämtlicher "Wörter" des Vokabulars angefor­ dert wird. Die Registrier- und die Verifizier-Wort­ verbindungen werden zusammenhängend ausgesprochen, ohne Pausen zwischen den Wörtern.

Claims (29)

1. Sprecher-Verifizierungssystem, umfassend:
  • - Eine Verarbeitungseinrichtung zum Verar­ beiten von gesprochenem Text zu Sprach­ blöcken;
  • - eine Registriereinrichtung zum Registrie­ ren eines Sprechers in dem System;
  • - eine Abrufeinrichtung zum Abrufen einer gesprochenen Prüf-Wortverbindung von einem Sprecher, der ein bestimmter registrierter Sprecher zu sein behauptet;
  • - eine Abstandsbestimmungseinrichtung zum Bestimmen eines oder mehrerer Verifizie­ rungsabstände zwischen der gesprochenen Prüf-Wortverbindung und den entsprechen­ den "Wörtern", die bei der Registrierung des bestimmten registrierten Sprechers in dem System in das System eingegeben wurden und
  • - eine Einrichtung zum Bestimmen einer Verifizierungs-Wertung aus derartigen Verifizierungs-Abstandsdaten, und zum Bestimmen daraus, ob der behauptete Sprecher der bestimmte registrierte Sprecher ist,
  • gekennzeichnet durch
  • - eine in der Abstandsbestimmungseinrich­ tung vorhandene Einrichtung, die Euklidische Abstände nächster Nachbarn zwischen Sprachblöcken bestimmt, die zu den gesprochenen Prüf-Wortverbindungen gehören, und entsprechenden Sprach­ blöcken, die zu den "Wörtern" gehören, die während der Registrierung des bestim­ mten registrierten Sprechers in dem System in das System eingegeben wurden.
2. System nach Anspruch 1, bei dem die Abstands­ bestimmungseinrichtung zusätzlich eine Ein­ richtung enthält, um eine Gewichtung der so bestimmten Abstände vorzunehmen mit Hilfe eines Grundwerts, der so berechnet ist, daß die Auswirkungen der Ungleichmäßigkeit unter wiederholten Auftritten der in das System bei der Registrierung des bestimmten registrierten Sprechers eingegebenen "Wörter" in Abzug gelangen, wobei die Bestimmung der Euklidischen Abstände nächster Nachbarn be­ schränkt ist auf einen Bereich, der durch einen Wertungs-Grenzwert definiert ist.
3. System nach Anspruch 1 oder 2, bei dem die Einrichtung zum Bestimmen einer Verifizierungs-Wertung einen Vergleich zwischen dem Verifizierungsabstand und einem vorbestimmten Schwellenwert umfaßt, wobei die Bestimmung, ob der behauptete Sprecher der bestimmte registrierte Sprecher ist, aus dem Vergleich hergeleitet wird.
4. System nach Anspruch 3, bei dem die Einrich­ tung zum Bestimmen einer Verifizierungs-Wer­ tung zusätzlich eine Einrichtung aufweist, um einen Referenzabstand zwischen der gesproche­ nen Prüf-Wortverbindung und entsprechenden "Wörtern", die in das System durch eine Gruppe von Referenzsprechern angegeben worden sind, zu bestimmen, der in ähnlicher Weise wie der Verifizierungsabstand berechnet wird, wobei die Bestimmung, ob der behauptete Sprecher der bestimmte registrierte Sprecher ist, abgelei­ tet wird aus einer Beziehung zwischen dem Verifizierungsabstand, dem Referenz-Abstand und dem vorbestimmten Schwellenwert.
5. System nach Anspruch 2, bei dem die Einrich­ tung zum Bestimmen einer Verifizierungsein­ richtung einen Vergleich zwischen dem Verifi­ zierungs-Abstand und einem Schwellenwert auf­ weist, wobei die Bestimmung, ob der behauptete Sprecher der bestimmte registrierte Sprecher ist, aus dem Vergleich hergeleitet ist.
6. System nach Anspruch 2, bei dem die Einrich­ tung zum Bestimmen einer Verifizierungs-Wer­ tung zusätzlich eine Einrichtung aufweist, um einen Referenzabstand zwischen der gesproche­ nen Prüf-Wortverbindung und entsprechenden "Wörtern", die in das System durch eine Gruppe von Referenzsprechern angegeben worden sind, zu bestimmen, der in ähnlicher Weise wie der Verifizierungs-Abstand berechnet wird, wobei die Bestimmung, ob der behauptete Sprecher der bestimmte registrierte Sprecher ist, abgelei­ tet wird aus einer Beziehung zwischen dem Verifizierungs-Abstand, dem Referenzabstand und dem vorbestimmten Schwellenwert.
7. Sprecher-Verifizierungs-System, umfassend:
  • - Eine Verarbeitungseinrichtung zum Verar­ beiten von in das System eingegebenem, gesprochenem Text, wobei der gesprochene Text abgetastet, digitalisiert und in Sprachblöcke umgesetzt wird, von denen jeder aus Mehrfach-Sprachvektorkomponen­ ten besteht;
  • - eine Registriereinrichtung zum Registrie­ ren eines Sprechers in dem System, indem vorbestimmter, gesprochener Text von dem Sprecher in das System eingegeben und durch die Verarbeitungseinrichtung verar­ beitet wird, um anschließend von dem System gespeichert zu werden;
  • - eine Einrichtung, die auf eine Identifi­ zierungsanforderung seitens eines Sprechers, der ein bestimmter, registrierter Sprecher zu sein behauptet, anspricht, um eine Vorgabe-Wortverbindung zu generieren, welche eines oder mehrere "Wörter" umfaßt, die aus dem vorbestimm­ ten gesprochenen Text, der von dem be­ stimmten, registrierten Sprecher eingege­ ben wurde, abgeleitet ist, woraufhin die Vorgabe-Wortverbindung von dem behaupte­ ten Sprecher ausgesprochen wird und die ausgesprochene Vorgabe-Wortverbindung in das System eingegeben und durch die Ver­ arbeitungseinrichtung verarbeitet wird;
  • - eine Einrichtung zum Analysieren der verarbeiteten, gesprochenen Vorgabe-Wort­ verbindung, um die Endpunkte der die gesprochene Vorgabe-Wortverbindung bil­ denden Wörter zu erfassen;
  • - eine Einrichtung zum Bestimmen der Ab­ stände di,T nächster Nachbarn, wobei die Abstände di,T nächster Nachbarn berechnet werden als die Euklidischen Abstände zwischen jedem Block der verarbeiteten gesprochenen Vorgabe-Wortverbindung und Sprachblöcken aus entsprechenden Zonen jedes Auftretens desselben "Wortes", welches während der Registrierung des bestimmten registrierten Sprechers in dem System gespeichert wurden;
  • - eine Einrichtung zum Bestimmen der Ab­ stände dj,E nächster Nachbarn, wobei diese Abstände dj,T berechnet werden als die Euklidischen Abstände zwischen jedem Block jedes Auftretens jedes "Wortes", der Vorgabe-Wortverbindung und den Sprachblöcken aus entsprechenden Zonen jedes Auftretens desselben "Wortes" in der verarbeiteten gesprochenen Vorgabe- Wortverbindung;
  • - eine Einrichtung zum Bestimmen eines Abstands dT,E zwischen der verarbeiteten, gesprochenen Vorgabe-Wortverbindung und entsprechenden "Wörtern", die während der Registrierung des bestimmten registrier­ ten Sprechers in dem System in das System eingegeben wurden, wobei der Abstand dT,E abgeleitet wird aus einem Mittelwert sämtlicher Abstände di,T nächster Nach­ barn und einem Mittelwert sämtlicher Abstände dj,T nächster Nachbarn; und
  • - eine Einrichtung zum Bestimmen einer Verifizierungs-Wertung aus derartigen Abstandsdaten, und zum Bestimmen daraus, ob der behauptete Sprecher der bestimmte, registrierte Sprecher ist.
8. System nach Anspruch 7, bei dem die Bestimmung der Abstände di,T nächster Nachbarn und der Abstände dj,E nächster Nachbarn einen zusätz­ lichen Schritt enthält, bei dem jeder der Abstände gewichtet wird durch einen Grundwert, der berechnet wurde, um die Einflüsse der Ungleichheit zwischen wiederholten Auftritten des vorbestimmten gesprochenen Texts, der von dem bestimmten registrierten Sprecher eingege­ ben wurde, in Abzug zu bringen, wobei die Berechnung der Euklidischen Abstände begrenzt wird auf einen Bereich, welcher durch einen Wertungs-Grenzwert definiert wird.
9. System nach Anspruch 7, bei dem die Einrich­ tung zum Bestimmen einer Verifizierungs-Wer­ tung einen Vergleich beinhaltet zwischen dem Abstand dT,E und einem vorbestimmten Schwel­ lenwert, wobei die Bestimmung, ob der behaup­ tete Sprecher der bestimmte, registrierte Sprecher ist, aus dem Vergleich abgeleitet wird.
10. System nach Anspruch 9, bei dem die Einrich­ tung zum Bestimmen einer Verifizierungs-Wer­ tung zusätzlich aufweist: Eine Einrichtung zum Bestimmen eines Abstands dT,R zwischen der verarbeiteten gesprochenen Vorgabe-Wortverbin­ dung und entsprechenden "Wörtern", die von einer Gruppe von Referenzsprechern in das System eingegeben wurden, wobei der Abstand in ähnlicher Weise berechnet wird wie der Abstand dT,E und wobei die Bestimmung, ob der behaup­ tete Sprecher der bestimmte, registrierte Sprecher ist, abgeleitet wird aus einer Bezie­ hung zwischen dem Abstand dT,R, dem Abstand dT,E und dem vorbestimmten Schwellenwert.
11. System nach Anspruch 8, bei dem die Einrich­ tung zum Bestimmen einer Verifizierungs-Wer­ tung aufweist: einen Vergleich zwischen dem Abstand dT,E und einem vorbestimmten Schwel­ lenwert, wobei die Bestimmung, ob der behaup­ tete Sprecher der spezielle registrierte Sprecher ist, aus dem Vergleich abgeleitet wird.
12. System nach Anspruch 11, bei dem die Einrich­ tung zum Bestimmen einer Verifizierungs-Wer­ tung zusätzlich aufweist: Eine Einrichtung zum Bestimmen eines Abstands dT,R zwischen der verarbeiteten gesprochenen Vorgabe-Wortverbin­ dung und entsprechenden "Wörtern", die von einer Gruppe von Referenzsprechern in das System eingegeben wurden, wobei der Abstand in ähnlicher Weise berechnet wird wie der Abstand dT,E, und wobei die Bestimmung, ob der behaup­ tete Sprecher der bestimmte registrierte Sprecher ist, abgeleitet wird aus einer Bezie­ hung zwischen dem Abstand dT,R, dem Abstand dT,E und dem vorbestimmten Schwellenwert.
13. System nach Anspruch 7, bei dem die Einrich­ tung zum Analysieren zusätzlich bestimmt, ob die "Wörter", die die gesprochene Vorgabe- Wortverbindung bilden, den Wörtern in der Vorgabe-Wortverbindung entsprechen, um den behaupteten Sprecher für den Fall abzuweisen, daß eine solche Entsprechung nicht existiert.
14. Sprecher-Verifizierungssystem, umfassend:
  • - Eine Einrichtung zum Eingeben eines gesprochenen Textes in das System;
  • - eine Einrichtung zum Abtasten und zum Digitalisieren des gesprochenen Texts;
  • - eine Einrichtung zum Umsetzen der digita­ lisierten Abtastwerte in Sprachblöcke, von denen jeder Block aus Mehrfach- Sprachvektorkomponenten besteht;
  • - eine Einrichtung zum Registrieren eines Sprechers oder mehrerer Sprecher in dem System im Zuge einer Registrieraufnahme, bei der ein vorbestimmter, gesprochener Text von jedem Sprecher in das System eingegeben wird und der Text von der Abtasteinrichtung und der Umwandlungs- Einrichtung verarbeitet wird, um an­ schließend von dem System gespeichert zu werden;
  • - eine Einrichtung zum Identifizieren eines speziellen Sprechers unter den im System registrierten Sprechern als denjenigen Sprecher, für den die Verifizierung gewünscht ist;
  • - eine Einrichtung zum Identifizieren eines oder mehrerer "Wörter", die aus dem von dem speziellen Sprecher während der Registrieraufnahme eingegebenen Text abgeleitet sind und eine Einrichtung zum Darstellen der "Wörter" als von einem Sprecher während der Verifizier-Aufnahme auszusprechenden Vorgabe, wobei die vorgegebenen gesprochenen "Wörter" an­ schließend in das System über die Einga­ be-Einrichtung eingegeben und von der Abtast- und Umsetzeinrichtung verarbeitet werden;
  • - eine Einrichtung zum Analysieren der vorgegebenen, gesprochenen "Wörter", um deren Endpunkte zu erfassen;
  • - eine Einrichtung zum Speichern der vorge­ gebenen "Wörter";
  • - eine Einrichtung zum Vergleichen jedes Sprachblocks aus der Verifizier-Aufnahme mit Sprachblöcken aus entsprechenden Zonen jedes Auftretens desselben "Worts", das während der besonderen Registrier- Aufnahme des Sprechers gespeichert wurde, und zum Berechnen der Abstände di,T nächster Nachbarn zwischen all solchen Paaren von Verifizier- und Registrier- Blöcken;
  • - eine Einrichtung zum Vergleichen jedes Sprachblocks aus jedem Auftritt von "Wörtern", die die Vorgabe bilden und während der Registrier-Aufnahme für den speziellen Sprecher gespeichert wurden, mit Sprachblöcken aus entsprechenden Zonen der vorgegebenen gesprochenen "Wörter", und zum Berechen der Abstände dj,E nächster Nachbarn zwischen all solchen Paaren von Registrier- und Veri­ fizier-Blöcken;
  • - eine Einrichtung zum Berechnen eines Abstands dT,E aus einem Mittelwert sämt­ licher Nächster-Nachbar-Abstände di,T und einem Mittelwert sämtlicher Nächster- Nachbar-Abstände dj,E;
  • - eine Einrichtung zum Vergleichen des Abstands dT,E mit einem vorbestimmten Wert und zur Veranlassung einer Signal­ ausgabe auf der Grundlage der Differenz zwischen dem Abstand dT,E und dem vorbe­ stimmten Wert.
15. System nach Anspruch 14, bei dem die Bestim­ mung der Abstände di,T nächster Nachbarn und der Abstände dj,T nächster Nachbarn einen zusätzlichen Schritt umfaßt, bei dem jeder der Abstände durch einen Grundwert gewichtet wird, und wobei die Berechnung der Abstände be­ schränkt wird auf einen Bereich, der durch einen Wertungs-Grenzwert definiert wird.
16. System nach Anspruch 14, bei dem die Einrich­ tung zum Vergleichen des Abstands dT,E mit einem vorbestimmten Wert zusätzlich eine Einrichtung enthält, um einen Abstand dT,R zwischen den vorgegebenen, gesprochenen "Wör­ tern" und entsprechenden "Wörtern", die von einer Gruppe von Referenzsprechern eingegeben wurden, zu bestimmen, der in gleicher Weise berechnet wird wie der Abstand dT,E, wobei das Ausgangssignal erzeugt wird auf der Grundlage einer Beziehung zwischen dem Abstand dT,R, dem Abstand dT,E und dem vorbestimmten Schwellen­ wert.
17. System nach Anspruch 14, bei dem die Einrich­ tung zum Analysieren der vorgegebenen ge­ sprochenen "Wörter" zum Erfassen der Endpunkte der "Wörter" zusätzlich bestimmt, ob die die gesprochenen Vorgabe-Wortverbindungen bilden­ den "Wörter" den "Wörtern" in der vorgegebenen Verbindung entsprechen, um den behaupteten Sprecher für den Fall abzuweisen, daß eine derartige Entsprechung nicht existiert.
18. Verfahren zum automatischen Verifizieren eines Sprechers als einen solchen, der eine behaup­ tete Identität besitzt, umfassend die Schritte:
Verarbeiten von gesprochenen Eingabe-Sprach­ signalen zu einer Folge von Blöcken digitaler Daten, die die Eingabesprache repräsentieren,
Identifizieren der Endpunkte der die Eingabe­ sprache bildenden "Wörter",
Analysieren der Sprachblöcke durch ein Sprecher-Verifizier-Modul, welches die ankom­ mende Sprache vergleicht mit einem Referenz­ satz von Sprachmerkmalen, um daraus entspre­ chende Übereinstimmungswertungen zu generie­ ren, und
Bestimmen anhand der Übereinstimmungs-Wertun­ gen, ob die Eingabesprache dem identifizierten Sprecher entspricht, gekennzeichnet durch folgende Merkmale:
Der Vergleich der Eingangssprache mit den Referenz-Sprachmerkmalen durch das Sprecher- Erkennungsmodul umfaßt das Erzeugen einer Übereinstimmungs-Wertung, bei der es sich um eine Summe einer ersten Wertung gleich dem Mittelwert der kleinsten Euklidischen quadrierten Abstände zwischen einem Eingangs- Sprachblock für eine gegebene Zone eines speziellen "Wortes" und Sprachblöcken aus dem Referenzsatz von Sprachmerkmalen entsprechend derselben Zone desselben "Wortes" für sämt­ liche Blöcke aller "Wörter" der Eingangs­ sprache einer zweiten Wertung handelt, die gleich ist dem Mittelwert der kleinsten Eukli­ dischen quadrierten Abstände zwischen einem Sprachblock für eine gegebene Zone eines spe­ ziellen "Wortes" aus dem Referenzsatz an Sprachmerkmalen, und einem Eingabe-Sprachblock entsprechend derselben Zone desselben "Wortes" für sämtliche Blöcke sämtlicher "Wörter", die den Referenzsatz von Sprachmerkmalen bilden.
19. Verfahren nach Anspruch 18, bei dem der Ver­ gleich der Eingangssprache mit den Referenz­ sprachmerkmalen durch das Sprecher-Erkennungs­ modul einen zusätzlichen Schritt aufweist, bei dem jeder der Euklidischen Abstände gewichtet wird durch einen Grundwert, der so berechnet wird, daß die Auswirkungen von Ungleichmäßig­ keiten unter wiederholten Auftritten des vor­ bestimmten gesprochenen Textes, der von dem bestimmten registrierten Sprecher in das System eingegeben wird, in Abzug gebracht werden, wobei die Euklidischen Abstände in einem Bereich berechnet werden, welcher durch einen Wertungs-Grenzwert beschränkt ist.
20. Verfahren nach Anspruch 18, bei dem der Ver­ gleich der Eingangssprache mit den Referenz- Sprachmerkmalen durch das Sprecher-Erkennungs­ modul einen weiteren Schritt beinhaltet, bei dem eine Übereinstimmungs-Wertung geschaffen wird durch Bildung eines Nächster-Nachbar- Abstands zwischen Eingabe-Sprachblöcken und Registrier-Sprachblöcken für einen Satz von Referenzsprechern.
21. Verfahren nach Anspruch 18, umfassend eine Schwellenwertverifizierung, bei der der Teil­ schritt des Identifizierens der Endpunkte der Eingabesprach-"Wörter" zusätzlich erkennt, ob die "Wörter" der Verifizier-Wortverbindung gemäß Vorgabe gesprochen wurden, und die Verifizier-Anforderung bei Nicht-Bestehen einer solchen Schwellenwert-Verifizierung zurückweist.
22. Verfahren nach Anspruch 19, bei dem der Ver­ gleich der ankommenden Sprache mit den Re­ ferenzsprachmerkmalen durch das Sprecherer­ kennungsmodul einen weiteren Schritt beinhal­ tet, bei dem eine Übereinstimmungswertung erzeugt wird, wobei ein Nächster-Nachbar-Ab­ stand zwischen Eingabesprachblöcken und Registriersprachblöcken für einen Satz von Referenzsprechern geschaffen wird.
23. Verfahren nach Anspruch 19, umfassend eine Schwellenwertverifizierung, bei der der Teil­ schritt des Identifizierens der Endpunkte der Eingabesprach-"Wörter" zusätzlich erkennt, ob die "Wörter" der Verifizier-Wortverbindung gemäß Vorgabe gesprochen wurde, und die Veri­ fizier-Anforderung bei Nicht-Bestehen einer solchen Schwellenwertverifizierprüfung zurück­ weist.
24. Verfahren zum automatischen Verifizieren eines Sprechers als solchen, der zu einer be­ haupteten Identität paßt, umfassend die Schritte:
Etablieren der behaupteten Identität,
Erzeugen einer Verifizier-Wortverbindung, welche ein oder mehrere "Wörter" aufweist, die von dem Sprecher gesprochen werden,
Digitalisieren der gesprochenen Eingangs­ sprachsignale zu einer Folge von Blöcken digi­ taler Daten, welche die Eingangssprache reprä­ sentieren,
Identifizieren der Endpunkte der Eingabe­ sprach- "Wörter",
Analysieren der Sprachblöcke durch ein Sprecherverifiziermodul, welches die Eingangs­ sprache vergleicht mit einem Referenzsatz von Sprachmerkmalen des identifizierten Sprechers, welche bei früheren Registrieraufnahmen erhalten wurden, und welches daraus ent­ sprechende Übereinstimmungswertungen gene­ riert, und
auf der Grundlage der Übereinstimmungs­ wertungen, bestimmen, ob die Eingangssprache mit dem identifizierten Sprecher identifiziert wird, dadurch gekennzeichnet, daß
der Vergleich der ankommenden Sprache mit den Referenzsprachmerkmalen durch das Sprecherer­ kennungsmodul das Generieren einer Überein­ stimmungswertung beinhaltet, wobei es sich um die Summe einer ersten Wertung gleich dem Mittelwert der kleinsten euklidischen quadrierten Abstände zwischen einem Eingabe­ sprachblock für eine gegebene Zone eines spe­ ziellen "Wortes" und Registrier-Sprachblöcken, die derselben Zone desselben "Wortes" ent­ sprechen über sämtliche Blöcke sämtlicher "Wörter" der Eingangssprache, und einer zweiten Wertung handelt, die gleich ist dem Mittelwert des kleinsten euklidischen qua­ drierten Abstands zwischen einem Registrier- Sprachblock für eine gegebene Zone eines spe­ ziellen "Wortes" und einem Eingabesprachblock, welcher derselben Zone desselben "Wortes" entspricht, und zwar über sämtliche Blöcke sämtlicher "Wörter", die den Referenzsatz von Sprachmerkmalen bilden,
wobei der Abstand von tj zu dem entsprechenden Registrier-"Wort" E beträgt: und der Abstand von ei zu dem entsprechenden Prüf-"Wort" T beträgt: wobei tj der j-te Block in dem Eingangs-"Wort" T und ei der i-te Block des Registrier-"Worts" E ist, Wi und Fi die Wort- bzw. Blockindices für den Block i und Wj und Fj die Wort- bzw. Blockindices für den Block j sind, und
wobei die erste Wertung gleich dem Mittelwert von dj,E über sämtliche Blöcke und die zweite Wertung gleich dem Mittelwert von di,T über sämtliche Blöcke ist.
25. Verfahren nach Anspruch 24, bei dem der Ver­ gleich der ankommenden Sprache mit den Refe­ renzsprachmerkmalen durch das Sprecherer­ kennungsmodul einen zusätzlichen Schritt bein­ haltet, bei dem jeder der euklidischen Abstän­ de durch einen Grundwert gewichtet wird, der so berechnet ist, daß die Einflüsse von Un­ gleichmäßigkeiten unter wiederholten Auftritten des vorbestimmten gesprochenen und in das System durch den speziellen registrierten Sprecher eingegebenen Texts in Abzug gebracht werden, und wobei die euklidischen Abstände über einen Bereich berechnet werden, der durch einen Wertungsgrenzwert beschränkt ist.
26. Verfahren nach Anspruch 24, bei dem der Ver­ gleich der ankommenden Sprache mit Referenz­ sprachmerkmalen durch das Sprechererkennungs­ modul einen weiteren Schritt beinhaltet, bei dem eine Übereinstimmungswertung der Schaffung eines Nächster-Nachbar-Abstands zwischen Eingabesprachblöcken und Registriersprach­ blöcken für einen Satz von Referenzsprechern erzeugt wird.
27. Verfahren nach Anspruch 24, weiterhin umfas­ send eine Schwellenwertverifizierung, bei der der Teilschritt des Identifizierens der End­ punkte der Eingabesprach-"Wörter" zusätzlich erkennt, ob die "Wörter" der Verifizierwort­ verbindung gemäß Vorgabe gesprochen wurden, und die Verifizieranforderung bei Nicht-Be­ stehen dieser Schwellenwertverifizierprüfung zurückweist.
28. Verfahren nach Anspruch 25, bei dem der Ver­ gleich der ankommenden Sprache mit Referenz­ sprachmerkmalen durch das Sprechererkennungs­ modul einen weiteren Schritt beinhaltet, bei dem eine Übereinstimmungswertung der Schaffung eines Nächster-Nachbar-Abstands zwischen Eingabesprachblöcken und Registriersprach­ blöcken für einen Satz von Referenzsprechern erzeugt wird.
29. Verfahren nach Anspruch 25, weiterhin umfas­ send eine Schwellenwertverifizierung, bei der der Teilschritt des Identifizierens der End­ punkte der Eingabesprach-"Wörter" zusätzlich erkennt, ob die "Wörter" der Verifizierwort­ verbindung gemäß Vorgabe gesprochen wurden, und die Verifizieranforderung bei Nicht-Beste­ hen dieser Schwellenwertverifizierprüfung zurückweist.
DE4310190A 1992-07-22 1993-03-29 Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn Withdrawn DE4310190A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US07/918,560 US5339385A (en) 1992-07-22 1992-07-22 Speaker verifier using nearest-neighbor distance measure

Publications (1)

Publication Number Publication Date
DE4310190A1 true DE4310190A1 (de) 1994-01-27

Family

ID=25440583

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4310190A Withdrawn DE4310190A1 (de) 1992-07-22 1993-03-29 Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn

Country Status (3)

Country Link
US (1) US5339385A (de)
JP (1) JPH06175680A (de)
DE (1) DE4310190A1 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998035118A1 (de) * 1997-02-06 1998-08-13 Siemens Aktiengesellschaft Identifikationsvorrichtung
DE19930522A1 (de) * 1999-07-05 2001-02-01 Univ Ilmenau Tech Verfahren zur Erkennung von Lautsignalen
CN109564759A (zh) * 2016-08-03 2019-04-02 思睿逻辑国际半导体有限公司 说话人识别

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4207837A1 (de) * 1992-03-12 1993-09-16 Sel Alcatel Ag Verfahren und vorrichtung zur ueberpruefung und erlangung einer zugangsberechtigung
US5623539A (en) * 1994-01-27 1997-04-22 Lucent Technologies Inc. Using voice signal analysis to identify authorized users of a telephone system
US5752231A (en) * 1996-02-12 1998-05-12 Texas Instruments Incorporated Method and system for performing speaker verification on a spoken utterance
US5937381A (en) * 1996-04-10 1999-08-10 Itt Defense, Inc. System for voice verification of telephone transactions
DE19630109A1 (de) * 1996-07-25 1998-01-29 Siemens Ag Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner
US5946654A (en) * 1997-02-21 1999-08-31 Dragon Systems, Inc. Speaker identification using unsupervised speech models
US6182037B1 (en) 1997-05-06 2001-01-30 International Business Machines Corporation Speaker recognition over large population with fast and detailed matches
US6076055A (en) * 1997-05-27 2000-06-13 Ameritech Speaker verification method
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US5924070A (en) * 1997-06-06 1999-07-13 International Business Machines Corporation Corporate voice dialing with shared directories
AU752317B2 (en) 1998-06-17 2002-09-12 Motorola Australia Pty Ltd Cohort model selection apparatus and method
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
GB9822931D0 (en) * 1998-10-20 1998-12-16 Canon Kk Speech processing apparatus and method
AU1393899A (en) * 1998-11-10 2000-05-29 Sherrie Ann Adcock Method of comparing utterances for security control
JP3699608B2 (ja) * 1999-04-01 2005-09-28 富士通株式会社 話者照合装置及び方法
ATE276557T1 (de) * 2000-07-10 2004-10-15 Voice Trust Ag Verfahren und system zur authentifizierung eines teilnehmers an einem geschäftsvorgang
DE50012605D1 (de) * 2000-07-14 2006-05-24 Voice Trust Ag Verfahren und System zur Autorisierung einer kommerziellen Transaktion
US6961703B1 (en) 2000-09-13 2005-11-01 Itt Manufacturing Enterprises, Inc. Method for speech processing involving whole-utterance modeling
US7185197B2 (en) * 2000-12-08 2007-02-27 Itt Manufacturing Enterprises, Inc. Method and apparatus to facilitate secure network communications with a voice responsive network interface device
TW490655B (en) * 2000-12-27 2002-06-11 Winbond Electronics Corp Method and device for recognizing authorized users using voice spectrum information
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
US6810146B2 (en) * 2001-06-01 2004-10-26 Eastman Kodak Company Method and system for segmenting and identifying events in images using spoken annotations
WO2004075168A1 (ja) * 2003-02-19 2004-09-02 Matsushita Electric Industrial Co., Ltd. 音声認識装置及び音声認識方法
KR100571574B1 (ko) * 2004-07-26 2006-04-17 한양대학교 산학협력단 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템
US7363223B2 (en) * 2004-08-13 2008-04-22 International Business Machines Corporation Policy analysis framework for conversational biometrics
US7890510B2 (en) * 2005-10-05 2011-02-15 International Business Machines Corporation Method and apparatus for analyzing community evolution in graph data streams
US8078618B2 (en) 2006-01-30 2011-12-13 Eastman Kodak Company Automatic multimode system for organizing and retrieving content data files
US7769583B2 (en) * 2006-05-13 2010-08-03 International Business Machines Corporation Quantizing feature vectors in decision-making applications
GB0616070D0 (en) * 2006-08-12 2006-09-20 Ibm Speech Recognition Feedback
US8831941B2 (en) * 2007-05-29 2014-09-09 At&T Intellectual Property Ii, L.P. System and method for tracking fraudulent electronic transactions using voiceprints of uncommon words
WO2010019831A1 (en) * 2008-08-14 2010-02-18 21Ct, Inc. Hidden markov model for speech processing with training method
RU2419890C1 (ru) 2009-09-24 2011-05-27 Общество с ограниченной ответственностью "Центр речевых технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
US8990085B2 (en) * 2009-09-30 2015-03-24 At&T Intellectual Property I, L.P. System and method for handling repeat queries due to wrong ASR output by modifying an acoustic, a language and a semantic model
US9318114B2 (en) * 2010-11-24 2016-04-19 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
US8903929B2 (en) * 2012-07-05 2014-12-02 Microsoft Corporation Forgotten attachment detection
US8700396B1 (en) * 2012-09-11 2014-04-15 Google Inc. Generating speech data collection prompts
RU2530314C1 (ru) * 2013-04-23 2014-10-10 Общество с ограниченной ответственностью "ЦРТ-инновации" Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке
US10303706B2 (en) * 2013-11-27 2019-05-28 William Scott Harten Condensed hierarchical data viewer
US10223512B2 (en) * 2016-08-25 2019-03-05 Sensory, Incorporated Voice-based liveness verification
US11170790B2 (en) 2019-06-27 2021-11-09 Bose Corporation User authentication with audio reply
CN111260836A (zh) * 2019-12-31 2020-06-09 云南电网有限责任公司楚雄供电局 门禁控制方法、装置、系统、仓储系统及电子设备
US11823684B2 (en) * 2020-11-19 2023-11-21 Google Llc Generating and/or utilizing voice authentication biasing parameters for assistant devices

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720863A (en) * 1982-11-03 1988-01-19 Itt Defense Communications Method and apparatus for text-independent speaker recognition
JPS59178587A (ja) * 1983-03-30 1984-10-09 Nec Corp 話者確認システム
US4773093A (en) * 1984-12-31 1988-09-20 Itt Defense Communications Text-independent speaker recognition system and method based on acoustic segment matching
US4837830A (en) * 1987-01-16 1989-06-06 Itt Defense Communications, A Division Of Itt Corporation Multiple parameter speaker recognition system and methods
US5121428A (en) * 1988-01-20 1992-06-09 Ricoh Company, Ltd. Speaker verification system
US5216720A (en) * 1989-05-09 1993-06-01 Texas Instruments Incorporated Voice verification circuit for validating the identity of telephone calling card customers
US5167004A (en) * 1991-02-28 1992-11-24 Texas Instruments Incorporated Temporal decorrelation method for robust speaker verification

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998035118A1 (de) * 1997-02-06 1998-08-13 Siemens Aktiengesellschaft Identifikationsvorrichtung
DE19930522A1 (de) * 1999-07-05 2001-02-01 Univ Ilmenau Tech Verfahren zur Erkennung von Lautsignalen
CN109564759A (zh) * 2016-08-03 2019-04-02 思睿逻辑国际半导体有限公司 说话人识别
CN109564759B (zh) * 2016-08-03 2023-06-09 思睿逻辑国际半导体有限公司 说话人识别

Also Published As

Publication number Publication date
JPH06175680A (ja) 1994-06-24
US5339385A (en) 1994-08-16

Similar Documents

Publication Publication Date Title
DE4310190A1 (de) Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
DE3236832C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69831114T2 (de) Integration mehrfacher Modelle für die Spracherkennung in verschiedenen Umgebungen
DE69814195T2 (de) Vorrichtung zur Sprechererkennung
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE4436692C2 (de) Trainingssystem für ein Spracherkennungssystem
DE69432570T2 (de) Spracherkennung
EP0821346B1 (de) Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69636057T2 (de) Sprecherverifizierungssystem
DE19636739C1 (de) Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
DE60124408T2 (de) System und Verfahren für automatische Spracherkennung unter Verwendung von Mapping bzw. Abbildung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE60124551T2 (de) Verfahren und vorrichtung zur erzeugung der referenzmuster für ein sprecherunabhängiges spracherkennungssystem
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE10030105A1 (de) Spracherkennungseinrichtung
DE60004331T2 (de) Sprecher-erkennung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE2918533A1 (de) Spracherkennungssystem
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8139 Disposal/non-payment of the annual fee