DE4310190A1

DE4310190A1 - Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn

Info

Publication number: DE4310190A1
Application number: DE4310190A
Authority: DE
Inventors: Alan Lawrence Higgins
Original assignee: International Standard Electric Corp
Current assignee: International Standard Electric Corp
Priority date: 1992-07-22
Filing date: 1993-03-29
Publication date: 1994-01-27
Also published as: JPH06175680A; US5339385A

Description

Die Erfindung betrifft Sprecher-Verifizierungs systeme allgemein, insbesondere betrifft sie ein System, bei dem die Beurteilungen der Sprecheriden tifizierung auf der Grundlage der Abstände zwischen nächsten Nachbarn beruhen, wie sie zwischen gerade geäußerten Wörtern und gespeicherten Registrier- Wörtern errechnet werden.

Ein Sprecher-Verifizierungssystem bestimmt, ob eine Person, welche eine zuvor innerhalb des Systems festgelegte Identität beansprucht, die identifi zierte Person ist oder nicht, indem ein Paßwort (welches mehrere Sprach-"Wörter" umfassen kann), das von einer die Identifizierung anstrebenden Person zur Zeit der Identifizierungs-Anforderung ausgesprochen wird, verglichen wird mit zuvor abge speicherter Sprache, welche entsprechende "Wörter" enthält, die von der identifizierten Person in das System eingegeben wurden. Ein solches System ist besonders brauchbar als Einrichtung zum Steuern des Zugangs/Ausgangs in einem oder aus einem Sicher heitsbereich, oder um Zugang zu einem gesicherten Nachrichtensystem zu erhalten.

Bei den meisten existierenden Sprecher-Verifizie rungssystemen basiert der Vergleich zwischen dem ausgesprochenen Paßwort und dem Bezugs-Sprachvoka bular, welches vorab in das System von dem identi fizierten Sprecher eingegeben wurde, auf einer Messung des euklidischen Abstands zwischen Elemen ten der Paßwort-Sprache und der Referenzsprache, wobei ein Rechner verwendet wird, der diese Sprachelemente verarbeitet, die zu diesem Zweck in digitale Form umgesetzt worden sind. Ein solcher Vergleich kann darüber hinaus eine Messung solcher Abstände von Elementen der Paßwort-Sprache und als Bezugsgrundlage eingerichteten Gattungs-Sprachele menten beinhalten. Wenn der so gemessene Abstand geringer ist als ein vorbestimmter Wert und im Fall eines Verifizierungssystems unter Verwendung der Referenzsprache-Messung kleiner ist als jegliche derartige Referenzmessung, so wird der Sprecher als identifizierter Sprecher eingestuft, und falls der Abstand größer ist als der Schwellenwert (oder eine oder mehrere der Referenzmessungen) wird der Sprecher als Betrüger eingestuft. Ein Beispiel für ein solches Sprecher-Verifizierungssystem findet sich in der US-PS 4 694 493 (Sakoe) mit dem Titel "Speaker Verification System" vom 15. September 1987.

Eine Beschränkung, die sämtlichen Sprecher-Verifi zierungssystemen gemeinsam ist, besteht darin, daß eine exakte Abgleichung zwischen der Paßwort- Sprache und der Referenz-Sprache wenn überhaupt, dann nur sehr selten erzielbar ist. Der Grund hier für ist der, daß naturgemäß Unterschiede in der speziellen Stimme des Sprechers auftreten zwischen dem Zeitpunkt der Eingabe der Referenz-Sprache in das System einerseits und der Verifizierungs-Anfor derung andererseits, und außerdem der Umstand, daß der Prozeß der Umsetzung der Analog-Wellenform der Stimme des Sprechers in digitalisierte Sprachkompo nenten geringfügige Schwankungen in diesen Komponenten zwischen der Referenz-Sprache einer seits und der Paßwort-Sprache andererseits hervor rufen kann, auch wenn Schwankungen der Wellenform der Sprache des Sprechers zwischen der Referenz- Sprache und der Paßwort-Sprache nicht vorhanden sein sollten.

Diese Beschränkung manifestiert sich in zwei mög lichen Fehlern des Sprecher-Verifizierungssystems: entweder eine fälschliche Zurückweisung des identi fizierten Sprechers oder ein fälschliches Akzeptieren eines Betrügers. Die Konsequenz eines solchen Fehlers besteht in der speziellen Auswahl eines Schwellenwertes, der als Grundlage für den Vergleich mit dem gemessenen Abstand zwischen den Elementen der Paßwort-Sprache und den Elementen der Referenz-Sprache hergenommen wird. Von einem niedrigen Schwellenwert kann erwartet werden, daß er die Wahrscheinlichkeit des Akzeptierens eines Betrügers minimiert, jedoch auch die Wahrschein lichkeit erhöht, daß die identifizierte Person abgewiesen wird. Ein hoher Schwellenwert anderer seits verringert die Wahrscheinlichkeit des Zurück weisens der identifizierten Person, erhöht jedoch die Wahrscheinlichkeit des Akzeptierens eines Betrügers. Während die Zuverlässigkeit (d. h. die Vermeidung fehlerhafter Ergebnisse) eines solchen Sprecher-Verifizierungssystems sich verbessern läßt durch Erhöhung der Anzahl von analysierten Sprach komponenten, so leidet diese Vorgehensweise jedoch an folgenden, miteinander in Beziehung stehenden Beschränkungen: (1) die Arbeitsleistung des Rechners ist begrenzt und (2) durch menschliche Eigenarten bedingte "Akzeptanz" seitens des Benutzers begrenzt die Verifizierungs-Verarbei tungszeit auf einen sehr kurzen Zeitraum (mög licherweise nicht mehr als 15 bis 20 Sekunden).

Auf der Suche nach einem auf Vergleichsmessung basierenden Sprecher-Verifizierungssystem, welches ein akzeptierbares Sicherheitsniveau gewährleistet und gleichzeitig die Wahrscheinlichkeit der Zurück weisung eines identifizierten Sprechers minimiert, wurden auch Methoden der willkürlichen Verteilung angewendet, um Komponenten des Paßworts aus einem Vokabular von Referenz-"Wörtern" zu bestimmen, die von dem identifizierten Sprecher in das System eingegeben wurden. Herkömmliche Sprecher-Verifizie rungssysteme forderten typischerweise die um Iden tifizierung nachsuchende Person auf, als Paßwort eine fixe Wortverbindung zu lesen, um das so ge sprochene Paßwort mit früheren Äußerungen der selben Wortverbindung oder desselben Paßworts seitens des identifizierten Sprechers zu vergleichen. Durch Verwendung fixer Vorgaben boten derartige Systeme potentiellen Betrügern die Mög lichkeit, Antworten (auch auf Band gezeichnete Antworten) vorab vorzubereiten, um so die Chancen einer ungerechtfertigten Verifizierung zu erhöhen. Durch die Benutzung von zum Zeitpunkt der Verifi zierung zufallsbedingt zusammengesetzter Prüf-Wort verbindungen, verbunden mit dem Erfordernis, daß der Wortinhalt der gesprochenen Äußerung mit der Vorgabe übereinstimme, wird die Wahrscheinlichkeit, mit der ein Betrüger akzeptiert wird, spürbar ver ringert. Es gibt nämlich derart viele Sprach vorgaben, daß ein möglicher Betrüger praktisch keine Chance hat, mit einer akzeptablen Antwort vorbereitet zu sein. Ein Beispiel für den Einsatz derartiger Methoden willkürlicher oder zufalls bedingter Verteilung in Sprach-Verifizierungs systemen findet sich in einem Artikel mit dem Titel "Personal Identity Verification Using Voice", dar gestellt von Dr. George R. Doddington, abgedruckt in Proc. ELECTRO-76, 11.-14. Mai 1976, Seiten 22-4, 1-5.

Die Zufallsverteilung von Prüf-Wortverbindungen führt jedoch zu einem neuen Problem. Es treten Wörter in Kontexten (Umgebungswörtern) auf, die in den registrierten Wortverbindungen nicht vorkommen. Der Kontext, in welchem ein Wort ausgesprochen wird, beeinflußt dessen Aussprache aufgrund von Koartikulation, verursacht durch Beschränkungen bei der Bewegung der Sprach-Artikulatoren. Derartige Koartikulationen, die bei dem Verifizierungs- Analysemodell nicht berücksichtigt worden sind, haben Anteil an der gemessen Unähnlichkeit zwischen den Prüf- und den registrierten Äußerungen, was die Wahrscheinlichkeit einer falschen Abweisung des identifizierten Sprechers erhöht.

Frühere Arbeiten des Erfinders überwinden diese Schwierigkeit teilweise durch ein als Wahrschein lichkeits-Wertung (Likelihood Scoring) bezeichnetes Wertungsverfahren. Vergleiche A. Higgins, L. Bahler und J. Porter, "Speaker Verification Using Randomized Phrase Prompting", 1991 (Manuskript in Vorbereitung). Die vorliegende Erfindung baut auf diesen früheren Arbeiten auf und schafft eine fertige Lösung des Koartikulations-Problems. Aller dings ist anzumerken, daß die vorliegende Erfindung auch auf Verifizierungs-Systeme anwendbar ist, die mit fixen (d. h. nicht auf Zufallsverteilung beruhenden) Wortverteilungs-Vorgaben beruht.

Frühere Sprecher-Verifizierungssysteme verwendeten üblicherweise Wortschablonen als Grundlage für die Abgleichung von Sprachäußerungen. Bei diesen Ver fahren werden Wortschablonen aus den Vorkommen der Wörter, die während der Registrierung ausgesprochen werden. Als Beispiel für die Verwendung derartiger Schablonen sei verwiesen auf die US-PS 4 773 093 (Higgins et al.) mit dem Titel "Test-Independent Speaker Recognition System And Methods Based On Acoustic Segment Matching" vom 20. September 1988 (Anmelder ITT Corporation). Bei dem Verifizierungs vorgang werden die Wortschablonen vorübergehend mit dem Auftreten derselben Wörter in denselben Wort verbindungen ausgerichtet und dazu benutzt, einen Abstand oder eine Unähnlichkeits-Wertung abzu leiten. Im allgemeinen werden zwei Verfahren zum Ableiten von Wortschablonen verwendet, die beide unterschiedliche Probleme bezüglich der Koarti kulation aufweisen. Bei dem einen Verfahren werden gemittelte Schablonen dadurch hergeleitet, daß vorübergehend sämtliche registrierten Vorkommen jedes Wortes ausgerichtet und die Blockbestandteile gemittelt werden. Das Problem bei gemittelten Scha blonen besteht darin, daß die Verschiedenheit von Koartikulationen in der Nähe von Wortgrenzen durch die Mittelwertbildung kaum repräsentiert wird. Bei dem zweiten Verfahren werden Mehrfach-Schablonen für individuelle Wort-Vorkommen aus den registrier ten Wortverbindungen extrahiert (mit Mehrfach-Dar stellungen jedes Worts). Das Problem bei Mehrfach- Schablonen besteht darin, daß die Koartikulation sowohl den Anfang als auch das Ende jedes Worts beeinflußt, und man müßte eine vorsorglich große Anzahl von Schablonen pro Wort bereitstellen, um gleichzeitig sämtliche möglichen Kontexte auf beiden Seiten zu berücksichtigen.

Diese Probleme mit dem Wortschablonen-Abgleich wurden durch eine jüngere Entwicklung im Bereich der Sprecher-Verifizierungssysteme zurückgedrängt: ein Vergleich von Prüf-Wortverbindungen mit registrierten Wortverbindungen unter Verwendung von einzelnen Blöcken und nicht von Wörtern als unteil bare Einheiten. Blöcke (Frames) der registrierten Daten werden direkt, ohne Mittelwertbildung, für den Vergleich herangezogen. Dadurch lassen sich die Probleme bei Mehrfachschablonen deshalb vermeiden, weil jeder Block effektiv ein "Schnappschuß" ist, der einen einzelnen zeitlichen Augenblick repräsen tiert. Die Verwendung derartiger Blöcke von Sprach daten ist ausführlich beschrieben in dem US-Patent 4 720 863 (Li et al.) mit der Bezeichnung "Method and Apparatus For Text-Independent Speaker Recognition" vom 19. Januar 1988 (ITT Corporation). Es sei weiter verwiesen auf die US-PS 4 837 830 Wrench, Jr. et al. mit dem Titel "Multiple Parameter Speaker Recognition System And Methods" vom 6. Juni 1989 (ITT Corporation).

Eine weitere Verbesserung bei der Analyse und bei dem Vergleich von Sprachdaten wurde von L. Bahler entwickelt und findet ihren Niederschlag in seiner als "Speaker Sorter" bezeichneten Erfindung (US-SN 07/699 217, eingereicht am 13. Mai 1991). Hier ist die Verwendung eines Basislinien-Algorithmus für die Sprechererkennung vorgeschlagen, der von nicht parametrischer Natur ist und keine Annahme bezüg lich der statistischen Verteilungen von Sprachmerk malen vornimmt. Die Referenzdaten zur Kennzeichnung der Sprachmuster eines gegebenen Sprechers umfassen einen umfangreichen Satz von Sprachmerkmalsvektoren und nicht einen Satz von abgeschätzten Verteilungs parametern. Ein bedeutender Vorteil dieser von Bahler vorgeschlagenen Vorgehensweise besteht in der Verwendung von nicht-parametrischen Verfahren, da die Weiterentwicklung der parametrischen Ver fahren - in Richtung auf noch kompliziertere Ver teilungen, die die wirkliche Sprache möglicherweise noch exakter approximieren - die Schwierigkeit in sich birgt, eine erhöhte Anzahl von statistischen Parametern abzuschätzen, die derartige Modelle mit sich bringen.

Es ist ein Ziel der vorliegenden Erfindung, ein verbessertes Sprecher-Verifizierungssystem zu schaffen, welches sich durch eine niedrige Fehler rate auszeichnet und dennoch die Verifizierungs- Verarbeitungszeit minimiert und/oder die erforder liche Rechnerleistung reduziert.

Erfindungsgemäß umfaßt ein Sprecher-Verifizierungs system: einen Eingabesprachprozessor zum Verar beiten von in das System eingegebener Sprache, wodurch die Sprache abgetastet, digitalisiert und in Blöcke umgesetzt wird, von denen jeder Block aus mehreren Sprachvektorkomponenten besteht; einen Registriermechanismus, durch den ein oder mehrere Sprecher in dem System registriert werden können und ein von einem Sprecher gesprochener vorbestimmter Text durch den Eingabesprachprozessor verarbeitet und in dem System gespeichert wird; einen auf eine Identifizierungs-Anforderung seitens eines Sprechers, der ein registrierter Sprecher zu sein behauptet, ansprechenden Mechanismus zum Er zeugen einer Vorgabe-Wortverbindung, die ein oder mehrere "Wörter" enthält, die von dem vorbestimmten gesprochenen Text abgeleitet sind, der von dem bestimmten registrierten Sprecher eingegeben ist, woraufhin die Vorgabe-Wortverbindung durch den behaupteten Sprecher ausgesprochen wird und die gesprochene Vorgabe-Wortverbindung in das System eingegeben wird, um von dem Eingabesprachprozessor verarbeitet zu werden; einen Mechanismus zum Analy sieren einer solchen gesprochenen Wortverbindung, um die Endpunkte der eine solche gesprochene Vor gabe-Wortverbindung bildenden "Wörter" zu erfassen; ein Verifikations-Modul, welches (1) die Abstände d_i,T nächster Nachbarn und Abstände d_j,E nächster Nachbarn bestimmt, wobei die Abstände d_i,T nächster Nachbarn berechnet werden als Euklidische Abstände zwischen jedem Block der verarbeiteten gesprochenen Vorgabe-Wortverbindung und Sprach-Blöcken aus entsprechenden Zonen jedes Auftretens desselben "Wortes", welches während der Registrierung des bestimmten registrierten Sprechers in das System gespeichert wurde, während die Abstände d_j,E nächster Nachbarn berechnet werden als die Euklidischen Abstände zwischen jedem Block jedes Auftretens jedes "Wortes", welches Bestandteil der Vorgabe-Wortverbindung ist, und Sprach-Blöcken aus entsprechenden Zonen jedes Auftretens desselben "Wortes" in der verarbeiteten gesprochenen Vorgabe- Wortverbindung, und (2) einen Abstand d_T,E bestimmt zwischen der verarbeiteten gesprochenen Vorgabe- Wortverbindung und entsprechenden "Wörtern", die bei der Registrierung des bestimmten registrierten Sprechers in dem System in das System eingegeben worden sind, wobei der Abstand d_T,E abgeleitet wird aus einem Mittelwert sämtlicher Nächster-Nachbar- Abstände d_i,T und einem Mittelwert sämtlicher Nächster-Nachbar-Abstände d_j,E, (3), eine Verifikations-Wertung aus solchen Abstandsdaten bestimmt, und (4) daraus bestimmt, ob der behauptete Sprecher der bestimmte, registrierte Sprecher ist.

Gemäß einem weiteren Aspekt der Erfindung umfaßt die Bestimmung der Nächster-Nachbar-Abstände d_i,T und der Nächster-Nachbar-Abstände d_j,E durch das Verifikations-Modul einen zusätzlichen Schritt des Wichtens jedes der Abstände durch einen Grundwert, der berechnet wird, um die Einflüsse der Verschiedenheit unter wiederholten Auftritten eines vorbestimmten besprochenen Textes, der von dem speziellen registrierten Sprecher in das System eingegeben wurde, in Abzug zu bringen, wobei die Berechnung der Euklidischen Abstände beschränkt wird auf einen Bereich, der durch einen Wertungs- Grenzwert definiert wird.

Gemäß einem noch weiteren Aspekt der vorliegenden Erfindung umfaßt die Bestimmung einer Verifikations-Wertung durch das Verifikations-Modul zusätzlich eine Einrichtung zum Bestimmen eines Abstands d_T,R zwischen der verarbeiteten gesprochenen Vorgabe-Wortverbindung und den ent sprechenden "Wörtern", die durch eine Gruppe von Referenz-Sprechern in das System eingegeben wurden, wobei die Abstände in ähnlicher Weise berechnet werden wie der Abstand d_T,E, wobei die Bestimmung, ob der behauptete Sprecher der bestimmte registrierte Sprecher ist, abgeleitet wird aus einer Beziehung zwischen dem Abstand d_T,R, dem Abstand d_T,E und dem vorbestimmten Schwellenwert.

Im folgenden werden Ausführungsbeispiele der Erfin dung anhand der Zeichnung näher erläutert. Es zeigen:

Fig. 1 ein Blockdiagramm einer bevorzugten Ausführungsform der vorliegenden Erfin dung; und

Fig. 2 eine Skizze, die die Vorgehensweise bei der Abstandsmessung gemäß der Erfindung veranschaulicht.

Fig. 1 zeigt in Form eines Blockdiagramms den Aufbau, der den Betrieb gemäß der Erfindung ermög licht. Wenn eine Identitätsanforderung über eine Tastatur 1 eingegeben wird, bringt ein Zufalls- Vorgabe-Generator 2 eine Vorgabe-Wortverbindung auf dem Bildschirm 3 einer Kathodenstrahlröhre (CRT) zur Anzeige, damit der Benutzer diese Wortverbin dung in einen Telephon-Handapparat spricht. Das von dem Handapparat kommende elektrische Signal wird verstärkt und in digitale Form umgesetzt. Bei dieser Umwandlung wird das Signal mit einer Frequenz von 8000 Hz zu Zwölf-Bit-Abtastwerten abgetastet. Die Sequenz von Abtastungen wird in Blöcken von 22,4 Millisekunden analysiert. Diese Analyse übernimmt das in Fig. 1 dargestellte Steuerteil 5. Bei dieser Ausführungsform erzeugt die Analyse einen Vektor von 20 Komponenten für jeden Block. Die ersten zehn Komponenten des Vektors sind Cepstral-Koeffizienten, wie sie z. B. beschrieben sind in B. Gold und C.M. Radar, Digital Processing of Signals, McGraw Hill, New York, 1969, und die letzten zehn Komponenten sind Log-Bereichs- Verhältnisse, wie sie z. B. beschrieben sind in V. Viswanathan und J. Makhoul, Quantization Properties of Transmission Parameters in Linear Predictive Systems, IEEE Trans. on Acoustics, Speach and Sig. Proc., Vol. ASSP-23, Seiten 309-321, Juni 1975. Sowohl die Cepstral-Koeffizienten als auch die Log- Bereichs-Verhältnisse werden aus der Standard-LPC- 10-Analyse abgeleitet. Bezüglich einer Beschreibung einer solchen Linear Predictive Coding-Analyse wird verwiesen auf T. Tremain, The Government Standard Linear Predictive Coding Algorithm: LPC-10, Speech Technology, Seiten 40-49, April 1982 und J.D. Markel und A.H. Gray Jr., Linear Prediction of Speech, Springer Verlag, New York, 1976. Die Ein zelheiten des Steuerteils 5 sind bezüglich der Erfindung nicht speziell oder kritisch. Andere Analyse-Arten könnten ebenfalls verwendet werden.

Der Strom von Blöcken aus dem Steuerteil 5 wird zu den Komponenten "Worterkenner" 6 und "Sprecher- Verifizierer" des Systems gesendet. Der Worter kenner 6 markiert die Endpunkte jedes "Wortes" in diesem Datenstrom, und in der bevorzugten Ausführungsform bestimmt er, ob die gesprochene Verifizierungs-Wortverbindung mit der Vorgabe-Wort verbindung übereinstimmt. Bei der Durchführung einer solchen Wortverbindungs-Erkennungsfunktion verwendet der Worterkenner 6 einen Standard-Erken nungs-Algorithmus zum Erkennen verbundener Wörter, wobei die diesbezüglichen Einzelheiten nicht für die Erfindung relevant sind. Der Benutzer wird abgewiesen, wenn der Worterkenner 6 feststellt, daß die Vorgabe-Wortverbindung nicht ausgesprochen wurde. Wenn von der Wortverbindung festgestellt wird, daß sie so, wie sie vorgegeben wurde, ausge sprochen worden ist, gibt der Worterkenner 6 eine Liste aus, die die Anfangs- und End-Blocknummern jedes Wortes in der gesprochenen Wortverbindung enthält. Der Sprecher-Verifizierer 7 beginnt dann mit der Aufnahme seines Betriebs, wie es unten unter "Verifizierungsfunktion" beschrieben ist.

Der Registriervorgang ist der gleiche, wie er oben erläutert wurde, mit der Ausnahme, daß solche Wortverbindungen (Sätze), die als fehlerhaft ausge sprochen eingestuft wurden, erneut vorgegeben werden und eine Registrierungs-Komponente die Sprecher-Verifizierkomponente ersetzt.

Verifizierfunktion

Eine wichtige Verbesserung gegenüber dem Stand der Technik besteht in den Verifizierfunktionen des Systems. Um diese Sprecher-Verifizierfunktion zu verstehen, soll als erstes die folgende Messung des Euklidischen Abstands zwischen einer Prüf-Aufnahme T und einer Registrier-Aufnahme E betrachtet werden, wie sie von Bahler (siehe oben) beschrieben wird. Es sei t_j der j-te Block von T, und e_i sei der i-te Block von E. Der Abstand des nächsten Nachbarn oder der Nächste-Nachbar-Abstand d_j,E von t_j zu E beträgt

und der Abstand nächster Nachbarn d_i,T von e_i zu T beträgt

Die Zwischen-Block-Abstände (|t_j-e_i|²) werden für sämtliche Paare von Blöcken t_j und e_i berechnet, wobei j über sämtliche Prüf-Blöcke und i über sämtliche Registrier-Blöcke reicht. Das Maß des Abstands von T zu E (d. h. der Abstand d_T,E) beträgt dann,

Der hier vorgestellte Sprecher-Verifizierer stellt gegenüber diesem bekannten Abstandsmaß eine Verbes serung in zweierlei Hinsicht dar. Anstatt daß jeder Block jeder Prüf-Aufnahme mit jedem Block der Registrier-Aufnahme verglichen wird, vergleicht die Erfindung lediglich Prüf- und Registrier-Blöcke aus denselben Zonen desselben Worts. Beispielsweise wird ein Prüf-Block bei einem Viertel des Wegs durch das Wort "twen" (das Vokabular wird unten beschrieben) lediglich verglichen mit den Registrier-Blöcken, die sich ebenfalls etwa bei einem Viertel des Wegs durch das Wort "twen" befinden. Dies ist in Fig. 2 veranschaulicht. Die Positionen von Blöcken innerhalb von Wörtern in den Prüf- und Registrier-Aufnahmen werden aus den Wort- Endpunkten bestimmt und durch den Worterkenner 6 geliefert. Jeder zu einem Wort gehörige Block wird einem Wortindex und einem Blockindex zugeordnet. Für einen Block i identifiziert der Wortindex W(j) das Wort, und der Block F(i) ist ein Wert im Bereich von 0F(i)<8. Dem n-ten Block eines k- Blöcke enthaltenden Worts wird der Index F(n)=md[n*(8-1)/(N-1)0] zugeordnet, wobei md(*) die Rundung auf den nächsten ganzzahligen Wert bedeu tet. Prüf-Blöcke mit dem Index f werden mit sämtlichen Registrier-Blöcken desselben Worts mit Indices 0 und 1 verglichen, falls f=0, oder mit f-1, f und f+1, falls 1f<7; oder mit 6 und 7, falls f<7. Der Suchbereich für übereinstimmende Registrier-Blöcke wird in ähnlicher Weise beschränkt. Dann wären die Gleichungen 1a und 1b zu:

Ein solches Beschränken des Suchbereichs auf die Abstände nächster Nachbarn hat den doppelten Vorteil, daß zum einen die Verifiziergenauigkeit des Systems verbessert und zum anderen die zu bewältigende Rechenleistung herabgesetzt wird, verglichen mit der Suche, die sich über sämtliche Blöcke erstreckt. Man sieht außerdem, daß bei einem gegebenen Sicherheitsgrad die Verarbeitungszeit für einen Verifiziervorgang minimiert wird.

Die zweite Verbesserung gegenüber dem Stand der Technik betrifft die Berechnung der Abstände nächster Nachbarn. Jedem Registrier-Block e_i wird ein Grundwert b_i und ein Wertungs-Grenzwert l_i während der Registrierprozedur zugeordnet (wobei die Prozedur gemäß der unten beschriebenen Vorgehensweise abläuft). Der Grundwert wird so gewählt, daß die Einflüsse der Ungleichheiten z. B. Sprachschwankungen unter den Registrier- Wortverbindungen eines gegebenen Sprechers, in Abzug gelangen, und der Wertungs-Grenzwert wird so bestimmt, daß der Einschluß der Registrier-Sprach komponenten, die außerhalb des Bereichs liegen, in welchem die meisten derartigen Werte gefunden werden, reduziert wird. Durch Anwendung dieser Faktoren werden der Abstand nächster Nachbarn, d_j,T und der Abstand d_i,T nächster Nachbarn erneut folgendermaßen modifiziert:

wobei hlim (*) die folgende harte Begrenzung darstellt:

Nachdem gemäß Fig. 1 die oben beschriebenen Berechnungen der Zwischenblock-Abstände der nächsten Nachbarn durch den Sprecher-Verifizierer 3 vorgenommen wurden, wird anschließend der Abstand d_T,E zwischen der Prüf-Wortverbindung T zu der Registrier-Aufnahme E gemäß Gleichung 2 festge stellt. Im abschließenden Schritt des Betriebs des Sprecher-Verifizierers kann eine Verifizierung auf der Grundlage der Beziehung des Abstands d_T,E zu einem vorbestimmten Schwellenwert erfolgen, bei der bevorzugten Ausführungsform jedoch ist ein zusätz licher Schritt der Berechnung des Abstands von der Prüf-Aufnahme zu den Registrier-Aufnahmen des anfordernden Benutzers und von der Prüf-Aufnahme zu den Registrier-Aufnahmen einer Gruppe von M weite ren Sprechern, die als Referenzsprecher bezeichnet sind, vorgesehen.

In einer Ausführungsform werden 20 Referenzsprecher benutzt. Die Gruppe von Referenzsprechern für eine gegebene Verifizierungs-Prüfung hängt von der beanspruchten Identität ab. Referenzsprecher werden aus der Population solcher Sprecher auf der Grund lage der Ähnlichkeit der Stimmen der Referenz sprecher mit der Stimme des anfordernden Benutzers ausgewählt. Ein geeigneter Algorithmus für die Auswahl von Referenzsprechern ist beschrieben in A. Higgins, L. Bahler und J. Porter in "Speaker Verification Using Randomized Phrase Prompting", 1991; Digital Signal Processing, Vol. 1, No. 2, April 1991, veröffentlicht von Academic Press, Inc., Seite 89.

Die endgültige Verifizierungs-Wertung lautete dann:

wobei C der anfordernde oder behauptete Sprecher ist, S(C) die Anzahl von Registrier-Aufnahmen von C, c_i die i-te Registrier-Aufnahme des behaupteten Sprechers, S(j) die Anzahl von Registrier-Aufnahmen des Referenzsprechers j und r^j _k die k-te Registrier-Aufnahme des Referenzsprechers j ist. Die endgültige Verifizier-Wertung wird verglichen mit einem fixen Schwellenwert, der für das ge wünschte Verhältnis von Fehlerraten der ungerecht fertigten Akzeptierung und der fehlerhaften Zu rückweisung eingestellt werden kann. Der Benutzer wird abgewiesen, wenn die Verifizier-Wertung den Schwellenwert übersteigt, ansonsten wird er akzep tiert.

Festlegung von Grund- und Wertungs-Grenzwerten

Wie oben beschrieben, werden ein Grundwert und ein Wertungs-Grenzwert während des Registrierprozesses für jeden Block jeder Registrieraufnahme bestimmt. Der Grundwert b_j für den Block j einer Registrier- Aufnahme beträgt

und der Wertungs-Grenzwert l_j beträgt

wobei die Variablen W_i, W_j, F_i und F_j vorab für die Gleichungen 3(a) und 3(b) definiert sind.

Registrier-Vokabular

In der bevorzugten Ausführungsform der Erfindung besteht das Registrier-Sprachmaterial aus "Kombina tions-Verbund-"Wortverbindungen. Ein Beispiel ist "35-72-41", ausgesprochen "thirty-five, seventy- two, fourty-one". Jede Wortverbindung besteht aus Zahlen zwischen 21 und 97. Das Registrier-Vokabular umfaßt 56 derartige Zahlen, beginnend mit den 90 zweiziffrigen Zahlen ohne (1) "12" und die Zehner; (2) Dekaden (20, 30 usw.); (3) Doppelziffern; und (4) Zahlen, die mit "8" enden. Mithin gibt es 56³ oder 175.616 mögliche Drei-Wort-Vorgabe-Wortverbin dungen, wobei derartige Drei-Wort-Vorgabe-Wortver bindungen die bevorzugte Ausführungsform der Erfin dung darstellen. Der Worterkenner 6 gleicht die Wortverbindungen unter Verwendung von Teilwort- Schablonen ab ("Thir-ti-five-Seven-ti-two-Four-ti- one"). Hierdurch läßt sich das gesamte Vokabular unter Verwendung von lediglich zehn Schablonen darstellen. Bei der bevorzugten Ausführungsform erfordert eine Verifizier-Aufnahme das Sprechen von vier vorgegebenen Wortverbindungen. Eine Registrier-Aufnahme besteht aus 24 Wortverbindun gen, die typischerweise etwa drei Minuten zur Aus sprache benötigen.

Die "Wörter" in den vorgezeigten Verifizier-Wort verbindungen werden aus dem Registrier-Vokabular herausgezogen und bei der bevorzugten Ausführungs form dadurch kombiniert, daß eine zufällige Wort reihenfolge gemäß einer Endzustand-Syntax ausge wählt wird, die zahlreiche mögliche Wortfolgen erlaubt. Registrier-Wortverbindungen setzen sich aus denselben "Wörtern" zusammen und werden gemäß der gleichen Syntax erzeugt, jedoch nicht auf Zu fallsbasis. Der Satz von Registrier-Wortverbindun gen wird so ausgewählt, daß eine ausgewogene Darst ellung sämtlicher "Wörter" des Vokabulars angefor dert wird. Die Registrier- und die Verifizier-Wort verbindungen werden zusammenhängend ausgesprochen, ohne Pausen zwischen den Wörtern.

Claims

1. Sprecher-Verifizierungssystem, umfassend:

- Eine Verarbeitungseinrichtung zum Verar beiten von gesprochenem Text zu Sprach blöcken;
- eine Registriereinrichtung zum Registrie ren eines Sprechers in dem System;
- eine Abrufeinrichtung zum Abrufen einer gesprochenen Prüf-Wortverbindung von einem Sprecher, der ein bestimmter registrierter Sprecher zu sein behauptet;
- eine Abstandsbestimmungseinrichtung zum Bestimmen eines oder mehrerer Verifizie rungsabstände zwischen der gesprochenen Prüf-Wortverbindung und den entsprechen den "Wörtern", die bei der Registrierung des bestimmten registrierten Sprechers in dem System in das System eingegeben wurden und
- eine Einrichtung zum Bestimmen einer Verifizierungs-Wertung aus derartigen Verifizierungs-Abstandsdaten, und zum Bestimmen daraus, ob der behauptete Sprecher der bestimmte registrierte Sprecher ist,
gekennzeichnet durch
- eine in der Abstandsbestimmungseinrich tung vorhandene Einrichtung, die Euklidische Abstände nächster Nachbarn zwischen Sprachblöcken bestimmt, die zu den gesprochenen Prüf-Wortverbindungen gehören, und entsprechenden Sprach blöcken, die zu den "Wörtern" gehören, die während der Registrierung des bestim mten registrierten Sprechers in dem System in das System eingegeben wurden.

2. System nach Anspruch 1, bei dem die Abstands bestimmungseinrichtung zusätzlich eine Ein richtung enthält, um eine Gewichtung der so bestimmten Abstände vorzunehmen mit Hilfe eines Grundwerts, der so berechnet ist, daß die Auswirkungen der Ungleichmäßigkeit unter wiederholten Auftritten der in das System bei der Registrierung des bestimmten registrierten Sprechers eingegebenen "Wörter" in Abzug gelangen, wobei die Bestimmung der Euklidischen Abstände nächster Nachbarn be schränkt ist auf einen Bereich, der durch einen Wertungs-Grenzwert definiert ist.

3. System nach Anspruch 1 oder 2, bei dem die Einrichtung zum Bestimmen einer Verifizierungs-Wertung einen Vergleich zwischen dem Verifizierungsabstand und einem vorbestimmten Schwellenwert umfaßt, wobei die Bestimmung, ob der behauptete Sprecher der bestimmte registrierte Sprecher ist, aus dem Vergleich hergeleitet wird.

4. System nach Anspruch 3, bei dem die Einrich tung zum Bestimmen einer Verifizierungs-Wer tung zusätzlich eine Einrichtung aufweist, um einen Referenzabstand zwischen der gesproche nen Prüf-Wortverbindung und entsprechenden "Wörtern", die in das System durch eine Gruppe von Referenzsprechern angegeben worden sind, zu bestimmen, der in ähnlicher Weise wie der Verifizierungsabstand berechnet wird, wobei die Bestimmung, ob der behauptete Sprecher der bestimmte registrierte Sprecher ist, abgelei tet wird aus einer Beziehung zwischen dem Verifizierungsabstand, dem Referenz-Abstand und dem vorbestimmten Schwellenwert.

5. System nach Anspruch 2, bei dem die Einrich tung zum Bestimmen einer Verifizierungsein richtung einen Vergleich zwischen dem Verifi zierungs-Abstand und einem Schwellenwert auf weist, wobei die Bestimmung, ob der behauptete Sprecher der bestimmte registrierte Sprecher ist, aus dem Vergleich hergeleitet ist.

6. System nach Anspruch 2, bei dem die Einrich tung zum Bestimmen einer Verifizierungs-Wer tung zusätzlich eine Einrichtung aufweist, um einen Referenzabstand zwischen der gesproche nen Prüf-Wortverbindung und entsprechenden "Wörtern", die in das System durch eine Gruppe von Referenzsprechern angegeben worden sind, zu bestimmen, der in ähnlicher Weise wie der Verifizierungs-Abstand berechnet wird, wobei die Bestimmung, ob der behauptete Sprecher der bestimmte registrierte Sprecher ist, abgelei tet wird aus einer Beziehung zwischen dem Verifizierungs-Abstand, dem Referenzabstand und dem vorbestimmten Schwellenwert.

7. Sprecher-Verifizierungs-System, umfassend:

- Eine Verarbeitungseinrichtung zum Verar beiten von in das System eingegebenem, gesprochenem Text, wobei der gesprochene Text abgetastet, digitalisiert und in Sprachblöcke umgesetzt wird, von denen jeder aus Mehrfach-Sprachvektorkomponen ten besteht;
- eine Registriereinrichtung zum Registrie ren eines Sprechers in dem System, indem vorbestimmter, gesprochener Text von dem Sprecher in das System eingegeben und durch die Verarbeitungseinrichtung verar beitet wird, um anschließend von dem System gespeichert zu werden;
- eine Einrichtung, die auf eine Identifi zierungsanforderung seitens eines Sprechers, der ein bestimmter, registrierter Sprecher zu sein behauptet, anspricht, um eine Vorgabe-Wortverbindung zu generieren, welche eines oder mehrere "Wörter" umfaßt, die aus dem vorbestimm ten gesprochenen Text, der von dem be stimmten, registrierten Sprecher eingege ben wurde, abgeleitet ist, woraufhin die Vorgabe-Wortverbindung von dem behaupte ten Sprecher ausgesprochen wird und die ausgesprochene Vorgabe-Wortverbindung in das System eingegeben und durch die Ver arbeitungseinrichtung verarbeitet wird;
- eine Einrichtung zum Analysieren der verarbeiteten, gesprochenen Vorgabe-Wort verbindung, um die Endpunkte der die gesprochene Vorgabe-Wortverbindung bil denden Wörter zu erfassen;
- eine Einrichtung zum Bestimmen der Ab stände d_i,T nächster Nachbarn, wobei die Abstände d_i,T nächster Nachbarn berechnet werden als die Euklidischen Abstände zwischen jedem Block der verarbeiteten gesprochenen Vorgabe-Wortverbindung und Sprachblöcken aus entsprechenden Zonen jedes Auftretens desselben "Wortes", welches während der Registrierung des bestimmten registrierten Sprechers in dem System gespeichert wurden;
- eine Einrichtung zum Bestimmen der Ab stände d_j,E nächster Nachbarn, wobei diese Abstände d_j,T berechnet werden als die Euklidischen Abstände zwischen jedem Block jedes Auftretens jedes "Wortes", der Vorgabe-Wortverbindung und den Sprachblöcken aus entsprechenden Zonen jedes Auftretens desselben "Wortes" in der verarbeiteten gesprochenen Vorgabe- Wortverbindung;
- eine Einrichtung zum Bestimmen eines Abstands d_T,E zwischen der verarbeiteten, gesprochenen Vorgabe-Wortverbindung und entsprechenden "Wörtern", die während der Registrierung des bestimmten registrier ten Sprechers in dem System in das System eingegeben wurden, wobei der Abstand d_T,E abgeleitet wird aus einem Mittelwert sämtlicher Abstände d_i,T nächster Nach barn und einem Mittelwert sämtlicher Abstände d_j,T nächster Nachbarn; und
- eine Einrichtung zum Bestimmen einer Verifizierungs-Wertung aus derartigen Abstandsdaten, und zum Bestimmen daraus, ob der behauptete Sprecher der bestimmte, registrierte Sprecher ist.

8. System nach Anspruch 7, bei dem die Bestimmung der Abstände d_i,T nächster Nachbarn und der Abstände d_j,E nächster Nachbarn einen zusätz lichen Schritt enthält, bei dem jeder der Abstände gewichtet wird durch einen Grundwert, der berechnet wurde, um die Einflüsse der Ungleichheit zwischen wiederholten Auftritten des vorbestimmten gesprochenen Texts, der von dem bestimmten registrierten Sprecher eingege ben wurde, in Abzug zu bringen, wobei die Berechnung der Euklidischen Abstände begrenzt wird auf einen Bereich, welcher durch einen Wertungs-Grenzwert definiert wird.

9. System nach Anspruch 7, bei dem die Einrich tung zum Bestimmen einer Verifizierungs-Wer tung einen Vergleich beinhaltet zwischen dem Abstand d_T,E und einem vorbestimmten Schwel lenwert, wobei die Bestimmung, ob der behaup tete Sprecher der bestimmte, registrierte Sprecher ist, aus dem Vergleich abgeleitet wird.

10. System nach Anspruch 9, bei dem die Einrich tung zum Bestimmen einer Verifizierungs-Wer tung zusätzlich aufweist: Eine Einrichtung zum Bestimmen eines Abstands d_T,R zwischen der verarbeiteten gesprochenen Vorgabe-Wortverbin dung und entsprechenden "Wörtern", die von einer Gruppe von Referenzsprechern in das System eingegeben wurden, wobei der Abstand in ähnlicher Weise berechnet wird wie der Abstand d_T,E und wobei die Bestimmung, ob der behaup tete Sprecher der bestimmte, registrierte Sprecher ist, abgeleitet wird aus einer Bezie hung zwischen dem Abstand d_T,R, dem Abstand d_T,E und dem vorbestimmten Schwellenwert.

11. System nach Anspruch 8, bei dem die Einrich tung zum Bestimmen einer Verifizierungs-Wer tung aufweist: einen Vergleich zwischen dem Abstand d_T,E und einem vorbestimmten Schwel lenwert, wobei die Bestimmung, ob der behaup tete Sprecher der spezielle registrierte Sprecher ist, aus dem Vergleich abgeleitet wird.

12. System nach Anspruch 11, bei dem die Einrich tung zum Bestimmen einer Verifizierungs-Wer tung zusätzlich aufweist: Eine Einrichtung zum Bestimmen eines Abstands d_T,R zwischen der verarbeiteten gesprochenen Vorgabe-Wortverbin dung und entsprechenden "Wörtern", die von einer Gruppe von Referenzsprechern in das System eingegeben wurden, wobei der Abstand in ähnlicher Weise berechnet wird wie der Abstand d_T,E, und wobei die Bestimmung, ob der behaup tete Sprecher der bestimmte registrierte Sprecher ist, abgeleitet wird aus einer Bezie hung zwischen dem Abstand d_T,R, dem Abstand d_T,E und dem vorbestimmten Schwellenwert.

13. System nach Anspruch 7, bei dem die Einrich tung zum Analysieren zusätzlich bestimmt, ob die "Wörter", die die gesprochene Vorgabe- Wortverbindung bilden, den Wörtern in der Vorgabe-Wortverbindung entsprechen, um den behaupteten Sprecher für den Fall abzuweisen, daß eine solche Entsprechung nicht existiert.

14. Sprecher-Verifizierungssystem, umfassend:

- Eine Einrichtung zum Eingeben eines gesprochenen Textes in das System;
- eine Einrichtung zum Abtasten und zum Digitalisieren des gesprochenen Texts;
- eine Einrichtung zum Umsetzen der digita lisierten Abtastwerte in Sprachblöcke, von denen jeder Block aus Mehrfach- Sprachvektorkomponenten besteht;
- eine Einrichtung zum Registrieren eines Sprechers oder mehrerer Sprecher in dem System im Zuge einer Registrieraufnahme, bei der ein vorbestimmter, gesprochener Text von jedem Sprecher in das System eingegeben wird und der Text von der Abtasteinrichtung und der Umwandlungs- Einrichtung verarbeitet wird, um an schließend von dem System gespeichert zu werden;
- eine Einrichtung zum Identifizieren eines speziellen Sprechers unter den im System registrierten Sprechern als denjenigen Sprecher, für den die Verifizierung gewünscht ist;
- eine Einrichtung zum Identifizieren eines oder mehrerer "Wörter", die aus dem von dem speziellen Sprecher während der Registrieraufnahme eingegebenen Text abgeleitet sind und eine Einrichtung zum Darstellen der "Wörter" als von einem Sprecher während der Verifizier-Aufnahme auszusprechenden Vorgabe, wobei die vorgegebenen gesprochenen "Wörter" an schließend in das System über die Einga be-Einrichtung eingegeben und von der Abtast- und Umsetzeinrichtung verarbeitet werden;
- eine Einrichtung zum Analysieren der vorgegebenen, gesprochenen "Wörter", um deren Endpunkte zu erfassen;
- eine Einrichtung zum Speichern der vorge gebenen "Wörter";
- eine Einrichtung zum Vergleichen jedes Sprachblocks aus der Verifizier-Aufnahme mit Sprachblöcken aus entsprechenden Zonen jedes Auftretens desselben "Worts", das während der besonderen Registrier- Aufnahme des Sprechers gespeichert wurde, und zum Berechnen der Abstände d_i,T nächster Nachbarn zwischen all solchen Paaren von Verifizier- und Registrier- Blöcken;
- eine Einrichtung zum Vergleichen jedes Sprachblocks aus jedem Auftritt von "Wörtern", die die Vorgabe bilden und während der Registrier-Aufnahme für den speziellen Sprecher gespeichert wurden, mit Sprachblöcken aus entsprechenden Zonen der vorgegebenen gesprochenen "Wörter", und zum Berechen der Abstände d_j,E nächster Nachbarn zwischen all solchen Paaren von Registrier- und Veri fizier-Blöcken;
- eine Einrichtung zum Berechnen eines Abstands d_T,E aus einem Mittelwert sämt licher Nächster-Nachbar-Abstände d_i,T und einem Mittelwert sämtlicher Nächster- Nachbar-Abstände d_j,E;
- eine Einrichtung zum Vergleichen des Abstands d_T,E mit einem vorbestimmten Wert und zur Veranlassung einer Signal ausgabe auf der Grundlage der Differenz zwischen dem Abstand d_T,E und dem vorbe stimmten Wert.

15. System nach Anspruch 14, bei dem die Bestim mung der Abstände d_i,T nächster Nachbarn und der Abstände d_j,T nächster Nachbarn einen zusätzlichen Schritt umfaßt, bei dem jeder der Abstände durch einen Grundwert gewichtet wird, und wobei die Berechnung der Abstände be schränkt wird auf einen Bereich, der durch einen Wertungs-Grenzwert definiert wird.

16. System nach Anspruch 14, bei dem die Einrich tung zum Vergleichen des Abstands d_T,E mit einem vorbestimmten Wert zusätzlich eine Einrichtung enthält, um einen Abstand d_T,R zwischen den vorgegebenen, gesprochenen "Wör tern" und entsprechenden "Wörtern", die von einer Gruppe von Referenzsprechern eingegeben wurden, zu bestimmen, der in gleicher Weise berechnet wird wie der Abstand d_T,E, wobei das Ausgangssignal erzeugt wird auf der Grundlage einer Beziehung zwischen dem Abstand d_T,R, dem Abstand d_T,E und dem vorbestimmten Schwellen wert.

17. System nach Anspruch 14, bei dem die Einrich tung zum Analysieren der vorgegebenen ge sprochenen "Wörter" zum Erfassen der Endpunkte der "Wörter" zusätzlich bestimmt, ob die die gesprochenen Vorgabe-Wortverbindungen bilden den "Wörter" den "Wörtern" in der vorgegebenen Verbindung entsprechen, um den behaupteten Sprecher für den Fall abzuweisen, daß eine derartige Entsprechung nicht existiert.

18. Verfahren zum automatischen Verifizieren eines Sprechers als einen solchen, der eine behaup tete Identität besitzt, umfassend die Schritte:
Verarbeiten von gesprochenen Eingabe-Sprach signalen zu einer Folge von Blöcken digitaler Daten, die die Eingabesprache repräsentieren,
Identifizieren der Endpunkte der die Eingabe sprache bildenden "Wörter",
Analysieren der Sprachblöcke durch ein Sprecher-Verifizier-Modul, welches die ankom mende Sprache vergleicht mit einem Referenz satz von Sprachmerkmalen, um daraus entspre chende Übereinstimmungswertungen zu generie ren, und
Bestimmen anhand der Übereinstimmungs-Wertun gen, ob die Eingabesprache dem identifizierten Sprecher entspricht, gekennzeichnet durch folgende Merkmale:
Der Vergleich der Eingangssprache mit den Referenz-Sprachmerkmalen durch das Sprecher- Erkennungsmodul umfaßt das Erzeugen einer Übereinstimmungs-Wertung, bei der es sich um eine Summe einer ersten Wertung gleich dem Mittelwert der kleinsten Euklidischen quadrierten Abstände zwischen einem Eingangs- Sprachblock für eine gegebene Zone eines speziellen "Wortes" und Sprachblöcken aus dem Referenzsatz von Sprachmerkmalen entsprechend derselben Zone desselben "Wortes" für sämt liche Blöcke aller "Wörter" der Eingangs sprache einer zweiten Wertung handelt, die gleich ist dem Mittelwert der kleinsten Eukli dischen quadrierten Abstände zwischen einem Sprachblock für eine gegebene Zone eines spe ziellen "Wortes" aus dem Referenzsatz an Sprachmerkmalen, und einem Eingabe-Sprachblock entsprechend derselben Zone desselben "Wortes" für sämtliche Blöcke sämtlicher "Wörter", die den Referenzsatz von Sprachmerkmalen bilden.

19. Verfahren nach Anspruch 18, bei dem der Ver gleich der Eingangssprache mit den Referenz sprachmerkmalen durch das Sprecher-Erkennungs modul einen zusätzlichen Schritt aufweist, bei dem jeder der Euklidischen Abstände gewichtet wird durch einen Grundwert, der so berechnet wird, daß die Auswirkungen von Ungleichmäßig keiten unter wiederholten Auftritten des vor bestimmten gesprochenen Textes, der von dem bestimmten registrierten Sprecher in das System eingegeben wird, in Abzug gebracht werden, wobei die Euklidischen Abstände in einem Bereich berechnet werden, welcher durch einen Wertungs-Grenzwert beschränkt ist.

20. Verfahren nach Anspruch 18, bei dem der Ver gleich der Eingangssprache mit den Referenz- Sprachmerkmalen durch das Sprecher-Erkennungs modul einen weiteren Schritt beinhaltet, bei dem eine Übereinstimmungs-Wertung geschaffen wird durch Bildung eines Nächster-Nachbar- Abstands zwischen Eingabe-Sprachblöcken und Registrier-Sprachblöcken für einen Satz von Referenzsprechern.

21. Verfahren nach Anspruch 18, umfassend eine Schwellenwertverifizierung, bei der der Teil schritt des Identifizierens der Endpunkte der Eingabesprach-"Wörter" zusätzlich erkennt, ob die "Wörter" der Verifizier-Wortverbindung gemäß Vorgabe gesprochen wurden, und die Verifizier-Anforderung bei Nicht-Bestehen einer solchen Schwellenwert-Verifizierung zurückweist.

22. Verfahren nach Anspruch 19, bei dem der Ver gleich der ankommenden Sprache mit den Re ferenzsprachmerkmalen durch das Sprecherer kennungsmodul einen weiteren Schritt beinhal tet, bei dem eine Übereinstimmungswertung erzeugt wird, wobei ein Nächster-Nachbar-Ab stand zwischen Eingabesprachblöcken und Registriersprachblöcken für einen Satz von Referenzsprechern geschaffen wird.

23. Verfahren nach Anspruch 19, umfassend eine Schwellenwertverifizierung, bei der der Teil schritt des Identifizierens der Endpunkte der Eingabesprach-"Wörter" zusätzlich erkennt, ob die "Wörter" der Verifizier-Wortverbindung gemäß Vorgabe gesprochen wurde, und die Veri fizier-Anforderung bei Nicht-Bestehen einer solchen Schwellenwertverifizierprüfung zurück weist.

24. Verfahren zum automatischen Verifizieren eines Sprechers als solchen, der zu einer be haupteten Identität paßt, umfassend die Schritte:
Etablieren der behaupteten Identität,
Erzeugen einer Verifizier-Wortverbindung, welche ein oder mehrere "Wörter" aufweist, die von dem Sprecher gesprochen werden,
Digitalisieren der gesprochenen Eingangs sprachsignale zu einer Folge von Blöcken digi taler Daten, welche die Eingangssprache reprä sentieren,
Identifizieren der Endpunkte der Eingabe sprach- "Wörter",
Analysieren der Sprachblöcke durch ein Sprecherverifiziermodul, welches die Eingangs sprache vergleicht mit einem Referenzsatz von Sprachmerkmalen des identifizierten Sprechers, welche bei früheren Registrieraufnahmen erhalten wurden, und welches daraus ent sprechende Übereinstimmungswertungen gene riert, und
auf der Grundlage der Übereinstimmungs wertungen, bestimmen, ob die Eingangssprache mit dem identifizierten Sprecher identifiziert wird, dadurch gekennzeichnet, daß
der Vergleich der ankommenden Sprache mit den Referenzsprachmerkmalen durch das Sprecherer kennungsmodul das Generieren einer Überein stimmungswertung beinhaltet, wobei es sich um die Summe einer ersten Wertung gleich dem Mittelwert der kleinsten euklidischen quadrierten Abstände zwischen einem Eingabe sprachblock für eine gegebene Zone eines spe ziellen "Wortes" und Registrier-Sprachblöcken, die derselben Zone desselben "Wortes" ent sprechen über sämtliche Blöcke sämtlicher "Wörter" der Eingangssprache, und einer zweiten Wertung handelt, die gleich ist dem Mittelwert des kleinsten euklidischen qua drierten Abstands zwischen einem Registrier- Sprachblock für eine gegebene Zone eines spe ziellen "Wortes" und einem Eingabesprachblock, welcher derselben Zone desselben "Wortes" entspricht, und zwar über sämtliche Blöcke sämtlicher "Wörter", die den Referenzsatz von Sprachmerkmalen bilden,
wobei der Abstand von t_j zu dem entsprechenden Registrier-"Wort" E beträgt: und der Abstand von e_i zu dem entsprechenden Prüf-"Wort" T beträgt: wobei t_j der j-te Block in dem Eingangs-"Wort" T und e_i der i-te Block des Registrier-"Worts" E ist, W_i und F_i die Wort- bzw. Blockindices für den Block i und W_j und F_j die Wort- bzw. Blockindices für den Block j sind, und
wobei die erste Wertung gleich dem Mittelwert von d_j,E über sämtliche Blöcke und die zweite Wertung gleich dem Mittelwert von d_i,T über sämtliche Blöcke ist.

25. Verfahren nach Anspruch 24, bei dem der Ver gleich der ankommenden Sprache mit den Refe renzsprachmerkmalen durch das Sprecherer kennungsmodul einen zusätzlichen Schritt bein haltet, bei dem jeder der euklidischen Abstän de durch einen Grundwert gewichtet wird, der so berechnet ist, daß die Einflüsse von Un gleichmäßigkeiten unter wiederholten Auftritten des vorbestimmten gesprochenen und in das System durch den speziellen registrierten Sprecher eingegebenen Texts in Abzug gebracht werden, und wobei die euklidischen Abstände über einen Bereich berechnet werden, der durch einen Wertungsgrenzwert beschränkt ist.

26. Verfahren nach Anspruch 24, bei dem der Ver gleich der ankommenden Sprache mit Referenz sprachmerkmalen durch das Sprechererkennungs modul einen weiteren Schritt beinhaltet, bei dem eine Übereinstimmungswertung der Schaffung eines Nächster-Nachbar-Abstands zwischen Eingabesprachblöcken und Registriersprach blöcken für einen Satz von Referenzsprechern erzeugt wird.

27. Verfahren nach Anspruch 24, weiterhin umfas send eine Schwellenwertverifizierung, bei der der Teilschritt des Identifizierens der End punkte der Eingabesprach-"Wörter" zusätzlich erkennt, ob die "Wörter" der Verifizierwort verbindung gemäß Vorgabe gesprochen wurden, und die Verifizieranforderung bei Nicht-Be stehen dieser Schwellenwertverifizierprüfung zurückweist.

28. Verfahren nach Anspruch 25, bei dem der Ver gleich der ankommenden Sprache mit Referenz sprachmerkmalen durch das Sprechererkennungs modul einen weiteren Schritt beinhaltet, bei dem eine Übereinstimmungswertung der Schaffung eines Nächster-Nachbar-Abstands zwischen Eingabesprachblöcken und Registriersprach blöcken für einen Satz von Referenzsprechern erzeugt wird.

29. Verfahren nach Anspruch 25, weiterhin umfas send eine Schwellenwertverifizierung, bei der der Teilschritt des Identifizierens der End punkte der Eingabesprach-"Wörter" zusätzlich erkennt, ob die "Wörter" der Verifizierwort verbindung gemäß Vorgabe gesprochen wurden, und die Verifizieranforderung bei Nicht-Beste hen dieser Schwellenwertverifizierprüfung zurückweist.