DE69725252T2

DE69725252T2 - Verfahren und Vorrichtung zur Prüfung von Sprache

Info

Publication number: DE69725252T2
Application number: DE1997625252
Authority: DE
Inventors: Richard Schulman
Original assignee: Telia AB
Current assignee: Telia AB
Priority date: 1996-07-25
Filing date: 1997-07-03
Publication date: 2004-08-26
Anticipated expiration: 2017-07-04
Also published as: DE69725252D1; SE515447C2; NO973134L; NO314474B1; NO973134D0; EP0825587A3; EP0825587B1; DK0825587T3; SE9602860L; SE9602860D0; EP0825587A2

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft ein Verfahren der Sprachprüfung zum Prüfen der Identität eines Sprechers gemäss dem Oberbegriff von Anspruch 1.
STAND DER TECHNIK
In einer Anzahl unterschiedlicher Telefondienste kommt es vor, dass man die Identität des Benutzers sicher feststellen möchte, um zu entscheiden, ob der Person Zugang zum fraglichen Dienst gewährt werden soll. Verfahren, die Sicherheitscodes verwenden, wie zum Beispiel PIN-Codes, werden nicht immer so eingeschätzt, dass sie ein ausreichendes Sicherheitsniveau aufgrund des Risikos bieten, dass die Codes gestohlen werden können u. s. w. Es sind auch Verfahren bekannt, bei denen die Identität des Sprechers geprüft wird, indem Charakteristiken in der Sprache des Sprechers mit Daten verglichen werden, die in Databasen im System gespeichert sind. So offenbart Robert C. Lummis „Speaker Verification by Computer Using Speech Intensity for Temporal Registration (Sprecherprüfung durch Computer unter Verwendung von Sprachintensität für zeitweilige Registrierung)", IEEE Transactions on Audio and Electroacoustics, April 1973, Band AU-21, Nr. 2, Seiten 80 bis 89 eine Technik für Sprecherprüfung, in der Stimmhöhe, Niedrigfrequenzintensität und die drei niedrigsten Formantenfrequenzen als Funktion der Zeit verwendet werden, die Sprechweise eines Sprechers darzustellen. Die Prüfung besteht darin, diese Merkmale für eine Prüfsprechweise zu berechnen und sie mit gespeicherten Bezugsversionen der behaupteten Sprecheridentität zu vergleichen. Vor dem Vergleich wird die Zeitdimension der Prüfsprechweise umgeformt, um optimal das Intensitätsmuster auf das Bezugsmuster aufzuzeichnen.
Das Ziel der vorliegenden Erfindung besteht darin, ein Verfahren vorzuschlagen, das auf dem obenerwähnten Typ von Technik beruht und das eine sichere Identifizierung der Identität eines Sprechers ermöglicht.
ZUSAMMENFASSUNG DER ERFINDUNG
Das obenerwähnte Ziel wird mit Hilfe eines Verfahrens erreicht, bei dem die Stimme eines Sprechers aufgrund der Resonanzfrequenzbewegungen der Stimme und ihrer inneren Beziehungen in der Zeit analysiert und identifiziert wird, und das durch die Merkmale des kennzeichnenden Teils von Anspruch 1 gekennzeichnet ist.
Die vorliegende Erfindung liefert auf diese Weise eine einfache, flexible und sichere Identifizierung eines Benutzers, bei der der Benutzer keine Symbole erinnern muss oder eine besondere Karte mit sich tragen muss, um sich identifizieren zu können.
Weitere Eigenschaften der vorliegenden Erfindung sind in den abhängigen Ansprüchen angegeben.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Im folgenden wird eine detaillierte Beschreibung einer Ausführungsform der Erfindung unter Bezugnahme auf die beigefügten Zeichnungen gegeben. Es zeigen:
1 schematische Formanten, die der Bewegung unterschiedlicher Artikulierer entsprechen; und
2 die inneren Beziehungen der Zeit zwischen den Maxima bzw. Minima der Formanten gemäss 1.
DETAILLIERTE BESCHREIBUNG EINER AUSFÜHRUNGSFORM DER ERFINDUNG
Es ist vorbekannt, dass die Bewegungen der unterschiedlichen Artikulatoren akustisch reflektiert werden, wo unter anderem die erste Resonanzfrequenz (F1) bei den Aufwärts-/Abwärtsbewegungen des Kiefers beeinflusst wird. Es ist auch bekannt, dass die zweite Resonanzfrequenz (F2) bei den Rückwärts-/Vorwärtsbewegungen der Zunge beeinflusst wird, und dass die dritte Resonanzfrequenz (F3) bei den Rundungs-/Ausbreitungsbewegungen der Lippen beeinflusst wird. Wie diese Frequenzen in Bezug aufeinander lokalisiert sind, ist in 1 gezeigt.
Weiter ist es bekannt, dass die zeitlichen Muster der Artikulatoren voneinander sich unterscheiden, das heisst ihre Maximum- und Minimumpositionen zu unterschiedlichen Stellen erreichen, bei denen ihre asynchronen Bewegungen akustisch in Formantenmustern reflektiert werden (Formant = Resonanzfrequenz). Jeder individuelle Sprecher hat ein Formantenbewegungsmuster, das typisch für die Person ist und das aus diesem Grunde immer verschieden von den Resonanzfrequenzen anderer Sprecher ist.
Die Erfindung bezieht sich auf ein Verfahren, das die Zeiten analysiert, wann die unterschiedlichen Formanten ihrer Maxima und Minima erreichen, und die Werte werden verwendet, um ein für den Sprecher spezifisches Frequenzprofil einzurichten, das in einer Sprachprüfungsdatenbasis gespeichert wird. Wenn die Identität eines Sprechers geprüft werden soll, um zum Beispiel Zugang zu einem gewissen Telekommunikationsdienst zu erhalten, dann vergleicht die beabsichtigte Einheit im Sprachprüfsystem die empfangene Sprache mit dem Profil, das in der Datenbasis gespeichert ist.
In 2 ist ein konkreteres Beispiel gegeben, wie die Sprachprüfung durchgeführt wird. Die Formantencharakteristiken für einen Benutzer A werden gemäss 2 in einer Datenbasis gespeichert, wo die Zeiten für Formantenmaxima (T_A1, T_B1, T_C1) und die Formantenminima (T_A2, T_B2, T_C2) gespeichert sind.
Dieses Speichern von Formantencharakteristiken in einem Speicher in eine Sprachprüfdatenbasis wird folgerichtig bei jeder Institution vorgenommen, zum Beispiel einer Bank, wo der Benutzer A sich mit Hilfe von Sprachnachrichten identifizieren will. Wenn zum Beispiel ein Benutzer A Zugang zu irgendeiner Anzahl von Bankdiensten erhalten möchte, indem er/sie sich über sein/ihr Telefon mit Hilfe von Sprachnach richten identifiziert, wird der Benutzer A anschliessend durch das Bankpersonal aufgefordert, wenn um den Dienst gebeten wird, eine Anzahl von vorher bestimmten oder zufällig gewählten Meldungen in ein Mikrofon zu sprechen, das mit einer Datenbasis verbunden ist, in der die Formantencharakteristik von A in der Sprachprüfdatenbasis der Bank gespeichert ist.
Es soll nun angenommen werden, dass der Benutzer A einen Bankdienst ausüben will, der Identifizierung mit Hilfe durch sein/ihr Telefon verlangt. Der Benutzer A ruft die Bank an und wird gebeten, sich durch Sprechen einer vorbestimmten Meldung oder einer Meldung freier Wahl zu identifizieren. Die Sprachprüfdatenbasis vergleicht die Formantencharakteristiken des Benutzers A, die in der Datenbasis gespeichert sind, mit der gesprochenen Nachricht, das heisst, die Sprachprüfdatenbasis vergleicht, wie gut die Zeitwerte (T_A1, T_B1, T_C1) und (T_A2, T_B2, T_C2) in der Datenbasis mit den entsprechenden Zeitwerten in der gesprochenen Meldung übereinstimmen. Wenn die obenerwähnten Zeitwerte in der Datenbasis gut in Übereinstimmung mit den Zeitwerten in der gesprochenen Meldung stehen, wird der Benutzer A Zugang zum Bankdienst erhalten, im anderen Fall jedoch nicht.
Es sollte natürlich realisiert werden, dass der Betreiber einer Datenbasis bei der Bank die Genauigkeit der gespeicherten Formantencharakteristiken und der gesprochenen Formantencharakteristiken entscheiden kann, das heisst innerhalb welcher Zeitintervalle die vom Benutzer A gesprochenen Zeitwerte (T_A1, T_B1, T_C1) und (T_A2, T_B2, T_C2) in Beziehung stehen zu den Zeitwerten (T_A1, T_B1, T_C1) und (T_A2, T_B2, T_C2), die für den Benutzer A in der Datenbasis gespeichert sind, um Identität zu erhalten und auf einen Bankdienst zuzugreifen.
Die Erfindung soll in Verbindung mit allen Telefondiensten verwendet werden, die Autorisierung für einen Benutzer verlangen, damit dieser Zugang zum fraglichen Dienst erhält.
Das oben dargestellte sollte nur als eine vorteilhafte Ausführungsform der Erfindung angesehen werden, und der Schutzbereich der Erfindung wird nur durch das eingeschränkt, was in den folgenden Ansprüchen angegeben ist.

Claims

Verfahren der Sprachprüfung zum Prüfen der Identität eines Sprechers, bei dem die Stimme des Sprechers analysiert und aufgrund von Resonanzfrequenzbewegungen (F1, F2, F3) der Stimme und ihrer zeitlichen Innenbeziehungen identifiziert wird, dadurch gekennzeichnet, dass Zeiten (T_A1, T_B1, T_C1), wenn die Resonanzfrequenzen (F1, F2, F3) ihre Maxima erreichen und Zeiten (T_A2, T_B2, T_C2), wenn die Resonanzfrequenzen ihre Minima erreichen, analysiert werden, und dass diese Zeiten verwendet werden, ein besonderes Frequenzprofil für diesen Sprecher einzurichten, das in einer Sprachprüfungsdatenbank gespeichert wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass, wenn die Identität des Sprechers geprüft werden soll, um Zugang zu einem Dienst zu erlangen, das Frequenzprofil, das für diesen Sprecher spezifisch ist und in der Sprachprüfungsdatenbank gespeichert ist, mit der Stimmnachricht des Sprechers verglichen wird und, wenn die Stimme des Sprechers mit dem gespeicherten Frequenzprofil übereinstimmt, Zugang zu diesem Dienst erlaubt wird.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die erste Resonanzfrequenz (F1) durch die Auf/Abwärtsbewegungen des Kiefers beeinflusst wird, die zweite Resonanzfrequenz (F2) durch die Zurück-/Vorwärtsbewegungen der Zunge beeinflusst wird, und die dritte Resonanzfrequenz (F3) durch die Rundungs-/Ausbreitungsbewegungen der Lippen beeinflusst wird.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass das Verfahren in Verbindung mit einem Telekommunikationsdienst verwendet werden soll, wo ein Benutzer/eine Benutzerin sich identifizieren muss, um Zugang zu dem Dienst zu bekommen, z. B. einem Bankdienst.