DE69725252T2 - Verfahren und Vorrichtung zur Prüfung von Sprache - Google Patents

Verfahren und Vorrichtung zur Prüfung von Sprache Download PDF

Info

Publication number
DE69725252T2
DE69725252T2 DE1997625252 DE69725252T DE69725252T2 DE 69725252 T2 DE69725252 T2 DE 69725252T2 DE 1997625252 DE1997625252 DE 1997625252 DE 69725252 T DE69725252 T DE 69725252T DE 69725252 T2 DE69725252 T2 DE 69725252T2
Authority
DE
Germany
Prior art keywords
speaker
service
movements
voice
resonance frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE1997625252
Other languages
English (en)
Other versions
DE69725252D1 (de
Inventor
Richard Schulman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telia AB
Original Assignee
Telia AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia AB filed Critical Telia AB
Publication of DE69725252D1 publication Critical patent/DE69725252D1/de
Application granted granted Critical
Publication of DE69725252T2 publication Critical patent/DE69725252T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephonic Communication Services (AREA)
  • Monitoring And Testing Of Transmission In General (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft ein Verfahren der Sprachprüfung zum Prüfen der Identität eines Sprechers gemäss dem Oberbegriff von Anspruch 1.
  • STAND DER TECHNIK
  • In einer Anzahl unterschiedlicher Telefondienste kommt es vor, dass man die Identität des Benutzers sicher feststellen möchte, um zu entscheiden, ob der Person Zugang zum fraglichen Dienst gewährt werden soll. Verfahren, die Sicherheitscodes verwenden, wie zum Beispiel PIN-Codes, werden nicht immer so eingeschätzt, dass sie ein ausreichendes Sicherheitsniveau aufgrund des Risikos bieten, dass die Codes gestohlen werden können u. s. w. Es sind auch Verfahren bekannt, bei denen die Identität des Sprechers geprüft wird, indem Charakteristiken in der Sprache des Sprechers mit Daten verglichen werden, die in Databasen im System gespeichert sind. So offenbart Robert C. Lummis „Speaker Verification by Computer Using Speech Intensity for Temporal Registration (Sprecherprüfung durch Computer unter Verwendung von Sprachintensität für zeitweilige Registrierung)", IEEE Transactions on Audio and Electroacoustics, April 1973, Band AU-21, Nr. 2, Seiten 80 bis 89 eine Technik für Sprecherprüfung, in der Stimmhöhe, Niedrigfrequenzintensität und die drei niedrigsten Formantenfrequenzen als Funktion der Zeit verwendet werden, die Sprechweise eines Sprechers darzustellen. Die Prüfung besteht darin, diese Merkmale für eine Prüfsprechweise zu berechnen und sie mit gespeicherten Bezugsversionen der behaupteten Sprecheridentität zu vergleichen. Vor dem Vergleich wird die Zeitdimension der Prüfsprechweise umgeformt, um optimal das Intensitätsmuster auf das Bezugsmuster aufzuzeichnen.
  • Das Ziel der vorliegenden Erfindung besteht darin, ein Verfahren vorzuschlagen, das auf dem obenerwähnten Typ von Technik beruht und das eine sichere Identifizierung der Identität eines Sprechers ermöglicht.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Das obenerwähnte Ziel wird mit Hilfe eines Verfahrens erreicht, bei dem die Stimme eines Sprechers aufgrund der Resonanzfrequenzbewegungen der Stimme und ihrer inneren Beziehungen in der Zeit analysiert und identifiziert wird, und das durch die Merkmale des kennzeichnenden Teils von Anspruch 1 gekennzeichnet ist.
  • Die vorliegende Erfindung liefert auf diese Weise eine einfache, flexible und sichere Identifizierung eines Benutzers, bei der der Benutzer keine Symbole erinnern muss oder eine besondere Karte mit sich tragen muss, um sich identifizieren zu können.
  • Weitere Eigenschaften der vorliegenden Erfindung sind in den abhängigen Ansprüchen angegeben.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Im folgenden wird eine detaillierte Beschreibung einer Ausführungsform der Erfindung unter Bezugnahme auf die beigefügten Zeichnungen gegeben. Es zeigen:
  • 1 schematische Formanten, die der Bewegung unterschiedlicher Artikulierer entsprechen; und
  • 2 die inneren Beziehungen der Zeit zwischen den Maxima bzw. Minima der Formanten gemäss 1.
  • DETAILLIERTE BESCHREIBUNG EINER AUSFÜHRUNGSFORM DER ERFINDUNG
  • Es ist vorbekannt, dass die Bewegungen der unterschiedlichen Artikulatoren akustisch reflektiert werden, wo unter anderem die erste Resonanzfrequenz (F1) bei den Aufwärts-/Abwärtsbewegungen des Kiefers beeinflusst wird. Es ist auch bekannt, dass die zweite Resonanzfrequenz (F2) bei den Rückwärts-/Vorwärtsbewegungen der Zunge beeinflusst wird, und dass die dritte Resonanzfrequenz (F3) bei den Rundungs-/Ausbreitungsbewegungen der Lippen beeinflusst wird. Wie diese Frequenzen in Bezug aufeinander lokalisiert sind, ist in 1 gezeigt.
  • Weiter ist es bekannt, dass die zeitlichen Muster der Artikulatoren voneinander sich unterscheiden, das heisst ihre Maximum- und Minimumpositionen zu unterschiedlichen Stellen erreichen, bei denen ihre asynchronen Bewegungen akustisch in Formantenmustern reflektiert werden (Formant = Resonanzfrequenz). Jeder individuelle Sprecher hat ein Formantenbewegungsmuster, das typisch für die Person ist und das aus diesem Grunde immer verschieden von den Resonanzfrequenzen anderer Sprecher ist.
  • Die Erfindung bezieht sich auf ein Verfahren, das die Zeiten analysiert, wann die unterschiedlichen Formanten ihrer Maxima und Minima erreichen, und die Werte werden verwendet, um ein für den Sprecher spezifisches Frequenzprofil einzurichten, das in einer Sprachprüfungsdatenbasis gespeichert wird. Wenn die Identität eines Sprechers geprüft werden soll, um zum Beispiel Zugang zu einem gewissen Telekommunikationsdienst zu erhalten, dann vergleicht die beabsichtigte Einheit im Sprachprüfsystem die empfangene Sprache mit dem Profil, das in der Datenbasis gespeichert ist.
  • In 2 ist ein konkreteres Beispiel gegeben, wie die Sprachprüfung durchgeführt wird. Die Formantencharakteristiken für einen Benutzer A werden gemäss 2 in einer Datenbasis gespeichert, wo die Zeiten für Formantenmaxima (TA1, TB1, TC1) und die Formantenminima (TA2, TB2, TC2) gespeichert sind.
  • Dieses Speichern von Formantencharakteristiken in einem Speicher in eine Sprachprüfdatenbasis wird folgerichtig bei jeder Institution vorgenommen, zum Beispiel einer Bank, wo der Benutzer A sich mit Hilfe von Sprachnachrichten identifizieren will. Wenn zum Beispiel ein Benutzer A Zugang zu irgendeiner Anzahl von Bankdiensten erhalten möchte, indem er/sie sich über sein/ihr Telefon mit Hilfe von Sprachnach richten identifiziert, wird der Benutzer A anschliessend durch das Bankpersonal aufgefordert, wenn um den Dienst gebeten wird, eine Anzahl von vorher bestimmten oder zufällig gewählten Meldungen in ein Mikrofon zu sprechen, das mit einer Datenbasis verbunden ist, in der die Formantencharakteristik von A in der Sprachprüfdatenbasis der Bank gespeichert ist.
  • Es soll nun angenommen werden, dass der Benutzer A einen Bankdienst ausüben will, der Identifizierung mit Hilfe durch sein/ihr Telefon verlangt. Der Benutzer A ruft die Bank an und wird gebeten, sich durch Sprechen einer vorbestimmten Meldung oder einer Meldung freier Wahl zu identifizieren. Die Sprachprüfdatenbasis vergleicht die Formantencharakteristiken des Benutzers A, die in der Datenbasis gespeichert sind, mit der gesprochenen Nachricht, das heisst, die Sprachprüfdatenbasis vergleicht, wie gut die Zeitwerte (TA1, TB1, TC1) und (TA2, TB2, TC2) in der Datenbasis mit den entsprechenden Zeitwerten in der gesprochenen Meldung übereinstimmen. Wenn die obenerwähnten Zeitwerte in der Datenbasis gut in Übereinstimmung mit den Zeitwerten in der gesprochenen Meldung stehen, wird der Benutzer A Zugang zum Bankdienst erhalten, im anderen Fall jedoch nicht.
  • Es sollte natürlich realisiert werden, dass der Betreiber einer Datenbasis bei der Bank die Genauigkeit der gespeicherten Formantencharakteristiken und der gesprochenen Formantencharakteristiken entscheiden kann, das heisst innerhalb welcher Zeitintervalle die vom Benutzer A gesprochenen Zeitwerte (TA1, TB1, TC1) und (TA2, TB2, TC2) in Beziehung stehen zu den Zeitwerten (TA1, TB1, TC1) und (TA2, TB2, TC2), die für den Benutzer A in der Datenbasis gespeichert sind, um Identität zu erhalten und auf einen Bankdienst zuzugreifen.
  • Die Erfindung soll in Verbindung mit allen Telefondiensten verwendet werden, die Autorisierung für einen Benutzer verlangen, damit dieser Zugang zum fraglichen Dienst erhält.
  • Das oben dargestellte sollte nur als eine vorteilhafte Ausführungsform der Erfindung angesehen werden, und der Schutzbereich der Erfindung wird nur durch das eingeschränkt, was in den folgenden Ansprüchen angegeben ist.

Claims (4)

  1. Verfahren der Sprachprüfung zum Prüfen der Identität eines Sprechers, bei dem die Stimme des Sprechers analysiert und aufgrund von Resonanzfrequenzbewegungen (F1, F2, F3) der Stimme und ihrer zeitlichen Innenbeziehungen identifiziert wird, dadurch gekennzeichnet, dass Zeiten (TA1, TB1, TC1), wenn die Resonanzfrequenzen (F1, F2, F3) ihre Maxima erreichen und Zeiten (TA2, TB2, TC2), wenn die Resonanzfrequenzen ihre Minima erreichen, analysiert werden, und dass diese Zeiten verwendet werden, ein besonderes Frequenzprofil für diesen Sprecher einzurichten, das in einer Sprachprüfungsdatenbank gespeichert wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass, wenn die Identität des Sprechers geprüft werden soll, um Zugang zu einem Dienst zu erlangen, das Frequenzprofil, das für diesen Sprecher spezifisch ist und in der Sprachprüfungsdatenbank gespeichert ist, mit der Stimmnachricht des Sprechers verglichen wird und, wenn die Stimme des Sprechers mit dem gespeicherten Frequenzprofil übereinstimmt, Zugang zu diesem Dienst erlaubt wird.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die erste Resonanzfrequenz (F1) durch die Auf/Abwärtsbewegungen des Kiefers beeinflusst wird, die zweite Resonanzfrequenz (F2) durch die Zurück-/Vorwärtsbewegungen der Zunge beeinflusst wird, und die dritte Resonanzfrequenz (F3) durch die Rundungs-/Ausbreitungsbewegungen der Lippen beeinflusst wird.
  4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass das Verfahren in Verbindung mit einem Telekommunikationsdienst verwendet werden soll, wo ein Benutzer/eine Benutzerin sich identifizieren muss, um Zugang zu dem Dienst zu bekommen, z. B. einem Bankdienst.
DE1997625252 1996-07-25 1997-07-03 Verfahren und Vorrichtung zur Prüfung von Sprache Expired - Fee Related DE69725252T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE9602860 1996-07-25
SE9602860A SE515447C2 (sv) 1996-07-25 1996-07-25 Metod och anordning för talverifiering

Publications (2)

Publication Number Publication Date
DE69725252D1 DE69725252D1 (de) 2003-11-06
DE69725252T2 true DE69725252T2 (de) 2004-08-26

Family

ID=20403468

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1997625252 Expired - Fee Related DE69725252T2 (de) 1996-07-25 1997-07-03 Verfahren und Vorrichtung zur Prüfung von Sprache

Country Status (5)

Country Link
EP (1) EP0825587B1 (de)
DE (1) DE69725252T2 (de)
DK (1) DK0825587T3 (de)
NO (1) NO314474B1 (de)
SE (1) SE515447C2 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IES20020244A2 (en) * 2002-04-05 2003-10-15 Univ Dublin Speaker identification or verification using temporal measurements
RU2419890C1 (ru) * 2009-09-24 2011-05-27 Общество с ограниченной ответственностью "Центр речевых технологий" Способ идентификации говорящего по фонограммам произвольной устной речи на основе формантного выравнивания
CN110121633B (zh) * 2016-12-29 2023-04-04 三星电子株式会社 用于通过使用谐振器来识别说话者的方法及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2003183C (en) * 1988-11-17 1996-06-18 Shingo Nishimura Speaker recognition system
US6081782A (en) * 1993-12-29 2000-06-27 Lucent Technologies Inc. Voice command control and verification system
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system

Also Published As

Publication number Publication date
DE69725252D1 (de) 2003-11-06
SE515447C2 (sv) 2001-08-06
NO973134L (no) 1998-01-26
NO314474B1 (no) 2003-03-24
NO973134D0 (no) 1997-07-07
EP0825587A3 (de) 1998-09-30
EP0825587B1 (de) 2003-10-01
DK0825587T3 (da) 2004-02-09
SE9602860L (sv) 1998-01-26
SE9602860D0 (sv) 1996-07-25
EP0825587A2 (de) 1998-02-25

Similar Documents

Publication Publication Date Title
DE69421310T2 (de) System zur Prüfung des Schutzwortes
DE102008058883B4 (de) Verfahren und Anordnung zur Steuerung eines Nutzerzugriffs
DE69624848T2 (de) Verfahren zum überprüfen eines sprechers
DE69428606T2 (de) Sprachgesteuerter kontozugang über ein fernsprechnetz
DE69215469T2 (de) Auf Spracherkennung basierendes Sicherheitssystem
DE69132996T2 (de) Gleichzeitige sprecherunabhängige Spracherkennung und -verifizierung über ein Telefonnetz
DE69427322T2 (de) Verfahren und System zur Identitätsprüfung eines Sprechers
DE69425818T2 (de) System und verfahren zur sprachbefehlssteuerung und sprecheridentitätsprüfung
DE69329855T2 (de) Methode zur erkennung alphanumerischer zeichenketten, die über ein telefonnetz gesprochen werden
DE60301767T9 (de) Normalisierung eines Verifizierungsmasses in einer Vorrichtung zur Sprecherverifikation
DE69031189T2 (de) Sprachverifizierungseinrichtung zur Prüfung der Identität des Benutzers einer Telefonkreditkarte
DE69328454T2 (de) Verbesserte Authentizitätsfeststellungsrückrufverfahren und Gerät
DE19630109A1 (de) Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner
EP0980565B1 (de) Verfahren zur anpassung eines referenzdatensatzes anhand mindestens eines eingabedatensatzes durch einen rechner
EP1577733A2 (de) Verfahren und System zur Personen-/Sprecherverifikation über Kommunikationssysteme
DE69633128T2 (de) Verfahren und vorrichtung zur informationsübertragung zwischen nomadischen und stationären populationen
DE69425717T2 (de) Verfahren zur Anpassung an Kohle/Elektret-Mikrofoncharakteristiken der Telefonhörers für die automatische Sprecheridentitätsprüfung
DE69828888T2 (de) Sprecherbeweissystem
DE69725252T2 (de) Verfahren und Vorrichtung zur Prüfung von Sprache
EP1749395B1 (de) Verfahren zum autorisieren einer fernmündlichen transaktion und vermittlungsknoten
EP1848187A2 (de) Verfahren und Vorrichtung zur Verifizierung der Identität eines Nutzers verschiedener Telekommunikationsdienste mittels biometrischer Merkmale
DE69430162T2 (de) System und Verfahren zur passiven Sprachverifizierung in einem Fernsprechnetzwerk
EP1224661B1 (de) Verfahren und anordnung zur verifikation eines sprechers anhand eines rechners
EP2077658A1 (de) Verfahren zur Bereitstellung eines Dienstes für einen Nutzer
WO2001009845A1 (de) Verfahren zur biometrischen erkennung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee