DE102014107028B4 - Verbesserte biometrische Passwortsicherheit - Google Patents

Verbesserte biometrische Passwortsicherheit Download PDF

Info

Publication number
DE102014107028B4
DE102014107028B4 DE102014107028.3A DE102014107028A DE102014107028B4 DE 102014107028 B4 DE102014107028 B4 DE 102014107028B4 DE 102014107028 A DE102014107028 A DE 102014107028A DE 102014107028 B4 DE102014107028 B4 DE 102014107028B4
Authority
DE
Germany
Prior art keywords
user
phrase
phonemes
generated
ambient noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102014107028.3A
Other languages
English (en)
Other versions
DE102014107028A1 (de
Inventor
John Weldon Nicholson
Steven Richard Perrin
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of DE102014107028A1 publication Critical patent/DE102014107028A1/de
Application granted granted Critical
Publication of DE102014107028B4 publication Critical patent/DE102014107028B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

System, umfassend:einen Audioeingang (115), um Sprache von einem Nutzer zu empfangen, wobei die Sprache Umgebungsrauschen nahe dem Nutzer einschließt;einen Sprachprozessor (110), der mit der Audioeingabe (115) gekoppelt ist und so eingerichtet ist, dass er in Abhängigkeit des Umgebungsrauschens eine Phrase erzeugt, welche Nutzer kennzeichnende Phoneme enthält, die wahrscheinlich am wenigsten nachteilig von der Präsenz des Umgebungsrauschens betroffen sind und die somit eine erhöhte Unterscheidbarkeit von dem Umgebungsrauschen aufweist.

Description

  • Hintergrund
  • Gesprochene, biometrische Passwörter werden als eine Form der Sprecherverifikation verwendet und sind in einigen Systemen verfügbar und können in ihrer Allgegenwärtigkeit in naher Zukunft zunehmen. Derartige Passwörter basieren auf dem Identifizieren von Merkmalen in der Sprache, welche, wenn sie in Kombination verwendet werden, ein Individuum mit einer bestimmten Wahrscheinlichkeit eindeutig identifizieren.
  • Rauschreduktionsalgorithmen können verwendet werden, um die Effekte des Umgebungsrauschens zu reduzieren, sowohl beim Sammeln von Proben, um Modelle zu formen, welche Merkmale in der Sprache verkörpern, als auch im Verwenden der Modelle zum Identifizieren von Sprechern. Derartige Rauschreduktionsalgorithmen können auch die Systemqualität beeinflussen.
  • Aus der Druckschrift US 2012/0130714 A1 sind ein System und ein Verfahren zur Erzeugung von Herausforderungsphrasen zur Sprecherverifikation bekannt, wobei die Herausforderungsphrasen zufällig generiert werden.
  • Aus der Druckschrift US 2013 / 0 166 296 A1 sind ein Verfahren und eine Vorrichtung zur Erzeugung von sprecherspezifischen Sprach-Passwörtern, welche eine oder mehrere Merkmale zur Sprecheridentifizierung aufweisen, bekannt.
  • Zusammenfassung
  • Ein System umfasst ein Nutzersprachprofil, das auf einem computerlesbaren Speichergerät gespeichert ist, wobei das Sprachprofil eine Mehrzahl von Phonemen mit Nutzer identifizierenden Charakteristiken für die Phoneme enthält, und einen Sprachprozessor, der gekoppelt ist, um auf das Sprachprofil zuzugreifen, um eine Phrase, welche Nutzer kennzeichnende Phoneme basierend auf einer Abweichung zwischen den Nutzer identifizierenden Charakteristiken für derartige Phoneme und durchschnittlichen Nutzer identifizierenden Charakteristiken enthält, zu erzeugen, so dass die Phrase eine Unterscheidbarkeit von anderen Nutzern aufweist.
  • In einer Ausführungsform umfasst ein System einen Audioeingang, um Sprache von einem Nutzer zu empfangen, wobei die Sprache Umgebungsrauschen nahe bei dem Nutzer einschließt, und einen mit dem Audioeingang gekoppelten Sprachprozessor, um eine Phrase, welche Nutzer kennzeichnende Phoneme enthält in Abhängigkeit des Umgebungsrauschens zu erzeugen, so dass die Phrase eine Unterscheidbarkeit von dem Umgebungsrauschen, von anderen Nutzern oder sowohl von dem Umgebungsrauschen als auch von anderen Nutzern aufweist.
  • Ein Verfahren umfasst ein Empfangen eines Umgebungsrauschsignals nahe bei dem Nutzer und ein Erzeugen einer Phrase, welche Nutzer kennzeichnende Phoneme in Abhängigkeit des Umgebungsrauschens enthält, so dass die Phrase eine Unterscheidbarkeit von dem Umgebungsrauschen, von anderen Nutzern oder sowohl von dem Umgebungsrauschen als auch von anderen Nutzern aufweist.
  • Figurenliste
    • 1 ist ein Blockdiagramm eines Systems, um Phrasen, die durch einen Nutzer gesprochen wurden, zu erzeugen, um Zugriff auf ein System zu erlangen gemäß einer beispielhaften Ausführungsform.
    • 2 ist eine Tabelle, die Phoneme und Trefferzahlen für Phoneme darstellt gemäß einem Ausführungsbeispiel.
    • 3 ist eine Tabelle, die Phrasen mit Phonemen, die in derartigen Phrasen zum Verwenden beim Erzeugen von Phrasen enthalten sind, um einen Zugriff auf ein System zu erlangen, darstellt, gemäß einer beispielhaften Ausführungsform.
    • 4 ist ein Flussdiagramm, das ein Verfahren zum Auswählen und zum Verwenden einer Phrase, um Zugriff zu einem Computersystem zu erlangen, darstellt, gemäß einer beispielhaften Ausführungsform.
    • 5 ist ein Blockdiagramm eines beispielhaften Computersystems, um eine oder mehrere Ausführungsformen zu verwirklichen.
  • Detaillierte Beschreibung
  • In der folgenden Beschreibung wird auf die begleitenden Zeichnungen Bezug genommen, die einen Teil davon bilden und in denen im Wege der Darstellung spezifischer Ausführungsformen gezeigt werden, die praktiziert werden können. Diese Ausführungsformen sind in ausreichendem Detail beschrieben, um jenen, denen der Stand der Technik bekannt ist, in die Lage zu versetzen, die Erfindung zu praktizieren, und es ist verständlich, dass andere Ausführungsformen verwendet werden können und dass strukturelle, logische und elektrische Änderungen durchgeführt werden können, ohne von dem Schutzumfang der vorliegenden Erfindung abzuweichen. Die nachfolgende Beschreibung von beispielhaften Ausführungsformen ist deshalb nicht in einem begrenzenden Sinne zu gebrauchen, und der Schutzumfang der vorliegenden Erfindung wird durch die anhängenden Ansprüche definiert.
  • Die Funktionen oder Algorithmen, die hierin beschrieben werden, können in Software oder in Kombination von Software und menschlich verwendeten Vorgängen in einer Ausführungsform eingesetzt werden. Die Software kann aus computerdurchführbaren Instruktionen, die auf einem computerlesbaren Medium wie einem Speicher oder einer anderen Art von Speichergeräten gespeichert sind, bestehen. Weiterhin entsprechen derartige Funktionen Modulen, welche Software, Hardware, Firmenware oder irgendeine Kombination davon sind. Mehrfache Funktionen können in einem oder mehreren Modulen wie gewünscht durchgeführt werden, und die Ausführungsformen sind nur als Beispiele beschrieben. Die Software kann auf einem digitalen Signalcomputer, einer ASIC, einem Mikroprozessor oder einer anderen Art von Prozessor auf einem Computersystem, wie einem Personalcomputer, einem Server oder einem anderen Computersystem, durchgeführt werden.
  • Viele unterschiedliche Technologien werden in unterschiedlichen Sprecherverifizierungssystemen verwendet, wie eine Frequenzabschätzung, Hidden Markov-Modellen, Gauss'schen Mischungsmodellen, Musteranpassungen, neuronalen Netzwerken oder anderen. Diese Technologien können auf unterschiedlichen Phonemen beruhen, welche Sprachklänge sind. Konsonantenklänge sind einzelne Buchstabenklänge, wie „b“, „d“, „t“ usw. Konsonanten-Digraphen sind zwei Buchstabenklänge, wie „th“, „sh“, „ch“ und andere. Kurze Vokalklänge entsprechen den unterschiedlichen Vokalen im Alphabet. Andere Arten der Vokalklänge umfassen lange Vokalklänge, andere Vokalklänge, Vokaldoppellaute und Vokalklänge, die durch „r“ beeinflusst werden.
  • In unterschiedlichen Ausführungsformen werden Phrasen erzeugt, die eine Person sprechen soll, welche die Unterscheidbarkeit für die jeweilige Person derart maximieren, dass einem Nutzer eines Systems der Zugriff zu dem System bereitgestellt wird. Die Phrase, die ein Nutzer zu Sprechen aufgefordert werden kann, enthält Phoneme, die als besser unterscheidbar von anderen Nutzern bekannt sind. Gemäß der Erfindung werden Phrasen ausgewählt, die Phoneme enthalten, die wahrscheinlich am wenigsten nachteilig von der Präsenz von Umgebungsrauschen betroffen sind.
  • 1 ist ein Blockdiagramm eines Systems 100 zum Erzeugen von Phrasen, die durch eine Person gesprochen werden, um zu helfen, die Identität der Person unter Verwendung eines Systems zu verifizieren. Die Phrase kann durch viele verschiedene Systeme zum Verifizieren eines Nutzers, der ein Passwort oder eine Phrase spricht und zum Bereitstellen eines Zugangs zu dem System verwendet werden. Das System, das den Sprecher verifiziert, kann ein oder mehrere unterschiedliche Sprachverifikationstechnologien verwenden, auf die gewöhnlicherweise als Modelle Bezug genommen wird, um ein Nutzerprofil mit der gesprochenen Phrase zu vergleichen. Eine Phrase kann ein einzelnes Wort oder mehrere aneinander gereihte Wörter sein. Die Phrase muss nicht grammatikalisch korrekt sein.
  • In einer Ausführungsform umfasst das System 100 einen Prozessor 110, der gekoppelt ist, um einen Audioeingang 115 zu empfangen. Der Audioeingang kann eine Audio-Buchse oder einen Hochfrequenzempfang, der ein oder mehrere drahtlose Protokolle umsetzt, verwenden. Der Prozessor kann einen Speicher einschließen oder Zugriff zu einem Speicher haben, um Sprachverarbeitungsfunktionen in einer Ausführungsform anzuwenden. Der Prozessor ist gekoppelt, um ein Profil 120, das einem Nutzer zugehörig ist, zu empfangen. Das Profil identifiziert ausgewählte Phoneme, die der Nutzer unterschiedlich als andere ausspricht, zusammen mit einer repräsentativen Anzahl von Unterschieden für jedes Phonem von einem durchschnittlichen Nutzer. Das Profil 120 kann betrachtet werden, als sei es in einer Vielzahl von Phonemen mit Nutzer identifizierenden Charakteristiken derartiger Phoneme enthalten. Je stärker sich die Aussprache eines Phonems von der Art, in der die meisten Nutzer das Phonem aussprechen, unterscheidet, desto stärker kann das Phonem als eines angenommen werden, welches Nutzeridentifizierungscharakteristiken aufweist.
  • Der Prozessor 110 kann auch mit einem Phrasengenerator 125 gekoppelt sein. Der Phrasengenerator 125 kann eine auf einem computerlesbaren Speichergerät gespeicherte Software sein, die, wenn sie durch den Prozessor 110 ausgeführt wird, eine Phrase erzeugt wird, die ein Nutzer kennzeichnendes Phonem enthält, das auf einem Unterschied zwischen den Nutzer identifizierenden Charakteristiken derartiger Phoneme und dem durchschnittlichen Nutzer identifizierenden Charakteristiken basiert, so dass die Phrase eine Unterscheidbarkeit von anderen Nutzern aufweist. Die Unterscheidbarkeit kann vergrößert werden, basierend auf der Stärke des Unterschieds.
  • In einer Ausführungsform wird die Audioeingang 115 verwendet, um ein Audiosignal von dem Nutzer, der die erzeugte Phrase ausspricht, zu empfangen. Das System 110 kann eine Anzeige 130 umfassen, die gekoppelt ist, um die erzeugte Phrase zu empfangen und sie für den Nutzer derart anzuzeigen, dass der Nutzer sie laut mitlesen kann. Das System 100 kann auch ein Modell 135 umfassen, das dem Nutzer entspricht und durch den Prozessor verwendet wird, um zu verifizieren, ob die Phrase von dem Nutzer gesprochen wurde, um die Identität des Nutzers zu bestätigen. Das Modell kann in einigen Ausführungsformen irgendeine Art Modell sein, welches die erzeugten Phrasen mit dem Audiosignal, das der gesprochenen Phrase durch den Nutzer entspricht, zu vergleichen, um die Identität des Nutzers zu bestätigen.
  • Gemäß der Erfindung stellt der Audioeingang 115 ein Signal bereit, das repräsentativ für das Hintergrundrauschen in der Umgebung, die nahe dem Umfeld ist, in welchem der Nutzer versucht, Zugriff auf das System 100 zu haben, ist. Das Umgebungsrauschen ist ein Rauschen, das durch ein Mikrofon aufgenommen wird, wo der Nutzer versuchen kann eine Audiophrase oder ein Passwort bereitzustellen, um Zugriff auf das System zu erlangen. Der Prozessor 110 und der Phrasengenerator 125 arbeiten zusammen, um eine Phrase zu erzeugen, welche die Nutzer kennzeichnenden Phoneme in Abhängigkeit des Umgebungsrauschens enthält, so dass die Phrase eine erhöhte Unterscheidbarkeit von dem Umgebungsrauschen besitzt. In einer Ausführungsform kann die Tabelle 200, anstelle des Bereitstellens von Nutzer kennzeichnenden Trefferzahlen, Trefferzahlen aufweisen, die repräsentativ für die Phoneme sind, die weniger wahrscheinlich ähnlich dem Umgebungsrauschen ausgesprochen werden. Wenn ein Nutzer zum Beispiel versucht Zugriff zu dem System 100 zu bekommen, während er in einem Zug fährt, kann der Zug ein benachbartes Umgebungsrauschen erzeugen, das bei einer bestimmten Frequenz auftritt, die ähnlich zu den Frequenzen ist, welche bestimmten Phonemen, wie dem „r“-Phonem, entsprechen. Somit können Phrasen, die „r“-Phoneme enthalten, nicht so leicht verarbeitet und verwendet werden, um zu verifizieren, dass der Nutzer, der sie spricht, wirklich der korrekte Nutzer ist.
  • In einer weiteren Ausführungsform kann eine Trefferzahl in Tabelle 200 einer kombinierten Trefferzahl entsprechen, die sowohl auf dem Umgebungsrauschen als auch auf den Nutzer kennzeichnenden Aussprachen der Phoneme basiert. Die Trefferzahl kann ein in einer Ausführungsform einfacher Mittelwert der Trefferzahlen, die sich auf das Umgebungsrauschen beziehen, und solchen, die sich auf Nutzer-Unterschiede beziehen, oder können in die Richtung des einen oder des anderen stärker gewichtet sein.
  • 2 ist ein Blockdiagramm einer Tabelle 100 für einen Nutzer, die Phoneme 110 enthält, von denen jedes einen Eintrag einer Differenz 115 von einer normalen Aussprache von anderen Nutzern aufweist. In einer Ausführungsform umfasst die Differenz Trefferzahlen von 0-100, wobei 0 einer normalen Aussprache entspricht. Somit differiert die Aussprache des Nutzers der Phoneme umso stärker von anderen Nutzern, je höher die Trefferzahl ist. Die Trefferzahlen, die in diesem Beispiel gezeigt werden, variieren von 10 bis 90, wobei 90 den „r“-Klängen entspricht. In diesem Fall hat eventuell der Nutzer Schwierigkeiten mit dem „r“-Klang, den er eher als ein „w“ ausspricht. Somit sind Worte mit einem „r“-Klang wahrscheinlich geeigneter, eine größere Unterscheidung dieses Nutzers von anderen Nutzern zu ergeben. In ähnlicher Weise spricht dieser Nutzer den „d“-Klang und den „sh“-Klang deutlich anders aus als andere Nutzer. Somit ist es durch Erzeugen einer Phrase, die „r“-, „d“- und „sh“-Klänge enthält, wahrscheinlicher, diesen Nutzer gegenüber anderen Nutzern zu kennzeichnen, als von Phrasen, die derartige Klänge nicht enthalten.
  • Während in einer Ausführungsform die Skala von 1-100 gewählt wurde, können in weiteren Ausführungsformen unterschiedliche Skalen verwendet werden, wie beispielsweise eine auf Varianz basierenden Skala oder andere statistische Maßstäbe für Differenzen in der Aussprache der Phoneme. In noch weiteren Ausführungsformen kann die Skala an ein besonderes Modell gebunden sein, das beim Durchführen der Nutzerverifizierung verwendet wird, indem Phoneme für Phrasen ausgewählt werden, die für das bestimmte verwendete Modell, stärker unterscheidbar sind.
  • 3 ist eine Tabelle 300, die eine Vielzahl von Phrasen 310 mit entsprechenden in den Phrasen enthaltenen Phonemen 320 enthält. In dieser beispielhaften Tabelle sind nur Phoneme dargestellt, die eine höhere Trefferzahl in der Tabelle 200 aufweisen. Es ist anzumerken, dass die Phrasen darin auch andere Phoneme aufweisen, aber die, da sie den Nutzer nicht von anderen Nutzern so signifikant wie die aufgelisteten Phoneme unterscheiden, nicht gezeigt werden, um ein Überfrachten der dargestellten Tabelle mit unwichtigen Informationen zu vermeiden. Die Tabelle 300 repräsentiert wirkungsvoll eine Sammlung von Phrasen, die auf einem computerlesbaren Speichergerät gespeichert sind. Die Tabelle 300 kann durch den Prozessor 110 und den Phrasengenerator 125 zum Erzeugen einer Phrase durch Suchen nach einer Phrase in der Sammlung, welche Nutzer kennzeichnende Phoneme enthält, verwendet werden. In einer Ausführungsform sollte die erzeugte Phrase mindestens zwei Nutzer kennzeichnende Phoneme enthalten. In weiteren Ausführungsformen enthält die erzeugte Phrase mindestens zwei Beispiele eines Nutzer kennzeichnenden Phonems, welche ähnlich klingen, wie beispielsweise „r“ oder „ch“.
  • In einer weiteren Ausführungsform enthält die Tabelle 300 individuelle Worte, die mit Phonemen assoziiert sind. Eine Phrase, die eine vergrößerte Unterscheidbarkeit von anderen Nutzern aufweist, kann aus den Worten in der Tabelle mit einer gewissen Gewichtung auf der Unterscheidbarkeit erzeugt werden. Die Phrase kann in einer Ausführungsform zufällig aus den Worten erzeugt werden. In noch einer weiteren Ausführungsform können die Worte oder Phrasen in der Tabelle 300 aus einer oder mehreren unterschiedlichen Sprachen, wie Englisch, Französisch, Spanisch, Deutsch, Japanisch, Chinesisch usw., sein. Worte und Phrasen können in weiteren Ausführungsformen auch erfunden sein.
  • Eine beispielhafte Phrase in der Tabelle 300 ist „short dogs run“. Diese Phrase enthält das „sh“-Phonem mit einer Trefferzahl von 70, ein „d“-Phonem mit einer Trefferzahl von 80 und zwei „r“-Phoneme, die jeweils eine Trefferzahl von 90 aufweisen. Die Phrase enthält somit vier höchstkennzeichnende Phoneme und wahrscheinlich die meisten kennzeichnenden Phoneme der Phrasen in der Phrasentafel 300 aufweisen.
  • In weiteren Ausführungsformen können Worte und Phrasen von einem entfernten Server, wie einem cloud-basierenden Server, ausgelesen werden und können die Worte analysiert sein, um die Phoneme zu identifizieren. In noch weiteren Ausführungsformen kann eine neue Phrase zu jeder Zeit erzeugt werden, in der ein Nutzer beabsichtigt, Zugang zu einem System zu erlangen, um das Risiko zu minimieren, dass ein Aufzeichnen des Nutzers verwendet werden kann, um Zugriff zu dem System zu erlangen.
  • 4 ist ein Flussdiagramm, das ein Verfahren 400 zum Erzeugen einer von einem Nutzer zu sprechenden Phrase darstellt, um zu verifizieren, dass der Nutzer Zugriff zu einem System hat gemäß einem Ausführungsbeispiel. Bei 410 wird ein Umgebungsrauschsignal nahe bei einem Nutzer empfangen. Der Nutzer wird auch identifiziert. Bei 420 wird eine Phrase, die Nutzer kennzeichnende Phoneme enthält, in Abhängigkeit des Umgebungsrauschens erzeugt, so dass die Phrase eine höhere Unterscheidbarkeit von dem Umgebungsrauschen aufweist. In einer Ausführungsform kann die erzeugte Phrase auch als eine Funktion einer Differenz zwischen Nutzer kennzeichnenden Charakteristiken für solche Phoneme und durchschnittlichen Nutzer kennzeichnenden Charakteristiken ausgewählt werden, so dass die Phrase eine erhöhte Unterscheidbarkeit von anderen Nutzern aufweist. In noch weiteren Ausführungsformen sind sowohl das Umgebungsrauschen als auch die Nutzerunterschiede verwendbar, um die Phrase zu erzeugen. In einer noch weiteren Ausführungsform wird kein Umgebungsrauschen empfangen und nur die Nutzerunterschiede werden verwendet, um die Phrase zu erzeugen.
  • Sobald die Phrase erzeugt ist, wird sie dem Nutzer bei 430 angezeigt. Der Nutzer kann dann die Phrase laut in ein Mikrofon vorlesen. Bei 440 wird die erzeugte Phrase, die durch den Nutzer gesprochen wurde, empfangen und bei 450 verifiziert das System, ob die Phrase durch den Nutzer gesprochen wurde, um die Identität des Nutzers zu bestätigen.
  • In einer Ausführungsform wird das Erzeugen der Phrase bei 420 durch ein Suchen nach einer Phrase in einer Sammlung ausgeführt, welche Nutzer kennzeichnende Phoneme enthält. Die erzeugte Phrase kann mindestens zwei Nutzer kennzeichnende Phoneme enthalten. In einer weiteren Ausführungsform enthält die erzeugte Phrase mindestens zwei Beispiele eines Nutzer kennzeichnenden Phonems.
  • In einer weiteren Ausführungsform können der Nutzer ein System auf ihre Stimme trainieren und eine Phrase bereitstellen, die in Zukunft als Zugang zu dem System zu verwenden ist. Das System kann diese bereitgestellte Phrase analysieren, um zu bestimmen, ob die Phrase eine gute Unterscheidbarkeit von anderen Nutzern bereitstellt, und um dem Nutzer ein Feedback über die bereitgestellte Phrase zu geben. Das Feedback kann anzeigen, dass die Phrase keine adäquate Unterscheidbarkeit von anderen Nutzern bereitstellt, und kann eine alternative Phrase, die eine höhere Unterscheidbarkeit in einer Weise, wie sie oben beschrieben wird, aufweist, vorschlagen werden. Das Feedback kann auch vorschlagen, dass der Nutzer über eine andere Phrase, die mehr Phoneme enthält, nachdenkt, von welchen herausgefunden wurde, eine höhere Unterscheidbarkeit von anderen Nutzern besitzt, wie zum Beispiel: „Bitte stelle eine Phrase zur Verfügung, die mehr {x, y und z} Klänge (Phoneme) enthält.“
  • 5 ist ein schematisches Blockdiagramm eines Computersystems 500, um eine oder mehrere Ausführungsformen zu verwenden. In einer Ausführungsform werden mehrere derartige Computersysteme in einem verteilten Netzwerk verwendet, um mehrere Komponenten einzusetzen. Die Phrasenerzeugung kann durch ein Computersystem ausgeführt werden und durch ein oder mehrere andere Computersysteme verwendet werden, um die Identität des Nutzers zu verifizieren. Weiterhin können noch ein oder mehrere Computersysteme verwendet werden, um die Identität des Nutzers für andere Computersysteme zu verwenden, auf welche der Nutzer beabsichtigt zuzugreifen. In einer Ausführungsform kann das Computersystem ein Smartphone mit eingebautem Mikrofon sein. Eine objektorientierte und serviceorientierte oder eine andere Architektur können verwendet werden, um derartige Funktionen zu implementieren und zwischen den mehreren Systemen und Komponenten zu kommunizieren. Ein Beispiel eines Computergeräts in Form eines Computers 500 kann eine Prozessoreinheit 502, einen Speicher 503, einen Wechselspeicher 510 und einen nicht Wechselspeicher 512 enthalten. Der Speicher 503 kann flüchtige Speicher 514 und nicht flüchtige Speicher 508 umfassen. Der Computer 500 kann umfassen oder hat Zugriff zu einer Computerumgebung, welche einschließt - eine Vielfalt von computerlesbaren Medien, wie einen flüchtigen Speicher 514 und einen nicht flüchtigen Speicher 508, einen Wechselspeicher 510 und einen nicht Wechselspeicher 512. Computerspeicher umfassen Direktzugriffsspeicher (RAM, random access memory), Nur-Lese-Speicher (ROM, read only memory), löschbare programmierbare Nur-Lese-Speicher (EPROM, erasable programmable read-only memory) & elektrisch löschbare programmierbare Nur-Lese-Speicher (EEPROM, electrically erasable programmable read-only memory), Flash-Speicher oder andere Speichertechnologien, Kompaktdisk Nur-Lese-Speicher (CD ROM), Digital Versatile Disks (DVD) oder andere optische Plattenspeicher, Magnetkassetten, magnetische Bänder, magnetische Plattenspeicher oder andere magnetische Speichergeräte oder irgendwelche anderen Medien, die zum Speichern von computerlesbaren Instruktionen geeignet sind. Der Computer 500 kann einschließen oder Zugriff haben auf eine Computerumgebung, welche einen Eingang 506, einen Ausgang 504 und eine Kommunikationsverbindung 516 umfasst. Der Computer kann in einer Netzwerkumgebung unter Verwenden einer Kommunikationsverbindung arbeiten, um einen oder mehrere ferne Computer, wie Datenbasisserver, zu verbinden. Der ferne Computer kann einen Personalcomputer (PC), einen Server, ein gleichartiges Gerät bzw. ein Peer Device oder andere gemeinsame Netzwerkknoten oder dergleichen aufweisen. Die Kommunikationsverbindung kann ein Nahbereichsnetzwerk (LAN) ein Fernbereichsnetzwerk (WAN) oder andere Netzwerke umfassen.
  • Computerlesbare Instruktionen, die auf einem computerlesbaren Medium gespeichert sind, sind durch die Prozessoreinheit 502 des Computers 500 ausführbar. Eine Festplatte, CD-ROM und RAM sind einige Beispiele von Gegenständen, die in einem nicht vorübergehenden computerlesbaren Medium enthalten sind. Zum Beispiel kann ein Computerprogramm 518, das in der Lage ist eine gattungsgemäße Technik zum Durchführen einer Zugriffssteuerprüfung für einen Datenzugriff bereitzustellen und/oder eine Operation auf einem der Server in einem Komponentenobjektmodell (COM, component object model) basierenden System durchzuführen, auf einem CD-ROM enthalten und von dem CD-ROM auf eine Festplatte geladen werden. Die computerlesbaren Instruktionen ermöglichen dem Computer 500 gattungsgemäße Zugriffssteuerungen in einem COM basierenden Computernetzwerksystem, das mehrere Nutzer und Server aufweist, bereitzustellen.
  • Obgleich wenige Ausführungsformen im Detail oben beschrieben wurden, sind andere Modifikationen möglich. Zum Beispiel kann der Logikfluss, der in den Figuren gezeigt wird, nicht die besondere Abfolge oder die Reihenfolge, die gezeigt wird, erfordern, um die gewünschten Ergebnisse zu erzielen. Andere Schritte können bereitgestellt werden oder Schritte können von dem beschriebenen Fluss entfernt werden und andere Komponenten können hinzugefügt werden oder entfernt werden von den beschriebenen Systemen. Andere Ausführungsformen können innerhalb des Schutzbereichs der nachfolgenden Ansprüche liegen.

Claims (13)

  1. System, umfassend: einen Audioeingang (115), um Sprache von einem Nutzer zu empfangen, wobei die Sprache Umgebungsrauschen nahe dem Nutzer einschließt; einen Sprachprozessor (110), der mit der Audioeingabe (115) gekoppelt ist und so eingerichtet ist, dass er in Abhängigkeit des Umgebungsrauschens eine Phrase erzeugt, welche Nutzer kennzeichnende Phoneme enthält, die wahrscheinlich am wenigsten nachteilig von der Präsenz des Umgebungsrauschens betroffen sind und die somit eine erhöhte Unterscheidbarkeit von dem Umgebungsrauschen aufweist.
  2. System nach Anspruch 1, wobei der Sprachprozessor (110) die Phrase in Abhängigkeit von Unterschieden zwischen den Nutzer kennzeichnenden Charakteristiken für derartige Phoneme und durchschnittlichen Nutzer identifizierenden Charakteristiken auswählt, so dass die Phrase eine erhöhte Unterscheidbarkeit von anderen Nutzern aufweist.
  3. System nach Anspruch 1 und weiterhin umfassend: einen Audioeingang (115), um die erzeugte Phrase, die durch den Nutzer gesprochen wird, zu empfangen; und eine Anzeige (130), die gekoppelt ist, um die erzeugte Phrase zu empfangen und sie dem Nutzer anzuzeigen.
  4. System nach Anspruch 1, wobei der Sprachprozessor (110) weiterhin die erzeugte Phrase, die durch den Nutzer gesprochen wird, über den Audioeingang (115) empfängt und verifiziert, ob die Phrase durch den Nutzer gesprochen wurde, um die Identität des Nutzers zu bestätigen.
  5. System nach Anspruch 1 und weiterhin umfassend eine Sammlung von Phrasen, die auf einem computerlesbaren Speichermedium gespeichert ist, und wobei der Sprachprozessor (110) die Phrase erzeugt, indem er nach einer Phrase in der Sammlung, welche die kennzeichnenden Phoneme des Nutzers enthält, sucht.
  6. System nach Anspruch 5, wobei die erzeugte Phrase mindestens zwei Nutzer kennzeichnende Phoneme enthält.
  7. System nach Anspruch 5, wobei die erzeugte Phrase mindestens zwei Beispiele eines Nutzer kennzeichnenden Phonems enthält.
  8. Verfahren, umfassend: Empfangen eines Umgebungsrauschsignals nahe bei einem Nutzer (410); und Erzeugen einer Phrase in Abhängigkeit des Umgebungsrauschens, welche Nutzer kennzeichnende Phoneme enthält, die wahrscheinlich am wenigsten nachteilig von der Präsenz des Umgebungsrauschens betroffen sind und somit eine erhöhte Unterscheidbarkeit von dem Umgebungsrauschen aufweist (420).
  9. Verfahren nach Anspruch 8, wobei die erzeugte Phrase auch in Abhängigkeit eines Unterschieds zwischen den Nutzer kennzeichnenden Charakteristiken für derartige Phoneme und durchschnittlichen Nutzer kennzeichnenden Charakteristiken ausgewählt wird, so dass die Phrase eine erhöhte Unterscheidbarkeit von anderen Nutzern aufweist.
  10. Verfahren nach Anspruch 8 und weiterhin umfassend: Anzeigen der erzeugten Phrase für den Nutzer (430); Empfangen der erzeugten Phrase, die durch den Nutzer gesprochen wird (440); und Verifizieren, ob die Phrase, die durch den Nutzer gesprochen wird, die Identität des Nutzers bestätigt (450).
  11. Verfahren nach Anspruch 8, wobei das Erzeugen der Phrase (420) durch Suchen nach einer Phrase in der Sammlung, die Nutzer kennzeichnende Phoneme enthält, ausgeführt wird.
  12. Verfahren nach Anspruch 11, wobei die erzeugte Phrase mindestens zwei Nutzer kennzeichnende Phoneme enthält.
  13. Verfahren nach Anspruch 11, wobei die erzeugte Phrase mindestens zwei Beispiele des Nutzer kennzeichnenden Phonems enthält.
DE102014107028.3A 2013-09-18 2014-05-19 Verbesserte biometrische Passwortsicherheit Active DE102014107028B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/030,919 2013-09-18
US14/030,919 US9437195B2 (en) 2013-09-18 2013-09-18 Biometric password security

Publications (2)

Publication Number Publication Date
DE102014107028A1 DE102014107028A1 (de) 2015-03-19
DE102014107028B4 true DE102014107028B4 (de) 2019-12-19

Family

ID=52580060

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102014107028.3A Active DE102014107028B4 (de) 2013-09-18 2014-05-19 Verbesserte biometrische Passwortsicherheit

Country Status (3)

Country Link
US (1) US9437195B2 (de)
CN (1) CN104462912B (de)
DE (1) DE102014107028B4 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157272B2 (en) * 2014-02-04 2018-12-18 Qualcomm Incorporated Systems and methods for evaluating strength of an audio password
GB2552723A (en) * 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
GB2552722A (en) 2016-08-03 2018-02-07 Cirrus Logic Int Semiconductor Ltd Speaker recognition
US10592649B2 (en) 2017-08-09 2020-03-17 Nice Ltd. Authentication via a dynamic passphrase
EP3881318B1 (de) * 2018-11-14 2024-01-03 Hewlett-Packard Development Company, L.P. Inhalte auf der basis von richtliniengenehmigungen
DE102021103310B4 (de) 2021-02-12 2024-01-04 Dr. Ing. H.C. F. Porsche Aktiengesellschaft Verfahren und vorrichtung zur verbesserung der sprachverständlichkeit in einem raum
CN114360553B (zh) * 2021-12-07 2022-09-06 浙江大学 一种提升声纹安全性的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120130714A1 (en) 2010-11-24 2012-05-24 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
US20130166296A1 (en) 2011-12-21 2013-06-27 Nicolas Scheffer Method and apparatus for generating speaker-specific spoken passwords

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1027700A4 (de) * 1997-11-03 2001-01-31 T Netix Inc Modell-anpassungs-system und verfahren zur sprecher-prüfung
US8645137B2 (en) * 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7493259B2 (en) * 2002-01-04 2009-02-17 Siebel Systems, Inc. Method for accessing data via voice
US7457745B2 (en) * 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US7386448B1 (en) * 2004-06-24 2008-06-10 T-Netix, Inc. Biometric voice authentication
US7536304B2 (en) * 2005-05-27 2009-05-19 Porticus, Inc. Method and system for bio-metric voice print authentication
CN1963917A (zh) * 2005-11-11 2007-05-16 株式会社东芝 评价语音的分辨力、说话人认证的注册和验证方法及装置
JP4573792B2 (ja) * 2006-03-29 2010-11-04 富士通株式会社 ユーザ認証システム、不正ユーザ判別方法、およびコンピュータプログラム
US8190437B2 (en) * 2008-10-24 2012-05-29 Nuance Communications, Inc. Speaker verification methods and apparatus
US8332223B2 (en) * 2008-10-24 2012-12-11 Nuance Communications, Inc. Speaker verification methods and apparatus
US9147401B2 (en) * 2011-12-21 2015-09-29 Sri International Method and apparatus for speaker-calibrated speaker detection
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120130714A1 (en) 2010-11-24 2012-05-24 At&T Intellectual Property I, L.P. System and method for generating challenge utterances for speaker verification
US20130166296A1 (en) 2011-12-21 2013-06-27 Nicolas Scheffer Method and apparatus for generating speaker-specific spoken passwords

Also Published As

Publication number Publication date
CN104462912B (zh) 2020-06-23
CN104462912A (zh) 2015-03-25
US20150081301A1 (en) 2015-03-19
DE102014107028A1 (de) 2015-03-19
US9437195B2 (en) 2016-09-06

Similar Documents

Publication Publication Date Title
DE102014107028B4 (de) Verbesserte biometrische Passwortsicherheit
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE69914839T2 (de) Sprecherverifikation und -erkennung mittels Eigenstimmen
DE602006000090T2 (de) Konfidenzmaß für ein Sprachdialogsystem
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE60311548T2 (de) Verfahren zur iterativen Geräuschschätzung in einem rekursiven Zusammenhang
DE69327188T2 (de) Einrichtung für automatische Spracherkennung
DE112017004397T5 (de) System und Verfahren zur Einstufung von hybriden Spracherkennungsergebnissen mit neuronalen Netzwerken
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE112016004008T5 (de) Neuronales netz für sprecherverifikation
EP1184839A2 (de) Graphem-Phonem-Konvertierung
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
EP1611568A1 (de) Dreistufige einzelworterkennung
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE112012003479T5 (de) Verringerung von falschen Treffern in Spracherkennungssystemen
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
EP2962296B1 (de) Wortwahlbasierte sprachanalyse und sprachanalyseeinrichtung
DE212016000292U1 (de) System zur Text-zu-Sprache-Leistungsbewertung
DE112021004829T5 (de) Durchgängiges verstehen gesprochener sprache ohne vollständige abschriften
EP1159733B1 (de) Verfahren und anordnung zur bestimmung eines repräsentativen lautes
EP1058235A2 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE112017006049B4 (de) Verfahren und Vorrichtung zur Klangidentifizierung anhand periodischer Anzeichen
WO2005088607A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0017260000

Ipc: G10L0017240000

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R082 Change of representative

Representative=s name: SCHWEIGER, MARTIN, DIPL.-ING. UNIV., DE