Welches Problem soll durch die Erfindung gelöst werden?
-
Mit dem Zugang zum Internet über private Telefonverbindungen sowohl im Festnetz und im
mobilen Netz entstanden und entstehen Sicherheitsprobleme, die bisher nur mit
unzureichenden technischen Hilfsmitteln behandelt werden können. Gerade mit der
Einführung des mobilen Internets und des sprachlichen Zugangs zu Internet- und
Intranetinformationen entsteht dadurch ein zusätzliches Problem der Authentisierung der
berechtigten Benutzer, daß der Benutzer bei lang andauernden Sessions nicht nur in einem
geschlossenen Raum mit eventuell begrenztem Zutritt verbleibt, sondern sich im Freien oder
im Auto fortbewegt. Eine damit sinnvollerweise erforderliche andauernde Kontrolle bzw. der
Überprüfung der gegebenen Zutrittsberechtigung für den Benutzer selbst (nicht einer
Smartcard) ist bis heute nicht realisiert.
Wie wurde dieses Problem bisher gelöst?
-
Heutige Authentisierungsverfahren basieren hauptsächlich auf der Eingabe eines persönlichen
Authentifizierungscodes (PIN), wie er auch im Bankenumfeld üblich ist. Beim Einschalten
eines Mobiltelefons wird immer eine PIN abgefragt. Diese PIN wird innerhalb des Telefons
mit der Chipkarte überprüft. Danach ist die Benutzung des Telefons ohne weitere
Einschränkungen möglich. Für die Authentisierung von Web-Diensten, die mit einem
Festnetztelefon oder mit einem Mobiltelefon genutzt werden können, wird das gleiche
Verfahren benutzt. Im Normalfall wird für jeden Service (Internetzugang, Zugang zum
Bankkonto) eine weitere PN vergeben. Die PINs werden in Abhängigkeit vom Service lokal
überprüft (siehe Mobiltelefon) oder auf dem angeschlossenen Server. Wegen der
Abhörmöglichkeiten wird häufig die PIN durch eine zeitabhängige Komponente ergänzt
(Verfahren RLA). Hier werden zeitabhängige Zufallszahlen mit einer PIN verbunden zur
Überprüfung genutzt, ob der Verbindungsaufbau oder der Netzzugang berechtigt ist.
-
Allen Verfahren ist gemein, dass die Überprüfung nur einmal, am Anfang, erfolgt. Bei
Banktransaktionen werden transaktionsspezifische PINs (TANs) eingesetzt, die eine feiner
granulare Überprüfung erlauben, nämlich je Transaktion. Für eine allgemeine feiner granulare
Überprüfung der Nutzungsberechtigung müssten PINs regelmäßig eingegeben werden. Dies
ist wegen des damit verbundenen Aufwands nicht realisierbar (fehlende Benutzerakzeptanz).
-
Auf Basis von Smartcards werden heute Verfahren entwickelt, die eine kontinuierliche
Überprüfung erlauben, da die Smartcard ständig im Zugangssystem (e. g. einem
angeschlossenen PC) verbleibt. Hier bleibt das Problem der fehlenden Standardisierung der
genutzten Zugangsmedien. Z. B. werden in Mobiltelefonen andere Chipkarten genutzt als in
PCs. Dies ist jedoch ebenfalls nur eine Identifizierung der Smartcard, nicht des Benutzers.
In welcher Weise löst Ihre Erfindung das angegebene
technische Problem?
-
Mit dem Fortschritt von Spracherkennungsverfahren verbessern sich auch die Möglichkeiten
ihrer Nutzung zur Sprechererkennung. Gerade mit dem wachsenden Einsatz von
Sprachinteraktionen zum Zugang zu E-Mail oder anderen Informationen kann die laufende
Spracheingabe automatisch zur kontinuierlichen Sprechererkennung genutzt werden. Da
damit auch ein erheblicher Ressourcenbedarf verbunden ist, kann mit Standardtechniken die
kontinuierliche Sprechererkennung auf eine semi-kontinuierlicher Sprechererkennung (z. B.
alle 5 Minuten, alle 10 Minuten) eingeschränkt werden.
-
Auch in zukünftigen konvergenten IP-basierten Netzen kann die Sprechererkennung auf Basis
von standardisierter Spracherkennungstechnologie verstärkt eingesetzt werden, um
- - Eine einfach zu bedienende Authentisierung durchzuführen
- - Unabhängig von spezifischen Tokens (Smartcard, Fingerprintdetektoren) zu werden
- - Kontinuierlich die Zugangsprüfung durchzuführen
- - Kompatibel zu den heute gebräuchlichen Authentisierungsverfahren zu bleiben
-
Dazu ist lediglich eine parallele Spracheingabe zu den laufenden datenbasierten Interaktionen
notwendig. Aufgrund der Netzkonvergenz kann für die Sprache das gleiche Protokoll (IP) mit
den gleichen physikalischen Schnittstellen genutzt werden. Zu bemerken ist auch, dass zur
Vermeidung des Wiedereinspielens aufgenommener Sprache der abgefragte Inhalt zeitlich
variiert werden kann.
Ausführungsbeispiel der Erfindung
-
Der Zugang zu E-Mails ist heute bereits vom Auto aus möglich (e. g. BMW). Dabei wird eine
Verbindung über das Internet zu Mail-Service-Anbietern aufgebaut. Die Mails werden dem
Teilnehmer im Auto vorgelesen und durch die Eingabe von Kommandos kann die
Mailbearbeitung durchgeführt werden (e. g. Rückruf an den Absender einer vorgelesenen
Mail).
-
Die Eingabe der Kommandos wird über Spracherkennungshardware (bzw. -software) in
geeignete Kommandos an das Mailsystem umgewandelt. Bei der Umwandlung kann das
eingegangene Sprachsignal auf vorgegebene Merkmale untersucht werden (Modulation,
zeitliche Eigenschaften) bzw. mit vorhandenen Beispielen des Sprechers verglichen werden.
Bei Abweichung können weitere Authentisierungsmaßnahmen angestoßen werden (e. g.
Abfrage einer speziellen Geheimzahl o. Ä.).
-
Anhand des folgenden Aufbaus kann die Nutzung der Patentidee nachvollzogen werden:
Von einem mobilen Endgerät (z. B. Siemens S35 oder Siemens SX45)1 wird die Verbindung
zu einem Sprachserver aufgebaut. Dazu kann jedes Festnetz oder mobile Netz eines
Telekommunikationsanbieters (DTAG, Vodafone, Mannesmann) genutzt werden. Durch
Roamingabkommen der Netzanbieter kann diese Funktion auch international genutzt werden
(e. g. mobiler Zugang via Voicestream zu Service in Deutschland).
1Siehe Client Side ([1]) des beigefügten Ablaufschemas: Benutzerzugang über jegliche Art Gerät sofern die
Möglichkeit zur Spracheingabe gegeben ist. Erstauthentisierung durch PIN-basiertes Verfahren oder
biometrisches Verfahren wie Sprechererkennung, Retinscreening etc (client side).
2Siehe Server Side ([2]) des beigefügten Ablaufschemas: Terminierungspunkt für "anrufende" Benutzer mit
Sprachmenüsteuerung, Authentisierung etc. Dient als zentrale Verteilstation für Benutzerfragen auf geeignete
(Backend-)Serwessysteme. Kontinuierliche Authentisierung kann am Terminierungspunkt oder auf speziellen
Authentisierungsserven erfolgen (service side).
-
Der Sprachserver2 besteht aus folgenden Komponenten:
- - ein Standard Computersystem wie z. B. ein Fujitsu Siemens PRIMEPOWER
Solaris System oder ein Fujitsu Siemens PRIMERGY NT System
- - ein Kommunikationsboard wie z. B. ein ISDN/E1-Board von Ferma, Paris oder ein
ISDN/E1-Board von Dialogic; diese Boards unterstützen die Terminierung von
Telefongesprächen und die Bearbeitung von eingehenden HDLC-Paketen, die
eingehende Sprachnachrichten in digitalisierter Form enthalten; die Form der
Sprachdigitalisierung wird durch internationale Standards festgelegt.
- - Ein DSP-Board z. B. von Ferma, Paris oder von Dialogic/Intel zur Bearbeitung von
Sprachnachrichten auf Basis von HDLC-Paketen
- - Software von Nuance und Lernout & Hauspie zur Erkennung von Sprache aus
digitalisierter, kontinuierlicher Sprache und Generierung von digitalisierter
Information im ASCII-Format bzw. zur Generierung von Sprache aus digitalen
Informationen im ASCII-Format
- - Einer Steuersoftware z. B. I@C von Siemens Business Services oder VoiceXML
der Firma PipeBeach, Schweden zur Verbindung von Backend-Softwaresystemen
mit den Telefoniefrontendsystemen; die Steuersoftware stellt erkannte
Informationen für Backend-Anwendungen zur Weiterverarbeitung zur Verfügung;
umgekehrt kann die Steuersoftware Informationen aus der Anwendungssoftware in
gesprochene Informationen umsetzen, die über die angeschlossenen
Kommunikationsboards am Telefonendgerät gehört werden können.
-
Die Anwendungen laufen üblicherweise auf abgesetzten Servern3. Die Anwendungen sind
meist bereits über herkömmliche Interaktionsmethoden (WWW oder dedizierte
Interaktionssoftware) erreichbar, z. B. über ein Bankterminal.
3Siehe (Data)Server Side das beigefügten Ablaufschemas: Wenn die kontinuierliche Authentisierung am
Teminierungspunkt ausgeführt wird, so wird, entsprechend den Vorgaben, der Benutzer aufgefordert, geeignete
Spracheingaben zu machen, die dann auf Übereinstimmung mit den Benutzerparametern überprüft werden. Die
Vorgaben können sich beziehen auf zeitlichen Abstand, Wiederholrate, Benutzerparameter, Testphrasen,
Toleranzen o. Ä.
-
Teil jeden Zugangs zu Anwendungsservern ist die Authentisierung der Benutzer. Der übliche
Ablauf ist wie folgt:
- - Anmelden durch Angabe einer Benutzer-ID: dies kann am Telefon erfolgen durch
Wählen einer benutzerspezifischen Nummer oder, nach Wählen einer
einheitlichen Zugangsnummer, die Eingabe einer Benutzer-ID durch DTMF
(Dialtone Multifrequency) Ziffernfolgen; die Benutzer-ID wird dann durch die
oben genannte Steuersoftware ausgewertet zur Bereitstellung eines
benutzerspezifischen Profils (bei Anwahl einer benutzerspezifischen Nummer
kann das Profil mit der Nummer direkt assoziiert werden).
- - Danach wird der Benutzer nach einem Passwort oder einer PIN gefragt, die
wiederum per DTMF oder per Sprache eingegeben werden kann (z. B. jedes
Zeichen der PIN einzeln); die Steuersoftware vergleicht die eingegebene PIN
(oder eine verschlüsselte Version davon) mit der abgespeicherten PIN aus dem
Benutzerprofil und erlaubt den Zugriff bei Übereinstimmung oder weist den
Zugriff ab bei Differenz. Alternative bekannte Authentisierungsverfahren
verbinden die PIN-basierte Authentisierung mit der Eingabe von automatisch
erzeugten Zufallszahlen.
- - Danach kann der Benutzer die von ihm gewünschten Interaktionen mit geeigneten
Backendsystemen durchführen. Hierbei gilt der Zugang des Benutzers als
gesichert, weitere allgemeine Authentisierungsschritte fallen normalerweise nicht
mehr an. Falls doch, so können auch diese um unten beschriebene Erweiterungen
verbessert bzw. ergänzt oder vereinfacht werden.
-
Der beschriebene Ablauf der Authentisierung kann durch die Nutzung von Spracheingabe und
geeignete Profileinträge erheblich sicherer gemacht werden (dabei können vorhandene
Authentisierungsmaßnahmen weiterhin genutzt werden):
- - Nutzung von Spracherkennung und Auswertung von Sprechercharakteristiken bei
der Erstauthentisierung des Benutzers verbunden mit
- - Wiederholter Analyse von Sprechercharakteristiken, abgeleitet aus der bereits
laufenden Sprachinteraktion, im weiteren Verlauf der Interaktion zur
kontinuierlichen Authentisierung des Benutzers
-
Der oben beschriebene Authentisierungsablauf wird um folgende zusätzliche Aktionen
erweitert:
- - Bei der Benutzeranmeldung erfolgt die Identifikation nicht nur anhand von
DTMF-Eingaben, sondern wird durch die Spracheingabe des Benutzer-ID ergänzt
oder sogar ersetzt. Dann kann durch Spracherkennung der Benutzer identifiziert
werden. Dadurch können die dem Benutzer zugeordneten Profilinformationen
ermittelt werden.
- - Zusätzlich kann bereits an dieser Stelle durch Analyse von
Sprechercharakteristiken bei der Eingabe der Benutzer-ID der Benutzer
authentisiert werden. Dazu können heute bereits aus der Sicherheitstechnik
bekannte Verfahren bei der Auswahl geeigneter Sprechermerkmale
(Frequenzverhalten, Amplitudenverhalten, Pausen, etc) herangezogen werden.
Zusätzlich wird die eingegebene Sprachinformation durch geeignete
Filterungsverfahren verfälschende Rauschsignale unterdrückt. Diese ermittelten
Charakteristiken werden mit Charakteristiken verglichen, wie sie auf dem nach der
Identifikation verfügbaren Benutzerprofil abgelegt sind. Die Ermittlung der
Sprechercharakteristiken wird günstigerweise mithilfe geeigneter
Signalprozessoren (e. g. von Texas Instruments) auf dem oben eingeführten
Sprachprozessor durchgeführt (alternativ kann auch die eingegebene
kontinuierliche Sprache nach Umsetzung in geeignete Formate wie z. B. WAV
durch Serversoftware auf Sprechercharakteristiken analysiert werden). Die
ermittelten Charakteristiken werden dann, gesteuert von oben angegebener
Steuersoftware, mit den Charakteristiken aus dem Benutzerprofil verglichen.
- - In Anwendungen mit einfachen Sicherheitsanforderungen kann damit bereits der
Systemzugang geöffnet werden. In Anwendungen mit höheren
Sicherheitsanforderungen wird der oben beschriebene Authentisierungsschritt
zusätzlich durchgeführt.
- - Auch hier kann die Analyse von eingegebener Sprachinformation die Sicherheit
der Authentisierung erhöhen (siehe dazu Ablauf wie oben). Dazu ist allerdings
Voraussetzung, dass die gesprochene Eingabe von Authentisierungsinformation
möglich ist und dass die Sprachcharakteristika unabhängig von bestimmten
Wörtern sind, die Sprachcharakteristika also auf Charakteristika des
Sprecherverhaltens basieren. Dies könnte z. B. so realisiert werden, dass dem
Benutzer der zu sprechende Satz dynamisch und zufallsgesteuert vom System
vorgegeben wird. Nach Wiederholung des vorgegebenen Satzes können dann die
Sprechcharakteristika ermittelt werden.
- - Weiters kann die Trefferquote der Sprechererkennung erhöht werden, indem
bereits vorher mit dem Benutzer vereinbarte, im Benutzerprofil abgelegte Sätze
zufällig ausgewählt und der Benutzer zu ihrer Eingabe aufgefordert wird.
-
Nach Identifikation und Erstauthentisierung tritt der Benutzer wie oben beschrieben mit
geeigneten Backendsystemen zur Erledigung seiner Aufgaben in Verbindung. Durch die
Einbeziehung von Sprechererkennung kann der Sprecher kontinuierlich auf seine
Authentizität überprüft werden, ohne dass dahinter liegende Anwendungen auf den
Backendsystemen davon Kenntnis haben oder beeinflusst werden. Dies kann wie folgt
geschehen:
- - Aus den sich wiederholenden Strömen von gesprochenen Informationen des
bereits authentisierten Benutzers zieht der oben eingeführte Sprachserver
dynamisch, zufällig oder in festen Abständen, Teile heraus, die zur Berechnung
von Sprechercharakteristiken herangezogen werden.
- - Da, wie oben beschrieben, das Benutzerprofil bereits geladen wurde, können
verschiedene Strategien, entsprechend dem Sicherheitsbedarf der Anwendung, bei
der Ermittlung der Charakteristiken angewandt werden. Diese können von der
oben beschriebenen Steuerlogik dynamisch ausgewählt und angepasst oder auch in
Kombination verwendet werden. Einerseits kann, bei einer vorher bestimmbaren
Menge von einzugebenden Begriffen und Wörtern, die wortbezogene
Charakteristikermittlung durchgeführt werden. Die Wörter bzw. ihre
sprecherbezogenen Charakteristiken können dann bereits vorher im Profil abgelegt
sein. Alternativ kann, bei nicht fester Wortwahl, eine Teilnehmer wahrscheinlicher
Begriffe gebildet werden, die analog der festen Wortwahl behandelt werden.
Schließlich kann die Ermittlung der Sprechercharakteristiken völlig unabhängig
von einer festen Auswahl von Wörtern erfolgen.
-
Unabhängig von der Durchführung der kontinuierlichen Authentisierung können die
Steuerungsparameter der Authentisierung über einfache Web-Interaktionen eingestellt und
dem Benutzer angepasst werden4 (entweder vom Benutzer selbst oder vom verantwortlichen
Administrator. Dies geschieht durch Bereitstellung geeigneter Web-Seiten auf einem
speziellen Server oder auf einem der bereits genannten Server (Server Side, Data-Server
Side). Übliche Verfahren dazu sind HTML, XML mit geeigneten Editoren wie sie z. B. mit
bekannten Browsern wie dem Internet Explorer oder Netscape mitgeliefert werden. Die
Benutzerparameter werden in Profilen in einer Datenbank oder in einfachen indexierten
Dateisystemen abgelegt für den Zugriff durch Server Side oder Data-Server Side.
4Siehe Management Server Side (Punkt[4]) des beigefügten Ablaufschemas: Die Authentisierungseigenschaften
(Benutzerparameter) können über einen geeigneten Web-Server (eventuell wiederum mit Sprachsteuerung)
entsprechend den Benutzenanforderungen eingestellt werden.
-
Die Oberflächen können individuell gestaltet werden, ohne die Authentisierung inhaltlich zu
verändern. Die eigentliche Authentisierungssteuerung erfolgt über die zu administrierenden
Parameter. Dazu können gehören (abhängig von der konkreten Ausgestaltung):
- - Toleranzbreiten der Stimmerkennung
- - Abzufragende Stichwörter
- - Wiederholrate der Spracheingabe
- - Vorgabe von Referenzwörtern oder -phrasen
- - Und viele weitere. . .
-
Die Parameter werden von den eigentlichen Authentisierungsservern abgefragt und bei der
Implementierung der Authentisierungsstrategie umgesetzt.