DE69839274T2

DE69839274T2 - System und verfahren zum absichern von sprachtransaktionen

Info

Publication number: DE69839274T2
Application number: DE69839274T
Authority: DE
Inventors: Eugene J. Arlington Heights Bruckert; Louis D. Wheeling FINKELSTEIN; Daniel P. Elmhurt BROWN
Original assignee: Motorola Inc
Current assignee: Motorola Mobility LLC
Priority date: 1997-09-15
Filing date: 1998-06-02
Publication date: 2009-04-02
Anticipated expiration: 2018-06-03
Also published as: KR20010023964A; WO1999014745A1; EP1012830A1; JP2001517008A; EP1012830A4; EP1012830B1; BR9812215A; US5940799A; DE69839274D1; KR100386044B1; CA2303354A1

Description

Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich im Allgemeinen auf Kommunikationssysteme und insbesondere auf ein System sowie ein Verfahren für das Sichern von über das Kommunikationssystem ausgeführten Sprachtransaktionen.
Hintergrund der Erfindung
„Computer!" – Dieser einfache Stimmbefehl, lange exklusiv auf den Science-Fiction-Bereich beschränkt für das Initiieren eines Austausches zwischen einer Person und einem Computer wird allmählich zu dem bevorzugten Verfahren für das Zugreifen auf einen Computer. Spracherkennungssoftware ist nun leicht für eine Ausführung auf Arbeitsplatzrechnern (PCs) in Echtzeit verfügbar. Diese Software-Programme ermöglichen es dem PC-Nutzer, den PC zu steuern, Software-Programme zu öffnen, Funktionen auszuführen, Briefe und weitere Dokumente zu diktieren sowie eine beliebige Anzahl von Aufgaben ohne Tastaturen, Mäuse oder andere Zeige-/Auswahlgeräte durchzuführen. Stattdessen antwortet die Software im wahrsten Sinne des Wortes auf den Befehl und die Ansprache des Nutzers, um Aufgaben durch das Erkennen von gesprochenen Worten durchzuführen.
Diese Software-Programme wurden bereits auf PCs angewendet und werden auch weiterhin auf diesen Anwendung finden. Bereits jetzt haben Nutzer die Möglichkeit, von entfernten Orten aus auf ihren Computer sowie auf Dokumente, Dateien und Daten zuzugreifen. Bald wird es dem sich an einem entfernten Ort befindlichen Benutzer möglich sein, Dokumente, Ordner und Daten zu verändern oder den Computer durch mündliche Befehle, die über eine Telefonverbindung, eine Datenverbindung oder eine andere Verbindungsart erfolgen, dazu zu bringen, diese über eine elektronische Übertragung oder Faxübertragung an andere Orte zu übertragen.
Spracherkennung verbreitet sich ebenfalls schnell auf dem Markt. In der Phonetik ist Sprache das, was von Menschen gesprochen wird. Sie besteht aus „stimmhaften" und „stimmlosen" Tönen (bei stimmhaften Tönen werden wenigstens teilweise die Stimmbänder verwendet). Viele rechnergestützte Telefon-Beantwortungssysteme erkennen gesprochene Worte für das Beantworten und Übertragen von eingehenden Anrufen. Bald wird ein Inhaber eines Kontos die Möglichkeit haben, seine Bank anzurufen und über gesprochene Befehle auf sein Konto zuzugreifen. In anderen Anwendungen können Kunden Investitionen verwalten, Einkäufe tätigen sowie eine beliebige Anzahl von Transaktionen durchführen, für die früher eine Tastatur und/oder ein numerischer Block für die Dateneingabe unter Verwendung von Spracherkennung erforderlich war.
Der Begriff des Erkennens und Autorisierens einer Transaktion für Hardware-Anwendungen ist bekannt. Zum Beispiel fragt in einem Mobilfunktelefon-Kommunikationssystem das Kommunikationssystem die Hardware ab und authentifiziert dieselbe, d. h. die Mobilstation, wenn sie versucht, auf das Netzwerk zuzugreifen. Genauso wird ein Peripheriegerät, wie etwa ein Drucker, Endgerät, Modem, oder ähnliches mit Hilfe eines Gerätenamens sowie potentiell einem Passwort erkannt, wenn es mit einem Computernetzwerk verbunden wird.
Spracherkennung jedoch führt zu ernsthaften Sicherheitsproblemen, insbesondere, wenn deren Fähigkeiten verbessert werden und so angepasst werden, dass Finanztransaktionen ermöglicht werden. Der Nutzer greift lediglich durch gesprochene Befehle, oftmals über unsichere Verbindungen, auf das System zu. Das System muss nicht nur in der Lage sein, den Nutzer anhand seiner Sprache zu erkennen, sondern muss auch in der Lage sein, den Benutzer anhand der empfangenen Sprachproben zu authentifizieren, bevor Transaktionen genehmigt werden können. Außerdem muss das System die Eigenschaft der Verbindung und deren Sicherheitspotential für eine erhöhte Sicherheit überprüfen. Das Erkennungs- und Authentifizierungsproblem wird noch verstärkt, weil an dem Ursprungsort der Übertragung eine beschränkte Bandbreite vorliegen kann, es laut sein kann oder dieser aus anderen Gründen ungeeignet für eine korrekte Spracherkennung sein kann. Das bedeutet, es kann sein, dass sich der Sprecher nicht in einer ruhigen Umgebung befindet und nicht in ein kalibriertes Mikrofon spricht, das sicher mit dem System, auf das zugegriffen werden soll, verbunden ist. Stattdessen kann es sein, dass ein Nutzer von entfernt gelegenen Orten über Funk, unsichere Telefonnetze oder über das Internet anruft.
Benutzernamen, Passwörter, und persönliche Identifikationsnummern (PINS) stellen eine relativ wirksame Sicherheitsstufe bereit. Allerdings ist hinreichend bekannt, dass geheime Passwörter abgefangen und von skrupellosen Personen verwendet werden können, um auf die Konten des Benutzers zuzugreifen. Es ist bekannt, dass – ähnlich den Fingerabdrücken – Menschen über eindeutige Sprachmuster verfügen, und dass diese Sprachmuster verwendet werden können, um eine Person positiv zu identifizieren. Sprachidentifikationstechnologie ist heutzutage verfügbar, jedoch ist sie im Allgemeinen auf Anwendungen beschränkt, wo eine sehr reine Sprachprobe der Sprache des Benutzers verfügbar ist. Greift ein Nutzer über ein Telefonnetzwerk auf das Computersystem zu, dann kann es sein, dass die Sprachprobe nicht von ausreichender Qualität ist, um die Authentifizierung mit ausreichender Zuverlässigkeit durchzuführen. Somit besteht ein Bedarf an einem System sowie einem Verfahren für das Sichern von Transaktionen, das unter Berücksichtigung des Zugriffsmediums durch gesprochene Befehle ausgeführt wird. Zusätzlich besteht ein Bedarf danach, die Spracherkennungstechnologie durch Anpassen des Spracherkennungssystems an die Ausrüstung und die für den Zugriff auf das Spracherkennungssystem verwendeten Medien zu verbessern.
US 5,379,343 offenbart einen Überwachungscomputer, der die innerhalb wenigstens eines Kommunikationssystems auftretenden Übertragungen für wenigstens einen mit einer Kommunikationseinheit assoziierten eindeutigen Identifikationscode der Kommunikationseinheit (ID-Code der Einheit) überwacht. Nach dem Detektieren des wenigstens einen ID-Codes der Einheit vergleicht der Überwachungscomputer die Art der durch die Kommunikationseinheit durchgeführten Kommunikation mit bekannten Software-Parametern (einschließlich der zulässigen Kommunikationsarten) für die Kommunikationseinheit. Entspricht die Art der von der Kommunikationseinheit durchgeführten Kommunikation nicht im Wesentlichen den bekannten Software-Parametern für die Kommunikationseinheit, dann wird die Kommunikationseinheit als eine nicht autorisierte und/oder duplizierte Software-Anwendung verwendend identifiziert.
US 5,153,918 offenbart ein Modem-Sicherheits-Kommunikationssystem für das Bereitstellen eines Zugriffs auf ein Computersystem mit einem Host-Computer sowie einem an einem Ort eines Host-Computers angeordneten Controller mit lokalem Zugriff, sowie Benutzer-Terminals mit Transpondern an einer Vielzahl von entfernten Orten. Das Modem-Sicherheits-Kommunikationssystem schließt auch wenigstens ein Modem sowohl an dem Host- als auch dem entfernten Ort für eine Interaktion mit jeweils dem Host-Computer und dem Transponder ein.
Um die obige Aufgabe zu lösen, stellt die vorliegende Erfindung ein System sowie ein Verfahren für das Sichern eines Verarbeitungssystems wie in den angehängten Ansprüchen bereit.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 ist eine schematische Veranschaulichung eines Kommunikationssystems in Übereinstimmung mit einer bevorzugten Ausführungsform der vorliegenden Erfindung.
2 ist ein Flussdiagramm, das ein Verfahren für das Sichern eines Sicherheitssystems in Übereinstimmung mit einer bevorzugten Ausführungsform der vorliegenden Erfindung veranschaulicht.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGEN AUSFÜHRUNGSFORMEN
Die vorliegende Erfindung wird in Bezug auf mehrere bevorzugte Ausführungsformen eines Verarbeitungssystems, auf das über eine Anzahl von Stimmübertragungsmedien zugegriffen werden kann, beschrieben. Insbesondere stellt eine bevorzugte Ausführungsform der vorliegenden Erfindung einen Zugriff auf das Verarbeitungssystem über eine Mobilfunktelefon-Verbindung mit einem mit dem Verarbeitungssystem verbundenen Festnetz-Telefonnetz bereit. Der Durchschnittsfachmann wird leicht erkennen, dass die vorliegende Erfindung weit über die hierin beschriebenen bevorzugten Ausführungsformen hinaus Anwendung finden kann.
Unter Bezugnahme auf 1 wird ein Computersystem 10 so angepasst, dass ein Zugriff auf dasselbe über eine Vielzahl von Zugriffsmedien möglich ist. Wie in 1 ersichtlich, kann auf Computersystem 10 über ein nicht sicheres Telefon wie etwa eine Mobilfunktelefon-Station (MS, im Allgemeinen als 11–13 gezeigt, als 11 gezeigte analoge MS-Verbindung, als 12 gezeigte digitale MS-Verbindung), die über Mobilfunknetz 14 und öffentliches Telefonnetz (PSTN) 16 gekoppelt ist, zugegriffen werden. Auf Computersystem 10 kann ebenfalls über ein Festnetz-basiertes Telefon 18 oder eine über PSTN 16 verbundene Private Branch Exchange (PBX) Verbindung 20 zugegriffen werden. Auf Computersystem 10 kann ebenfalls über eine akustische Verbindung 22 zugegriffen werden. Der Nutzer kann ebenfalls unter Verwendung einer mit einer Datenverbindung 24 ausgestatteten MS 12 und einem in MS 12 (z. B. MS 13) eingebauten Front-End-Feature-Extraktor (FFE), einen Laptop-Computer 28 mit seiner eigenen, an den Datenport der MS 12 angeschlossenen Datenverbindung oder eine andere Art von Vorrichtung mit einer dem FFE ähnlichen Funktionalität auf das System zugreifen. (Es gilt zu beachten, dass die Logik 44 von FFE 40 auch ein Teil einer Mobilstation oder eines Modem-Endgeräts sein könnte). Die Datenverbindung 24 ist bevorzugt eine asynchrone Verbindung mit 9,6 Kilobit pro Sekunde (kbits/s), die ausreichend für das Übertragen der FFE-Informationen sein sollte.
Der FFE überträgt Sprache in periodisch aktualisierte Parameter von eingeschränkter Länge, wie in „Robust Speech Recognition" von Richard J. Mammone, et al., IEEE Signal Processing Magazine, S. 58–71, September 1996 beschrieben. Weitere Unterprogramme der Spracherkennungsvorrichtung, die herkömmlicherweise die Hintergrund-Spracherkennungsvorrichtung genannt wird, wandeln die zeitkritische Abfolge der Parameter in lesbaren Text um.
Weiterhin unter Bezugnahme auf 1 schließt ein Computersystem 10 ein Modem 30 für das Koppeln an PSTN 16 ein, eine Spracherkennungsvorrichtung (SR) 32 schließt einen Front-End-Feature-Extraktor (FFE) sowie ein Back-End-Spracherkennungsgerät (BSR) ein, das mit einem Speicher und einem Prozessor (im Allgemeinen als Logik 34 gezeigt), einem Sprachsynthetisator 36 sowie einem Encoder 38 gekoppelt ist. Genauso schließt Laptop 28 einen Front-End-Feature-Extraktor 40 sowie einen Decoder 42 ein, der mit einem Speicher und einem Prozessor (im Allgemeinen als Logik 44 gezeigt) gekoppelt ist.
Wie bekannt ist eine Authentifizierung der Hardware für die digitale MS 12 und die digitale MS 13 mit FFE möglich, es kann jedoch sein, dass diese für eine analoge MS 11 nicht verfügbar ist. Entschlüsselung der Daten kann für die digitalen Verbindungen erfolgen, ist jedoch wahrscheinlich für analoge Verbindungen nicht verfügbar. Für eine analoge Kommunikation liegen verfügbare Voice-Scrambler, wie etwa Sub-Band-Inverter und Secure Telephone Unit (STU) III Scrambler, die Kommunikation über die Audio-Bandbreite privatisieren, vor. Diese Vorrichtungen und Schutzvorrichtungen garantieren die Privatsphäre der Kommunikation und Authentifizierung der für den Zugriff auf das System verwendeten Hardware, jedoch nicht des Sprechers selbst. Zugriffsprotokolle und deren assoziierte Schutzmechanismen stellen eine Zuverlässigkeitsstufe bereit, auf der ein berechtigter, autorisierter Benutzer versucht, auf das System zuzugreifen.

Tabelle 1 unten stellt eine Auflistung verschiedener Zugriffsmedien (Medien) bereit, den Modulationstyp (Modulation), die Kommunikationsbandbreite (Bandbreite), die Verschlüsselungsfähigkeit des Zugriffsmediums (Verschlüsselung) sowie die Zuverlässigkeitsstufe, auf der die Authentifizierung durchgeführt werden kann (Authentifizierung). Das Zugriffsverfahren über eine Datenverbindung, wie etwa einen Laptop, könnte entweder an Festnetztelefon 18 oder an MS 12 gekoppelt sein, um eine höchste Sicherheitsstufe bereitzustellen. Dies ist darauf zurückzuführen, dass das Endgerät für das Wählen zunächst über einen Anforderungs-/Antwortmechanismus authentifiziert werden kann und die Verbindung selbst verschlüsselt werden kann. Es gilt zu beachten, dass eine beliebige Verschlüsselungstechnik wie etwa der Data Encryption Standard (DES) oder proprietäre Verfahren angewendet werden können. Es gilt ferner zu beachten, dass die Geräte unter Verwendung von Geräteauthentifizierungstechniken wie etwa das Senden von geheimen Nummern, z. B. elektronische Seriennummern (ESNs), durch Anforderungs-/Antwortmechnismen zeitkritischer Daten gesichert werden können und dies auch sollten. Tabelle 1

	Modulation	Bandbreite	Authentifizierung	Verschlüsselung
Medien
Akustische Verbindung	analog	Hi-fi	niedrig	Nein
Telefon und PSTN	analog	300–3000	mittel	Nein
Laptop-Computer und PSTN	Modem	8 kbit/s	hoch	Ja
MS, PLMN, & PSTN	analog 300–2700	300–2700	mittel	Nein
MS, PLMN, & PSTN	Vocoder	300–2700	mittel	**
Laptop (oder MS) Computer, MS, PLMN, und PSTN	Modem	8 kbit/s	hoch	Ja
** MS kann oder kann nicht in der Lage zur Verkehrskanalverschlüsselung sein; in dem Netz kann die Verschlüsselung aktiviert sein oder nicht aktiviert sein.

Ist das Sichern des Kommunikationsmedium nicht möglich, wie etwa wenn auf System 10 über eine analoge Telefonverbindung 11 oder ein Festnetztelefon 18 zugegriffen wird, dann können zusätzliche Verfahren für das Authentifizieren von Geräten verwendet werden. Zum Beispiel kann das Endgerät für das Wählen 11 oder 18 durch Identifizieren der Nummer des anrufenden Teilnehmers über einen zusätzlichen Dienst von PSTN 16 mit einer Liste von in dem Systemspeicher 34 gespeicherten Nummern authentifiziert werden. Wenn auf System 10 unter Verwendung eines nicht in der Liste vorhandenen Terminals zugegriffen wird, kann der Zugriff auf System 10 verweigert werden oder eingeschränkt werden, wie weiter unten erläutert.
Die Benutzerauthentifizierung erfolgt bevorzugt über eine Identifikation des Stimmmusters. In diesem Fall empfängt SR:FFE/BSR 32 innerhalb von System 10 einen Stimmbefehl des Benutzers und identifiziert den Benutzer über Stimmmusteranalyse durch Vergleichen des Stimmmusters mit den in Speicher 34 enthaltenen Stimmmustern authorisierter Benutzer. Das System kann dann unter Verwendung von Sprachsynthese 36 und Encoder 38 durch Mitteilung an den Benutzer, dass der Zugriff gewährt, beschränkt oder verweigert wurde, antworten.
In einer bevorzugten Ausführungsform der vorliegenden Erfindung ist SR:FFE/BSR 32 dafür geeignet, über ein Kommunikationsmerkal das Kommunikationsmedium wie etwa ein digitales Funktelefon, eine Datenverbindung, ein analoges Telefon oder eine akustische Verbindung zu identifzieren. Wenn das Medium eine ausreichende Kommunikationsqualität bereitstellt, um eine Spracherkennung zu ermöglichen, ist eine Benutzerauthentifizierung durch Spracherkennung erforderlich. Falls das Kommunikationsmedium nicht in der Lage ist, eine Benutzerauthentifizierung durch Spracherkennung bereitzustellen, kann eine alternative Benutzerauthentifizierung in Form von PIN-Eingabe, Passwort, Eingabe zeitkritischer Daten etc. bereitgestellt werden. Mit der Erkennung zeitkritischer Daten kann der Benutzer eine Nummer über das Touchpad eingeben, die eine nichtlineare Funktion der Tageszeit ist. System 10 und Logik 34 führen dieselbe nicht lineare Funktion aus, und bei Übereinstimmung wird der Benutzer authentifiziert. Der Benutzer würde somit eine spezielle Vorrichtung tragen, die eine zeitkritische Nummer oder ein Taschenrechner-Programm bereitstellt, das derart programmiert ist, dass es die geeigneten Daten bereitstellt.
Bei vorliegender Authentifizierung des Benutzers durch Spracherkennung wird der Zugriff auf System 10 für eine aus einer Vielzahl von Zugriffsstufen festgelegt. Wie bekannt können PINs, Passworte und ähnliches jedoch abgefangen werden. Aus diesem Grund kann bei nicht vorliegender Benutzerauthentifzierung durch Stimmerkennung eine andere, weniger sensitive Zugriffsstufe für System 10 festgelegt werden. Ferner kann es Programme, Dateien und Daten in System 10 geben, auf die mit einem bestimmten Kommunikationsmedium nicht zugegriffen werden kann, zum Beispiel einer akustischen Verbindung, die leicht abgefangen werden kann. Weitere Zugriffsstufen können Sicherheit des Kommunikationsmediums, wie etwa Verschlüsselung beinhalten, bevor ein Zugriff gewährt wird. Es gilt zu beachten, dass eine beliebige Anzahl von Sicherheitsstufen, in Abhängigkeit von der Sensibilität der Daten, auf die zugegriffen wird, in Verbindung mit dem in Zugriffssystem 10 verwendeten Kommunikationsmedium sowie die Fähigkeit, den Benutzer zu authentifizieren und das Kommunikationsmedium zu sichern eingerichtet werden kann. Selbstverständlich ist System 10 geeignet, es dem Benutzer zu ermöglichen, die Sicherheitsstufen einzurichten, Dateien und Daten Sicherheitsstufen zuzuordnen und dieselben mit der gesamten in Speicher 34 gespeicherten Information zu modifizieren.
Wie erwähnt sind mehrere Formen von Kommunikationsmedien mehr oder weniger geeignet für die Stimmerkennung. Jedoch kann die Stimmerkennungstechnik entweder durch die Anpassung von Filterparametern, Korrelationsalgorithmen und Ähnlichem für jedes spezielle Kommunikationsmedium optimiert werden. Und SR:FFE/BSR 32 ist geeignet, das Kommunikationsmedium, das verwendet wird, um auf das System zuzugreifen durch Analysieren, von zum Beispiel der Nummer des anrufenden Teilnehmers, dem Dialog mit MS 12 oder Modemtöne von Laptop 28. Bei identifizierten Geräten und dem Kommunikationsmedium kann die Spracherkennungsmaschine für das jeweilige Gerät sowie das Medium optimiert werden. In ähnlicher Weise kann Logik 34 auch den Sprachsynthetisator 36 so modifizieren, dass er das Remote-Endgerät und Medium berücksichtigt. In dieser Hinsicht wird die Spracherkennung verbessert und ermöglicht so eine potentiell höhere Zugriffsstufe auf System 10.
Es ist ferner Ziel der Erfindung, dass System 10 derart konfiguriert werden kann, dass es nicht authorisierte Benutzer identifziert und Daten speichert, die verwendet werden können, um derartige nicht authorisierte Benutzer zu identifizieren. Zum Beispiel kann die Telefonnummer des anrufenden Geräts identifiziert werden, Versuche des Zugriffs auf Dateien aufgezeichnet und mit Zeitstempeln versehen sowie ein Prüfprotokoll generiert werden. Nicht authorisierten Benutzern kann ferner ein Zugriff auf Scheinordner gewährt werden und es kann ihnen ermöglicht werden, Dateien aus diesen Ordnem abzurufen, die später zurückverfolgt werden können. Diese Dateien können geeignet sein, identifizierende Information von dem System des nicht authorisierten Benutzers einzuholen, und dann zu versuchen, System 10 von dem nicht authorisierten System aus zu kontaktieren, indem eine derartige Information hinsichtlich des nicht authorisierten Benutzers gemeldet wird. Falls der nicht authorisierte Benutzer versucht, über Sprache auf System 10 zuzugreifen, können die Konversationen aufgezeichnet werden.
Die Funktionsweise von System 10 wird nun exemplarisch und unter Bezugnahme auf 1 sowie unter Bezugnahme auf das in 2 gezeigte Verfahren 100 beschrieben. System 10 wird von dem Benutzer mit Sicherheitsstufen eingerichtet sowie durch das Zuordnen von Sicherheitsstufen für Programme, Dateien und Daten eingerichtet. Zusätzlich hat der Benutzer SR/FFE/BSR 32 kalibriert, um seine Sprache sowie die Sprache weiterer authorisierter Benutzer zu erkennen, zum Beispiel Mitarbeiter, Familienmitglieder, Freunde, denen es erlaubt ist, auf System 10 zuzugreifen.
Der Benutzer greift über eine beliebige Vielzahl von Kommunikationsmedien 12–22 auf System 10 zu. System 10 registriert das Klingeln des Telefons, die Nummer des anrufenden Teilnehmers und beantwortet den Anruf, Schritt 102. System 10 antwortet durch Generieren einer Antwort über Sprachsynthetisator 36 und Encoder 38 (in Abhängigkeit von der Nummer des anrufenden Teilnehmers) und übermittelt eine Antwort und wartet auf Modem-Töne, Schritt 104. Bei Schritt 106 bestimmt System 10, ob ein Zugriff über die Sprache eines Benutzers oder ein Modem erfolgt.
Greift der Benutzer über Sprache zu, dann verzweigt sich das Verfahren bis hin zu Schritt 108, wo SR/FFE/BSR 32 und Logik 34 die Kanalqualität überprüfen, Schritt 108, und die Spracherkennungseigenschaften, Schritt 110 festlegen. Anschließend erfolgt ein geeignetes Kanalauthentifizierungsverfahren wie etwa Spracherkennung, Geräte-Authentifzierung wie oben beschrieben, Schritt 118.
Falls der Benutzer durch eine Datenverbindung oder weitere modulierte Kommunikation auf System 10 zugreift, wie durch Modem-Töne bezeichnet, wird der Kommunikationskanal mit Remote-Einheit 12 oder 28 (Schritt 112) eingerichtet. Anschließend werden die Spracherkennungs-, Sprachsynthese (SR/SS)-Fähigkeiten der Remote-Einheit bestimmt, Schritt 114, und Datensicherheitsverfahren werden durchgeführt, Schritt 116.
Ist der Benutzer authentifiziert und das Kommunikationsmedium gesichert, dann wird basierend auf der Remote-Einheit und dem Kommunikationsmedium die geeignete Spracherkennungsmaschine ausgewählt. Kann Remote-Einheit 12 oder 28 FFE-Daten übertragen, dann wird der empfangende FFE in Computersystem 10 überbrückt, und ein Dialog zwischen Remote-Einheit 12 oder 28 und Computersystem 10 eingerichtet, um FFE von Remote-Einheit 12 oder 28 zu optimieren. (z. B. kann Remote-Einheit 12 oder 28 verwendet werden, um mit einem Vocoder bearbeitete Sprache und FFE-Sprache zu übertragen, oder Remote-Einheit 12 oder 28 kann über eine Vielzahl von FFEs verfügen). Das Computersystem 10 konfiguriert den Back-End-Speech-Recognizer 32, um die Verständlichkeit zu optimieren (für spätere Schaltungen, die mit Sprache (z. B. Logik 34 arbeiten). Zum Beispiel kann System 10 über Sprachsynthetisator 36 fordern, dass der Sprecher eine Pause zwischen Worten macht oder den Sprecher auffordern, sein Vokabular auf ein möglichst geringes Vokabular zu beschränken, falls das Medium laut ist und/oder die Remote-Einheit RRE nicht exakt dem BSR-Menü von System 10 entspricht. Ein Dialog mit dem Benutzer wird eingegeben, Schritt 120. Der Benutzer instruiert dann System 10 dahingehend, dass es Aufgaben ausführt und auf Dateien und Daten zugreift. Bei Vorliegen einer Authentifizierung und Sicherheit des Kommunikationsmediums steuert System 10 den Zugriff des Benutzers in Übereinstimmung mit den eingerichteten Sicherheitsstufen. Nimmt die Qualität der Spracherkennung ab, wie durch Anzahl und Frequenz der Fehler gezeigt, kann sich die Spracherkennungsfähigkeit verringern, und somit der Zugriff des Benutzers auf System 10 in geeigneter Weise angepasst werden, Schritt 122. Ist der Anruf beendet, dann endet der Prozess bei Schritt 124.
Die Gesamtleistung kann verbessert werden, wenn der Benutzer unter Verwendung von FFE 40 und Datenverbindung 24 über Laptop 28 auf System 10 zugreift. Außerdem kann die Leistung weiterhin verbessert und vereinfacht werden, wenn Laptop 28 die Fähigkeit zur Spracherkennung besitzt. Es gilt zu beachten, dass auch ein Mobilfunk-Telefon mit Spracherkennungsfähigkeit verwendet werden kann. Bei dem ersten Kontakt mit System 10 kann ein Rest einer Public Key Exchange Berechnung als ein permanenter „geheimer" Schlüssel für eine zukünftige Authentifizierung verwendet werden. Der Rest wird auf Laptop 28 und System 10 gespeichert. Bei zukünftigen Sitzungen mit System 10 muss der Benutzer sich lediglich an Laptop 28 authentifizieren, der aufgrund von Umweltbedingungen bessere Spracherkennungsfähigkeiten aufweisen kann, und Laptop 28 authentifiziert sich an System 10 durch Verwendung eines einfachen Anforderungs-/Antwortmechanismus, der den Rest des öffentlichen Schlüssels verwendet.
Wenn Sitzungen zwischen dem Benutzer und System 10 über einen Public Key Exchange, Schlüsselüberprüfung, gute Verschlüsselung und Stimmmusterauthentifzierung eingerichtet sind, kann es sein, dass keine Beschränkung der Übertragung der sensiblen Daten existiert. Ein einfacherer Ansatz kann lediglich eine Verschlüsselung begleitet von Stimmmusterauthentifizierung mit einem vorberechneten Schlüssel beinhalten, der zu seinem beschränkten Schlüsselsatz gehört und einige Male wieder verwendet werden kann. Dieser einfachere, jedoch weniger sichere Modus würde dann zu Einschränkungen führen, die Programmen, Dateien und Daten, auf die der Benutzer zugreifen will, auferlegt werden.
Es gilt zu beachten, dass System 10 für mehr als einen Benutzer ausgelegt sein kann. In diesem Fall können Benutzerdaten in Speicher 34 für jeden Benutzer und für das Durchführen der Authentifizierung gespeichert werden. Jeder zusätzliche Benutzer würde über zugeordnete Zugriffsstufen verfügen und könnte nur Zugriff auf Programme, Dateien und Daten, die der authorisierten Zugriffsstufe entsprechen, erhalten. Zum Beispiel kann dem Benutzer in einem hierarchischen Sicherheitsaufbau eine obere Zugriffsgrenze zugeordnet werden.
Die hierin offenbarte Erfindung wurde in Bezug auf mehrere bevorzugte Implementierungen, einschließlich, ohne Beschränkung, in Bezug auf ein Verarbeitungssystem, auf das durch über ein Mobilfunk-Telefonsystem empfangene Stimmbefehle zugegriffen werden kann, beschrieben. Die Erfindung wurde ferner im Hinblick auf ein Verfahren für das Sichern eines Verarbeitungssystems mit der Fähigkeit für den Zugriff über Stimme beschrieben. Es gilt zu beachten, dass weitere Implementierungen, Anpassungen und Ausführungsformen möglich sind, ohne dass von dem Schutzumfang der Erfindung, wie in den angehängten Ansprüchen beansprucht, abgewichen wird.

Claims

Ein System für das Sichern eines Verarbeitungssystems, das für den Zugriff eines Benutzers mittels gesprochener Befehle, die von einem aus einer Vielzahl von Kommunikationsmedien empfangen werden, geeignet ist, wobei das System folgendes umfasst: einen Prozessor für das Erkennen von Medien, der an das Verarbeitungssystem gekoppelt ist und dazu dient, Sprachbefehle zu empfangen; und eine Vorrichtung für Spracherkennung, um über ein Kommunikationskennzeichen ein Kommunikationsmedium, das gerade auf das Verarbeitungssystem zugreift, zu bestimmen; und ein Berechtigungsbefehl, der von dem Prozessor für das Erkennen von Medien generiert und an das Verarbeitungssystem kommuniziert wird, wobei der Berechtigungsbefehl ein Sicherheitsniveau des aktuellen Zugriffs auf das Verarbeitungssystem basierend auf der Bestimmung des für den Zugriff auf das System verwendeten Kommunikationsmediums durch die Vorrichtung zur Spracherkennung und eine Fähigkeit, den Benutzer zu authentifizieren, definiert.
Das System aus Anspruch 1, wobei das Kommunikationsmedium eines der folgenden Elemente umfasst: eine akustische Verbindung, ein Festnetz-Netzwerk, ein Funktelefon-Netzwerk und ein digitales Kommunikationsnetzwerk.
Das System aus Anspruch 1, wobei das Verarbeitungssystem auf den Berechtigungsbefehl anspricht, um den Zugriff durch den Benutzer auf zumindest eine aus einer Vielzahl von Arten von Computerdateien zu beschränken.
Das System aus Anspruch 1, wobei das Verarbeitungssystem auf den Berechtigungsbefehl anspricht, um dem Benutzer den Zugriff auf das Verarbeitungssystem zu verbieten.
Das System aus Anspruch 1, wobei das Verarbeitungssystem eine Vielzahl von Geräten zur Spracherkennung umfasst und wobei das Verarbeitungssystem betriebsfähig ist, um eines der Geräte zur Spracherkennung basierend auf dem Kommunikationsmedium auszuwählen.
Ein Verfahren für das Sichern eines Verarbeitungssystems, das für den Zugriff mittels gesprochener Befehle, die von einem aus einer Vielzahl von Kommunikationsmedien empfangen werden, geeignet ist, wobei das Verfahren folgendes umfasst: Bestimmen über ein Kommunikationskennzeichen einer Art von Kommunikationsmedium, das von einem Benutzer verwendet wird, um auf das Verarbeitungssystem zuzugreifen; und Einrichten eines Sicherheitsniveaus für den Benutzer basierend auf der Art von Kommunikationsmedium, das von dem Benutzer verwendet wird, um auf das Verarbeitungssystem zuzugreifen, und einer Fähigkeit, den Benutzer zu authentifizieren.
Das Verfahren aus Anspruch 6, wobei der Schritt des Einrichtens eines Sicherheitsniveaus beschränkten Zugriff auf zumindest eine Art von Datei umfasst.
Das Verfahren aus Anspruch 6, wobei der Schritt des Einrichtens eines Sicherheitsniveaus beschränkten Zugriff auf das Verarbeitungssystem umfasst.
Das Verfahren aus Anspruch 6, das ferner den Schritt des Auswählens von eines aus einer Vielzahl von Geräten zur Spracherkennung als Antwort auf das Kommunikationsmedium umfasst.