DE69929416T2

DE69929416T2 - Verfahren und geeigneter Server für Ferndienste

Info

Publication number: DE69929416T2
Application number: DE69929416T
Authority: DE
Inventors: Robert M. Van Kommer
Original assignee: Swisscom Fixnet AG
Current assignee: Swisscom AG
Priority date: 1999-11-06
Filing date: 1999-11-06
Publication date: 2006-09-14
Anticipated expiration: 2019-11-07
Also published as: EP1098493A1; ATE315867T1; EP1098493B1; DE69929416D1

Description

Die vorliegende Erfindung betrifft ein Ferndienstverfahren, welches einem Server ermöglicht, sein Verhalten dem Benutzer anzupassen.
Ferndienstsysteme als solche sind schon bekannt. Solche Systeme verwenden im Allgemeinen einen Server, welcher von einem Dienstanbieter verwaltet wird und auf welchen eine Vielzahl von Benutzern durch ein Telekommunikationsnetzwerk zugreifen können. Ein Benutzer, der einen Ferndienst, beispielsweise einen von einem Finanzinstitut oder von einem Informationsbroker angebotenen Ferndienst, in Anspruch nehmen möchte, stellt im Allgemeinen aus eigener Initiative eine Verbindung mit einem solchen Server durch ein handvermitteltes Telekommunikationsnetzwerk, beispielsweise durch ein PSTN, ISDN oder GSM Netzwerk, oder durch ein Paketnetzwerk, beispielsweise Internet, her. Die Verbindung kann beispielsweise durch Auswählen der Telefonnummer oder des URLs des Servers hergestellt werden, oder automatisch während der Verbindung mit dem Netzwerk (Server gewählt als Startseite oder Portal). Danach erfolgt ein Austausch von Antworten, beispielsweise von Sprachantworten, der dem Benutzer erlaubt, die Dienste, die er in Anspruch zu nehmen wünscht, anzugeben. Bekannt sind beispielsweise interaktive Sprachserver (IVR; Interactive Voice Response) mit einem Sprachanalyse- und Sprachsynthesesystem, das erlaubt, einen echten Sprachdialog mit dem Benutzer auszutauschen. Es gibt ebenfalls, insbesondere in der Internet-, WAP (Wireless Application Protocol)- oder UMTS-Umgebung, Ferndienstsysteme, in welchen die Kommunikation zwischen dem Server und den Benutzern einen zweidirektionalen Fluss von animierten Bildern voraussetzt.
Ein Ziel der vorliegenden Erfindung ist, ein verbessertes Ferndienstverfahren und -system vorzuschlagen, insbesondere ein Ferndienstsystem, worin der Dienstanbieterserver sein Verhalten und insbesondere seine Antworten dem Benutzer anpasst.
In den herkömmlichen Geschäftsbeziehungen passt ein Verkäufer meistens seine Sprache und sein Angebot je nach Kundentyp an, insbesondere je nach vermutetem Alter des Kunden, welches auf Grund des visuellen Aussehens des Kunden und/oder seiner Stimme abgeschätzt wird. Zum Beispiel würde ein Autoverkäufer einem Kind, einer junge Frau oder einem älteren Geschäftsmann, welche in seine Garage eintreten oder mit ihm telefonieren, wahrscheinlich anders ansprechen, ohne dass der potentielle Kunde selbst Angaben über sein Alter, sein Geschlecht oder seinen Sozialstatus liefern muss.
Ein anderes Ziel der vorliegenden Erfindung ist also ein Ferndienstverfahren und -system vorzuschlagen, worin der Dienstanbieterserver sein Verhalten je nach Benutzertyp anpasst, unabhängig des semantischen Inhalts der Antworten, beispielsweise der vom Benutzer gesandten Sprachanfragen oder Bilder.
Erreicht werden diese Ziele gemäss der Erfindung mittels eines Verfahrens, bzw. eines Servers, mit den Merkmalen der unabhängigen Ansprüche der entsprechenden Art. Bevorzugte Ausführungsformen werden ferner in den abhängigen Ansprüchen angegeben.
Erreicht werden diese Ziele insbesondere mittels eines Ferndienstverfahrens, worin der Server bestimmt, zu welcher Alterskategorie, unter einer Vielzahl von vorbestimmten Alterskategorien, der Benutzer des Servers gehört. Die Alterskategorie wird durch eine Analyse von biometrischen Parametern des Benutzers bestimmt, welche im besagten Server (4) auf der Basis der von der Antwort oder den Antworten des besagten Benutzers entnommenen Stimme erhalten wurden, unabhängig vom semantischen Inhalt dieser Antworten. Das Verhalten des Servers während dem Antwortenaustausch ist eine Funktion der Alterskategorie, zu welcher der Benutzer gehört.
Diese Lösung hat den Vorteil, dass Server ausgeführt werden können, welche Dienste, eine Sprache, ein Angebot usw., die dem Alter des Benutzers des Systems angepasst sind, anbieten.
Diese Lösung erlaubt es ferner, den Zugang zu gewissen Ferndiensten für Benutzer, welche einer vorbestimmten Altersklasse angehören, einzuschränken, oder die Navigation durch ein Menüsystem erleichtert, indem die Benutzer automatisch zu denjenigen Optionen geleitet werden, welche sie je nach ihrem Alter oder anderen biometrischen Merkmalen interessieren können.
Ein Ferndienstverfahren, das die Benutzer identifiziert, ist aus dem Dokument US-A-5 897 616 schon bekannt. Die Benutzer identifizieren sich jedoch selbst und ihre Identität wird mittels eines Stimmklassifizierungsmoduls überprüft. Dieses Dokument schlägt auch vor, das Alter des Sprechers zu bestimmen. Das Alter wird jedoch lediglich auf der Basis von Informationen bestimmt, die im Voraus bekannt sind und in einer Datenbank von vorher identifizierten Benutzern gespeichert sind. Dieses Verfahren funktioniert also nur, wenn die Benutzer identifiziert werden können und wenn ihr Alter a priori bekannt ist.
Die Erfindung wird besser verstanden anhand der Beschreibung, die als Beispiel angegeben und durch die beigelegte Figur illustriert ist, welche schematisch ein Ferndienstsystem mit einem erfindungsgemässen Server zeigt.
Die 1 zeit schematisch ein System mit einem Benutzer 1, der mittels einer Benutzervorrichtung 1 mit einem Telekommunikationsnetzwerk 3 verbunden ist, welches ihm erlaubt, sich insbesondere mit einem Server 4 zu verbinden, beispielsweise mit einem interaktiven Sprachserver, der von einem Dienstanbieter verwaltet wird, beispielsweise von einem Finanzinstitut, einem Informationsbroker, einem Telekommunikationsbetreiber, usw.. Das Telekommunikationsnetzwerk 3 ist vorzugsweise ein öffentliches oder privates Wähltelefonnetzwerk, entweder fest, beispielsweise ein ISDN-(Integrated Services Digital Network) oder PSTN-(Public Switched Telecommunication Network)-Netzwerk, oder mobil, beispielsweise ein digitales zellulares Netzwerk vom Typ GSM (Global System for Mobile Communications), UMTS, usw. Die Erfindung kann jedoch mit jedem Typ von Netzwerk verwendet werden, das die Herstellung einer Sprachkommunikation zwischen einem Benutzer und einem Server ermöglicht, beispielsweise auch mit einem Paketnetzwerk, beispielsweise vom Typ Internet, das Fernsprechanwendungen via Internet anbietet, oder einem PLC-(Power Line Communication)-Netzwerk, wobei die Erfindung sich nicht auf diese spezifischen Beispiele einschränkt.
Die Benutzervorrichtung 2 kann aus jedem Typ von Fix- oder Mobiltelefonapparat bestehen, beispielsweise aus einem Fixtelefon oder einem Mobiltelefon mit einer Teilnehmeridentifizierungskarte, beispielsweise einer SIM-(Subscriber Identification Module) oder WIM-(WAP Identification Module) Karte. Die Benutzervorrichtung 2 könnte jedoch auch aus einem Personalrechner mit einem Mikrofon und/oder einer Kamera bestehen, insbesondere im Fall einer Anwendung im Internetnetzwerk 3. In diesem Fall können die Antworten des Benutzers an den Sprachserver 4 entweder mittels einer Sprachtyp-Anwendung via Internet („Voice Over IP") oder als Datendatei, beispielsweise im .wav-Format, übermittelt werden.
Der interaktive Sprachserver 4 kann vom Betreiber des Telefonnetzwerks 3 oder von einem Dienstanbieter, beispielsweise von einer Bank, einer Mietagentur, einem Informationsbroker usw., verwaltet werden. Er umfasst vorzugsweise eine Speicherzone, beispielsweise eine Datenbank 45, in welcher ein Benutzerprofil für jeden Benutzer des interaktiven Sprachservers gespeichert wird. Das Profil jedes Benutzers kann Stimm- und Sprachmodelle des Benutzers, welche die Spracherkennung zu erleichtern vermag, die Präferenzen des Benutzers (Sprache, gewählte Authentifizierungsmethode, Verrechnungsdaten, Telefonnummer des normalen Anschlusses, Internetadresse, usw.), die Sprachsignatur und/oder ein Passwort usw. sowie andere für jeden Benutzer eigene Daten umfassen.
Der interaktive Sprachserver 4 umfasst ferner eine Netzwerkschnittstelle 40, beispielsweise ein dem Netzwerk 3 angepassten Modemslot oder Router, sowie vorzugsweise einen Anruferidentifizierungsmodul 41. Der anrufende Benutzer kann beispielsweise mittels der Anrufernummer identifiziert werden, wenn Letztere übermittelt wird, beispielsweise mittels der CLI-Funktion in einem ISDN- oder GSM-Netzwerk. In einer bevorzugten Ausführungsform wird der Anrufer unabhängig des verwendeten Anschlusses identifiziert, beispielsweise mittels einer Anruferidentifizierungskarte (z.B. einer SIM- oder WIM-Karte), eines Passworts, oder von biometrischen Daten des Anrufers, beispielsweise durch Anruferspracherkennung, z.B. mittels eines dazu trainierten neuronalen Netzwerks.
Der interaktive Sprachserver 4 umfasst ferner ein Sprachsystem 42 mit einem Sprachanalyse- und -synthesemodul 420, das insbesondere fähig ist, die Sprachbefehle des Benutzers 1 zu analysieren und Antworte zu synthetisieren oder Informationen in Sprachform zu liefern. Das Modul 420 verwendet vorzugsweise das in der Datenbank 45 gespeicherte Benutzerprofil, um die Qualität der Sprachanalyse zu verbessern. Das Sprachanalysemodul kann auf irgendeine bekannte Weise ausgeführt werden, beispielsweise mittels eines Neuronennetzwerks oder verborgener Markow-Modelle (HMM, Hidden Markov Models).
Der Benutzer 1 kann auf die verschiedenen vom interaktiven Sprachserver 4 gelieferten Dienste mittels Sprachbefehle zugreifen, welche durch das Telefonnetzwerk 2 diktiert und vom Sprachanalysesystem 420 analysiert werden, und/oder mittels Tasten, welche direkt auf der Tastatur des Apparats gedrückt werden.
Ein im Speicher des Servers 4 geladenes Computerprogramm 43 (Anwendung) steuert das Sprachanalyse- und -synthesemodul 420, um eine geeignete Antwort auf die Anfragen der Benutzer zu liefern und so die von den Benutzern gewünschten Ferndienste anzubieten, beispielsweise den Zugang durch ein System von interaktiven Sprachmenüs zu einer nicht dargestellten Datenbank oder die Verbindung mit einem internen 5 oder externen 6 Agenten. Die von der Anwendung 43 gebotenen Dienste können beispielsweise als Sprachmenüs organisiert werden. Der Benutzer kann sich in der Menühierarchie mittels Sprachbefehlen bewegen und Anfragen oder Instruktionen an die Anwendung 43 senden, um die darunterliegende Datenbank zu befragen oder zu ändern, oder auf die angebotenen Dienste zuzugreifen. Die angebotene Anwendung, insbesondere die Menühierarchie, kann vorzugsweise auf jeden Benutzer zugeschnitten werden, gemäss im Benutzerprofil 45 enthaltenen oder vom Sprachanalysesystem 420 gelieferten Angaben. Zum Beispiel kann ein vollständigeres Menü, oder ein Menü mit weniger Zwischenstufen, einem Benutzer vorgeschlagen werden, der in der Datenbank 45 als erfahren signalisiert wird und/oder bei dem das Sprachanalysemodul 420 schnelle und zögerungsfreie Reaktionen feststellt.
Im Fall eines Internetservers 4, insbesondere eines World Wide Web Servers, können die angebotenen Dienste auf bekannte Weise in einem Hypertext-Seiten- oder Datenübertragungsblock organisiert werden.
Gemäss der Erfindung umfasst das Sprachsystem 42 ein biometrisches Analysemodul 421, das geeignet ist, biometrische Informationen über den Benutzer 1 zu liefern, insbesondere Informationen über sein Alter, sowie ein Klassifizierungsmodul 44, welches angibt, zu welcher Kategorie aus einer Vielzahl von vorbestimmten Kategorien, die jeweils eine unbegrenzte Anzahl von Benutzern enthalten können, dieser Benutzer gehört.
Das biometrische Analysemodul 421 umfasst vorzugsweise einen Sprachsampler, beispielsweise einen 8kHz-Sampler im Falle einer Telefon anwendung, sowie ein Modul, welches die Pausen oder die Niederenergiestimmsegmente, die wenige Merkmale über den Benutzer 1 liefern, herauszunehmen vermag. Ein Stimmmerkmalextraktionsmodul („voice features") im zeitlichen und/oder räumlichen Bereich liefert danach die Stimmmerkmale an ein Dekodiermodul, das während einer Lernphase speziell trainiert wurde. Der Lernvorgang erfolgt ein für allemal aus einer Trainierdatenbank während der Programmierung des Moduls 421 und kann möglicherweise während der Verwendung des Moduls mittels bekannter Algorithmen vervollständigt werden. Die Trainierdatenbank enthält Stimmextrakte oder Stimmmerkmale („voice features") einer repräsentativen Benutzerstichprobe für die verschiedenen Kategorien von Benutzern 1, sowie eine Klassifizierungsangabe für jeden Benutzer der Stichprobe.
Das Dekodiermodul selbst wird vorzugsweise mit Hilfe eines Neuronennetzwerks ausgeführt, das beispielsweise in dem für die Sprachanalyse verwendeten Neuronennetzwerk 420 integriert werden kann, von dem eine oder mehrere Ausgangsneuronen Signale liefern, welche den verschiedenen vorbestimmten Klassifizierungen entsprechen. Ein HMM in Kombination mit einem Viterbi-Dekodierer, oder ein Hybridsystem, könnte jedoch ebenfalls zur Bestimmung der wahrscheinlichsten, dem Benutzer entsprechenden Klassifizierung verwendet werden.
Der Lernvorgang sowie die Dekodierung verwenden vorzugsweise ein Zweipassverfahren. Der erste Pass hängt vorzugsweise vom Text ab und zielt darauf ab, das Sprachsignal zu segmentieren, um die repräsentativen Segmente zu isolieren, auf Grund deren die Klassifizierung während dem zweiten Pass bestimmt werden kann. Die während dem ersten Pass bestimmten Segmente entsprechen vorzugsweise Phonemen, Unterwörtern oder Wörtern. Textunabhängige Verfahren, obwohl generell weniger effizient, können jedoch auch verwendet werden.
Es wird vorzugsweise ein Dekodierer mit einem Mehrfachrate-Neuronennetzwerk (multirate neuronal network) verwendet, welches eine Dekodierung über sehr langen Datenübertragungsblöcken, beispielsweise über Datenübertragungsblöcken von 300 ms, ermöglicht.
Das biometrische Analysemodul 421 ist somit vorzugsweise in der Lage, die Kategorie, zu welcher der Benutzer 1 gehört, zu bestimmen, ohne vorherige Aufnahmen dieses Benutzers zu verwenden, im Gegensatz zu den Anruferidentifizierungssystemen von bekanntem Typ.
Die Kategorien, welche vom biometrischen Analysemodul 421 und vom Klassifizierungsmodul 44 bestimmt werden können, können beispielsweise den nachfolgenden entsprechen:

• Altersstufen. Das Modul 421 stellt beispielsweise fest, ob der Benutzer ein Kind, d.h. eine Person, deren Stimme noch keinen Stimmbruch erlitten hat, oder eine ältere Person ist. Je nach Anwendungstyp und akzeptabler Fehlerwahrscheinlichkeit können die Anzahl Altersstufen und deren Breite mehr oder weniger gross sein.
• Geschlecht des Benutzers (männlich/weiblich).
• Laune des Benutzers. Eine besondere Kategorie kann beispielsweise Benutzern zugeordnet werden, deren Stimme eine überdurchschnittliche Gereiztheit verrät.
• Usw.

Diese Kategorien können auch miteinander kombiniert werden, und der Fachmann könnte auch andere Typen von Benutzerkategorien erdenken, welche auf Grund von biometrischen Merkmalen der Stimme oder des Gesichts des Benutzers 1 bestimmt werden können.
Das biometrische Analysemodul 421 liefert Angaben, welche der dem Benutzer 1 zugeordneten Klassifizierung entsprechen, an das Klassifizierungsmodul 44, das im einfachsten Fall aus einem einfachen Register besteht. In einer bevorzugten Ausführungsform der Erfindung überprüft der Klassifikator auf Grund der Datenbank 44 die Wahrscheinlichkeit der vom biometrischen Analysemodul 421 bestimmten Klassifizierung. Ferner wird die vom Klassifikator 55 bestimmte Klassifizierung vorzugsweise in der Profildatenbank 45 gespeichert, um die Resultate des Moduls 421 während späteren Verbindungen des Benutzers 1 zu bestätigen oder im Gegenteil zu widersprechen. Die Datenbank 45 kann auch je nach Anwendung dazu verwendet werden, um die dem Benutzer 1 zugeordneten Kategorie zu verfeinern, beispielsweise mit Zusatzangaben in Bezug auf seine Adresse, den Betrag der Telefonrechnungen, usw., welche eine möglichst genaue Bestimmung des Kundensegments, zu dem er gehört, ermöglichen.
In einer Variantenausführungsform können mindestens gewisse Angaben des biometrischen Analysemoduls 421 durch die in der Benutzerdatenbank 45 gespeicherten Benutzerpräferenzen annulliert werden. Dies erlaubt beispielsweise einem erfahrenen Benutzer, dessen Stimme immer natürlich zögernd ist, trotz der Resultate der biometrischen Analyse auf das Menü für erfahrene Benutzer zuzugreifen.
In einer nicht dargestellten Variantenausführungsform werden die in der Datenbank 45 enthaltenen Daten als Zusatzkomponenten des Eingangvektors des Moduls 421 nebst der Stimmkomponenten, welche direkt aus dem vom Benutzer 1 erhaltenen Stimmvektor extrahiert werden, verwendet. Diese Variante erlaubt insbesondere die Verwendung der in der Datenbank 45 enthaltenen Angaben, wobei sie mit während der Verbindung erhaltenen biometrischen Signalen gewichtet werden. Dies macht es insbesondere möglich zu überprüfen, ob der verbundene Benutzer 1 tatsächlich der Mann ist, dessen Alter genau bekannt ist und der in der Datenbank 45 als bevorzugter Benutzer des vom Anruferidentifizierungsmodul 41 erkannten Anschlusses angegeben ist, oder ob es sich eher um eines seiner Kinder handelt, dessen Alter nur approximativ auf Grund der biometrischen Merkmalen seiner Stimme geschätzt werden kann. Diese Ausführungsform erlaubt es, auf den Klassifikator 44 zu verzichten.
Der Klassifikator 44, oder das Modul 421, zeigt die Klassifizierung des Benutzers 1 der Anwendung 43, welche die gewünschten Ferndienste liefert. Die Anwendung 43 passt danach das Gespräch mit dem Benutzer 1 der oder den erkannten Kategorien an. Erfindungsgemäss ist mindestens eine von der Anwendung 43 und vom Sprachsynthesizer 420 erzeugte Antwort eine Funktion der Alterskategorie, zu welcher der Benutzer gehört. Zum Beispiel können die Höflichkeitsformen (sehr geehrter Herr oder sehr geehrte Frau, Duzen oder Siezen, usw.) der von der Anwendung 43 erzeugten Antworten angepasst werden, sobald das Modul 421 eine Klassifizierung dem Benutzer 1 zugeordnet hat.
In einer bevorzugten Ausführungsform wird die dem Benutzer 1 gebotene Menühierarchie gemäss der diesem Benutzer zugeordneten Klassifizierung, insbesondere der Altersklasse, angepasst. Zum Beispiel kann der Zugang zu mindestens gewissen angebotenen Diensten für die Benutzer von mindestens gewissen vorbestimmten Kategorien verweigert werden, während gewisse Angebote für Benutzer aus anderen Kategorien reserviert bleiben oder ihnen als Erstes vorgestellt werden. In einem Server, der ein variiertes Angebot bietet, beispielsweise in einem Kaufserver, kann das Angebot oder dessen Darstellung der Benutzerkategorie angepasst werden. In einem interaktiven Sprachserver, der Fernsexdienste anbietet, kann beispielsweise der Zugang zu diesen Diensten für minderjährige Benutzer verweigert werden oder bestimmten Bedingungen unterworfen werden, beispielsweise der Sendung einer Warnung durch den Server 4 oder der Anforderung einer durch eine Drittpartei (TTP, trusted third party) zertifizierten elektronischen Signatur, welche das Alter des Benutzers attestiert. In einem Internetserver kann der Zugang zu gewissen Seiten für erwachsene Benutzer reserviert bleiben. In diesem Fall wird vorzugsweise ein in einer Benutzervorrichtung 2 ferngeladenes Applet verwendet, um einen Stimmenextrakt oder ein Bild des Benutzers aufzunehmen und diesen Auszug an den Server 4 zu senden, beispielsweise an einen Servlet im Server 4, der mittels des beschriebenen Verfahrens überprüft, ob der Benutzer zu einer Kategorie gehört, für die der Zugang zur geforderten Seite autorisiert ist. Die Bestimmung der Benutzerkategorie könnte jedoch auch in der Benutzervorrichtung 2 erfolgen, beispielsweise mittels eines Applets oder eines in der Navigationssoftware integrierten Plug-Ins.
Verwendet werden kann der Server 4 als Eingangs- und Filtrierungsportal eines Call-Centers mit sowohl virtuellen Agenten, d.h. Anwendungsprogrammen 43, die einen Sprachsynthesizer 40 steuern, um die Anfragen der Benutzer automatisch zu beantworten, wie auch mit menschlichen Agenten, um komplexere Probleme zu lösen oder für Benutzer, die sich in einem Gespräch mit einer Maschine weniger wohl fühlen. In diesem Fall kann das biometrische Analysemodul 421 verwendet werden, um die empfangenen Anrufe zu filtrieren und sie an den geeigneten Agenten zu richten.
Die Benutzerkategorien können in einer Variante mit einer Wahrscheinlichkeit versehen werden. Zum Beispiel kann das Modul 421 der Anwendung 1 die Wahrscheinlichkeit, dass der Benutzer 1 minderjährig ist, nennen. Die Anwendung 1 kann danach je nach genannter Wahrscheinlichkeit ein anderes Verhalten annehmen und beispielsweise den Zugang zu einem Dienst verweigern, wenn die Wahrscheinlichkeit grösser als ein erster hoher Schwellwert ist, und sich mit einer Verwarnung begnügen, wenn diese Wahrscheinlichkeit zwischen einem unteren Schwellwert und dem ersten hohen Schwellwert liegt.
In einer anderen Ausführungsform kann das biometrische Analysemodul der Anwendung 43 eine Zahl, beispielsweise eine dem wahrscheinlichsten Alter des Benutzers entsprechende Zahl, anstelle einer einfachen Zugehörigkeit zu einer vorbestimmten Alterskategorie angeben.
Als Beispiel können die nachfolgenden Operationen als Funktion der vom biometrischen Analysemodul bestimmten Kategorie des Anrufers in Betracht gezogen werden:

• Änderung des von der Anwendung 43 vorgeschlagenen Angebots.
• Anpassung der Präsentation des Angebots, beispielsweise Anpassung der Sprachmenüs, der Höflichkeitsformen, des Sprachstils, der Sprache, der synthetisierten Stimme, usw.
• Einschränkung des Angebots für die Benutzer von gewissen Kategorien, beispielsweise für Minderjährige.
• Überprüfung der Zugriffsautorisierung für gewisse Internet- oder WAP-Seiten.
• Automatische Verbindung der Benutzer von gewissen Kategorien mit gewissen Typen von Agenten. Zum Beispiel können Seniorenbenutzer automatisch mit einem als weniger einschüchternden geltenden menschlichen Agenten verbunden werden, während Minderjährige bevorzugt mit einem Agenten verbunden werden können, der mit einer „spielerischen" Stimme ein Spielmenü anbietet.
• Automatischer Verbindungsabbruch von gewissen Typen von Benutzern, beispielsweise von Minderjährigen in einem Fernsex- oder einem Automietdienst.
• Bestimmte Meldungen, beispielsweise Warnung für gewisse Benutzer, gezielte Werbung, usw. für die Benutzer aus bestimmten Kategorien.
• Bestimmung der Verarbeitungspriorität in einem Call-Center (Priorität für wichtige Benutzer oder für diejenigen, deren Stimme eine überdurchschnittliche Gereiztheit verrät, usw.).

Ein Beispiel eines Gesprächs zwischen einem Benutzer 1, hier einem 10-jährigen Kind, und einem interaktiven Sprachserver 4 eines Dienstanbieters, hier einer Automietagentur, könnte wie folgt aussehen:

Server 4: „Wie kann ich Ihnen helfen?"
Benutzer 1: „Ich möchte ein Auto mieten."
Server 4: „Welche Art von Auto?"
Benutzer 1: „Ein Auto der Marke XY."
Server 4 (nachdem bestimmt wurde, dass der Benutzer 1 mit einer Wahrscheinlichkeit grösser als ein vorbestimmter Schwellenwert minderjährig ist): „Leider ist das Mieten von Autos für Besitzer eines Führerscheins reserviert. Möchtest Du an unseren Spiel-Wettbewerb teilnehmen?"

Im Falle eines Systems, in welchem der Server 4 ein Bild des Benutzers 1 erhält, kann das Modul 421 eine Kategorie diesem Benutzer auf Grund des erhaltenen Bildes zuordnen. Eine erhöhte Genauigkeit kann erreicht werden, wenn die aus dem Bild und aus der Stimme des Benutzers extrahierten Informationen durch bekannte Fusionstechniken kombiniert werden.
Ferner betrifft die vorliegende Erfindung auch einen interaktiven Sprachserver 4 mit einem Speicher 43, der mit dem Anwendungsprogramm geladen ist, und Verarbeitungsmittel, beispielsweise einen oder mehrere Prozessoren, welche das benannte Computerprogramm auszuführen vermögen, um den interaktiven Sprachserver das oben beschriebene Verfahren durchführen zu lassen, sowie einen Computerdatenträger, welcher in den internen Speicher eines Servers geladen werden kann, um ihn alle Schritte des Verfahrens durchführen zu lassen.
Schlussendlich betrifft die vorliegende Erfindung auch einen Internetserver 4 mit einem Speicher, in welchem eine oder mehrere Seiten gespeichert sind, und mit Mitteln zur Überprüfung des Zugriffs auf diese Seiten mittels des beschriebenen Verfahrens.

Claims

Ferndienstverfahren mit den folgenden Schritten: Erstellen einer Verbindung durch ein Telekommunikationsnetzwerk (3) zwischen einem Benutzer (1) und einem Server (4) eines Dienstanbieters, wobei der besagte Server einer Mehrzahl von Benutzern (1) zugänglich ist, Austausch von Sprachantworten zwischen dem besagten Benutzer (1) und dem besagten Server (4) über das besagte Telekommunikationsnetzwerk (3), wobei wenigstens gewisse Antworten des besagten Servers von einem Computerprogramm (43) erzeugt werden, Bestimmen der Alterskategorie, unter einer Vielzahl von vorbestimmten Alterskategorien, zu welcher der besagter Benutzer (1) gehört, wobei das Verhalten des besagten Servers (4) während dem besagten Antwortenaustausch eine Funktion der besagten Alterskategorie, zu welcher der Benutzer gehört, ist, dadurch gekennzeichnet, dass die besagte Alterskategorie vom besagten Server durch eine Analyse von biometrischen Parametern des Benutzers bestimmt wird, welche im besagten Server (4) auf der Basis der von der Antwort oder den Antworten des besagten Benutzers entnommenen Stimme erhalten wurden, unabhängig vom semantischen Inhalt dieser Antworten.
Verfahren gemäss dem vorhergehenden Anspruch, worin der besagte Server (4) ein Internetserver ist, wobei der Zugriff auf gewisse Seiten des Servers für Benutzer von mindestens einer vorbestimmten Alterskategorie gesperrt wird.
Verfahren gemäss Anspruch 1, worin der besage Server (4) ein interaktiver Sprachserver ist, wobei mindestens einige Antworten des Servers mittels eines Sprachsynthesizers (420) erzeugt werden.
Verfahren gemäss einem der vorhergehenden Ansprüche, worin die besagte Alterskategorie, zu welcher der Benutzer gehört, mittels eines Neuronennetzwerks (421) bestimmt wird.
Verfahren gemäss dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die besagte Alterskategorie mittels eines Neuronennetzwerks (421) während einer zweiphasigen Operation bestimmt wird, wobei die erste Phase eine Segmentierung der Sprachmuster und die zweite Phase eine Dekodierungsphase gemäss den bestimmten Segmenten ist.
Verfahren gemäss einem der Ansprüche 4 oder 5, dadurch gekennzeichnet, dass die besagte Alterskategorie mittels eines Mehrtaktneuronennetzwerks bestimmt wird.
Verfahren gemäss dem vorhergehenden Anspruch, worin das besagte Neuronennetzwerk mittels eines Benutzermusters, das repräsentativ für die Benutzer (1) des besagten Servers ist, trainiert wurde.
Verfahren gemäss Anspruch 3, worin die besagte Alterskategorie, zu welcher der besagte Benutzer gehört, mittels eines versteckten Markov-Modells in Kombination mit einem Viterbi-Dekodierer bestimmt wird.
Verfahren gemäss einem der vorhergehenden Ansprüche, mit einem Schritt der Anruferidentifizierung und Prüfung, in einer Datenbank (45) des mit dem anrufenden Benutzer (1) verknüpften Profils, wobei das besagte Profil es erlaubt, die dem besagten Benutzer (1) zugeordnete Kategorie zu bestätigen oder zurückzuweisen.
Verfahren gemäss einem der vorhergehenden Ansprüche, worin der besagte Server ferner das Geschlecht des Benutzers (1) durch eine während dem Antwortenaustausch durchgeführte Analyse von biometrischen Parametern des Benutzers bestimmt, unabhängig vom semantischen Inhalt dieser Antworten, und das Verhalten des besagten Servers während dem besagten Antwortenaustausch eine Funktion des Geschlechts des Benutzers ist.
Verfahren gemäss einem der vorhergehenden Ansprüche, worin der besagte Server ferner die Launekategorie des Benutzers (1) durch eine während dem Antwortenaustausch durchgeführte Analyse von biometrischen Parametern des Benutzers bestimmt, unabhängig vom semantischen Inhalt dieser Antworten, und das Verhalten des besagten Servers während dem besagten Antwortenaustausch eine Funktion der Launekategorie, zu welcher der Benutzer gehört, ist.
Verfahren gemäss einem der vorhergehenden Ansprüche, worin mindestens eine vom besagten Server (4) erzeugte Antwort eine Funktion von mindestens einer der besagten Kategorien, zu welcher der Benutzer (1) gehört, ist.
Verfahren gemäss dem vorhergehenden Anspruch, worin die vom besagten Server (4) angenommenen Höflichkeitsformen eine Funktion von mindestens einer der besagten Kategorien, zu welcher der Benutzer (1) gehört, sind.
Verfahren gemäss einem der vorhergehenden Ansprüche, worin der Zugriff auf wenigstens gewisse vom besagten Server (4) angebotene Dienstleistungen für Benutzer (1), welche zu gewissen der besagten vorbestimmten Kategorien gehören, verweigert wird.
Verfahren gemäss dem vorhergehenden Anspruch, worin der Zugriff auf wenigstens gewisse vom besagten Server angebotene Dienstleistungen für Benutzer (1), welche einer vorbestimmten Alterskategorie gehören, verweigert wird.
Verfahren gemäss einem der vorhergehenden Ansprüche, worin der Zugriff auf wenigstens gewisse vom besagten Server (4) angebotene Dienstleistungen für Benutzer von einigen der vorbestimmten Kategorien zusätzlichen Bedingungen unterworfen ist.
Verfahren gemäss einem der vorhergehenden Ansprüche, worin das vom besagten Server (4) zur Verfügung gestellte Angebot eine Funktion der besagten Kategorie, zu welcher der Benutzer (1) gehört, ist.
Verfahren gemäss einem der vorhergehenden Ansprüche, worin der besagte Server (4) die besagte Verbindung unterbricht, wenn der Benutzer (1) zu einer der besagten vorbestimmten Kategorien gehört.
Verfahren gemäss einem der vorhergehenden Ansprüche, worin der besagte Benutzer (1) automatisch mit einem vorbestimmten Agenten (5, 6) verbunden wird, wenn der besagte Server (4) bestimmt hat, dass er zu einer oder mehreren der besagten vorbestimmten Kategorien gehört.
Verfahren gemäss einem der vorhergehenden Ansprüche, worin der besagte Benutzer (1) mit einem menschlichen Agenten verbunden wird, wenn der besagte Server (4) bestimmt hat, dass er zu einigen der besagten vorbestimmten Kategorien gehört, wobei das Verfahren somit erlaubt, die Anrufe an diesen Agenten zu filtrieren.
Interaktiver Sprachserver (4) mit den folgenden Elementen: eine Schnittstelle (40) die erlaubt, ihn mit einem Benutzer über ein Telekommunikationsnetzwerk (3) zu verbinden, einen Speicher (43) mit einem Computerprogramm, ein Modul für biometrischen Analyse (421) zur Bestimmung der Altersgruppe, zu welcher der Benutzer gehört, durch eine Analyse von biometrischen Parametern, welche von der Stimme des besagten Benutzers entnommen wurden.
Server gemäss dem vorhergehenden Anspruch, zusätzlich mit einem neuronalen Netzwerk (421), welches fähig ist, auf der Basis der biometrischen Parameter zu bestimmen, zu welcher Alterskategorie der besagte Benutzer gehört.
Sprachserver gemäss dem vorhergehenden Anspruch, zusätzlich mit Anruferidentifizierungsmittel (41) sowie einer Datenbank (45) von Anruferprofilen.
Sprachserver gemäss einem der Ansprüche 21 bis 23, bestehend aus einem Internetserver (4) und mit Mittel, um den Zugang auf gewisse Seiten des Servers für Benutzer (1), welche zu einer vorbestimmten Alterskategorie gehören, einzuschränken.
Computerdatenträger zum Speichern eines Computerprogramms, welches in den internen Speicher eines Telekommunikationsserver geladen werden kann, wobei das besagte Programm, wenn es im besagten Server ausgeführt wird, alle Schritte des Verfahrens gemäss einem der Ansprüche 1 bis 21 durchführen lässt.