-
Gebiet der Technik
-
Die
vorliegende Erfindung bezieht sich auf sprachgesteuertes Anrufverfahren
und auf einen entsprechenden Sprach-Server.
-
Stand der Technik
-
Um
die Herstellung von Telefonverbindungen zu erleichtern, indem es
dem Teilnehmer ermöglicht
wird, ohne die Eingabe von Nummern über Tasten auszukommen, sind
mehrere Lösungen
durch verschiedene Forschungsanstalten und Akteure auf dem Gebiet
der Fernsprechverbindungen untersucht worden.
-
Der
Artikel von R. BILLI et al. mit dem Titel "Automation of Telecom Italia Directory
Assistance Service: Field Trial Results", veröffentlicht in "Proceedings of IVTTA
98", Seiten 11–16, Turin,
Italien, 1998, beschreibt ein vollkommen automatisches Telefonbuch
mit Überlauf
am Operator im Fall eines Problems. Bei diesem System wird der Teilnehmer
dazu aufgefordert, zuerst den Namen der betreffenden Region anzugeben,
dann den Namen der Stadt, der Straße und anschließend den
Namen und Vornamen des gesuchten Teilnehmers. Das Sprachtelefonbuch ist
auf die Teilnehmer ein und derselben Stadt beschränkt. Wenn
der Teilnehmer in diesem Telefonbuch nicht verzeichnet ist, wird
die Nachfrage an einen gewöhnlichen
Service mit Operator weitergegeben.
-
Das
Patent US-A-5 835 570 beschreibt ein persönliches Sprachtelefonbuch,
das durch Eingliederung der im öffentlichen
Telefonbuch enthaltenen Telefonnummer erhalten wird. Das vokale
Repertoire ist auf einer Technik vokaler Etiketten begründet, deren
Definition vom Anwender selbst angegeben wird und die er mit seiner
eigenen Stimme aufzeichnet. Die von dem öffentlichen Telefonbuch eingegliederten
Daten sind lediglich diejenigen, die der Telefonnummer entsprechen,
und es ist das vom Nutzer definierte vokale Etikett, das als Basis
für das
personelle Spracherkennungsmodell dient. Außerdem ist eine Aktualisierung
des persönlichen
Telefonbuchs vorgesehen, aber nur für vom Anwender bzw. Teilnehmer kommende
Anrufe (ausgehende Anrufe). Die in dem persönlichen Telefonbuch gespeicherten
Telefonnummern werden im Fall einer Modifikation der Daten des öffentlichen
Telefonbuchs (im Fall eines Fortzugs des Teilnehmers etc. ...) nicht
aktualisiert.
-
Diese
Technik weist also ziemlich eingeschränkte Leistungen auf.
-
Aufgabe
der vorliegenden Erfindung ist es demnach, eine ausgeklügeltere
Technik vorzuschlagen, die eine komplette Aktualisierung des persönlichen
Telefonbuchs des Nutzers ermöglicht
und dabei ein und denselben Dialogtyp zwischen dem Nutzer einerseits
und seinem personalisierten Telefonbuch oder öffentlichen Telefonbuch beibehält.
-
Abriss der Erfindung
-
Zu
diesem Zweck schlägt
die Erfindung ein sprachgesteuertes Anrufverfahren von einem anfragenden
Teilnehmer mit einem gesuchten Teilnehmer vor, der einer in einem öffentlichen
Sprachtelefonbuch aufgeführten
Einheit von Teilnehmern zugehört, wobei
die Verbindung zwischen dem Anrufer und dem Angerufenen von einem
Sprach-Server hergestellt wird, und das Verfahren dadurch gekennzeichnet
ist, dass:
- – in dem Sprachserver und für jeden
Teilnehmer einerseits ein personalisiertes Telefonbuch erstellt wird,
das durch Auszug aller die dem Teilnehmer bekannten Gesprächspartner
betreffenden Informationen aus dem öffentlichen Sprachtelefonbuch
erhalten wird, und andererseits in Zuordnung zu jedem personalisierten
Telefonbuch ein Spracherkennungsmodell gebildet wird,
- – kontinuierlich
jedes personalisierte Telefonbuch und dessen zugeordnetes Spracherkennungsmodell
in Abhängigkeit
von eingehenden und ausgehenden Anrufen des entsprechenden Teilnehmers,
oder aber der von dem Teilnehmer mitgeteilten Nummer, die dem personalisierten
Telefonbuch hinzuzufügen
oder aus diesem zu streichen sind, aktualisiert wird,
- – die
Informationen bezüglich
jedes in jedem personalisierten Telefonbuch enthaltenen Teilnehmers
in Abhängigkeit
von der Entwicklung der im öffentlichen
Telefonbuch enthaltenen Informationen bezüglich dieses Teilnehmers aktualisiert werden.
-
Aufgabe
der vorliegenden Erfindung ist auch ein Sprach-Server, der dieses Verfahren umsetzt. Der
Sprach-Server umfasst:
- – mehrere personalisierte Telefonbücher mit
ihren zugeordneten Spracherkennungsmodellen, wobei jedes personalisierte
Telefonbuch einem bestimmten Teilnehmer zugeordnet ist,
- – eine
permanente Verbindung mit einem öffentlichen
Telefonbuch,
- – mit
diesem öffentlichen
Telefonbuch verbundene Erkennungsmodelle,
- – Mittel
zum kontinuierlichen Ändern
jedes personalisierten Telefonbuchs entsprechend den eingehenden
und ausgehenden Anrufen des entsprechenden Teilnehmers, oder der
vom Teilnehmer übermittelten
Nummern, die hinzuzufügen
oder zu streichen sind,
- – Mittel
zum Aktualisieren jedes personalisierten Telefonbuchs in bezug auf
jeden Teilnehmer in Abhängigkeit
von der Entwicklung der in dem öffentlichen
Telefonbuch enthaltenen Informationen bezüglich dieses Teilnehmers.
-
Kurzbeschreibung der Zeichnungen
-
Die
einzige beigefügte
Figur ist ein synoptisches Schema, welches das Verfahren der Erfindung und
den Aufbau des Sprachservers veranschaulicht.
-
Detaillierte
Beschreibung spezieller Ausführungsformen
Im folgenden ist zu verstehen:
- • unter personalisiertem
Sprachtelefonbuch:
- – entweder
ein einer Person zugehöriges
Sprachtelefonbuch; dieses Telefonbuch fasst eine Liste der zu dieser
Person gehörenden
Teilnehmer zusammen,
- – oder
ein mit einer juristischen Person in einer Firma einem Unternehmen,
einer Gesellschaft etc. verbundenes Sprachtelefonbuch. Dieses Telefonbuch
fasst die Liste der Personen zusammen, die bei der juristischen
Person arbeiten, sowie eine Liste von Teilnehmern, die der juristischen
Person zugeordnet sind;
- • unter öffentlichem
Sprachtelefonbuch ein globales Telefonbuch aller Teilnehmer eines
Telekommunikationsbetreibers, ja sogar mehrerer Telekommunikationsbetreiber,
die auf ein und demselben geographischen Gebiet arbeiten (begrenzt auf
eine Region, ein Land, eine Gesamtheit von Ländern), oder die sogar auf
der ganzen Welt arbeiten. Dieses Telefonbuch umfasst insbesondere die "weißen Seiten" und die "gelben Seiten".
-
Gemäß der Erfindung
ist ein personalisiertes Sprachtelefonbuch wie ein Sprachtelefonbuch
großer
Kapazität
aufgebaut, aber mit einem eingeschränkten Teil der Daten des öffentlichen
Sprachtelefonbuchs. Es ist also ein "eingeschränktes" Telefonbuch. Dieses Konzept ist durch
die Tatsache gerechtfertigt, dass die Gesamtheit der tatsächlich von
einem Teilnehmer benutzten Nummern nicht eine begrenzte Anzahl überschreitet,
höchstenfalls
einige Tausend und sehr wahrscheinlich weniger als Tausend für die meisten
Personen. Für
ein Unternehmen ist die Anzahl größer und wächst als Funktion der Größe des Unternehmens
an. Sie bleibt jedoch ebenfalls begrenzt und weit unter der Anzahl
von Teilnehmern, die in dem öffentlichen
Telefonbuch aufgeführt sind.
Die Tatsache, dass das beschränkte
Telefonbuch viel kleiner ist als das öffentliche Telefonbuch, steigert
die technische Machbarkeit des Sprachtelefonbuchdienstes, da sich
die Spracherkennung auf ein viel beschränkteres Vokabular als im Fall
des öffentlichen
Telefonbuchs bezieht. Diese verbesserte Machbarkeit wird insbesondere
dazu genutzt, dem Nutzer bzw. Teilnehmer eine einfache und angenehme
Ergonomie zu bieten.
-
Die
Erfindung bietet einen Dienst der Inbezugsetzung auf zwei Ebenen,
wobei eine erste Ebene eines personalisierten Telefonbuchs (Einzelperson,
Unternehmen, Gemeinwesen) großer
Kapazität (das
bis zu mehreren tausend Worten enthalten kann) angesprochen wird,
sowie eine zweite Ebene eines gänzlich
automatisierten öffentlichen
Telefonbuchs. In der Mehrzahl der Fälle wird der Nutzer bzw. Teilnehmer
nur auf die erste Ebene zugreifen, da er die Verbindung mit Teilnehmern
wünscht,
die er bereits angerufen hat oder die ihn bereits angerufen haben,
und er wird die zweite Ebene nur für Teilnehmer benutzen, die
er nie angerufen hat oder die ihn nie angerufen haben, indem er
eine neue Nummer aus dem öffentlichen
Telefonbuch entnimmt. Mit anderen Worten verwendet der Teilnehmer
fast immer die in seinem Anrufverzeichnis gespeicherten Nummern – ausgehende
Anrufe und eingehende Anrufe –,
ein Verzeichnis, das seit einem Anfangsdatum existieren kann (das
eventuell sein Geburtsdatum sein kann).
-
Zur
Veranschaulichung sind Größenbeispiele
für die
in Frage kommenden Telefonbücher
wie folgt:
- – das öffentliche Telefonbuch umfasst
mehrere-zig Millionen Teilnehmer,
- – das
personalisierte Telefonbuch ist auf die Gesamtheit von Gesprächspartner,
d.h. einige Tausend für
jede Einzelperson beschränkt;
sie kann bis zu -zig Tausend für
juristische Personen wie z.B. große Unternehmen reichen.
-
Ein
wichtiger Aspekt des von der Erfindung gebotenen Service besteht
darin, dass der gleiche Dialog auf den beiden Ebenen vorgeschlagen
wird. Er ist im Fall des personalisierten Telefonbuchs (da das System
die Lösung
schneller findet) kürzer
als im Fall einer Suche im öffentlichen
Telefonbuch. Der Übergang
von einem zum andern ist durch eine Nachricht der folgenden Art
gekennzeichnet: "Sie
haben diesen Teilnehmer nie angerufen, ich gehe zu einer Suche im
kompletten Telefonbuch über".
-
Zur
Erläuterung
können
einige Dialogbeispiele gegeben werden. Der Buchstabe SV symbolisiert
den Sprachserver, und der Buchstabe U den Benutzer:
-
Beispiel 1: Verwendung
des personalisierten Telefonbuchs
-
- SV : Personalisiertes Sprachtelefonbuch. Sie wünschen?
- U : "Vorname
und Name eines in dem personalisierten Telefonbuch aufgeführten Teilnehmers"
- SV : Bestätigung
des Namens. Ich stelle die Verbindung her.
-
Beispiel 2: Verwendung
des personalisierte Telefonbuchs
-
- SV : Personalisiertes Sprachtelefonbuch. Sie wünschen?
- U : "Vorname
und Name eines in dem personalisierten Telefonbuch aufgeführten Teilnehmers"
- SV : Kennen Sie die Stadt?
- U : Ja. "Name
des Orts"
- SV : Bestätigung
des Namens und des Ortes. Ich stelle die Verbindung her.
-
Beispiel 3: Verwendung
des öffentlichen
Telefonbuchs
-
- SV : Persönliches
Sprachtelefonbuch. Sie wünschen?
- U : "Name und
Vorname eines in dem personalisierten Telefonbuch nicht aufgeführten Teilnehmers"
- SV : Kennen Sie die Stadt?
- U : Ja. "Name
des Ortes"
- SV : Sie haben diesen Teilnehmer nie angerufen. Ich beginne
eine Suche im kompletten Telefonbuch. Können Sie den Nachnamen buchstabieren?
- U : Ja. "Buchstabieren"
- SV : Handelt es sich um den an dem "Ort" wohnenden "Namen"?
- U : Ja, sicher.
- SV : Wünschen
Sie eine Verbindung?
- U : Ja
-
1 zeigt
einen möglichen
Aufbau des Systems und insbesondere des Sprachservers. Die Nutzer
U1, U2, U3, ... kommunizieren mit dem Sprachserver
SV über
eine lokale Schaltzentrale 2 und eine Telefonverbindung 4.
Nach der Darstellung umfasst der Sprachserver SV personalisierte
Telefonbücher A1, A2, A3,
..., die den Spracherkennungsmodellen M1,
M2, M3, ..., zugeordnet
sind, ein Modul 10 zur Anwendung des Sprachdialogs, das
mit den personalisierten Telefonbüchern und mit den Spracherkennungsmodellen
verbunden ist und ein Modul 12 zur Aktualisierung der Spracherkennungsmodelle
anhand von geschriebenen Daten. Der Sprachserver umfasst außerdem ein
Modul 20 zur Aktualisierung der personalisierten Telefonbücher und
zur kohärenten
Gestaltung mit dem öffentlichen
Telefonbuch, eine Einheit 22 der dem öffentlichen Telefonbuch entsprechenden
Sprachmodelle und ein Modul 24 zur Anwendung des Sprachdialogs
für den
Zugang zum öffentlichen
Telefonbuch. Die dargestellte Einheit umfasst außerdem ein mit dem Sprachserver über eine Datenverbindung 32 verbundenes öffentliches
Telefonbuch 30.
-
Diese
Einheit funktioniert auf folgende Weise:
- • Der Teilnehmer
tritt in Kontakt mit dem Sprachserver und wird von einer ersten
Dialogebene übernommen,
welche den Zugang zu seinem personalisierten Telefonbuch verwaltet;
die verwendeten Daten sind das personalisierte Telefonbuch, das
aus einem Auszug aus dem öffentlichen
Telefonbuch gebildet ist, und das entsprechende Spracherkennungsmodell,
- • wenn
der Name und die persönlichen
Daten des Angerufenen auf dieser Ebene erkannt werden, stellt der
Sprachserver eine Verbindung durch Weiterleiten des Anrufs zu dem
Angerufenen her (über
Steuerung der Schaltzentrale im "Serviceknoten"-Modus oder über das
intelligente Netz im Modus eines intelligenten Endgeräts),
- • wenn
der Name und die persönlichen
Daten des Angerufenen nicht gefunden werden, wird der Dialog von
einer zweiten Dialogebene übernommen,
welche den Zugang zum öffentlichen
Telefonbuch verwaltet; die verwendeten Daten sind das öffentliche
Telefonbuch (über
die Verbindung) sowie das entsprechende Sprachmodell, das sich im
Server befindet,
- • wenn
der Name und die persönlichen
Daten des Angerufenen auf dieser Ebene erkannt werden, stellt der
Sprachserver die Verbindung durch Weiterleiten des Anrufs zu dem
Angerufenen her (durch Steuerung der Schaltzentrale im "Serviceknoten"-Modus oder über das
intelligente Netz im Modus eines intelligenten Endgeräts), und
das personalisierte Telefonbuch sowie sein zugeordnetes Spracherkennungsmodell
werden personalisiert,
- • im
Fall eines dauernden Fehlschlags wird der Teilnehmer mit einer Bedienungsperson
an einem Anrufzentrum in Verbindung gesetzt.
-
Die
Aktualisierung der Daten des personalisierten Telefonbuchs des Sprachservers
gestattet die kohärente
Gestaltung der folgenden Daten mit dem öffentlichen Telefonbuch:
- – der
personalisierten Telefonbücher
für jeden Teilnehmer
des Service,
- – der
den personalisierten Telefonbüchern
zugeordneten Spracherkennungsmodelle,
- – des
Spracherkennungsmodell des öffentlichen Telefonbuchs.
-
Dieser
Prozess umfasst eine Anruf-Journalfunktion, wobei die Anrufe entweder
vom Nutzer oder aber von dem Telefonbuch-Sprachservice selbst oder aber durch
ein klassisches Verfahren (Wählen der
Nummer über
Tastatur oder der Sprache) gesendet werden, aber auch von dem Benutzer
empfangene Anrufe. Das Telefonbuch wird jedes Mal dann aktualisiert,
wenn das Anrufjournal einen neuen Teilnehmer erfasst, der im Telefonbuch
noch nicht vorhanden ist.
-
Schließlich ist
es möglich,
ein personalisiertes Telefonbuch anhand von vordefinierten Telefonbüchern (beispielsweise
von dem Telekommunikationsbetreiber vorgeschlagene) zu initialisieren
oder zu bereichern, oder durch Vererbung bzw. Übernahme von Telefonbüchern anderer Personen
(beispielsweise der Eltern) unter der Bedingung der expliziten Zustimmung
dieser anderen Personen.
-
Das
personalisierte Telefonbuch ist im wesentlichen ein Telefonbuch,
das konstant wächst,
der Aktualisierungsmechanismus kann aber auch Mechanismen zur Beseitigung
nutzloser Eingänge
gemäß unterschiedlicher
Kriterien aufweisen. Beispielsweise wird jede Nummer, die während eines
Zeitraums über
einer vordefinierten Zeitspanne nicht wiedergewählt wurde, beseitigt; für eine Einzelperson kann
die Zeitdauer länger
sein als für
ein Unternehmen. Dieser Mechanismus ist auf der Verwaltungsebene
der Teilnehmer am Service parametrierbar.
-
Die
Struktur der personalisierten Telefonbücher wird von der Struktur
des öffentlichen
Telefonbuchs durch Extrahieren aller (oder eines Teils der) Einträge der alten
Gesprächsteilnehmer
des Teilnehmers unter Verwendung aller (oder eines Teils der) Felder
der Datenbank des öffentlichen
Telefonbuchs abgeleitet. Die obligatorisch vorhandenen Felder sind:
Vorname, Name, Ort, Adresse, Gebiet, Telefonnummer. Da es sich um
einen Vermittlungsservice ohne Rückgriff
auf Telefonnummern handelt (Service vom Typ "freie Nummer" oder "numberless dialing" in englisch), spielt die Nummer eine
Rolle einer internen Adresse, welche der Teilnehmer a priori nicht
kennen muss.
-
Das
System der Erfindung kann für
das Aktualisierungsmodul der Spracherkennungsmodelle dem Fachmann
bekannte Software anwenden, beispielsweise das "flexible Erkennungsmodul" der Spracherkennungstechnologie
PHIL90 und PHILSOFT, entwickelt von FRANCE TELECOM und kommerzialisiert
von ALCATEL TITN ANSWARE, MG2 Technologies, HOLISTIQUE COMMUNICATION.
-
Das
Prinzip dieser Module besteht darin, zu erkennende Wörter oder
Ausdrücke,
die in allgemein orthographischer Form oder in bestimmten Fällen phonetisch
vorgegeben sind, in eine Informatik-Dateneinheit umzuwandeln, die
als Spracherkennungsmodell bezeichnet wird und einem Spracherkennungssystem
ermöglicht,
diese Wörter
oder Ausdrücke
zu erkennen. Dieses Modul umfasst ein Phonetisierungsmodul geschriebener
Daten, welches in orthographischer Form vorgegebene Wörter oder
Ausdrücke
in eine phonetische Beschreibung umwandelt, ein Assemblierungsmodul
des Erkennungsmodells anhand der phonetischen Beschreibung und der
gewünschten
Grammatik für
die sprachlichen Aussagen sowie die elementaren Sprachmodelle für jedes
Phonem der Sprache. Diese flexiblen Erkennungsmodule hängen offensichtlich
von der Sprache ab.
-
Die
Anwendungen des Sprachdialogs können über bekannte
Techniken und Produkte abgewickelt werden, beispielsweise über durch
MG2-Technologien vorgeschlagene Sprachanwendungsgeneratoren und
-monitore. Ein als Sprachanwendungsgenerator bezeichnetes Werkzeug
ermöglicht
die Beschreibung der Sprachaustausche zwischen dem Sprachserver
und dem Nutzer. Dieses Werkzeug bietet dem Verfasser der Sprachanwendung
eine graphische Schnittstelle oder aber eine Informatiksprache hohen
Niveaus (Script-Sprache). Dieses Werkzeug ermöglicht anschließend eine
Kompilierung der Sprachanwendung in "runtime"-Form, die von einem Sprachanwendungsmonitor
durchgeführt
wird. Die Sprachanwendungen können
auch ohne Rückgriff auf
einen Anwendungsgenerator von einem einfachen Datenprogramm durchgeführt werden,
das alle Interaktionsfälle
zwischen dem Sprachserver und dem Nutzer beschreibt.