-
Diese
Erfindung betrifft ein Verfahren zum Ermöglichen der Sprachinteraktion
mit einer Webseite oder einer Website, die ein oder mehrere Webseiten
umfasst, wobei die Visualisierung jeder Webseite durch ein entsprechendes
Visualisierungsdokument in elektronischem Format oder durch eine
Datei definiert ist, wobei das Verfahren derart ausgestaltet ist,
dass es einem Benutzer auch ermöglicht
wird, durch ein Äußern von
Sätzen, auch
in natürlicher
Sprache, mit einer freigegebenen Webseite zu interagieren, die mittels
eines Benutzercomputers oder Clients oder mittels eines Telefonapparates
abgefragt wird, wobei das Verfahren gemäß der Erfindung keine Veränderung
der auf dem Server gespeicherten Webseiten-Visualisierungsdateien
erfordert. In dieser Beschreibung wird, wie auch in den Ansprüchen, eine
vorzugsweise geordnete Aneinanderreihung von einem oder mehreren
Wörtern
in jedem Fall durch den Ausdruck „Satz" bezeichnet.
-
Im
Einzelnen wird es durch Verwenden des erfindungsgemäßen Verfahrens,
wenn ein Benutzercomputer oder ein Client eine freigegebene Webseite
anfragt, dem an dem Client arbeitenden Benutzer ermöglicht, die
Kommandos zur Interaktion mit der Seite mit gewöhnlichen elektronischen Vorrichtungen
auszuwählen, wobei
diese Interaktion auch eine Sprachinteraktion ist.
-
Diese
Erfindung betrifft auch die zur Ausführung des Verfahrens benötigten Einrichtungen
und die dieses Verfahren ausführende
Vorrichtung.
-
In
der folgenden Beschreibung wird die Erfindung im Wesentlichen durch
Bezugnahme auf eine Verbindung zwischen einem Servercomputer, oder
einfacher einem Server, und einem eine Webseite von dem Server abfragenden
Client lediglich beispielhaft und nicht begrenzend beschrieben,
da die Erfindung auch bei einer Telefonverbindung zwischen einem
Server und einer Benutzer-Telefonvorrichtung angewendet werden kann.
-
Es
ist bekannt, dass die Sprachtechnologie im Wesentlichen aus zwei
verschiedenen und ergänzenden
Technologien besteht: der Spracherkennung oder ASR (automatische
Spracherkennung, automatic speech recognition), und der Sprachsynthese
oder TTS (Text zu Sprache, text to speech).
-
Die
ASR-Technologie ermöglicht
die Erkennung der Benutzersprache durch einen Computer, der mit einem
Mikrofon und mit elektronischen Audiovorrichtungen und einem geeigneten
Computerprogramm oder einer geeigneten Computersoftware ausgerüstet ist.
Die elektronischen Audiovorrichtungen übersetzen die Klänge der
das Mikrofon erreichenden gesprochenen Worte in elektrische Signale,
die durch die Software als entsprechende Zeichenketten interpretiert
werden.
-
Die
TTS-Technologie weist demgegenüber
einen entgegengesetzten Betrieb auf, bei dem ein mit einer geeigneten
Software, elektronischen Audiovorrichtungen und einem Lautsprecher
ausgerüsteter
Computer eine Umsetzung der Wörter
eines gespeicherten Textes in Klänge
und in gesprochene Worte vornimmt.
-
Die
die Spracherkennungs- und Sprachsynthese-Operationen ausführenden
Softwaremodule werden als Stimm- oder Sprach-Maschinen bezeichnet.
Entsprechend gibt es Spracherkennungs- und Sprachsynthese-Maschinen.
-
Die
Maschinen stellen die unterste Schichtebene in der Sprachsoftwarearchitektur
dar, die auch zumindest ein die höchste Schichtebene darstellendes
Sprachanwendungsprogramm enthält.
Eine Schnittstellenebene wird benötigt, um die Interaktion zwischen
den Maschinen und dem Anwendungsprogramm zu ermöglichen. Zur Zeit ist die für Sprachanwendungsprogramme
am weitesten verbreitete Schnittstelle, wobei sie dabei ist, eine
De-Facto-Norm zu werden, eine als SAPI (speach application programming
Interface, Sprachanwendungsprogrammschnittstelle) bezeichnete Schnittstelle,
die durch Microsoft® entwickelt wurde.
-
Die
Technologie zur Spracherkennung und dementsprechend die ASR-Maschine
sind ziemlich komplex. Tatsächlich
ist die Erkennung der gesprochenen Wörter ein extrem aufwändiges Verfahren,
das eine statistische Analyse des von dem Mikrofon kommenden Signals
umfasst. Solch eine Analyse benötigt
eine weitgehende Ausnutzung der Computerressourcen auf der Ebene
des Prozessors und der Ebene des Systemspeichers. Es existieren
im Wesentlichen zwei Spracherkennungstypen: die Erkennung für Diktatzwecke.
-
Die
Erkennung für
Kommando- und Kontroll-Zwecke ist die einfachere der beiden Spracherkennungstypen
und sie umfasst eine geringere Ausnutzung der Systemressourcen.
Bei dieser Technik darf der Benutzer lediglich eine beschränkte Wortgruppe
aussprechen, die maximal einige Tausend Wörter umfasst. Dieser Spracherkennungstyp
wird üblicherweise
für eine
Sprachinteraktion mit Anwendungssoftware verwendet. In diesem Fall
ist die zum Softwaremanagement zu verwendende Kommandogruppe definitiv
eingeschränkt
und das betreffende Wort kann mit dem Kommando- und Kontroll-Erkennungstyp
geäußert werden. Dieser
Typ der Spracherkennung ist allgemein unabhängig von dem die Kommandos
sprechenden Benutzer. Das bedeutet, dass die verwendete Vorrichtung
nicht unbedingt irgend eine Trainingssitzung zum Lernen des Benutzersprachmodells
oder Benutzersprachmusters benötigt.
-
Andererseits
gibt die Spracherkennung für
Freidiktatzwecke dem Benutzer gerade die Möglichkeit, frei einen Text
basierend auf einem Vokabular von Begriffen zu diktieren, der zur
Zeit in Abhängigkeit
von der ASR-Maschine bis zu 200.000 Wörter enthalten kann. Die Erkennung
für Diktatzwecke
benötigt
offensichtlich mehr Systemressourcen und weist an sich eine höhere Fehlerrate
auf, die mittels einer durch die ASR-Maschine durchgeführten Lernsitzung des Sprachmodells
des mit der ASR-Maschine selbst interagierenden Benutzers minimiert
wird. Dies beinhaltet, dass beim Versuch der Minimierung der Fehlerrate
bei der Erkennung des freien Diktats, die Erkennung sich selbst
von dem die Lernsitzung durchgeführten
Benutzer abhängig
macht. Die zuletzt bekannt gewordenen Spracherkennungsmaschinen
sind dafür
bekannt, dass sie angepasst sind, die Diktaterkennung sogar nach
Sitzungen mit kurzer Dauer (im Bereich von 10 Minuten) zum Lernen
des Sprachmodells des Benutzers zu ermöglichen.
-
Die
Sprachsynthesetechnologie und die TTS-Maschine sind wesentlich einfacher
und sind offensichtlich sehr unabhängig von dem Benutzer. Der
kritische Parameter einer Sprach-Synthese-Maschine ist ihre Ähnlichkeit
mit der menschlichen Stimme und demzufolge ihrer Reichhaltigkeit
und Natürlichkeit.
Die letzten Sprach-Synthese-Maschinen erzeugen nicht mehr metallisch
Klänge,
wie dies bis vor einigen Jahren aufgetreten ist. Insbesondere führt die
Realisierung dessen, was in der Linguistik als suprasegmentale Zeichen
definiert ist, zu einer Musikalität, welche die Ton- und Akzent-Variationen
der Sprache wirksam simuliert.
-
Momentan
untersuchen viele auf dem Feld der Informatik arbeitenden Forschungszentren
und Firmen die Möglichkeit,
es einem Benutzer zu ermöglichen,
eine Webseite auf seinem/ihrem Benutzercomputer oder Client zu visualisieren,
um damit mittels gesprochener Kommandos zu interagieren. Ein Benutzercomputer und
weiter gefasst eine Vorrichtung, sogar eine mobile, die mit einer
durch einen Benutzer verwendbaren Verarbeitungsfähigkeit ausgestattet ist, wird
in der folgenden Beschreibung mit dem Begriff Client bezeichnet.
-
Wie
bekannt ist, ist eine Webseite ein elektronisches Dokument oder
eine Datei, dessen oder deren Informationsgegenstände in einem
Hypertext-Modus strukturiert sind, wobei ermöglicht wird, dass Bilder, Filme und
Klänge
auf dem Monitor eines Computers visualisiert werden. Ein elektronisches
Dokument wird hier im Folgenden mit dem Ausdruck Datei bezeichnet.
Im Einzelnen können
die Webseiten-Visualisierungsdateien in verschiedenen Sprachen,
wie beispielsweise „HTML", „JPS", „ASP", „JAVA" implementiert sein
und sie können mittels
einer als „Browser" bezeichneten grafischen
Schnittstelle (wobei hier im Folgenden diese immer mit diesem Begriff
bezeichnet wird) visualisiert werden.
-
Unter
dem Begriff „Web" kann eine Softwarearchitektur
zum Zugriff auf die Visualisierungsdateien der auf tausenden Servern
gespeicherten Webseiten verstanden werden, wobei die Softwarearchitektur
mittels des Telekommunikationsnetzwerkes verbunden ist. In der folgenden
Beschreibung wird ein Servercomputer oder ein Computer, der es einem
oder mehreren Clients ermöglicht,
Netzwerkressourcen auszunutzen oder zu finden, in jedem Fall mit
dem Begriff Server bezeichnet. Andererseits wird der Begriff Server
auch einen Servercomputer bezeichnen, mit dem eine Telefon-Benutzervorrichtung,
möglicherweise
ein Mobiltelefon, mittels eines Telefonnetzwerks, möglicherweise
einem Mobilfunknetzwerk, verbunden sein kann, um so durch Sprache
mit dem Server selbst zu interagieren, um Informationen zu erhalten
und/oder bereitzustellen.
-
Eine
Webseitengruppe, deren Visualisierungsdateien in einer einzelnen
Datenstruktur gespeichert sind, die im Allgemeinen eine Baumorganisation
aufweist und durch eine einheitlich identifizierbare ursprüngliche „Root"-Seite erreichbar
ist, wird als Website bezeichnet. Im Allgemeinen ist jede Seite
einer Website mittels einer sie identifizierenden einheitlichen
Adresse erreichbar.
-
Wie
bekannt ist, ist das momentan überwiegend
zur Navigation verwendete Telekommunikationsnetzwerk das Internet-Netzwerk. Ein Browser
ermöglicht
eine Navigation im Internet-Netzwerk
und ermöglicht
die Visualisierung der Webseiten und die Verwendung der verschiedenen
durch die besuchten Websites angebotenen Dienste. Wenn ein Client
bei einem Server eine Webseite zur Wiedergabe anfragt, deren Visualisierungsdatei
auf dem Server selbst gespeichert ist, teilt der Client dem Server
die die Seite identifizierende einheitliche Adresse spezifisch mit,
wobei die Adresse als die URL-Kennzeichnung der Webseite bekannt
ist (und sie wird mit diesem Begriff in der folgenden Beschreibung
bezeichnet). Genauer ist eine URL-(Uniform Ressource Locator)-Kennzeichnung
eine einheitliche Quellenkennzeichnung, welche auch ein Kommunikationsprotokoll
zwischen dem Server und dem Client zur Übertragung der Visualisierungsdatei
der angefragten Webseite spezifiziert.
-
Die
bis jetzt vorgestellten Ansätze,
um eine Sprachinteraktion zwischen einem Benutzer und einer Webseite
zu ermöglichen,
benötigen
eine Modifikation der Visualisierungsdatei der Webseite, wobei in
beiden Fällen
die Verbindung zu einem Server mittels eines Clients oder einer
Benutzer-Telefonvorrichtung betroffen ist.
-
Dies
stellt einen spürbaren
Nachteil dar, insbesondere dann, wenn es notwendig ist, eine solche
Maßnahme
auf allen Seiten einer Website vorzunehmen.
-
Das
Dokument WO99/48088 offenbart ein System und ein Verfahren zum Implementieren
eines sprachkontrollierten Web-Browser-Programms,
das auf einem tragbaren Computer ausführbar ist, um eine Navigation
durch den sprachkontrollierten Webbrowser innerhalb einer Webseite
und zu anderen Webseiten entsprechend den in der Webseite dargestellten
Hyperlinks zu ermöglichen.
-
Das
Dokument US-A-6 385 583 offenbart ein komplexes interaktives Sprachantwort-
(interactive voice response, IVR) und/oder Sprachportal-System,
welches es einem Benutzer ermöglicht,
Information mittels einer Sprachinteraktion oder mit dem System
oder mittels gewählter
DTMF-Töne
zu ermöglichen,
um so dem System die gewünschte
Information zu übermitteln.
Insbesondere weist das System speziell entwickelte Sprachanwendungen
auf, die in einer bestimmten Auszeichnungssprache (mark up language)
für interaktive Dienste
implementiert sind.
-
Die
erfindungsgemäße Lösung ist
in diesem Kontext zu sehen.
-
Es
ist daher eine Aufgabe der Erfindung, ein Verfahren zum Ermöglichen
der Sprachinteraktion mit einer Webseite oder einer Website bereitzustellen,
so dass es dem Benutzer ermöglicht
wird, die Interaktionskommandos mit der Seite und mit gewöhnlichen
elektronischen Vorrichtungen auch durch gespro chene Sätze, auch
in natürlicher
Sprache auszuwählen,
ohne jedwede Notwendigkeit, die in dem Server gespeicherten Webseiten-Visualisierungsdateien
zu modifizieren, wobei die Seiten ausgehend von mit bekannten spezifischen
Sprachen (beispielsweise Broadvision®) geschriebenen
Seiten oder anderen für
diese Zwecke entwickelten Anwendungen dynamisch erzeugt werden.
-
Eine
weitere Aufgabe der Erfindung ist es, einen Sprachzugriff auf die
Webseite durch einen Client oder durch eine mit Verarbeitungsmöglichkeiten
ausgerüstete
mobile Vorrichtung und durch einen Telefonapparat zu ermöglichen.
Auf diese Weise ermöglicht
das erfindungsgemäße Verfahren
die Sprachinteraktion einer sogenannten „Multikanal"-(„multi-channel")-Website oder einer
von einem Clientcomputer, insbesondere von einem Personalcomputer,
von einem Telefonapparat und von allen mit Software ausgerüsteten mobilen Apparaten
erreichbaren Website.
-
Eine
weitere Aufgabe dieser Erfindung ist es, alle notwendigen Mittel
bereitzustellen, um das Verfahren auszuführen, und Vorrichtungen bereitzustellen,
die angepasst sind, um das Verfahren auszuführen.
-
Der
spezifische Gegenstand dieser Erfindung ist ein Verfahren zum Ermöglichen
der Sprachinteraktion mit einer Webseite, deren Visualisierung durch
eine entsprechende Visualisierungsdatei definiert ist, wobei das
Verfahren die Erkennung eines Satzes in einem Tonsignal durch eine
Spracherkennungsmaschine umfasst, das in Nähe eines Mikrofon-Mittels emittiert
wird, wobei das Verfahren dadurch gekennzeichnet ist, dass eine
entsprechende Sprachkonfigurationsdatei, die eine Zustandsmaschine
definiert, die einen oder mehrere Zustände umfasst, die einen Anfangszustand
der Webseite enthalten, mit dieser Webseite in Beziehung gesetzt
wird, wobei diese Sprachkonfigurationsdatei in jedem Zustand beinhaltet:
- – eine
oder mehrere erste Informationselelemente, wobei sich jedes auf
einen entsprechenden Satz bezieht, der durch die Spracherkennungsmaschine
erkennbar ist, und, für
jedes dieser ersten Informationselemente,
- – ein
oder mehrere zweite Informationselemente, die sich auf einen oder
mehrere entsprechende Befehle zur Interaktion mit der Webseite beziehen,
und/oder
- – ein
drittes Informationselement, das sich auf eine entsprechende Verbindung
zu einer anderen Webseite bezieht, und/oder
- – ein
viertes Informationselement, das einen entsprechenden Folgezustand
identifiziert, wobei
das Verfahren die folgenden hintereinander
ablaufenden Schritte beinhaltet:
A1 – Initialisieren einer aktuellen
Zustandsvariable zu dem Anfangszustand der Webseite,
B1 – Laden
einer Grammatik entsprechend des aktuellen Zustands sowie Einschließen der
erkennbaren Sätze in
die Spracherkennungsmaschine,
C1 – Erkennen eines in der Nähe des Mikrofon-Mittels
gesprochenen Satzes unter den erkennbaren Sätzen entsprechend dem aktuellen
Zustand durch die Spracherkennungsmaschine,
D1 – beim Übereinstimmen
eines oder mehrer Interaktionsbefehle mit dem erkannten Satz, Ausführen dieser Befehle,
E1 – wenn ein
Folgezustand mit dem erkannten Satz übereinstimmt, Aktualisieren
der aktuellen Zustandsvariable zu dem Folgezustand und Wiederholen
der Verfahrensschritte, beginnend mit dem ersten Schritt, der nach
dem Schritt A1 folgt.
-
Erfindungsgemäß kann das
Verfahren weiterhin nach dem Schritt D1 den folgenden Schritt umfassen:
F1 – wenn eine
Verbindung zu einer anderen Webseite, zu der eine andere entsprechende
Sprachkonfigurationsdatei gehört,
mit dem aktuellen Zustand übereinstimmt,
werden alle Schritte des Verfahrens in Verbindung mit dieser anderen
Webseite wiederholt.
-
Ebenfalls
in Übereinstimmung
mit der Erfindung stimmt in Bezug auf mindestens einen Zustand mindestens
eines der ersten Informationselemente mit dem entsprechenden Satz überein,
der durch die Spracherkennungsmaschine erkennbar ist.
-
Wenn
die Webseiten in einem dynamischen Modus erzeugt sind und dementsprechend
die Inhalte der zu erkennenden Sätze
(die von einer Datenbank empfangen worden sein können oder dynamisch erzeugt
worden sein können)
nicht a priori bekannt sind, können
in Bezug auf mindestens einen Zustand ein oder mehrere der ersten
Informationselemente Referenzen zu entsprechenden Sätzen sein,
die durch die Spracherkennungsmaschine erkennbar sind und die in
den entsprechenden ersten Dateien enthalten sind, wobei das Verfahren
außerdem
nach dem Schritt A1 und vor dem Schritt B1 den folgenden Schritt
umfasst:
A2 – wenn
eine oder mehrere Referenzen zu entsprechenden Sätzen, die in den entsprechenden
ersten Dateien enthalten sind, mit dem aktuellen Zustand übereinstimmen,
Abrufen der in den ersten Dateien enthaltenen erkennbaren Sätze durch
die Spracherkennungsmaschine.
-
Vorzugsweise
fallen erfindungsgemäß die ersten
Dateien in einer einzelnen ersten Datei zusammen und noch bevorzugter
ist die einzelne erste Datei die Visualisierungsdatei der Webseite.
-
Erfindungsgemäß kann in
Bezug auf mindestens eines der ersten Informationselemente von mindestens
einem Zustand mindestens eines der Informationselemente mit den
entsprechenden Befehlen für
die Interaktion mit der Webseite übereinstimmen.
-
Wenn
die betroffenen Webseiten in dem dynamischen Modus erzeugt wurden
und die auszuführenden Kommandos
nicht a priori bekannt sind, können
in Bezug auf mindestens eines der ersten Informationselemente von
mindestens einem Zustand ein oder mehrere der zweiten Informationselemente
Referenzen zu einem oder mehreren entsprechenden Befehlen zur Interaktion
mit der Webseite sein, die in entsprechenden zweiten Dateien enthalten
sind, wobei das Verfahren außerdem
nach dem Schritt C1 und vor dem Schritt D1 den folgenden Schritt
umfasst:
C2 – wenn
eine oder mehrere Referenzen zu einem oder mehreren Befehlen zur
Interaktion mit der Webseite übereinstimmen,
die in den entsprechenden zweiten Dateien enthalten ist, mit dem
erkennbaren Satz übereinstimmen,
Abrufen der in den zweiten Dateien enthaltenen Interaktionsbefehle.
-
Vorzugsweise
fallen die zweiten Dateien mit einer einzelnen zweiten Datei zusammen
und noch bevorzugter ist die einzelne zweite Datei die Visualisierungsdatei
der Webseite.
-
Wiederum
kann erfindungsgemäß in Bezug
auf zumindest eines der ersten Informationselemente von zumindest
einem Zustand das dritte Informationselement mit der entsprechenden
Verbindung zu einer anderen Webseite übereinstimmen.
-
Wenn
die betroffenen Webseiten in einem dynamischen Modus erzeugt wurden
und die Adresse für eine
Verbindung zu einer anderen Webseite nicht a priori bekannt ist,
kann in Bezug auf zumindest eines der ersten Informationselemente
von mindestens einem Zustand das dritte Informationselement eine
Referenz zu einer entsprechenden Verbindung zu einer anderen in
einer entsprechenden dritten Datei enthaltenen Webseite sein, vorzugsweise
zu der Visualisierungsdatei der Webseite.
-
Vorzugsweise
enthält
erfindungsgemäß die Sprachkonfigurationsdatei
in Bezug auf mindestens einen Zustand:
- – ein oder
mehrere fünfte
Informationselemente, wobei jedes auf einen entsprechenden stimmlich
zu synthetisierenden Text bezogen ist,
wobei das Verfahren
außerdem
nach dem Schritt A1 den folgenden Schritt umfasst:
B2 – wenn ein
oder mehrere zu synthetisierende Texte mit dem aktuellen Zustand übereinstimmen,
stimmliches Synthetisieren von mindestens einem der Texte durch
eine Sprach-Synthese-Maschine.
-
Ebenso
fällt in Übereinstimmung
mit dieser Erfindung in Bezug auf zumindest einen Zustand zumindest
eines der fünften
Informationselmente mit dem entsprechenden stimmlich zu synthetisierenden
Text zusammen.
-
Wenn
die betroffenen Webseiten in einem dynamischen Modus erzeugt wurden
und die Inhalte der auszusprechenden Sätze, die von einer Datenbank
empfangen worden sein können
oder dynamisch erzeugt worden sein können, nicht a priori bekannt
sind, können
in Bezug auf mindestens einen Zustand ein oder mehrere der fünften Informationselemente
Referenzen zu entsprechenden Texten sein, die stimmlich zu synthetisieren
und in entsprechenden vierten Dateien enthalten sind, wobei das
Verfahren außerdem
nach dem Schritt A1 und vor dem Schritt B2 den folgenden Schritt
umfasst:
B3 – wenn
eine oder mehrere Referenzen zu entsprechenden Texten, die stimmlich
zu synthetisieren sind und in ent sprechenden vierten Dateien enthalten
sind, mit dem aktuellen Zustand übereinstimmen,
Abrufen der stimmlich zu synthetisierenden Texte, die in den vierten
Dateien enthalten sind.
-
Vorzugsweise
fallen die vierten Dateien in einer einzelnen vierten Datei zusammen
und noch bevorzugter ist die einzelne vierte Datei die Visualisierungsdatei
der Webseite.
-
in
einer bevorzugten Ausführungsform
ist in Bezug auf jeden Zustand die Sprachkonfigurationsdatei gemäß einer
Datenstruktur aufgebaut und enthält:
- – einen
ersten Abschnitt (ASR) für
die Spracherkennung, einschließlich
einem oder mehrerer erster Unterabschnitte, wobei jeder das Folgende
beinhaltet:
- a) eines der ersten Informationselemente in Bezug auf entsprechende
Sätze,
die durch die Spracherkennungsmaschine erkennbar sind,
- b) einen alphanumerischen Identifikationscode,
- – einen
zweiten Abschnitt (CMD) für
Interaktionsbefehle, einschließlich
einem oder mehrerer zweiter Unterabschnitte, wobei jeder eines der
zweiten Informationselemente beinhaltet, die sich auf die entsprechenden Interaktionsbefehle
mit der Webseite beziehen, wobei der alphanumerische Identifikationscode
enthält:
- b1) das vierte Informationselement in einem alphanumerischen
Format, das den Folgezustand entsprechend dem erkennbaren Satz aus
dem ersten Unterabschnitt identifiziert, und
- b2) einen ersten alphanumerischen Untercode, der zumindest einen
zweiten Unterabschnitt des zweiten Abschnitts (CMD) der Interaktionsbefehle
des aktuellen Zustands oder des Folgezustands identifiziert.
-
Erfindungsgemäß kann zumindest
ein zweiter Unterabschnitt des zweiten Abschnitts (CMD) der Interaktionsbefehle
leer sein (oder er kann einen Wert von Null annehmen).
-
Vorzugsweise
enthält
erfindungsgemäß zumindest
ein zweiter Unterabschnitt des zweiten Abschnitts (CMD) der Interaktionsbefehle
einen Befehl zur Verbindung zu einer anderen Webseite.
-
Noch
bevorzugter umfasst erfindungsgemäß die Datenstruktur, gemäß der die
Sprachkonfigurationsdatei in Bezug auf jeden Zustand aufgebaut ist,
außerdem:
- – einen
dritten Abschnitt (TTS) für
Sprachsynthese, der einen oder mehrere dritte Unterabschnitte umfasst, wobei
jeder mindestens eines der fünften
Informationselemente in Bezug auf die entsprechenden zu synthetisierenden
Texte beinhaltet.
-
Ebenso
kann erfindungsgemäß der alphanumerische
Identifikationscode weiterhin umfassen:
- b3)
einen zweiten alphanumerischen Untercode, der mindestens einen dritten
Unterabschnitt des dritten Abschnitts (TTS) für Sprachsynthese des aktuellen
Zustands oder des Folgezustands identifiziert.
-
Weiterhin
kann erfindungsgemäß zumindest
ein dritter Unterabschnitt des dritten Abschnitts (TTS) für Sprachsynthese
leer sein (oder er kann einen Wert von Null annehmen).
-
Außerdem kann
erfindungsgemäß die Datenstruktur,
gemäß der die
Sprachkonfigurationsdatei in Bezug auf jeden Zustand aufgebaut ist,
außerdem
umfassen:
- – einen
vierten Abschnitt (ADV) für
Werbemitteilungen, der einen oder mehrere vierte Unterabschnitte
umfasst, wobei jeder mindestens eines der fünften Informationselemente
in Be zug auf die entsprechenden zu synthetisierenden Texte beinhaltet.
-
Gemäß der Erfindung
kann der alphanumerische Identifikationscode weiterhin umfassen:
- b4) einen dritten alphanumerischen Untercode,
der mindestens einen vierten Unterabschnitt des vierten Abschnitts
(ADV) für
stimmliche Werbemitteilungen des aktuellen Zustands oder des Folgezustands
identifiziert.
-
Weiterhin
kann gemäß der Erfindung
zumindest ein vierter Unterabschnitt des vierten Abschnitts (ADV)
für stimmliche
Werbemitteilungen leer sein (oder er kann einen Wert von Null annehmen).
-
In
einer bevorzugten Ausführungsform
der Erfindung werden die Visualisierungsdatei und die Sprachkonfigurationsdatei
auf einem Server gespeichert, auf den durch ein Telekommunikationsnetzwerk
durch mindestens einen Benutzer-Client zugegriffen werden kann,
wobei das Verfahren außerdem
umfasst, dass bei Abfrage einer Webseite durch einen Client, der
mit dem Mikrofon-Mittel und mit einer Spracherkennungsmaschine ausgestattet
ist, vor dem Schritt C1 die folgenden Schritte erfolgen:
A0.1 – Übertragen
der Visualisierungsdatei der abgefragten Webseite von dem Server
zu dem Client,
A0.2 – Visualisieren
der Webseite bei dem Client, und vor dem Schritt A1 erfolgt der
folgende Schritt:
A0.3 – Übertragen
der Sprachkonfigurationsdatei der abgefragten Webseite von dem Server
zu dem Client, und nach dem Schritt D1 folgt der folgende Schritt:
F2 – wenn eine
Verbindung zu einer anderen Webseite mit dem aktuellen Zustand übereinstimmt,
fragt der Client die andere Webseite vom Server ab.
-
Die
grafischen Assistenten oder Agenten, technisch definiert als „Zeichen" („characters"), sind eine natürliche Interaktionsschnittstelle
zwischen einem Benutzer und den Anwendungen eines Clientcomputers.
Solche Zeichen sind Softwarekomponenten, die als Figuren, vorzugsweise
animierte Figuren (animierte grafische Schnittstellen) auftreten,
und die es dem Benutzer ermöglichen,
mit den Anwendungen zu interagieren, als ob er/sie mit den Figuren
kommunizieren würde.
Einige Ausführungsformen
der Erfindung verwenden die Synthese- und Spracherkennungs-Funktionen
zusammen mit solchen Grafiken, vorzugsweise animierten Schnittstellen,
als Assistenten, deren Bewegungen und Verhaltensweisen basierend
auf Ereignissen oder Aktionen definiert sind, welche durch die Sprachapplikationen
kontrolliert werden. Daher verwendet eine geeignete Prozesslogik,
wie sie in einer durch den Client ausgeführten Anwendung realisiert
ist, einen animierten vokalen Assistenten, der auf der Basis der
in den Spracherkennungsdateien enthaltenen Informationselementen
arbeitet.
-
Daher
umfasst vorzugsweise erfindungsgemäß die Spracherkennungsdatei
weiterhin in Bezug auf zumindest einen Zustand:
- – ein oder
mehrere sechste Informationselemente, wobei sich jedes auf eine
entsprechende zu visualisierende grafische Schnittstelle bezieht,
wobei
das Verfahren weiterhin nach dem Schritt A1 den folgenden
Schritt umfasst:
B4 – wenn
eine oder mehrere grafische Schnittstellen dem aktuellen Zustand
entsprechen, wird mindestens eine der grafischen Schnittstellen
auf dem Client visualisiert.
-
Mehr
bevorzugt wird gemäß der Erfindung,
dass zumindest eine der zu visualisierenden grafischen Schnittstellen
eine animierte grafische Schnittstelle umfasst und dass das entsprechende
sechste Informationselement die zugehörigen Bewegungsbefehle umfasst.
-
Ebenso
kann gemäß der Erfindung
zumindest eine der grafischen Schnittstellen einen Text enthalten.
-
In
einer bevorzugten Ausführungsform
umfasst die Datenstruktur, gemäß der die
Konfigurationsdatei in Bezug auf jeden Zustand aufgebaut ist, außerdem
- – einen
fünften
Abschnitt für
Bewegungsbefehle, der einen oder mehrere Unterabschnitte umfasst,
wobei jeder mindestens eines der sechsten Informationselemente in
Bezug auf die Bewegungsbefehle einer entsprechenden animierten grafischen
Schnittstelle beinhaltet.
-
Wiederum
erfindungsgemäß kann jeder
fünfte
Unterabschnitt des fünften
Abschnitts ein Informationselement in Bezug auf die Ankunftsposition
und ein Informationselement in Bezug auf die Bewegungsgeschwindigkeit
der animierten grafischen Schnittstelle enthalten.
-
Wiederum
erfindungsgemäß kann der
alphanumerische Identifikationscode außerdem umfassen:
- b5) einen vierten alphanumerischen Identifikations-Untercode zur Identifikation
von mindestens einem fünften
Unterabschnitt des fünften
Abschnitts (MOV) der Bewegungsbefehle des aktuellen Zustands oder
des Folgezustands.
-
Weiterhin
entsprechend der Erfindung kann zumindest ein fünfter Unterabschnitt des fünften Abschnitts
der Bewegungsbefehle leer sein (oder er kann einen Wert von Null
annehmen).
-
Alternativ
zu dem Zugriff durch eine Verbindung zwischen einem Server und einem
Client ermöglicht diese
Erfindung einen Zugriff über
ein Telefonnetzwerk, der mittels einer Anwendung ermöglicht wird,
die auf dem Server unter Verwendung derselben Logik wie auf dem
Client ausgeführt
wird, wie zuvor unter Bezugnahme auf die Verbindung zwischen dem
Server und dem Client dargestellt. Dies ermöglicht es dem Benutzer, mit den
Webseiten mittels eines einfachen Telefonanrufs durch Übertragung
von Sprachkommandos und Empfangen von synthetisierten oder zuvor
aufgenommenen Antworten zu interagieren. Die Sprachkonfigurationsdateien
zur Anwendung über
eine Telefonverbindung weisen dieselbe Struktur wie die in einer
Verbindung zwischen einem Server und einem Client verwendeten auf,
sogar falls bei ihnen die Möglichkeit
zur Visualisierung einer grafischen Schnittstelle als Assistent
fehlt. In diesem Fall wird das Sprachinteraktionsverfahren auf eine Weise
implementiert, so dass ein schneller interaktiver Telefondialog
ermöglicht
wird, der verschieden ist gegenüber
dem in einer Verbindung zwischen einem Server und einem Client aufgebauten
Dialog, da die Schnittstelle für
den Benutzer lediglich sprachlich anstatt auch grafisch ist.
-
Daher
sind gemäß einer
alternativen bevorzugten Ausführungsform
dieser Erfindung die Visualisierungsdatei und die Sprachkonfigurationsdatei
auf einem Server gespeichert, auf den mittels eines Telefonnetzwerks
durch zumindest eine Benutzer-Telefonvorrichtung zugegriffen werden
kann, wobei der Server mit mindestens einer Sprach-Synthese-Maschine
und einer Spracherkennungsmaschine ausgestattet ist, wobei die Benutzer-Telefonvorrichtung
mit einem Mikrofon-Mittel und mit einem Tonreproduktionsmittel zur
Wiedergabe von Texten, wie sie durch die Sprach-Synthese-Maschine
stimmlich synthetisiert wurden, ausgestattet ist.
-
Ebenso
ist gemäß der Erfindung
das Telefonnetzwerk ein zellulares Funktelefonnetzwerk und die Benutzer-Telefonvorrichtung
ist eine zellulare Funktelefonvorrichtung.
-
Ein
weiterer Gegenstand dieser Erfindung ist ein Verfahren zum Ermöglichen
der Sprachinteraktion mit einer Website, die eine oder mehrere Webseiten
umfasst, wobei die Visualisierung jeder Webseite durch eine entsprechende
Visualisierungsdatei definiert wird, wobei das Verfahren in Bezug
auf mindestens eine Seite der Website gekennzeichnet ist durch das
Ausführen
des Verfahrens zum Ermöglichen
der Sprachinteraktion einer Webseite.
-
In
diesem Fall können
gemäß der Erfindung
die Visualisierungsdateien und die Sprachkonfigurationsdateien der
Webseiten der Website auf einem Server gespeichert sein, auf den
mittels eines Telekommunikationsnetzwerks zumindest ein Benutzer-Client
zugreifen kann.
-
Ebenso
kann in dieser Ausführungsform
das Verfahren vor dem Schritt A0.3 den folgenden Schritt umfassen:
A0.0 Überprüfen, ob
eine Sprachkonfigurationsdatei auf der abgefragten Webseite besteht,
wobei das Verfahren die Schritte des Verfahrens zur Ermöglichung
der Sprachinteraktion einer Webseite nur ausführt, wenn das Ergebnis des
Schritts A0.0 positiv ist.
-
Weiterhin
kann gemäß der Erfindung
das Verfahren, falls das Ergebnis der Überprüfung des Schritts A0.0 negativ
ist, den folgenden Schritt ausführen:
F3 – Signalisieren
durch den Client, dass die abgefragte Webseite nicht für eine Sprachinteraktion
freigegeben ist, vorzugsweise durch eine Sprachsynthese einer Mitteilung,
welche durch die Sprach-Synthese-Maschine herbeigeführt wird.
-
Alternativ
sind gemäß der Erfindung
die Visualisierungsdateien und die Sprachkonfigurationsdateien der
Webseiten der betreffenden Site auf einem Server gespeichert, auf
den mittels eines Telefonnetzwerks durch zumindest eine Benutzer-Telefonvorrichtung
zugegriffen werden kann und das Verfahren kann in Bezug auf zumindest
eine Seite der Website das Verfahren zum Ermöglichen der Sprachinteraktion
mit einer Webseite ausführen.
-
Ein
weiterer Gegenstand der Erfindung ist ein Computer, in dem eine
oder mehrere Webseiten-Visualisierungsdateien gespeichert sind,
dadurch gekennzeichnet, dass darin außerdem gespeichert sind: für mindestens
eine Webseite, in Bezug auf welche die zugehörige Visualisierungsdatei im
Computer gespeichert ist, eine entsprechende Sprachkonfigurationsdatei,
die angepasst ist, um die Sprachinteraktion einer Webseite zu ermöglichen
gemäß dem Verfahren
zur Ermöglichung
der Sprachinteraktion einer Webseite, wie hierin zuvor beschrieben.
-
Vorzugsweise
sind gemäß der Erfindung
in dem Computer die Sprachkonfigurationsdateien der Webseiten gespeichert,
die zu einer einzelnen Website gehören, gemäß der gleichen Datenstruktur,
durch welche die Visualisierungsdateien der Webseiten der betreffenden
Site gespeichert sind.
-
In
diesem Fall kann jede Webseite eine über einen Client mit ihr verknüpfte Sprachkonfigurationsdatei und
eine über
eine Telefonvorrichtung mit ihr verknüpfte Sprachkonfigurationsdatei
aufweisen. Vorzugsweise haben die Sprachkonfigurationsdateien die
gleichen Namen wie die Visualisierungs dateien der entsprechenden
Webseiten, jedoch mit „mv" und „mvt" Endungen zur stimmlichen
Wiedergabe jeweils über
den Client und über
die Telefonvorrichtung.
-
Gemäß der Erfindung
kann ein solcher Computer ein Server sein, auf den durch mindestens
einen Benutzer-Client durch ein Telekommunikationsnetzwerk zugegriffen
werden kann, der eine Webseite abfragt, deren Visualisierungsdatei
auf dem Server gespeichert ist und außerdem dadurch gekennzeichnet
ist, dass er angepasst ist, als Antwort auf einen Client, der eine
Webseite abfragt, deren entsprechende Visualisierungsdatei im Computer
gespeichert ist, den Schritt A0.3 entsprechend dem Verfahren zum
Ermöglichen
der Sprachinteraktion einer Webseite, wie hierin zuvor beschrieben,
auszuführen.
-
Ein
weiterer Gegenstand der Erfindung ist ein Benutzercomputer oder
ein Client, der mit einem Mikrofon-Mittel und mit einer Sprach-Synthese-Maschine
und mit einer Spracherkennungsmaschine ausgerüstet ist, angepasst, um auf
einen Server über
ein Telekommunikationsnetzwerk zuzugreifen, um eine Webseite abzufragen,
deren entsprechende Sprachkonfigurationsdatei auf dem Server gespeichert
ist, dadurch gekennzeichnet, dass er angepasst ist, die Sprachkonfigurationsdatei
der abgefragten Webseite zu empfangen, und dadurch, dass er angepasst
ist, die Schritte A0.2, A1, B1, C1, D1, E1 und F2, gegebenenfalls
in Kombination mit dem Schritt F1 und/oder dem Schritt A2 und/oder
dem Schritt C2 und/oder dem Schritt B2 und/oder dem Schritt B3 und/oder
dem Schritt B4 des Verfahrens zum Ermöglichen der Sprachinteraktion
einer Webseite, wie hierin zuvor beschrieben, auszuführen.
-
Die
Erfindung offenbart und beansprucht weiterhin einen Servercomputer,
auf den über
ein Telefonnetzwerk von zumindest einer Benutzer-Telefonvorrichtung
zugegriffen werden kann, wobei der Server mit einer Sprach-Synthese-Maschine
und mit einer Spracherkennungsmaschine ausgerüstet ist, angepasst, um die Schritte
des Verfahrens zum Ermöglichen
der Sprachinteraktion einer Webseite, wie hierin zuvor beschrieben, auszuführen.
-
Ein
weiterer Gegenstand der Erfindung ist ein elektrisches, magnetisches
oder elektromagnetisches Signal, dadurch gekennzeichnet, dass es
mindestens eine Sprachkonfigurationsdatei einer Webseite beinhaltet,
die gegebenenfalls ein oder mehrere sechste Informationselemente
aufweist, wobei jedes sich auf eine entsprechende zu visualisierende
grafische Schnittstelle bezieht, angepasst, um die Sprachinteraktion
der Webseite gemäß des Verfahrens
zum Ermöglichen
der Sprachinteraktion einer Webseite zu ermöglichen, wie hierin weiter
oben beschrieben.
-
Die
Erfindung offenbart und beansprucht weiterhin ein durch einen Computer
lesbares Speichermedium, dadurch gekennzeichnet, dass es zumindest
eine Sprachkonfigurationsdatei einer Webseite beinhaltet, die gegebenenfalls
ein oder mehrere sechste Informationselemente aufweist, wobei jedes
einer entsprechenden zu visualisierenden grafischen Schnittstelle
entspricht und angepasst ist, um die Sprachinteraktion der Webseite
gemäß dem Verfahren
zum Ermöglichen
der Sprachinteraktion einer Webseite zu ermöglichen, wie hierin zuvor beschrieben.
-
Wiederum
gemäß der Erfindung
kann ein solches Speichermedium die Sprachkonfigurationsdateien von
zu einer einzelnen Website gehörenden
Webseiten in Übereinstimmung
mit der gleichen Datenstruktur, mit der die Visualisierungsdateien
der Webseite der betroffenen Website gespeichert sind, darin gespeichert aufweisen.
-
Ein
weiterer spezifischer Gegenstand der Erfindung ist ein Computerprogramm,
dadurch gekennzeichnet, dass es Code-Mittel beinhaltet, die angepasst sind,
um, wenn sie auf einem Computer ablaufen, den Schritt A0.3 des Verfahrens
zum Ermöglichen
der Sprachinteraktion einer Webseite auszuführen, wie hierin zuvor beschrieben.
-
Ein
weiterer spezifischer Gegenstand der Erfindung ist ein durch einen
Computer lesbares Speichermedium mit einem darin gespeicherten Programm,
dadurch gekennzeichnet, dass das Programm ein Computerprogramm,
wie gerade zuvor beschrieben, ist.
-
Ein
weiterer spezifischer Gegenstand der Erfindung ist ein Computerprogramm,
dadurch gekennzeichnet, dass es Code-Mittel beinhaltet, die angepasst sind,
um, wenn sie auf einem Computer ablaufen, die Schritte A0.2, A1,
B1, C1, D1, E1 und F2, gegebenenfalls in Kombination mit dem Schritt
F1 und/oder dem Schritt A2 und/oder dem Schritt C2 und/oder dem
Schritt B2 und/oder dem Schritt B3 und/oder dem Schritt B4 des Verfahrens
zum Ermöglichen
der Sprachinteraktion einer Webseite auszuführen, wie hierin oben beschrieben.
-
Ein
weiterer spezifischer Gegenstand der Erfindung ist ein durch einen
Computer lesbares Speichermedium mit einem darin gespeicherten Programm,
dadurch gekennzeichnet, dass das Programm ein Computerprogramm,
wie gerade zuvor beschrieben, ist.
-
Ein
weiterer spezifischer Gegenstand der Erfindung ist ein Computerprogramm,
dadurch gekennzeichnet, dass es Codemittel beinhaltet, die angepasst
sind, um, wenn sie auf einem Computer auflaufen, die Schritte zum
Ermöglichen
der Sprachinteraktion einer Webseite, wie hierin zuvor beschrieben,
in Bezug auf eine Verbindung zwischen einem Server mit einer darin
gespeicherten Sprachkonfigurationsdatei und einer Benutzer-Telefonvorrichtung über ein
Telefonnetzwerk auszuführen.
-
Ein
weiterer spezifischer Gegenstand der Erfindung ist ein durch einen
Computer lesbares Speichermedium mit einem darin gespeicherten Programm,
dadurch gekennzeichnet, dass das Programm ein Computerprogramm,
wie gerade zuvor beschrieben, ist.
-
Die
Erfindung wird nun zur Illustration und nicht begrenzend in Übereinstimmung
mit ihren bevorzugten Ausführungsformen
durch spezielle Bezugnahme auf die Figuren der begleitenden Zeichnungen
beschrieben, wobei:
-
1 zeigt
schematisch die Verbindung zwischen einem Client und einem Server
zur Anfrage einer Webseite, die zu einer Sprachinteraktion gemäß einer
bevorzugten Ausführungsform
des erfindungsgemäßen Verfahrens
in der Lage ist;
-
2 zeigt
schematisch eine bevorzugte Ausführungsform
der Sprachkonfigurationsdatei einer Webseite in Übereinstimmung mit der Erfindung;
-
3 zeigt
schematisch die Module der Softwareanwendung des Clients, welche
das erfindungsgemäße Verfahren
ausführen;
und
-
4 zeigt
ein Flussdiagramm, das schematisch die erfindungsgemäße bevorzugte
Ausführungsform des
Verfahrens zum Ermöglichen
der Sprachinteraktion einer Website wiedergibt.
-
Die
nachfolgende Beschreibung wird sich im Wesentlichen auf die Ausführungsformen
der Erfindung beziehen, die einen Server umfassen, auf den von zumindest
einem Client zugegriffen werden kann, wobei der Client eine Webseite
von dem Server mittels eines Telekommunikationsnetzwerks anfragt.
-
Das
erfindungsgemäße Verfahren
umfasst das Bereitstellen von:
auf dem Server: eine Struktur
einer Sprachkonfigurationsdatei der Seiten einer Website, wobei
die Struktur spiegelbildlich zur Struktur der Visualisierungsdateien
ist und die Informationselemente enthält, die sich auf die durch
die Webseite zu sprechenden Texte, die durch den Benutzer aussprechbaren
Wörter/Sätze und
die Strukturen der Konversationen beziehen; und
auf dem Client:
eine geeignete, in einer Softwareanwendung implementierte Prozesslogik,
die mit den Informationselementen der Sprachkonfigurationsdateien
arbeitet.
-
Wie
oben beschrieben, ist das Verfahren eingerichtet, um die Sprachinteraktion
einer Webseite einer Website zu ermöglichen, wobei es eine vollständige Sprachinteraktion
zwischen einem Benutzer und einer beliebigen Website ermöglicht.
-
Das
Hauptmerkmal des Verfahrens wird dadurch realisiert, dass kein Bedarf
besteht, irgendeine Änderung
an der existierenden Website vorzunehmen.
-
Unter
Bezugnahme auf die 1, lädt, wenn sich ein Benutzer
mit seinem/ihrem Client 1 über einen Browser mit einer
auf einem Server 2 gespeicherten Site verbindet und eine
Webseite davon anfragt, die auf dem Client 1 vorgesehene
Softwareanwendung lokal eine oder mehrerer Dateien herunter, die
geeignet auf dem Server 2 gespeichert sind. Solche Dateien
werden es ermöglichen,
dass die Sprachsynthese und die Spracherkennung des Benutzers ausgeführt werden.
-
Es
wird ein bidirektionaler Dialog aufgebaut, also zwischen dem Benutzer
und der Website-Seite, um so eine Navigation innerhalb der betroffenen
Website und zu anderen Websites ermöglicht, die zur Sprachinteraktion
mittels desselben Verfahrens fähig
sind.
-
Eine
in einem Verzeichnis einer Website organisierte Dateistruktur, die
mit einem die Sprachkonfigurationsdateien enthaltenden Root ausgerüstet ist,
wird auf dem Server 2 zu realisieren sein. Mit anderen Worten, beinhaltet
das Verfahren ein Erzeugen einer Struktur, die spiegelbildlich (oder
sogar übereinstimmend
ist mit) zu der Struktur der Visualisierungsdateien einer herkömmlichen
Website ist und so viele Sprachkonfigurationsdateien aufweist, wie
Webseiten zur Sprachinteraktion freigegeben werden. Der Server 2
kann auch die durch das Telefonnetzwerk erreichbaren Sprachkonfigurationsdateien
in sich gespeichert aufweisen, wobei die Dateien mit der gleichen
Struktur oder mit einer weiteren Struktur, die ähnlich ist zu (oder übereinstimmend
ist mit) der Struktur der Visualisierungsdateien, organisiert sind.
-
Unter
Bezugnahme auf die 2 ist eine Sprachkonfigurationsdatei
aus Zuständen
oder Informationsmakroabschnitten, welche die Zustände repräsentieren,
der Sprachinteraktion zwischen dem Benutzer und der Webseite aufgebaut.
Jeder Zustand besteht wiederum aus fünf Abschnitten: einen ersten
auf Spracherkennung bezogenen Abschnitt ASR; einen zweiten auf Interaktionskommandos
bezogenen Abschnitt CMD; einen dritten auf Sprachsynthese bezogenen
Abschnitt TTS; einen vierten auf Sprachwerbemitteilungen bezogenen Abschnitt
ADV und einen fünften
Abschnitt MOV, der sich auf Bewegungskommandos einer animierten
grafischen, einen Stimmassistenten wiedergegeben Schnittstelle bezieht.
-
Bei
anderen Ausführungsformen
ist es möglich,
dass die Sprachkonfigurationsdateien dieselben Informationselemente
auf andere Arten angeordnet aufweisen. Beispielsweise können die
TTS-Abschnitte der verschiedenen Zustände in einem einzelnen TTS-Abschnitt
angeordnet sein; oder der ADV-Abschnitt kann innerhalb des TTS-Abschnitts
oder innerhalb des CMD-Abschnitts eingebettet sein.
-
Die
TTS-, CMD- und ADV-Abschnitte von allen Zuständen enthalten in Bezug auf
eine bestimmte Webseite jeweils alle möglichen zu synthetisierenden
Sätze,
alle möglichen
durch die Anwendung auf dem Client 1 in Bezug auf die bestimmte
Webseite ausführbaren
Interaktionskommandos und alle möglichen
synthetisierbaren Werbemitteilungen (wobei vorzugsweise alle Zeiger
auf Speicheradressen enthalten).
-
Jeder
in der Sprachkonfigurationsdatei definierte Zustand enthält die Informationselemente,
welche die Anwendung auf dem Client 1 benötigt, um
ausgehend von der aktuellen Webseite die betreffenden Fragen und/oder
Aussagen zu formulieren und um die Äußerungen des Benutzers zu verstehen.
-
Der
ASR-Abschnitt jedes Zustands enthält eine Reihenanordnung (oder
Unterabschnitte) von denen jeder zwei Hauptteile aufweist: der erste
Teil enthält
einen Satz, den die Clientanwendung erkennen kann, während der
zweite Teil alle Informationselemente enthält, welche die durch die gleiche
Anwendung in Bezug auf den erkannten Satz ausführbaren Aktionen betrifft.
Bei der Ausführungsform
der 2 enthält
der zweite Teil drei Gruppen von Zahlen (im Einzelnen drei Gruppen
von zwei dezimalen Zahlen): die erste Gruppe identifiziert den Zielzustand,
nämlich
den Folgezustand der Sprachinteraktion zwischen dem Benutzer und
der betreffenden Webseite; die zweite Gruppe identifiziert den auszusprechenden Satz,
wie er in dem TTS-Abschnitt des momentanen Zustands enthalten ist;
die dritte Gruppe identifiziert das Kommando des CMD-Abschnitts
des momentanen Zustands, welchen die betreffende Anwendung beim
Erkennen des Satzes ausführen
sollte.
-
Der
MOV-Abschnitt umfasst die Bewegungen und/oder die Positionen, welche
der Stimmassistent in Bezug auf diesen bestimmten Zustand einnehmen
kann.
-
In
einigen Fällen
können
die auszuführenden
Kommandos und/oder die zu synthetisierenden Texte und/oder die Bewegungen
des Stimmassistenten fehlen und, als eine Konsequenz davon, können die
betreffenden Abschnitte oder Unterabschnitte leer sein oder können einen
Null-Wert annehmen („Null", „mil").
-
Die
Zahlengruppenanordnung kann durch weitere Gruppen vergrößert werden,
welche weitere Prozessfunktionen anzeigen können, welche die Anwendung
ausführen
kann; beispielsweise kann eine weitere Zahlengruppe eine bestimmte
Werbemitteilung anzeigen, welche bei Erkennen eines bestimmten Satzes,
der aus einem oder mehreren Wörtern
besteht, zu synthetisieren ist.
-
Zusätzlich kann
die Anzahl der Abschnitte oder Unterabschnitte jedes Zustandes erhöht werden.
Die weiteren Abschnitte und/oder Unterabschnitte können nützliche
Informationselemente hinzufügen,
um zu ermöglichen,
dass Prozessfunktionen zusammen mit dem Sprachbetrieb der betreffenden
Webseite ausgeführt werden
(beispielsweise können
die synthetisierbaren Werbemitteilungen innerhalb des Zustandes
durch den ADV-Abschnitt konfiguriert sein).
-
Falls
die Webseiten auf dynamische Weise realisiert sind und falls keine
alten Informationen über
die Inhalte beispielsweise der zu sprechenden und/oder zu erkennenden
Sätze und/oder
der betreffenden auszuführenden
Kommandos vorhanden sind (beispielsweise wenn sie als Ergebnis der
Prozessfunktionen des Servers als Texte von Datenbanken empfangen
werden oder dynamisch erzeugt sind), berücksichtigt die Erfindung ein
solches dynamisches Verhalten. Tatsächlich enthalten die Sprachkonfigurationsdateien
Informationselemente, um zu ermöglichen,
dass die Anwendung die dynamischen Teile identifiziert.
-
Genauer
erkennt die Anwendung auf dem Client 1 die dynamischen
Teile der Sprachkonfigurationsdateien und ersetzt daher die Teile
einer anderen Datei, vorzugsweise der Visualisierungsdatei.
-
Beispielhaft
kann ein zu synthetisierender Satz durch einen ersten Index, der
dazu vorgesehen ist, den Startpunkt des Textes anzuzeigen, und durch
einen zweiten Index, der dazu vorgesehen ist, den Endpunkt des Textes
anzuzeigen, lokalisiert sein, wobei diese Indexe eindeutig das zu
synthetisierende Objekt der Visualisierungsdatei der Webseite identifizieren.
Diese zwei Indexe enthalten Elemente, die angepasst sind, um innerhalb
der Struktur der Visualisierungsdatei die Einbettungsebene des Objekts
(oder die Ebenentiefe des Objekts innerhalb der Visualisierungsdatei)
und ihre Position innerhalb dieser bestimmten Ebene zu identifizieren. Es
wird angenommen, dass die Visualisierungsdatei ein durch die folgende
HTML-Sprache definiertes Objekt enthält:
-
-
Wenn
gewünscht
wird, dass der zweite Text gesprochen wird, kann die sich auf diese
Webseite beziehende Sprachkonfigurationsdatei den folgenden dynamischen
Zeiger auf diese zu sprechenden Inhalte einschließen:
[TTS]
...
$
(TBODY, 1 (TR, 1 (TD, 2))), (TBODY, 1 (TR, 1 (/TD,2)))
...
Es
kann festgestellt werden, dass der Textbeginn-Index
(TBODY,
1 (TR, 1 (TD, 2) ) ) )
und der Textende-Index
(TBODY,
1 TR, 1 (/TR, 1 (/TD,2)))
einen Inhalt, auch einen dynamischen
Inhalt, innerhalb der Visualisierungsdatei der Webseite eindeutig
identifizieren. Es sollte klar sein, dass die dynamischen Inhalte
der Sprachkonfigurationsdateien sich in Bezug auf die statischen
Inhalte durch das Vorhandensein eines bestimmten Zeichens, wie beispielsweise „$", unterscheiden.
-
Das
erfindungsgemäße Zeigen
auf dynamische Inhalte schließt
einen beliebigen Typ von Meta-Informationen über eine Unterstützung (support)
ein, die angepasst sind, um als ein Informationsbehälter der Webseite
oder ein Behälter
für Zeiger
auf die Informationselemente der Webseite zu fungieren. Solche Behälter umfassen
die so genannten „Stilvorlagen" („style
sheets"), wie sie
durch die W3C-Vereinigung unter dem Begriff „Cascading Style Sheets" (CCS) genormt sind.
Im Einzelnen können
die Stile entweder durch einen internen Code der Webseite oder durch
externe Dateien (nämlich
die CSS) in Verbindung mit der Webseite selbst ausgedrückt werden.
Andere Stilvorlagen ähnlich
den CSS sind die sogenannten „Tranformations"-Dateien („transformation" files), wie beispielsweise
die Dateien im XSL-Format.
-
Weiterhin
kann ein erfindungsgemäßes Zeigen
auf dynamische Inhalte durch Zeigen auf in einem Tag enthaltene
Informationselemente und allgemein auf Objekte der Webseite mit
wirksameren Moden als im einfachen Spezifizieren der Koordinaten,
wie es in dem obigen Beispiel gezeigt wurde, realisiert werden.
Im Einzelnen können
solche wirkungsvolleren Moden Referenzen auf den Typ des Objekts,
auf den gezeigt wird (beispielsweise Tabellen) zusammen mit spezifischen
Namen und ihren Koordinaten einschließen, um das Zeigen auch im
Hinblick auf irgendeine mögliche Änderung
der Tag-Struktur der Webseite robuster zu gestalten.
-
Zusätzlich ist
es möglich,
wenn es gewünscht
wird, ein Zeigen auf dynamische Inhalte zu realisieren, eine Programmiersprache
des „Scripting"-Typs (Skript-Sprache)
zu verwenden. Wenn einige Webseiten mit einem unterschiedlichen
Namen aber mit der gleichen Struktur periodisch erzeugt werden (beispielsweise
jeden Tag), wird eine einheitliche Sprachkonfigurationsdatei durch
die Anwendung auf dem Client 1 in Verbindung mit allen
Webseiten, mit denen die betroffene Datei verknüpft sein kann, erzeugt und
verwendet.
-
In
dem speziellen Fall der dynamischen Webseiten kann eine Anzahl von
verschiedenen Strukturen in Verbindung mit derselben Webseite erzeugt
werden. In diesem Fall wird eine Sprachkonfigurationsdatei in Verbindung
mit einer beliebigen möglichen
auf die spezifische dynamische Webseite bezogenen Struktur erzeugt. Ebenso
verwendet die die Struktur erkennende Anwendung auf dem Client 1 in
diesem Fall die damit verknüpfte
korrekte Sprachkonfigurationsdatei.
-
Vorteilhafterweise
können
die Sprachkonfigurationsdateien auf dem Server 2 gespeichert
sein und/oder können über das
Netzwerk in einem komprimierten Format übertragen werden.
-
Weiterhin
wird eine spezielle Datei in das Root-Verzeichnis der freigegebenen
Website eingefügt
und sie wird von der in dem Client 1 vorhandenen Anwendung
genau dann benötigt,
wenn eine Anfrage für
eine beliebige Webseite dieser Site durchgeführt wird. Auf diese Weise wird
die Anwendung die Möglichkeit
haben, zu überprüfen, ob
die geöffnete
Site eine Site ist, die zur Sprachinteraktion gemäß dieser
Erfindung freigegeben ist.
-
Unter
Bezugnahme auf die 3 ist die ausführende Softwareanwendung,
wie zuvor beschrieben, in dem Client 1 des Benutzers vorhanden und
ist im Wesentlichen aus den folgenden Modulen aufgebaut:
- – eine
TTS-Maschine zur Sprachsynthese;
- – eine
RSR-Maschine zur Spracherkennung;
- – eine
Schnittstelle für
Sprachanwendungsprogramme SAPI und
- – ein
Sprachanwendungsprogramm 10, welches die dynamische Grammatik
verwendet, die als Filter in Bezug auf alles, was der Benutzer äußern kann,
wirkt.
-
Die
Sprachmaschinen können
von einer beliebigen Art sein oder, mit anderen Worten, die Softwareanwendung
ist nicht auf eine bestimmte Art/ein bestimmtes Modell beschränkt. Vorzugsweise
verwendet sie die SAPI-Norm.
-
Die
Anwendung 10 auf dem Client 1 ermöglicht einerseits
die Sprachinteraktion mit einer Seite der Website und ermöglicht es
andererseits, innerhalb der Website selbst und zu anderen Websites
zu navigieren, die zur Sprachinteraktion in Übereinstimmung mit der Erfindung
fähig sind.
-
Da
diese Erfindung unabhängig
ist von den spezifischen Sprachmaschinen, auch in Hinblick auf die verwendete
Sprache, wird die Vertonung von Websites mit mehrsprachigen Inhalten
ermöglicht.
-
Unter
Bezugnahme auf das Flussdiagramm der 4 kann erkannt
werden, dass die Anwendung 10 auf dem Client 1 die
Sprachkonfigurationsdateien der Webseiten, wie sie auf dem Server 2 gespeichert
sind, verwendet, um die obigen Funktionen auszuführen. Genauer springt die betroffene
Anwendung 10, wenn ein Benutzer sich mit seinem/ihrem Client
1 mit einem Browser mit der Ursprungsseite oder „Homepage" einer freigegebenen Website verbindet,
bspw. www.mediavoice.it, beim Überprüfen, dass
die betroffene Website zur Sprachinteraktion fähig ist und dass die angefragte
Webseite auch zur Sprachinteraktion fähig ist, automatisch in das
betroffene Verzeichnis der freigegebenen Website und lädt die darin
befindlichen Sprachkonfigurationsdateien entsprechend der angefragten
Webseite (//mediavoice.it/home.mv) lokal herunter. Die Sprachkonfigurationsdatei
ermöglicht
es der Anwendung auf dem Client 1, einen tatsächlichen
Dialog zwischen dem Benutzer und der angezeigten Webseite zu realisieren,
der möglicherweise
eine Folge von, sogar eine sehr lange Folge von Fragen und Antworten
zwischen dem Benutzer und der betroffenen bestimmten Seite der Website beinhaltet.
-
Die
Anwendung 10 auf dem Client 1 speichert, nachdem
sie die Sprachkonfigurationsdatei lokal heruntergeladen hat, die
die verschiedenen Zustände
betreffenden Abschnitte in einer internen Speicherstruktur und initialisiert
die Spracherkennungsmaschine durch Laden der Grammatik, die in dem
ASR-Abschnitt betreffend
dem Anfangszustand definiert ist. Danach synthetisiert die Anwendung 10 den
ersten Satz des Anfangszustands (beispielsweise einen Willkommenssatz
auf der Webseite). Nachfolgend wird die Sprachinteraktion zwischen
dem Benutzer und der Anwendung 10 ausgeführt, die
als eine Schnittstelle für
Sprache zu der aktuellen Webseite fungiert.
-
Wenn
der Benutzer einen Satz äußert oder
etwas von der Seite in der richtigen Grammatik anfragt, erkennt
die Anwendung den Satz und führt
die mit dem Satz verknüpften
Funktionen aus, wie sie in dem zweiten ASR-Abschnitt des Satzes
selbst definiert sind. Genauer kann der Benutzer eine beliebige
Identifizierungs-URL einer Verbindung oder eines Links, die in der
aktuellen Seite eingeschlossen sind, äußern.
-
Die
Anwendung 10 äußert dann
den verknüpften
Satz, führt
das entsprechende Kommando aus und schaltet sich selbst in den Nachfolgezustand.
Der Transfer zu dem neuen Zustand schließt die Konstruktion und das
Herunterladen der in dem ASR-Abschnitt definierten Grammatik und
der Stimmsynthese des TTS-Abschnitts des aktuellen Zustands ein.
-
Das
Vorhandensein der genannten N-Zustände innerhalb derselben Sprachkonfigurationsdatei
wird dann in Hinblick auf die Tatsache benötigt, dass es sogar möglich ist,
auf derselben Webseite einen tatsächlichen Dialog zwischen dem
Benutzer des Clients 1 und der betroffenen Webseite einzurichten.
-
Wenn
das die Erkennung eines bestimmten Satzes betreffende Kommando die
Navigation durch den Browser auf eine andere Webseite einschließt, springt
die Anwendung 10 durch Herunterladen der entsprechenden
Sprachkonfigurationsdatei und durch Einleiten der oben beschriebenen
Funktionen wieder in ihre Schleife.
-
Die
Betriebslogik des Clients 1 kann auch auf die Verwendung
von Geräten
angewendet werden, die mit einer Verarbeitungsfähigkeit ausgestattet sind,
wie beispielsweise mobile/tragbare Vorrichtungen, wie beispielsweise
Palm-Tops oder tragbare PCs.
-
Das
Sprachverfahren einer Website, insbesondere von mehrkanaligen Websites,
kann zumindest teilweise automatisch mit Hilfe von entwickelten
Instrumenten ausgeführt
werden, die mit bestimmten Algorithmen versehen sind, die angepasst
sind, um Sprachkonfigurationsdateien ausgehend von den Visualisierungsdateien
der Webseiten zu erzeugen. Solche Entwicklungsinstrumente können verschiedene
Funktionen gemäß dem Zugriffstyp
einschließen,
der für
den Zugriff auf die Webseiten gewünscht wird, und daher ist es
wünschenswert,
dass entsprechend der Instrumente, von denen aus Zugriffsmöglichkeiten
auf dieselben Webseiten bestehen, Vorrichtungen zu realisieren (beispielsweise
PC, Telefonvorrichtungen, Palm-Top). Die Entwicklungsinstrumente
können
auch in einer vorbestimmten Datei alle ausgeführten Funktionen speichern,
insbesondere erzeugte Sprachkonfigurationsdateien, so dass sie sich
selbst überwachen.
-
Die
bevorzugten Ausführungsformen
der Erfindung wurden beschrieben und eine Anzahl von Variationen
wurde hierin zuvor vorgeschlagen, es sollte jedoch ausdrücklich klar
sein, dass der Fachmann andere Variationen und Veränderungen
ausführen
kann, ohne dabei den Umfang der Erfindung, wie er durch die begleitenden
Ansprüche
definiert ist, zu verlassen.