DE60207217T2

DE60207217T2 - Verfahren zum ermöglichen der sprachinteraktion mit einer internet-seite

Info

Publication number: DE60207217T2
Application number: DE60207217T
Authority: DE
Inventors: Fabrizio Giacomelli
Original assignee: MEDIAVOICE Srl
Current assignee: MEDIAVOICE Srl
Priority date: 2001-03-12
Filing date: 2002-03-12
Publication date: 2006-08-03
Anticipated expiration: 2022-03-13
Also published as: US20040141597A1; ATE309598T1; ES2254664T3; DE60207217D1; ITRM20010126A0; WO2002073599A1; EP1371057B1; ITRM20010126A1; EP1371057A1

Description

Diese Erfindung betrifft ein Verfahren zum Ermöglichen der Sprachinteraktion mit einer Webseite oder einer Website, die ein oder mehrere Webseiten umfasst, wobei die Visualisierung jeder Webseite durch ein entsprechendes Visualisierungsdokument in elektronischem Format oder durch eine Datei definiert ist, wobei das Verfahren derart ausgestaltet ist, dass es einem Benutzer auch ermöglicht wird, durch ein Äußern von Sätzen, auch in natürlicher Sprache, mit einer freigegebenen Webseite zu interagieren, die mittels eines Benutzercomputers oder Clients oder mittels eines Telefonapparates abgefragt wird, wobei das Verfahren gemäß der Erfindung keine Veränderung der auf dem Server gespeicherten Webseiten-Visualisierungsdateien erfordert. In dieser Beschreibung wird, wie auch in den Ansprüchen, eine vorzugsweise geordnete Aneinanderreihung von einem oder mehreren Wörtern in jedem Fall durch den Ausdruck „Satz" bezeichnet.
Im Einzelnen wird es durch Verwenden des erfindungsgemäßen Verfahrens, wenn ein Benutzercomputer oder ein Client eine freigegebene Webseite anfragt, dem an dem Client arbeitenden Benutzer ermöglicht, die Kommandos zur Interaktion mit der Seite mit gewöhnlichen elektronischen Vorrichtungen auszuwählen, wobei diese Interaktion auch eine Sprachinteraktion ist.
Diese Erfindung betrifft auch die zur Ausführung des Verfahrens benötigten Einrichtungen und die dieses Verfahren ausführende Vorrichtung.
In der folgenden Beschreibung wird die Erfindung im Wesentlichen durch Bezugnahme auf eine Verbindung zwischen einem Servercomputer, oder einfacher einem Server, und einem eine Webseite von dem Server abfragenden Client lediglich beispielhaft und nicht begrenzend beschrieben, da die Erfindung auch bei einer Telefonverbindung zwischen einem Server und einer Benutzer-Telefonvorrichtung angewendet werden kann.
Es ist bekannt, dass die Sprachtechnologie im Wesentlichen aus zwei verschiedenen und ergänzenden Technologien besteht: der Spracherkennung oder ASR (automatische Spracherkennung, automatic speech recognition), und der Sprachsynthese oder TTS (Text zu Sprache, text to speech).
Die ASR-Technologie ermöglicht die Erkennung der Benutzersprache durch einen Computer, der mit einem Mikrofon und mit elektronischen Audiovorrichtungen und einem geeigneten Computerprogramm oder einer geeigneten Computersoftware ausgerüstet ist. Die elektronischen Audiovorrichtungen übersetzen die Klänge der das Mikrofon erreichenden gesprochenen Worte in elektrische Signale, die durch die Software als entsprechende Zeichenketten interpretiert werden.
Die TTS-Technologie weist demgegenüber einen entgegengesetzten Betrieb auf, bei dem ein mit einer geeigneten Software, elektronischen Audiovorrichtungen und einem Lautsprecher ausgerüsteter Computer eine Umsetzung der Wörter eines gespeicherten Textes in Klänge und in gesprochene Worte vornimmt.
Die die Spracherkennungs- und Sprachsynthese-Operationen ausführenden Softwaremodule werden als Stimm- oder Sprach-Maschinen bezeichnet. Entsprechend gibt es Spracherkennungs- und Sprachsynthese-Maschinen.
Die Maschinen stellen die unterste Schichtebene in der Sprachsoftwarearchitektur dar, die auch zumindest ein die höchste Schichtebene darstellendes Sprachanwendungsprogramm enthält. Eine Schnittstellenebene wird benötigt, um die Interaktion zwischen den Maschinen und dem Anwendungsprogramm zu ermöglichen. Zur Zeit ist die für Sprachanwendungsprogramme am weitesten verbreitete Schnittstelle, wobei sie dabei ist, eine De-Facto-Norm zu werden, eine als SAPI (speach application programming Interface, Sprachanwendungsprogrammschnittstelle) bezeichnete Schnittstelle, die durch Microsoft^® entwickelt wurde.
Die Technologie zur Spracherkennung und dementsprechend die ASR-Maschine sind ziemlich komplex. Tatsächlich ist die Erkennung der gesprochenen Wörter ein extrem aufwändiges Verfahren, das eine statistische Analyse des von dem Mikrofon kommenden Signals umfasst. Solch eine Analyse benötigt eine weitgehende Ausnutzung der Computerressourcen auf der Ebene des Prozessors und der Ebene des Systemspeichers. Es existieren im Wesentlichen zwei Spracherkennungstypen: die Erkennung für Diktatzwecke.
Die Erkennung für Kommando- und Kontroll-Zwecke ist die einfachere der beiden Spracherkennungstypen und sie umfasst eine geringere Ausnutzung der Systemressourcen. Bei dieser Technik darf der Benutzer lediglich eine beschränkte Wortgruppe aussprechen, die maximal einige Tausend Wörter umfasst. Dieser Spracherkennungstyp wird üblicherweise für eine Sprachinteraktion mit Anwendungssoftware verwendet. In diesem Fall ist die zum Softwaremanagement zu verwendende Kommandogruppe definitiv eingeschränkt und das betreffende Wort kann mit dem Kommando- und Kontroll-Erkennungstyp geäußert werden. Dieser Typ der Spracherkennung ist allgemein unabhängig von dem die Kommandos sprechenden Benutzer. Das bedeutet, dass die verwendete Vorrichtung nicht unbedingt irgend eine Trainingssitzung zum Lernen des Benutzersprachmodells oder Benutzersprachmusters benötigt.
Andererseits gibt die Spracherkennung für Freidiktatzwecke dem Benutzer gerade die Möglichkeit, frei einen Text basierend auf einem Vokabular von Begriffen zu diktieren, der zur Zeit in Abhängigkeit von der ASR-Maschine bis zu 200.000 Wörter enthalten kann. Die Erkennung für Diktatzwecke benötigt offensichtlich mehr Systemressourcen und weist an sich eine höhere Fehlerrate auf, die mittels einer durch die ASR-Maschine durchgeführten Lernsitzung des Sprachmodells des mit der ASR-Maschine selbst interagierenden Benutzers minimiert wird. Dies beinhaltet, dass beim Versuch der Minimierung der Fehlerrate bei der Erkennung des freien Diktats, die Erkennung sich selbst von dem die Lernsitzung durchgeführten Benutzer abhängig macht. Die zuletzt bekannt gewordenen Spracherkennungsmaschinen sind dafür bekannt, dass sie angepasst sind, die Diktaterkennung sogar nach Sitzungen mit kurzer Dauer (im Bereich von 10 Minuten) zum Lernen des Sprachmodells des Benutzers zu ermöglichen.
Die Sprachsynthesetechnologie und die TTS-Maschine sind wesentlich einfacher und sind offensichtlich sehr unabhängig von dem Benutzer. Der kritische Parameter einer Sprach-Synthese-Maschine ist ihre Ähnlichkeit mit der menschlichen Stimme und demzufolge ihrer Reichhaltigkeit und Natürlichkeit. Die letzten Sprach-Synthese-Maschinen erzeugen nicht mehr metallisch Klänge, wie dies bis vor einigen Jahren aufgetreten ist. Insbesondere führt die Realisierung dessen, was in der Linguistik als suprasegmentale Zeichen definiert ist, zu einer Musikalität, welche die Ton- und Akzent-Variationen der Sprache wirksam simuliert.
Momentan untersuchen viele auf dem Feld der Informatik arbeitenden Forschungszentren und Firmen die Möglichkeit, es einem Benutzer zu ermöglichen, eine Webseite auf seinem/ihrem Benutzercomputer oder Client zu visualisieren, um damit mittels gesprochener Kommandos zu interagieren. Ein Benutzercomputer und weiter gefasst eine Vorrichtung, sogar eine mobile, die mit einer durch einen Benutzer verwendbaren Verarbeitungsfähigkeit ausgestattet ist, wird in der folgenden Beschreibung mit dem Begriff Client bezeichnet.
Wie bekannt ist, ist eine Webseite ein elektronisches Dokument oder eine Datei, dessen oder deren Informationsgegenstände in einem Hypertext-Modus strukturiert sind, wobei ermöglicht wird, dass Bilder, Filme und Klänge auf dem Monitor eines Computers visualisiert werden. Ein elektronisches Dokument wird hier im Folgenden mit dem Ausdruck Datei bezeichnet. Im Einzelnen können die Webseiten-Visualisierungsdateien in verschiedenen Sprachen, wie beispielsweise „HTML", „JPS", „ASP", „JAVA" implementiert sein und sie können mittels einer als „Browser" bezeichneten grafischen Schnittstelle (wobei hier im Folgenden diese immer mit diesem Begriff bezeichnet wird) visualisiert werden.
Unter dem Begriff „Web" kann eine Softwarearchitektur zum Zugriff auf die Visualisierungsdateien der auf tausenden Servern gespeicherten Webseiten verstanden werden, wobei die Softwarearchitektur mittels des Telekommunikationsnetzwerkes verbunden ist. In der folgenden Beschreibung wird ein Servercomputer oder ein Computer, der es einem oder mehreren Clients ermöglicht, Netzwerkressourcen auszunutzen oder zu finden, in jedem Fall mit dem Begriff Server bezeichnet. Andererseits wird der Begriff Server auch einen Servercomputer bezeichnen, mit dem eine Telefon-Benutzervorrichtung, möglicherweise ein Mobiltelefon, mittels eines Telefonnetzwerks, möglicherweise einem Mobilfunknetzwerk, verbunden sein kann, um so durch Sprache mit dem Server selbst zu interagieren, um Informationen zu erhalten und/oder bereitzustellen.
Eine Webseitengruppe, deren Visualisierungsdateien in einer einzelnen Datenstruktur gespeichert sind, die im Allgemeinen eine Baumorganisation aufweist und durch eine einheitlich identifizierbare ursprüngliche „Root"-Seite erreichbar ist, wird als Website bezeichnet. Im Allgemeinen ist jede Seite einer Website mittels einer sie identifizierenden einheitlichen Adresse erreichbar.
Wie bekannt ist, ist das momentan überwiegend zur Navigation verwendete Telekommunikationsnetzwerk das Internet-Netzwerk. Ein Browser ermöglicht eine Navigation im Internet-Netzwerk und ermöglicht die Visualisierung der Webseiten und die Verwendung der verschiedenen durch die besuchten Websites angebotenen Dienste. Wenn ein Client bei einem Server eine Webseite zur Wiedergabe anfragt, deren Visualisierungsdatei auf dem Server selbst gespeichert ist, teilt der Client dem Server die die Seite identifizierende einheitliche Adresse spezifisch mit, wobei die Adresse als die URL-Kennzeichnung der Webseite bekannt ist (und sie wird mit diesem Begriff in der folgenden Beschreibung bezeichnet). Genauer ist eine URL-(Uniform Ressource Locator)-Kennzeichnung eine einheitliche Quellenkennzeichnung, welche auch ein Kommunikationsprotokoll zwischen dem Server und dem Client zur Übertragung der Visualisierungsdatei der angefragten Webseite spezifiziert.
Die bis jetzt vorgestellten Ansätze, um eine Sprachinteraktion zwischen einem Benutzer und einer Webseite zu ermöglichen, benötigen eine Modifikation der Visualisierungsdatei der Webseite, wobei in beiden Fällen die Verbindung zu einem Server mittels eines Clients oder einer Benutzer-Telefonvorrichtung betroffen ist.
Dies stellt einen spürbaren Nachteil dar, insbesondere dann, wenn es notwendig ist, eine solche Maßnahme auf allen Seiten einer Website vorzunehmen.
Das Dokument WO99/48088 offenbart ein System und ein Verfahren zum Implementieren eines sprachkontrollierten Web-Browser-Programms, das auf einem tragbaren Computer ausführbar ist, um eine Navigation durch den sprachkontrollierten Webbrowser innerhalb einer Webseite und zu anderen Webseiten entsprechend den in der Webseite dargestellten Hyperlinks zu ermöglichen.
Das Dokument US-A-6 385 583 offenbart ein komplexes interaktives Sprachantwort- (interactive voice response, IVR) und/oder Sprachportal-System, welches es einem Benutzer ermöglicht, Information mittels einer Sprachinteraktion oder mit dem System oder mittels gewählter DTMF-Töne zu ermöglichen, um so dem System die gewünschte Information zu übermitteln. Insbesondere weist das System speziell entwickelte Sprachanwendungen auf, die in einer bestimmten Auszeichnungssprache (mark up language) für interaktive Dienste implementiert sind.
Die erfindungsgemäße Lösung ist in diesem Kontext zu sehen.
Es ist daher eine Aufgabe der Erfindung, ein Verfahren zum Ermöglichen der Sprachinteraktion mit einer Webseite oder einer Website bereitzustellen, so dass es dem Benutzer ermöglicht wird, die Interaktionskommandos mit der Seite und mit gewöhnlichen elektronischen Vorrichtungen auch durch gespro chene Sätze, auch in natürlicher Sprache auszuwählen, ohne jedwede Notwendigkeit, die in dem Server gespeicherten Webseiten-Visualisierungsdateien zu modifizieren, wobei die Seiten ausgehend von mit bekannten spezifischen Sprachen (beispielsweise Broadvision^®) geschriebenen Seiten oder anderen für diese Zwecke entwickelten Anwendungen dynamisch erzeugt werden.
Eine weitere Aufgabe der Erfindung ist es, einen Sprachzugriff auf die Webseite durch einen Client oder durch eine mit Verarbeitungsmöglichkeiten ausgerüstete mobile Vorrichtung und durch einen Telefonapparat zu ermöglichen. Auf diese Weise ermöglicht das erfindungsgemäße Verfahren die Sprachinteraktion einer sogenannten „Multikanal"-(„multi-channel")-Website oder einer von einem Clientcomputer, insbesondere von einem Personalcomputer, von einem Telefonapparat und von allen mit Software ausgerüsteten mobilen Apparaten erreichbaren Website.
Eine weitere Aufgabe dieser Erfindung ist es, alle notwendigen Mittel bereitzustellen, um das Verfahren auszuführen, und Vorrichtungen bereitzustellen, die angepasst sind, um das Verfahren auszuführen.
Der spezifische Gegenstand dieser Erfindung ist ein Verfahren zum Ermöglichen der Sprachinteraktion mit einer Webseite, deren Visualisierung durch eine entsprechende Visualisierungsdatei definiert ist, wobei das Verfahren die Erkennung eines Satzes in einem Tonsignal durch eine Spracherkennungsmaschine umfasst, das in Nähe eines Mikrofon-Mittels emittiert wird, wobei das Verfahren dadurch gekennzeichnet ist, dass eine entsprechende Sprachkonfigurationsdatei, die eine Zustandsmaschine definiert, die einen oder mehrere Zustände umfasst, die einen Anfangszustand der Webseite enthalten, mit dieser Webseite in Beziehung gesetzt wird, wobei diese Sprachkonfigurationsdatei in jedem Zustand beinhaltet:

– eine oder mehrere erste Informationselelemente, wobei sich jedes auf einen entsprechenden Satz bezieht, der durch die Spracherkennungsmaschine erkennbar ist, und, für jedes dieser ersten Informationselemente,
– ein oder mehrere zweite Informationselemente, die sich auf einen oder mehrere entsprechende Befehle zur Interaktion mit der Webseite beziehen, und/oder
– ein drittes Informationselement, das sich auf eine entsprechende Verbindung zu einer anderen Webseite bezieht, und/oder
– ein viertes Informationselement, das einen entsprechenden Folgezustand identifiziert, wobei

Erfindungsgemäß kann das Verfahren weiterhin nach dem Schritt D1 den folgenden Schritt umfassen:
F1 – wenn eine Verbindung zu einer anderen Webseite, zu der eine andere entsprechende Sprachkonfigurationsdatei gehört, mit dem aktuellen Zustand übereinstimmt, werden alle Schritte des Verfahrens in Verbindung mit dieser anderen Webseite wiederholt.
Ebenfalls in Übereinstimmung mit der Erfindung stimmt in Bezug auf mindestens einen Zustand mindestens eines der ersten Informationselemente mit dem entsprechenden Satz überein, der durch die Spracherkennungsmaschine erkennbar ist.
Wenn die Webseiten in einem dynamischen Modus erzeugt sind und dementsprechend die Inhalte der zu erkennenden Sätze (die von einer Datenbank empfangen worden sein können oder dynamisch erzeugt worden sein können) nicht a priori bekannt sind, können in Bezug auf mindestens einen Zustand ein oder mehrere der ersten Informationselemente Referenzen zu entsprechenden Sätzen sein, die durch die Spracherkennungsmaschine erkennbar sind und die in den entsprechenden ersten Dateien enthalten sind, wobei das Verfahren außerdem nach dem Schritt A1 und vor dem Schritt B1 den folgenden Schritt umfasst:
A2 – wenn eine oder mehrere Referenzen zu entsprechenden Sätzen, die in den entsprechenden ersten Dateien enthalten sind, mit dem aktuellen Zustand übereinstimmen, Abrufen der in den ersten Dateien enthaltenen erkennbaren Sätze durch die Spracherkennungsmaschine.
Vorzugsweise fallen erfindungsgemäß die ersten Dateien in einer einzelnen ersten Datei zusammen und noch bevorzugter ist die einzelne erste Datei die Visualisierungsdatei der Webseite.
Erfindungsgemäß kann in Bezug auf mindestens eines der ersten Informationselemente von mindestens einem Zustand mindestens eines der Informationselemente mit den entsprechenden Befehlen für die Interaktion mit der Webseite übereinstimmen.
Wenn die betroffenen Webseiten in dem dynamischen Modus erzeugt wurden und die auszuführenden Kommandos nicht a priori bekannt sind, können in Bezug auf mindestens eines der ersten Informationselemente von mindestens einem Zustand ein oder mehrere der zweiten Informationselemente Referenzen zu einem oder mehreren entsprechenden Befehlen zur Interaktion mit der Webseite sein, die in entsprechenden zweiten Dateien enthalten sind, wobei das Verfahren außerdem nach dem Schritt C1 und vor dem Schritt D1 den folgenden Schritt umfasst:
C2 – wenn eine oder mehrere Referenzen zu einem oder mehreren Befehlen zur Interaktion mit der Webseite übereinstimmen, die in den entsprechenden zweiten Dateien enthalten ist, mit dem erkennbaren Satz übereinstimmen, Abrufen der in den zweiten Dateien enthaltenen Interaktionsbefehle.
Vorzugsweise fallen die zweiten Dateien mit einer einzelnen zweiten Datei zusammen und noch bevorzugter ist die einzelne zweite Datei die Visualisierungsdatei der Webseite.
Wiederum kann erfindungsgemäß in Bezug auf zumindest eines der ersten Informationselemente von zumindest einem Zustand das dritte Informationselement mit der entsprechenden Verbindung zu einer anderen Webseite übereinstimmen.
Wenn die betroffenen Webseiten in einem dynamischen Modus erzeugt wurden und die Adresse für eine Verbindung zu einer anderen Webseite nicht a priori bekannt ist, kann in Bezug auf zumindest eines der ersten Informationselemente von mindestens einem Zustand das dritte Informationselement eine Referenz zu einer entsprechenden Verbindung zu einer anderen in einer entsprechenden dritten Datei enthaltenen Webseite sein, vorzugsweise zu der Visualisierungsdatei der Webseite.
Vorzugsweise enthält erfindungsgemäß die Sprachkonfigurationsdatei in Bezug auf mindestens einen Zustand:

– ein oder mehrere fünfte Informationselemente, wobei jedes auf einen entsprechenden stimmlich zu synthetisierenden Text bezogen ist,

Ebenso fällt in Übereinstimmung mit dieser Erfindung in Bezug auf zumindest einen Zustand zumindest eines der fünften Informationselmente mit dem entsprechenden stimmlich zu synthetisierenden Text zusammen.
Wenn die betroffenen Webseiten in einem dynamischen Modus erzeugt wurden und die Inhalte der auszusprechenden Sätze, die von einer Datenbank empfangen worden sein können oder dynamisch erzeugt worden sein können, nicht a priori bekannt sind, können in Bezug auf mindestens einen Zustand ein oder mehrere der fünften Informationselemente Referenzen zu entsprechenden Texten sein, die stimmlich zu synthetisieren und in entsprechenden vierten Dateien enthalten sind, wobei das Verfahren außerdem nach dem Schritt A1 und vor dem Schritt B2 den folgenden Schritt umfasst:
B3 – wenn eine oder mehrere Referenzen zu entsprechenden Texten, die stimmlich zu synthetisieren sind und in ent sprechenden vierten Dateien enthalten sind, mit dem aktuellen Zustand übereinstimmen, Abrufen der stimmlich zu synthetisierenden Texte, die in den vierten Dateien enthalten sind.
Vorzugsweise fallen die vierten Dateien in einer einzelnen vierten Datei zusammen und noch bevorzugter ist die einzelne vierte Datei die Visualisierungsdatei der Webseite.
in einer bevorzugten Ausführungsform ist in Bezug auf jeden Zustand die Sprachkonfigurationsdatei gemäß einer Datenstruktur aufgebaut und enthält:

– einen ersten Abschnitt (ASR) für die Spracherkennung, einschließlich einem oder mehrerer erster Unterabschnitte, wobei jeder das Folgende beinhaltet:
a) eines der ersten Informationselemente in Bezug auf entsprechende Sätze, die durch die Spracherkennungsmaschine erkennbar sind,
b) einen alphanumerischen Identifikationscode,
– einen zweiten Abschnitt (CMD) für Interaktionsbefehle, einschließlich einem oder mehrerer zweiter Unterabschnitte, wobei jeder eines der zweiten Informationselemente beinhaltet, die sich auf die entsprechenden Interaktionsbefehle mit der Webseite beziehen, wobei der alphanumerische Identifikationscode enthält:
b1) das vierte Informationselement in einem alphanumerischen Format, das den Folgezustand entsprechend dem erkennbaren Satz aus dem ersten Unterabschnitt identifiziert, und
b2) einen ersten alphanumerischen Untercode, der zumindest einen zweiten Unterabschnitt des zweiten Abschnitts (CMD) der Interaktionsbefehle des aktuellen Zustands oder des Folgezustands identifiziert.

Erfindungsgemäß kann zumindest ein zweiter Unterabschnitt des zweiten Abschnitts (CMD) der Interaktionsbefehle leer sein (oder er kann einen Wert von Null annehmen).
Vorzugsweise enthält erfindungsgemäß zumindest ein zweiter Unterabschnitt des zweiten Abschnitts (CMD) der Interaktionsbefehle einen Befehl zur Verbindung zu einer anderen Webseite.
Noch bevorzugter umfasst erfindungsgemäß die Datenstruktur, gemäß der die Sprachkonfigurationsdatei in Bezug auf jeden Zustand aufgebaut ist, außerdem:

– einen dritten Abschnitt (TTS) für Sprachsynthese, der einen oder mehrere dritte Unterabschnitte umfasst, wobei jeder mindestens eines der fünften Informationselemente in Bezug auf die entsprechenden zu synthetisierenden Texte beinhaltet.

Ebenso kann erfindungsgemäß der alphanumerische Identifikationscode weiterhin umfassen:

b3) einen zweiten alphanumerischen Untercode, der mindestens einen dritten Unterabschnitt des dritten Abschnitts (TTS) für Sprachsynthese des aktuellen Zustands oder des Folgezustands identifiziert.

Weiterhin kann erfindungsgemäß zumindest ein dritter Unterabschnitt des dritten Abschnitts (TTS) für Sprachsynthese leer sein (oder er kann einen Wert von Null annehmen).
Außerdem kann erfindungsgemäß die Datenstruktur, gemäß der die Sprachkonfigurationsdatei in Bezug auf jeden Zustand aufgebaut ist, außerdem umfassen:

– einen vierten Abschnitt (ADV) für Werbemitteilungen, der einen oder mehrere vierte Unterabschnitte umfasst, wobei jeder mindestens eines der fünften Informationselemente in Be zug auf die entsprechenden zu synthetisierenden Texte beinhaltet.

Gemäß der Erfindung kann der alphanumerische Identifikationscode weiterhin umfassen:

b4) einen dritten alphanumerischen Untercode, der mindestens einen vierten Unterabschnitt des vierten Abschnitts (ADV) für stimmliche Werbemitteilungen des aktuellen Zustands oder des Folgezustands identifiziert.

Weiterhin kann gemäß der Erfindung zumindest ein vierter Unterabschnitt des vierten Abschnitts (ADV) für stimmliche Werbemitteilungen leer sein (oder er kann einen Wert von Null annehmen).
In einer bevorzugten Ausführungsform der Erfindung werden die Visualisierungsdatei und die Sprachkonfigurationsdatei auf einem Server gespeichert, auf den durch ein Telekommunikationsnetzwerk durch mindestens einen Benutzer-Client zugegriffen werden kann, wobei das Verfahren außerdem umfasst, dass bei Abfrage einer Webseite durch einen Client, der mit dem Mikrofon-Mittel und mit einer Spracherkennungsmaschine ausgestattet ist, vor dem Schritt C1 die folgenden Schritte erfolgen:
A0.1 – Übertragen der Visualisierungsdatei der abgefragten Webseite von dem Server zu dem Client,
A0.2 – Visualisieren der Webseite bei dem Client, und vor dem Schritt A1 erfolgt der folgende Schritt:
A0.3 – Übertragen der Sprachkonfigurationsdatei der abgefragten Webseite von dem Server zu dem Client, und nach dem Schritt D1 folgt der folgende Schritt:
F2 – wenn eine Verbindung zu einer anderen Webseite mit dem aktuellen Zustand übereinstimmt, fragt der Client die andere Webseite vom Server ab.
Die grafischen Assistenten oder Agenten, technisch definiert als „Zeichen" („characters"), sind eine natürliche Interaktionsschnittstelle zwischen einem Benutzer und den Anwendungen eines Clientcomputers. Solche Zeichen sind Softwarekomponenten, die als Figuren, vorzugsweise animierte Figuren (animierte grafische Schnittstellen) auftreten, und die es dem Benutzer ermöglichen, mit den Anwendungen zu interagieren, als ob er/sie mit den Figuren kommunizieren würde. Einige Ausführungsformen der Erfindung verwenden die Synthese- und Spracherkennungs-Funktionen zusammen mit solchen Grafiken, vorzugsweise animierten Schnittstellen, als Assistenten, deren Bewegungen und Verhaltensweisen basierend auf Ereignissen oder Aktionen definiert sind, welche durch die Sprachapplikationen kontrolliert werden. Daher verwendet eine geeignete Prozesslogik, wie sie in einer durch den Client ausgeführten Anwendung realisiert ist, einen animierten vokalen Assistenten, der auf der Basis der in den Spracherkennungsdateien enthaltenen Informationselementen arbeitet.
Daher umfasst vorzugsweise erfindungsgemäß die Spracherkennungsdatei weiterhin in Bezug auf zumindest einen Zustand:

– ein oder mehrere sechste Informationselemente, wobei sich jedes auf eine entsprechende zu visualisierende grafische Schnittstelle bezieht, wobei

Mehr bevorzugt wird gemäß der Erfindung, dass zumindest eine der zu visualisierenden grafischen Schnittstellen eine animierte grafische Schnittstelle umfasst und dass das entsprechende sechste Informationselement die zugehörigen Bewegungsbefehle umfasst.
Ebenso kann gemäß der Erfindung zumindest eine der grafischen Schnittstellen einen Text enthalten.
In einer bevorzugten Ausführungsform umfasst die Datenstruktur, gemäß der die Konfigurationsdatei in Bezug auf jeden Zustand aufgebaut ist, außerdem

– einen fünften Abschnitt für Bewegungsbefehle, der einen oder mehrere Unterabschnitte umfasst, wobei jeder mindestens eines der sechsten Informationselemente in Bezug auf die Bewegungsbefehle einer entsprechenden animierten grafischen Schnittstelle beinhaltet.

Wiederum erfindungsgemäß kann jeder fünfte Unterabschnitt des fünften Abschnitts ein Informationselement in Bezug auf die Ankunftsposition und ein Informationselement in Bezug auf die Bewegungsgeschwindigkeit der animierten grafischen Schnittstelle enthalten.
Wiederum erfindungsgemäß kann der alphanumerische Identifikationscode außerdem umfassen:

b5) einen vierten alphanumerischen Identifikations-Untercode zur Identifikation von mindestens einem fünften Unterabschnitt des fünften Abschnitts (MOV) der Bewegungsbefehle des aktuellen Zustands oder des Folgezustands.

Weiterhin entsprechend der Erfindung kann zumindest ein fünfter Unterabschnitt des fünften Abschnitts der Bewegungsbefehle leer sein (oder er kann einen Wert von Null annehmen).
Alternativ zu dem Zugriff durch eine Verbindung zwischen einem Server und einem Client ermöglicht diese Erfindung einen Zugriff über ein Telefonnetzwerk, der mittels einer Anwendung ermöglicht wird, die auf dem Server unter Verwendung derselben Logik wie auf dem Client ausgeführt wird, wie zuvor unter Bezugnahme auf die Verbindung zwischen dem Server und dem Client dargestellt. Dies ermöglicht es dem Benutzer, mit den Webseiten mittels eines einfachen Telefonanrufs durch Übertragung von Sprachkommandos und Empfangen von synthetisierten oder zuvor aufgenommenen Antworten zu interagieren. Die Sprachkonfigurationsdateien zur Anwendung über eine Telefonverbindung weisen dieselbe Struktur wie die in einer Verbindung zwischen einem Server und einem Client verwendeten auf, sogar falls bei ihnen die Möglichkeit zur Visualisierung einer grafischen Schnittstelle als Assistent fehlt. In diesem Fall wird das Sprachinteraktionsverfahren auf eine Weise implementiert, so dass ein schneller interaktiver Telefondialog ermöglicht wird, der verschieden ist gegenüber dem in einer Verbindung zwischen einem Server und einem Client aufgebauten Dialog, da die Schnittstelle für den Benutzer lediglich sprachlich anstatt auch grafisch ist.
Daher sind gemäß einer alternativen bevorzugten Ausführungsform dieser Erfindung die Visualisierungsdatei und die Sprachkonfigurationsdatei auf einem Server gespeichert, auf den mittels eines Telefonnetzwerks durch zumindest eine Benutzer-Telefonvorrichtung zugegriffen werden kann, wobei der Server mit mindestens einer Sprach-Synthese-Maschine und einer Spracherkennungsmaschine ausgestattet ist, wobei die Benutzer-Telefonvorrichtung mit einem Mikrofon-Mittel und mit einem Tonreproduktionsmittel zur Wiedergabe von Texten, wie sie durch die Sprach-Synthese-Maschine stimmlich synthetisiert wurden, ausgestattet ist.
Ebenso ist gemäß der Erfindung das Telefonnetzwerk ein zellulares Funktelefonnetzwerk und die Benutzer-Telefonvorrichtung ist eine zellulare Funktelefonvorrichtung.
Ein weiterer Gegenstand dieser Erfindung ist ein Verfahren zum Ermöglichen der Sprachinteraktion mit einer Website, die eine oder mehrere Webseiten umfasst, wobei die Visualisierung jeder Webseite durch eine entsprechende Visualisierungsdatei definiert wird, wobei das Verfahren in Bezug auf mindestens eine Seite der Website gekennzeichnet ist durch das Ausführen des Verfahrens zum Ermöglichen der Sprachinteraktion einer Webseite.
In diesem Fall können gemäß der Erfindung die Visualisierungsdateien und die Sprachkonfigurationsdateien der Webseiten der Website auf einem Server gespeichert sein, auf den mittels eines Telekommunikationsnetzwerks zumindest ein Benutzer-Client zugreifen kann.
Ebenso kann in dieser Ausführungsform das Verfahren vor dem Schritt A0.3 den folgenden Schritt umfassen:
A0.0 Überprüfen, ob eine Sprachkonfigurationsdatei auf der abgefragten Webseite besteht, wobei das Verfahren die Schritte des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite nur ausführt, wenn das Ergebnis des Schritts A0.0 positiv ist.
Weiterhin kann gemäß der Erfindung das Verfahren, falls das Ergebnis der Überprüfung des Schritts A0.0 negativ ist, den folgenden Schritt ausführen:
F3 – Signalisieren durch den Client, dass die abgefragte Webseite nicht für eine Sprachinteraktion freigegeben ist, vorzugsweise durch eine Sprachsynthese einer Mitteilung, welche durch die Sprach-Synthese-Maschine herbeigeführt wird.
Alternativ sind gemäß der Erfindung die Visualisierungsdateien und die Sprachkonfigurationsdateien der Webseiten der betreffenden Site auf einem Server gespeichert, auf den mittels eines Telefonnetzwerks durch zumindest eine Benutzer-Telefonvorrichtung zugegriffen werden kann und das Verfahren kann in Bezug auf zumindest eine Seite der Website das Verfahren zum Ermöglichen der Sprachinteraktion mit einer Webseite ausführen.
Ein weiterer Gegenstand der Erfindung ist ein Computer, in dem eine oder mehrere Webseiten-Visualisierungsdateien gespeichert sind, dadurch gekennzeichnet, dass darin außerdem gespeichert sind: für mindestens eine Webseite, in Bezug auf welche die zugehörige Visualisierungsdatei im Computer gespeichert ist, eine entsprechende Sprachkonfigurationsdatei, die angepasst ist, um die Sprachinteraktion einer Webseite zu ermöglichen gemäß dem Verfahren zur Ermöglichung der Sprachinteraktion einer Webseite, wie hierin zuvor beschrieben.
Vorzugsweise sind gemäß der Erfindung in dem Computer die Sprachkonfigurationsdateien der Webseiten gespeichert, die zu einer einzelnen Website gehören, gemäß der gleichen Datenstruktur, durch welche die Visualisierungsdateien der Webseiten der betreffenden Site gespeichert sind.
In diesem Fall kann jede Webseite eine über einen Client mit ihr verknüpfte Sprachkonfigurationsdatei und eine über eine Telefonvorrichtung mit ihr verknüpfte Sprachkonfigurationsdatei aufweisen. Vorzugsweise haben die Sprachkonfigurationsdateien die gleichen Namen wie die Visualisierungs dateien der entsprechenden Webseiten, jedoch mit „mv" und „mvt" Endungen zur stimmlichen Wiedergabe jeweils über den Client und über die Telefonvorrichtung.
Gemäß der Erfindung kann ein solcher Computer ein Server sein, auf den durch mindestens einen Benutzer-Client durch ein Telekommunikationsnetzwerk zugegriffen werden kann, der eine Webseite abfragt, deren Visualisierungsdatei auf dem Server gespeichert ist und außerdem dadurch gekennzeichnet ist, dass er angepasst ist, als Antwort auf einen Client, der eine Webseite abfragt, deren entsprechende Visualisierungsdatei im Computer gespeichert ist, den Schritt A0.3 entsprechend dem Verfahren zum Ermöglichen der Sprachinteraktion einer Webseite, wie hierin zuvor beschrieben, auszuführen.
Ein weiterer Gegenstand der Erfindung ist ein Benutzercomputer oder ein Client, der mit einem Mikrofon-Mittel und mit einer Sprach-Synthese-Maschine und mit einer Spracherkennungsmaschine ausgerüstet ist, angepasst, um auf einen Server über ein Telekommunikationsnetzwerk zuzugreifen, um eine Webseite abzufragen, deren entsprechende Sprachkonfigurationsdatei auf dem Server gespeichert ist, dadurch gekennzeichnet, dass er angepasst ist, die Sprachkonfigurationsdatei der abgefragten Webseite zu empfangen, und dadurch, dass er angepasst ist, die Schritte A0.2, A1, B1, C1, D1, E1 und F2, gegebenenfalls in Kombination mit dem Schritt F1 und/oder dem Schritt A2 und/oder dem Schritt C2 und/oder dem Schritt B2 und/oder dem Schritt B3 und/oder dem Schritt B4 des Verfahrens zum Ermöglichen der Sprachinteraktion einer Webseite, wie hierin zuvor beschrieben, auszuführen.
Die Erfindung offenbart und beansprucht weiterhin einen Servercomputer, auf den über ein Telefonnetzwerk von zumindest einer Benutzer-Telefonvorrichtung zugegriffen werden kann, wobei der Server mit einer Sprach-Synthese-Maschine und mit einer Spracherkennungsmaschine ausgerüstet ist, angepasst, um die Schritte des Verfahrens zum Ermöglichen der Sprachinteraktion einer Webseite, wie hierin zuvor beschrieben, auszuführen.
Ein weiterer Gegenstand der Erfindung ist ein elektrisches, magnetisches oder elektromagnetisches Signal, dadurch gekennzeichnet, dass es mindestens eine Sprachkonfigurationsdatei einer Webseite beinhaltet, die gegebenenfalls ein oder mehrere sechste Informationselemente aufweist, wobei jedes sich auf eine entsprechende zu visualisierende grafische Schnittstelle bezieht, angepasst, um die Sprachinteraktion der Webseite gemäß des Verfahrens zum Ermöglichen der Sprachinteraktion einer Webseite zu ermöglichen, wie hierin weiter oben beschrieben.
Die Erfindung offenbart und beansprucht weiterhin ein durch einen Computer lesbares Speichermedium, dadurch gekennzeichnet, dass es zumindest eine Sprachkonfigurationsdatei einer Webseite beinhaltet, die gegebenenfalls ein oder mehrere sechste Informationselemente aufweist, wobei jedes einer entsprechenden zu visualisierenden grafischen Schnittstelle entspricht und angepasst ist, um die Sprachinteraktion der Webseite gemäß dem Verfahren zum Ermöglichen der Sprachinteraktion einer Webseite zu ermöglichen, wie hierin zuvor beschrieben.
Wiederum gemäß der Erfindung kann ein solches Speichermedium die Sprachkonfigurationsdateien von zu einer einzelnen Website gehörenden Webseiten in Übereinstimmung mit der gleichen Datenstruktur, mit der die Visualisierungsdateien der Webseite der betroffenen Website gespeichert sind, darin gespeichert aufweisen.
Ein weiterer spezifischer Gegenstand der Erfindung ist ein Computerprogramm, dadurch gekennzeichnet, dass es Code-Mittel beinhaltet, die angepasst sind, um, wenn sie auf einem Computer ablaufen, den Schritt A0.3 des Verfahrens zum Ermöglichen der Sprachinteraktion einer Webseite auszuführen, wie hierin zuvor beschrieben.
Ein weiterer spezifischer Gegenstand der Erfindung ist ein durch einen Computer lesbares Speichermedium mit einem darin gespeicherten Programm, dadurch gekennzeichnet, dass das Programm ein Computerprogramm, wie gerade zuvor beschrieben, ist.
Ein weiterer spezifischer Gegenstand der Erfindung ist ein Computerprogramm, dadurch gekennzeichnet, dass es Code-Mittel beinhaltet, die angepasst sind, um, wenn sie auf einem Computer ablaufen, die Schritte A0.2, A1, B1, C1, D1, E1 und F2, gegebenenfalls in Kombination mit dem Schritt F1 und/oder dem Schritt A2 und/oder dem Schritt C2 und/oder dem Schritt B2 und/oder dem Schritt B3 und/oder dem Schritt B4 des Verfahrens zum Ermöglichen der Sprachinteraktion einer Webseite auszuführen, wie hierin oben beschrieben.
Ein weiterer spezifischer Gegenstand der Erfindung ist ein durch einen Computer lesbares Speichermedium mit einem darin gespeicherten Programm, dadurch gekennzeichnet, dass das Programm ein Computerprogramm, wie gerade zuvor beschrieben, ist.
Ein weiterer spezifischer Gegenstand der Erfindung ist ein Computerprogramm, dadurch gekennzeichnet, dass es Codemittel beinhaltet, die angepasst sind, um, wenn sie auf einem Computer auflaufen, die Schritte zum Ermöglichen der Sprachinteraktion einer Webseite, wie hierin zuvor beschrieben, in Bezug auf eine Verbindung zwischen einem Server mit einer darin gespeicherten Sprachkonfigurationsdatei und einer Benutzer-Telefonvorrichtung über ein Telefonnetzwerk auszuführen.
Ein weiterer spezifischer Gegenstand der Erfindung ist ein durch einen Computer lesbares Speichermedium mit einem darin gespeicherten Programm, dadurch gekennzeichnet, dass das Programm ein Computerprogramm, wie gerade zuvor beschrieben, ist.
Die Erfindung wird nun zur Illustration und nicht begrenzend in Übereinstimmung mit ihren bevorzugten Ausführungsformen durch spezielle Bezugnahme auf die Figuren der begleitenden Zeichnungen beschrieben, wobei:
1 zeigt schematisch die Verbindung zwischen einem Client und einem Server zur Anfrage einer Webseite, die zu einer Sprachinteraktion gemäß einer bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens in der Lage ist;
2 zeigt schematisch eine bevorzugte Ausführungsform der Sprachkonfigurationsdatei einer Webseite in Übereinstimmung mit der Erfindung;
3 zeigt schematisch die Module der Softwareanwendung des Clients, welche das erfindungsgemäße Verfahren ausführen; und
4 zeigt ein Flussdiagramm, das schematisch die erfindungsgemäße bevorzugte Ausführungsform des Verfahrens zum Ermöglichen der Sprachinteraktion einer Website wiedergibt.
Die nachfolgende Beschreibung wird sich im Wesentlichen auf die Ausführungsformen der Erfindung beziehen, die einen Server umfassen, auf den von zumindest einem Client zugegriffen werden kann, wobei der Client eine Webseite von dem Server mittels eines Telekommunikationsnetzwerks anfragt.
Das erfindungsgemäße Verfahren umfasst das Bereitstellen von:
auf dem Server: eine Struktur einer Sprachkonfigurationsdatei der Seiten einer Website, wobei die Struktur spiegelbildlich zur Struktur der Visualisierungsdateien ist und die Informationselemente enthält, die sich auf die durch die Webseite zu sprechenden Texte, die durch den Benutzer aussprechbaren Wörter/Sätze und die Strukturen der Konversationen beziehen; und
auf dem Client: eine geeignete, in einer Softwareanwendung implementierte Prozesslogik, die mit den Informationselementen der Sprachkonfigurationsdateien arbeitet.
Wie oben beschrieben, ist das Verfahren eingerichtet, um die Sprachinteraktion einer Webseite einer Website zu ermöglichen, wobei es eine vollständige Sprachinteraktion zwischen einem Benutzer und einer beliebigen Website ermöglicht.
Das Hauptmerkmal des Verfahrens wird dadurch realisiert, dass kein Bedarf besteht, irgendeine Änderung an der existierenden Website vorzunehmen.
Unter Bezugnahme auf die 1, lädt, wenn sich ein Benutzer mit seinem/ihrem Client 1 über einen Browser mit einer auf einem Server 2 gespeicherten Site verbindet und eine Webseite davon anfragt, die auf dem Client 1 vorgesehene Softwareanwendung lokal eine oder mehrerer Dateien herunter, die geeignet auf dem Server 2 gespeichert sind. Solche Dateien werden es ermöglichen, dass die Sprachsynthese und die Spracherkennung des Benutzers ausgeführt werden.
Es wird ein bidirektionaler Dialog aufgebaut, also zwischen dem Benutzer und der Website-Seite, um so eine Navigation innerhalb der betroffenen Website und zu anderen Websites ermöglicht, die zur Sprachinteraktion mittels desselben Verfahrens fähig sind.
Eine in einem Verzeichnis einer Website organisierte Dateistruktur, die mit einem die Sprachkonfigurationsdateien enthaltenden Root ausgerüstet ist, wird auf dem Server 2 zu realisieren sein. Mit anderen Worten, beinhaltet das Verfahren ein Erzeugen einer Struktur, die spiegelbildlich (oder sogar übereinstimmend ist mit) zu der Struktur der Visualisierungsdateien einer herkömmlichen Website ist und so viele Sprachkonfigurationsdateien aufweist, wie Webseiten zur Sprachinteraktion freigegeben werden. Der Server 2 kann auch die durch das Telefonnetzwerk erreichbaren Sprachkonfigurationsdateien in sich gespeichert aufweisen, wobei die Dateien mit der gleichen Struktur oder mit einer weiteren Struktur, die ähnlich ist zu (oder übereinstimmend ist mit) der Struktur der Visualisierungsdateien, organisiert sind.
Unter Bezugnahme auf die 2 ist eine Sprachkonfigurationsdatei aus Zuständen oder Informationsmakroabschnitten, welche die Zustände repräsentieren, der Sprachinteraktion zwischen dem Benutzer und der Webseite aufgebaut. Jeder Zustand besteht wiederum aus fünf Abschnitten: einen ersten auf Spracherkennung bezogenen Abschnitt ASR; einen zweiten auf Interaktionskommandos bezogenen Abschnitt CMD; einen dritten auf Sprachsynthese bezogenen Abschnitt TTS; einen vierten auf Sprachwerbemitteilungen bezogenen Abschnitt ADV und einen fünften Abschnitt MOV, der sich auf Bewegungskommandos einer animierten grafischen, einen Stimmassistenten wiedergegeben Schnittstelle bezieht.
Bei anderen Ausführungsformen ist es möglich, dass die Sprachkonfigurationsdateien dieselben Informationselemente auf andere Arten angeordnet aufweisen. Beispielsweise können die TTS-Abschnitte der verschiedenen Zustände in einem einzelnen TTS-Abschnitt angeordnet sein; oder der ADV-Abschnitt kann innerhalb des TTS-Abschnitts oder innerhalb des CMD-Abschnitts eingebettet sein.
Die TTS-, CMD- und ADV-Abschnitte von allen Zuständen enthalten in Bezug auf eine bestimmte Webseite jeweils alle möglichen zu synthetisierenden Sätze, alle möglichen durch die Anwendung auf dem Client 1 in Bezug auf die bestimmte Webseite ausführbaren Interaktionskommandos und alle möglichen synthetisierbaren Werbemitteilungen (wobei vorzugsweise alle Zeiger auf Speicheradressen enthalten).
Jeder in der Sprachkonfigurationsdatei definierte Zustand enthält die Informationselemente, welche die Anwendung auf dem Client 1 benötigt, um ausgehend von der aktuellen Webseite die betreffenden Fragen und/oder Aussagen zu formulieren und um die Äußerungen des Benutzers zu verstehen.
Der ASR-Abschnitt jedes Zustands enthält eine Reihenanordnung (oder Unterabschnitte) von denen jeder zwei Hauptteile aufweist: der erste Teil enthält einen Satz, den die Clientanwendung erkennen kann, während der zweite Teil alle Informationselemente enthält, welche die durch die gleiche Anwendung in Bezug auf den erkannten Satz ausführbaren Aktionen betrifft. Bei der Ausführungsform der 2 enthält der zweite Teil drei Gruppen von Zahlen (im Einzelnen drei Gruppen von zwei dezimalen Zahlen): die erste Gruppe identifiziert den Zielzustand, nämlich den Folgezustand der Sprachinteraktion zwischen dem Benutzer und der betreffenden Webseite; die zweite Gruppe identifiziert den auszusprechenden Satz, wie er in dem TTS-Abschnitt des momentanen Zustands enthalten ist; die dritte Gruppe identifiziert das Kommando des CMD-Abschnitts des momentanen Zustands, welchen die betreffende Anwendung beim Erkennen des Satzes ausführen sollte.
Der MOV-Abschnitt umfasst die Bewegungen und/oder die Positionen, welche der Stimmassistent in Bezug auf diesen bestimmten Zustand einnehmen kann.
In einigen Fällen können die auszuführenden Kommandos und/oder die zu synthetisierenden Texte und/oder die Bewegungen des Stimmassistenten fehlen und, als eine Konsequenz davon, können die betreffenden Abschnitte oder Unterabschnitte leer sein oder können einen Null-Wert annehmen („Null", „mil").
Die Zahlengruppenanordnung kann durch weitere Gruppen vergrößert werden, welche weitere Prozessfunktionen anzeigen können, welche die Anwendung ausführen kann; beispielsweise kann eine weitere Zahlengruppe eine bestimmte Werbemitteilung anzeigen, welche bei Erkennen eines bestimmten Satzes, der aus einem oder mehreren Wörtern besteht, zu synthetisieren ist.
Zusätzlich kann die Anzahl der Abschnitte oder Unterabschnitte jedes Zustandes erhöht werden. Die weiteren Abschnitte und/oder Unterabschnitte können nützliche Informationselemente hinzufügen, um zu ermöglichen, dass Prozessfunktionen zusammen mit dem Sprachbetrieb der betreffenden Webseite ausgeführt werden (beispielsweise können die synthetisierbaren Werbemitteilungen innerhalb des Zustandes durch den ADV-Abschnitt konfiguriert sein).
Falls die Webseiten auf dynamische Weise realisiert sind und falls keine alten Informationen über die Inhalte beispielsweise der zu sprechenden und/oder zu erkennenden Sätze und/oder der betreffenden auszuführenden Kommandos vorhanden sind (beispielsweise wenn sie als Ergebnis der Prozessfunktionen des Servers als Texte von Datenbanken empfangen werden oder dynamisch erzeugt sind), berücksichtigt die Erfindung ein solches dynamisches Verhalten. Tatsächlich enthalten die Sprachkonfigurationsdateien Informationselemente, um zu ermöglichen, dass die Anwendung die dynamischen Teile identifiziert.
Genauer erkennt die Anwendung auf dem Client 1 die dynamischen Teile der Sprachkonfigurationsdateien und ersetzt daher die Teile einer anderen Datei, vorzugsweise der Visualisierungsdatei.
Beispielhaft kann ein zu synthetisierender Satz durch einen ersten Index, der dazu vorgesehen ist, den Startpunkt des Textes anzuzeigen, und durch einen zweiten Index, der dazu vorgesehen ist, den Endpunkt des Textes anzuzeigen, lokalisiert sein, wobei diese Indexe eindeutig das zu synthetisierende Objekt der Visualisierungsdatei der Webseite identifizieren. Diese zwei Indexe enthalten Elemente, die angepasst sind, um innerhalb der Struktur der Visualisierungsdatei die Einbettungsebene des Objekts (oder die Ebenentiefe des Objekts innerhalb der Visualisierungsdatei) und ihre Position innerhalb dieser bestimmten Ebene zu identifizieren. Es wird angenommen, dass die Visualisierungsdatei ein durch die folgende HTML-Sprache definiertes Objekt enthält:
Wenn gewünscht wird, dass der zweite Text gesprochen wird, kann die sich auf diese Webseite beziehende Sprachkonfigurationsdatei den folgenden dynamischen Zeiger auf diese zu sprechenden Inhalte einschließen:
[TTS]
...
$ (TBODY, 1 (TR, 1 (TD, 2))), (TBODY, 1 (TR, 1 (/TD,2)))
...
Es kann festgestellt werden, dass der Textbeginn-Index
(TBODY, 1 (TR, 1 (TD, 2) ) ) )
und der Textende-Index
(TBODY, 1 TR, 1 (/TR, 1 (/TD,2)))
einen Inhalt, auch einen dynamischen Inhalt, innerhalb der Visualisierungsdatei der Webseite eindeutig identifizieren. Es sollte klar sein, dass die dynamischen Inhalte der Sprachkonfigurationsdateien sich in Bezug auf die statischen Inhalte durch das Vorhandensein eines bestimmten Zeichens, wie beispielsweise „$", unterscheiden.
Das erfindungsgemäße Zeigen auf dynamische Inhalte schließt einen beliebigen Typ von Meta-Informationen über eine Unterstützung (support) ein, die angepasst sind, um als ein Informationsbehälter der Webseite oder ein Behälter für Zeiger auf die Informationselemente der Webseite zu fungieren. Solche Behälter umfassen die so genannten „Stilvorlagen" („style sheets"), wie sie durch die W3C-Vereinigung unter dem Begriff „Cascading Style Sheets" (CCS) genormt sind. Im Einzelnen können die Stile entweder durch einen internen Code der Webseite oder durch externe Dateien (nämlich die CSS) in Verbindung mit der Webseite selbst ausgedrückt werden. Andere Stilvorlagen ähnlich den CSS sind die sogenannten „Tranformations"-Dateien („transformation" files), wie beispielsweise die Dateien im XSL-Format.
Weiterhin kann ein erfindungsgemäßes Zeigen auf dynamische Inhalte durch Zeigen auf in einem Tag enthaltene Informationselemente und allgemein auf Objekte der Webseite mit wirksameren Moden als im einfachen Spezifizieren der Koordinaten, wie es in dem obigen Beispiel gezeigt wurde, realisiert werden. Im Einzelnen können solche wirkungsvolleren Moden Referenzen auf den Typ des Objekts, auf den gezeigt wird (beispielsweise Tabellen) zusammen mit spezifischen Namen und ihren Koordinaten einschließen, um das Zeigen auch im Hinblick auf irgendeine mögliche Änderung der Tag-Struktur der Webseite robuster zu gestalten.
Zusätzlich ist es möglich, wenn es gewünscht wird, ein Zeigen auf dynamische Inhalte zu realisieren, eine Programmiersprache des „Scripting"-Typs (Skript-Sprache) zu verwenden. Wenn einige Webseiten mit einem unterschiedlichen Namen aber mit der gleichen Struktur periodisch erzeugt werden (beispielsweise jeden Tag), wird eine einheitliche Sprachkonfigurationsdatei durch die Anwendung auf dem Client 1 in Verbindung mit allen Webseiten, mit denen die betroffene Datei verknüpft sein kann, erzeugt und verwendet.
In dem speziellen Fall der dynamischen Webseiten kann eine Anzahl von verschiedenen Strukturen in Verbindung mit derselben Webseite erzeugt werden. In diesem Fall wird eine Sprachkonfigurationsdatei in Verbindung mit einer beliebigen möglichen auf die spezifische dynamische Webseite bezogenen Struktur erzeugt. Ebenso verwendet die die Struktur erkennende Anwendung auf dem Client 1 in diesem Fall die damit verknüpfte korrekte Sprachkonfigurationsdatei.
Vorteilhafterweise können die Sprachkonfigurationsdateien auf dem Server 2 gespeichert sein und/oder können über das Netzwerk in einem komprimierten Format übertragen werden.
Weiterhin wird eine spezielle Datei in das Root-Verzeichnis der freigegebenen Website eingefügt und sie wird von der in dem Client 1 vorhandenen Anwendung genau dann benötigt, wenn eine Anfrage für eine beliebige Webseite dieser Site durchgeführt wird. Auf diese Weise wird die Anwendung die Möglichkeit haben, zu überprüfen, ob die geöffnete Site eine Site ist, die zur Sprachinteraktion gemäß dieser Erfindung freigegeben ist.
Unter Bezugnahme auf die 3 ist die ausführende Softwareanwendung, wie zuvor beschrieben, in dem Client 1 des Benutzers vorhanden und ist im Wesentlichen aus den folgenden Modulen aufgebaut:

– eine TTS-Maschine zur Sprachsynthese;
– eine RSR-Maschine zur Spracherkennung;
– eine Schnittstelle für Sprachanwendungsprogramme SAPI und
– ein Sprachanwendungsprogramm 10, welches die dynamische Grammatik verwendet, die als Filter in Bezug auf alles, was der Benutzer äußern kann, wirkt.

Die Sprachmaschinen können von einer beliebigen Art sein oder, mit anderen Worten, die Softwareanwendung ist nicht auf eine bestimmte Art/ein bestimmtes Modell beschränkt. Vorzugsweise verwendet sie die SAPI-Norm.
Die Anwendung 10 auf dem Client 1 ermöglicht einerseits die Sprachinteraktion mit einer Seite der Website und ermöglicht es andererseits, innerhalb der Website selbst und zu anderen Websites zu navigieren, die zur Sprachinteraktion in Übereinstimmung mit der Erfindung fähig sind.
Da diese Erfindung unabhängig ist von den spezifischen Sprachmaschinen, auch in Hinblick auf die verwendete Sprache, wird die Vertonung von Websites mit mehrsprachigen Inhalten ermöglicht.
Unter Bezugnahme auf das Flussdiagramm der 4 kann erkannt werden, dass die Anwendung 10 auf dem Client 1 die Sprachkonfigurationsdateien der Webseiten, wie sie auf dem Server 2 gespeichert sind, verwendet, um die obigen Funktionen auszuführen. Genauer springt die betroffene Anwendung 10, wenn ein Benutzer sich mit seinem/ihrem Client 1 mit einem Browser mit der Ursprungsseite oder „Homepage" einer freigegebenen Website verbindet, bspw. www.mediavoice.it, beim Überprüfen, dass die betroffene Website zur Sprachinteraktion fähig ist und dass die angefragte Webseite auch zur Sprachinteraktion fähig ist, automatisch in das betroffene Verzeichnis der freigegebenen Website und lädt die darin befindlichen Sprachkonfigurationsdateien entsprechend der angefragten Webseite (//mediavoice.it/home.mv) lokal herunter. Die Sprachkonfigurationsdatei ermöglicht es der Anwendung auf dem Client 1, einen tatsächlichen Dialog zwischen dem Benutzer und der angezeigten Webseite zu realisieren, der möglicherweise eine Folge von, sogar eine sehr lange Folge von Fragen und Antworten zwischen dem Benutzer und der betroffenen bestimmten Seite der Website beinhaltet.
Die Anwendung 10 auf dem Client 1 speichert, nachdem sie die Sprachkonfigurationsdatei lokal heruntergeladen hat, die die verschiedenen Zustände betreffenden Abschnitte in einer internen Speicherstruktur und initialisiert die Spracherkennungsmaschine durch Laden der Grammatik, die in dem ASR-Abschnitt betreffend dem Anfangszustand definiert ist. Danach synthetisiert die Anwendung 10 den ersten Satz des Anfangszustands (beispielsweise einen Willkommenssatz auf der Webseite). Nachfolgend wird die Sprachinteraktion zwischen dem Benutzer und der Anwendung 10 ausgeführt, die als eine Schnittstelle für Sprache zu der aktuellen Webseite fungiert.
Wenn der Benutzer einen Satz äußert oder etwas von der Seite in der richtigen Grammatik anfragt, erkennt die Anwendung den Satz und führt die mit dem Satz verknüpften Funktionen aus, wie sie in dem zweiten ASR-Abschnitt des Satzes selbst definiert sind. Genauer kann der Benutzer eine beliebige Identifizierungs-URL einer Verbindung oder eines Links, die in der aktuellen Seite eingeschlossen sind, äußern.
Die Anwendung 10 äußert dann den verknüpften Satz, führt das entsprechende Kommando aus und schaltet sich selbst in den Nachfolgezustand. Der Transfer zu dem neuen Zustand schließt die Konstruktion und das Herunterladen der in dem ASR-Abschnitt definierten Grammatik und der Stimmsynthese des TTS-Abschnitts des aktuellen Zustands ein.
Das Vorhandensein der genannten N-Zustände innerhalb derselben Sprachkonfigurationsdatei wird dann in Hinblick auf die Tatsache benötigt, dass es sogar möglich ist, auf derselben Webseite einen tatsächlichen Dialog zwischen dem Benutzer des Clients 1 und der betroffenen Webseite einzurichten.
Wenn das die Erkennung eines bestimmten Satzes betreffende Kommando die Navigation durch den Browser auf eine andere Webseite einschließt, springt die Anwendung 10 durch Herunterladen der entsprechenden Sprachkonfigurationsdatei und durch Einleiten der oben beschriebenen Funktionen wieder in ihre Schleife.
Die Betriebslogik des Clients 1 kann auch auf die Verwendung von Geräten angewendet werden, die mit einer Verarbeitungsfähigkeit ausgestattet sind, wie beispielsweise mobile/tragbare Vorrichtungen, wie beispielsweise Palm-Tops oder tragbare PCs.
Das Sprachverfahren einer Website, insbesondere von mehrkanaligen Websites, kann zumindest teilweise automatisch mit Hilfe von entwickelten Instrumenten ausgeführt werden, die mit bestimmten Algorithmen versehen sind, die angepasst sind, um Sprachkonfigurationsdateien ausgehend von den Visualisierungsdateien der Webseiten zu erzeugen. Solche Entwicklungsinstrumente können verschiedene Funktionen gemäß dem Zugriffstyp einschließen, der für den Zugriff auf die Webseiten gewünscht wird, und daher ist es wünschenswert, dass entsprechend der Instrumente, von denen aus Zugriffsmöglichkeiten auf dieselben Webseiten bestehen, Vorrichtungen zu realisieren (beispielsweise PC, Telefonvorrichtungen, Palm-Top). Die Entwicklungsinstrumente können auch in einer vorbestimmten Datei alle ausgeführten Funktionen speichern, insbesondere erzeugte Sprachkonfigurationsdateien, so dass sie sich selbst überwachen.
Die bevorzugten Ausführungsformen der Erfindung wurden beschrieben und eine Anzahl von Variationen wurde hierin zuvor vorgeschlagen, es sollte jedoch ausdrücklich klar sein, dass der Fachmann andere Variationen und Veränderungen ausführen kann, ohne dabei den Umfang der Erfindung, wie er durch die begleitenden Ansprüche definiert ist, zu verlassen.

Claims

Verfahren zum Ermöglichen der Sprachinteraktion mit einer Webseite, deren Visualisierung durch eine entsprechende Visualisierungsdatei definiert wird, wobei das Verfahren die Erkennung eines Satzes in einem Tonsignal durch eine Spracherkennungsmaschine umfasst, das in Nähe eines Mikrofon-Mittels emittiert wird, wobei das Verfahren dadurch gekennzeichnet ist, dass eine entsprechende Sprachkonfigurationsdatei, die eine Zustandsmaschine definiert, die einen oder mehrere Zustände umfasst, die einen Anfangszustand der Webseite enthalten, mit dieser Webseite in Beziehung gesetzt wird, wobei diese Sprachkonfigurationsdatei in jedem Zustand beinhaltet: – ein oder mehrere erste Informationselemente, wobei sich jedes auf einen entsprechenden Satz bezieht, der durch die Spracherkennungsmaschine erkennbar ist, und, für jedes dieser ersten Informationselemente – ein oder mehrere zweite Informationselemente, die sich auf einen oder mehrere entsprechende Befehle zur Interaktion mit der Webseite beziehen und/oder – ein drittes Informationselement, das sich auf eine entsprechende Verbindung zu einer anderen Webseite bezieht und/oder – ein viertes Informationselement, das einen entsprechenden Folgezustand identifiziert, wobei das Verfahren die folgenden hintereinander ablaufenden Schritte beinhaltet: A1 – Initialisieren einer aktuellen Zustandsvariable, zu dem Anfangszustand der Webseite, B1 – Laden einer Grammatik entsprechend des aktuellen Zustands sowie einschließlich der erkennbaren Sätze in die Spracherkennungsmaschine, C1 – Erkennen eines Satzes durch die Spracherkennungsmaschine, der in Nähe des Mikrofon-Mittels gesprochen wird, unter den erkennbaren Sätzen entsprechend dem aktuellen Zustand, D1 – beim Übereinstimmen eines oder mehrerer Interaktionsbefehle mit dem erkannten Satz, Ausführen dieser Befehle, E1 – wenn ein Folgezustand mit dem erkannten Satz übereinstimmt, Aktualisieren der aktuellen Zustandsvariable zu dem Folgezustand und Wiederholen der Verfahrensschritte, beginnend mit dem ersten Schritt, der nach dem Schritt A1 folgt.
Verfahren gemäß Anspruch 1, gekennzeichnet dadurch, dass es nach dem Schritt D1 den folgenden Schritt umfasst: F1 – wenn eine Verbindung zu einer anderen Webseite, zu der eine andere entsprechende Sprachkonfigurationsdatei gehört, mit dem aktuellen Zustand übereinstimmt, werden alle Schritte des Verfahrens in Verbindung mit dieser anderen Webseite wiederholt.
Verfahren gemäß Anspruch 1 oder 2, gekennzeichnet dadurch, dass in Bezug auf mindestens einen Zustand mindestens eines der ersten Informationselemente mit dem entsprechenden Satz übereinstimmt, der durch die Spracherkennungsmaschine erkennbar ist.
Verfahren gemäß einem der vorhergehenden Ansprüche, gekennzeichnet dadurch, dass in Bezug auf mindestens einen Zustand ein oder mehrere der ersten Informationselemente Referenzen zu entsprechenden Sätzen sind, die durch die Spracherkennungsmaschine erkennbar sind und die in den entsprechenden ersten Dateien enthalten sind, wobei das Verfahren außerdem nach dem Schritt A1 und vor dem Schritt B1 den folgenden Schritt umfasst: A2 – wenn eine oder mehrere Referenzen zu entsprechenden Sätzen, die in den entsprechenden ersten Dateien enthalten sind, mit dem aktuellen Zustand übereinstimmen, Abrufen der in den ersten Dateien enthaltenen erkennbaren Sätze durch die Spracherkennungsmaschine.
Verfahren gemäß Anspruch 4, gekennzeichnet dadurch, dass die ersten Dateien in einer einzelnen ersten Datei zusammenfallen.
Verfahren gemäß Anspruch 5, gekennzeichnet dadurch, dass die einzelne erste Datei die Visualisierungsdatei der Webseite ist.
Verfahren gemäß einem der vorhergehenden Ansprüche, gekennzeichnet dadurch, dass in Bezug auf mindestens eines der ersten Informationselemente von mindestens einem Zustand mindestens eines der Informationselemente mit den entsprechenden Befehlen für die Interaktion mit der Webseite übereinstimmt.
Verfahren gemäß einem der vorhergehenden Ansprüche, gekennzeichnet dadurch, dass in Bezug auf mindestens eines der ersten Informationselemente von mindestens einem Zustand ein oder mehrere der zweiten Informationselemente Referenzen zu einem oder mehreren entsprechenden Befehle zur Interaktion mit der Webseite sind, die in entsprechenden zweiten Dateien enthalten sind, wobei das Verfahren außerdem nach dem Schritt C1 und vor dem Schritt D1 den folgenden Schritt umfasst: C2 – wenn eine oder mehrere Referenzen zu einem oder mehreren Befehlen zur Interaktion mit der Webseite übereinstimmen, die in den entsprechenden zweiten Dateien enthalten ist, mit dem erkennbaren Satz übereinstimmen, Abrufen der Interaktionsbefehle von den zweiten Dateien, die sich darin befinden.
Verfahren gemäß Anspruch 8, gekennzeichnet dadurch, dass die zweiten Dateien in einer einzelnen zweiten Datei zusammenfallen.
Verfahren gemäß Anspruch 9, gekennzeichnet dadurch, dass die einzelne zweite Datei die Visualisierungsdatei der Webseite ist.
Verfahren gemäß einem der vorhergehenden Ansprüche, gekennzeichnet dadurch, dass in Bezug auf mindestens eines der ersten Informationselemente von mindestens einem Zustand das dritte Informationselement mit der entsprechenden Verbindung zu einer anderen Webseite übereinstimmt.
Verfahren gemäß einem der vorhergehenden Ansprüche, gekennzeichnet dadurch, dass in Bezug auf mindestens eines der ersten Informationselemente von mindestens einem Zustand das dritte Informationselement eine Referenz zu einer entsprechenden Verbindung zu einer anderen Webseite ist, die in einer entsprechenden dritten Datei enthalten ist.
Verfahren gemäß Anspruch 12, gekennzeichnet dadurch, dass die dritte Datei die Visualisierungsdatei der Webseite ist.
Verfahren gemäß einem der vorhergehenden Ansprüche, gekennzeichnet dadurch, dass die Sprachkonfigurationsdatei in Bezug auf mindestens einen Zustand außerdem enthält: – ein oder mehrere fünfte Informationselemente, jedes bezogen auf einen entsprechenden Text, der stimmlich zu synthetisieren ist, wobei das Verfahren außerdem nach dem Schritt A1 den folgenden Schritt umfasst: B2 – wenn ein oder mehrere zu synthetisierende Texte mit dem aktuellen Zustand übereinstimmen, stimmliches Synthetisieren von mindestens einem der Texte durch eine Sprach-Synthese-Maschine.
Verfahren gemäß Anspruch 14, gekennzeichnet dadurch, dass in Bezug auf mindestens einen Zustand, mindestens eines der fünften Informationselemente mit dem entsprechenden Text, der stimmlich zu synthetisieren ist, übereinstimmt.
Verfahren gemäß Anspruch 14 oder 15, gekennzeichnet dadurch, dass in Bezug auf mindestens einen Zustand ein oder mehrere der fünften Informationselemente Referenzen zu entsprechenden Texten sind, die stimmlich zu synthetisieren und in entsprechenden vierten Dateien enthalten sind, wobei das Verfahren außerdem nach dem Schritt A1 und vor dem Schritt B2 den folgenden Schritt umfasst: B3 – wenn eine oder mehrere Referenzen zu entsprechenden Texten, die stimmlich zu synthetisieren sind und in entsprechenden vierten Dateien enthalten sind, mit dem aktuellen Zustand übereinstimmen, Abrufen der stimmlich zu synthetisierenden Texte, die in den vierten Dateien enthalten sind.
Verfahren gemäß Anspruch 16, gekennzeichnet dadurch, dass die vierten Dateien in einer einzelnen vierten Datei zusammenfallen.
Verfahren gemäß Anspruch 17, gekennzeichnet dadurch, dass die einzelne vierte Datei die Visualisierungsdatei der Webseite ist.
Verfahren gemäß einem der vorhergehenden Ansprüche, gekennzeichnet dadurch, dass in Bezug auf jeden Zustand die Sprachkonfigurationsdatei gemäß der Datenstruktur aufgebaut ist und beinhaltet: – einen ersten Abschnitt (ASR) für die Spracherkennung, einschließlich einem oder mehrerer erster Unterabschnitte, wobei jeder das Folgende beinhaltet: a) eines der ersten Informationselemente in Bezug auf entsprechende Sätze, die durch die Spracherkennungsmaschine erkennbar sind, b) einen alphanumerischer Identifikationscode – einen zweiten Abschnitt (CMD) für Interaktionsbefehle, einschließlich einem oder mehrerer zweiter Unterabschnitte, wobei jeder eines der zweiten Informationselemente beinhaltet, die sich auf die entsprechenden Interaktionsbefehle mit der Webseite beziehen, wobei der alphanumerische Identifikationscode enthält: b1) das vierte Informationselement in alphanumerischem Format, das den Folgezustand identifiziert, entsprechend dem erkennbaren Satz aus dem ersten Unterabschnitt, und b2) einen ersten alphanumerischen Untercode, der mindestens einen zweiten Unterabschnitt des zweiten Abschnitts (CMD) der Interaktionsbefehle des aktuellen Zustands oder des Folgezustands identifiziert.
Verfahren gemäß Anspruch 19, gekennzeichnet dadurch, dass mindestens ein zweiter Unterabschnitt des zweiten Abschnitts (CMD) der Interaktionsbefehle leer ist.
Verfahren gemäß Anspruch 19 oder 20, gekennzeichnet dadurch, dass mindestens ein Unterabschnitt des zweiten Abschnitts (CMD) der Interaktionsbefehle einen Befehl zur Verbindung zu einer anderen Webseite enthält.
Verfahren gemäß einem der Ansprüche 14 bis 18 und gemäß einem der Ansprüche 19 bis 21, gekennzeichnet dadurch, dass die Datenstruktur, gemäß der die Sprachkonfigurationsdatei in Bezug auf jeden Zustand aufgebaut ist, außerdem umfasst: – einen dritten Abschnitt (TTS) für Sprachsynthese, der einen oder mehrere dritte Unterabschnitte umfasst, wobei jeder mindestens eines der fünften Informationselemente in Bezug auf die entsprechenden zu synthetisierenden Texte beinhaltet.
Verfahren gemäß Anspruch 22, gekennzeichnet dadurch, dass der alphanumerische Identifikationscode außerdem umfasst: b3) einen zweiten alphanumerischen Untercode, der mindestens einen dritten Unterabschnitt des dritten Abschnittes (TTS) für Sprachsynthese des aktuellen Zustands oder des Folgezustands identifiziert.
Verfahren gemäß Anspruch 22 oder 23, gekennzeichnet dadurch, dass mindestens ein dritter Unterabschnitt des dritten Abschnittes (TTS) für Sprachsynthese leer ist.
Verfahren gemäß einem der Ansprüche 14 bis 18 und gemäß einem der Ansprüche 19 bis 24, gekennzeichnet dadurch, dass die Datenstruktur, gemäß der die Sprachkonfigurationsdatei in Bezug auf jeden Zustand aufgebaut ist, außerdem umfasst: – einen vierten Abschnitt (ADV) für Werbemitteilungen, der einen oder mehrere vierte Unterabschnitte umfasst, wobei jeder mindestens eines der fünften Informationselemente in Bezug auf die entsprechenden zu synthetisierenden Texte beinhaltet.
Verfahren gemäß Anspruch 25, gekennzeichnet dadurch, dass der alphanumerische Identifikationscode außerdem umfasst: b4) einen dritten alphanumerischen Untercode, der mindestens einen vierten Unterabschnitt des vierten Abschnitts (AVD) für stimmliche Werbemitteilungen des aktuellen Zustands oder des Folgezustands identifiziert.
Verfahren gemäß Anspruch 25 oder 26, gekennzeichnet dadurch, dass mindestens ein vierter Unterabschnitt des vierten Abschnitts (AVD) für stimmliche Werbemitteilungen leer ist.
Verfahren gemäß einem der vorhergehenden Ansprüche, gekennzeichnet dadurch, dass die Visualisierungsdatei und die Sprachkonfigurationsdatei auf einem Server gespeichert werden, auf den durch ein Telekommunikationsnetzwerk durch mindestens einen Benutzer-Client zugegriffen werden kann, wobei das Verfahren außerdem umfasst, dass bei Abfrage einer Webseite durch einen Client, der mit dem Mikrofon-Mittel und mit einer Spracherkennungsmaschine ausgestattet ist, vor Schritt C1 die folgenden Schritte erfolgen: A0.1 – Übertragen der Visualisierungsdatei der abgefragten Webseite vom Server zum Client, A0.2 – Visualisieren der Webseite beim Client, und vor Schritt A1 erfolgt der folgende Schritt: A0.3 – Übertragen der Sprachkonfigurationsdatei der abgefragten Webseite vom Server zum Client, und nach Schritt D1 erfolgt der folgende Schritt: F2 – wenn eine Verbindung zu einer anderen Webseite mit dem aktuellen Zustand übereinstimmt, fragt der Client die andere Webseite vom Server ab.
Verfahren gemäß Anspruch 28, gekennzeichnet dadurch, dass die Sprachkonfigurationsdatei außerdem in Bezug auf mindestens einen Zustand umfasst: – ein oder mehrere sechste Informationselemente, wobei sich jedes auf eine entsprechende zu visualisierende grafische Schnittstelle bezieht, wobei das Verfahren außerdem nach Schritt A1 den folgenden Schritt umfasst: B4 – wenn eine oder mehrere grafische Schnittstellen dem aktuellen Zustand entsprechen, wird mindestens eine der grafischen Schnittstellen auf dem Client visualisiert.
Verfahren gemäß Anspruch 29, dadurch gekennzeichnet, dass mindestens eine der zu visualisierenden grafischen Schnittstellen eine animierte grafische Schnittstelle umfasst und dass das entsprechende sechste Informationselement die zugehörigen Bewegungsbefehle umfasst.
Verfahren gemäß Anspruch 29 oder 30, dadurch gekennzeichnet, dass mindestens eine der zu visualisierenden grafischen Schnittstellen einen Text enthält.
Verfahren gemäß einem der Ansprüche 19 bis 27 und gemäß Anspruch 30, gekennzeichnet dadurch, dass die Datenstruktur, gemäß der die Konfigurationsdatei in Bezug auf jeden Zustand aufgebaut ist, außerdem umfasst: – einen fünften Abschnitt (MOV) für Bewegungsbefehle, der einen oder mehrere fünfte Unterabschnitte umfasst, wobei jeder mindestens eines der sechsten Informationselemente in Bezug auf die Bewegungsbefehle einer entsprechenden animierten grafischen Schnittstelle beinhaltet.
Verfahren gemäß Anspruch 32, gekennzeichnet dadurch, dass jeder fünfte Unterabschnitt des fünften Abschnitts (MOV) ein Informationselement in Bezug auf die Ankunftsposition und ein Informationselement in Bezug auf die Bewegungsgeschwindigkeit der animierten grafischen Schnittstelle enthält.
Verfahren gemäß Anspruch 32 oder 33, gekennzeichnet dadurch, dass der alphanumerische Identifikationscode außerdem umfasst: b5) einen vierten alphanumerischen Identifikations-Untercode zur Identifikation von mindestens einem fünften Unterabschnitt des fünften Abschnitts (MOV) der Bewegungsbefehle des aktuellen Zustands oder des Folgezustands.
Verfahren gemäß einem der Ansprüche 32 bis 34, gekennzeichnet dadurch, dass mindestens ein fünfter Unterabschnitt des fünften Abschnitts (MOV) der Bewegungsbefehle leer ist.
Verfahren gemäß einem der Ansprüche 28 bis 35, gekennzeichnet dadurch, dass das Telekommunikationsnetzwerk das Internet-Netzwerk ist.
Verfahren gemäß einem der Ansprüche 14 bis 18 oder entsprechend einem der Ansprüche 22 bis 27, gekennzeichnet dadurch, dass die Visualisierungsdatei und die Sprachkonfigurationsdatei auf einem Server gespeichert werden, auf den mittels eines Telefonnetzwerks durch mindestens eine Benutzer-Telefonvorrichtung zugegriffen werden kann, wobei der Server mit mindestens einer Sprach-Synthese-Maschine und einer Spracherkennungsmaschine ausgestattet ist, wobei die Benutzer-Telefonvorrichtung mit dem Mikrofon-Mittel als auch mit einem Tonreproduktionsmittel zur stimmlich synthetisierten Reproduktion von Texten durch die Sprach-Synthese-Maschine ausgestattet ist.
Verfahren gemäß Anspruch 37, gekennzeichnet dadurch, dass das Telefonnetzwerk ein zellulares Funktelefonnetzwerk ist und dass die Benutzer-Telefonvorrichtung eine zellulare Funktelefonvorrichtung ist.
Verfahren zum Ermöglichen der Sprachinteraktion einer Website, die eine oder mehrere Webseiten umfasst, wobei die Visualisierung jeder Webseite durch eine entsprechende Visualisierungsdatei definiert wird, wobei das Verfahren in Bezug auf mindestens eine Seite der Website gekennzeichnet ist durch das Ausführen des Verfahrens zum Ermöglichen der Sprachinteraktion einer Webseite gemäß einem der vorhergehenden Ansprüche 1 bis 27.
Verfahren gemäß Anspruch 39, gekennzeichnet dadurch, dass die Visualisierungsdateien und die Sprachkonfigurationsdateien der Webseiten der Site auf einem Server gespeichert sind, auf den mindestens ein Benutzer-Client mittels eines Telekommunikationsnetzwerks zugreifen kann und dass das Verfahren in Bezug auf mindestens eine Seite der Website das Verfahren zum Ermöglichen der Sprachinteraktion einer Webseite gemäß einem der vorhergehenden Ansprüche 28 bis 36 ausführt.
Verfahren gemäß Anspruch 40, gekennzeichnet dadurch, dass es außerdem vor dem Schritt A0.3 den folgenden Schritt umfasst: A0.0 Überprüfen, ob eine Sprachkonfigurationsdatei auf der abgefragten Webseite besteht, wobei das Verfahren die Schritte des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite nur ausführt, wenn das Ergebnis des Schritts A0.0 positiv ist.
Verfahren gemäß Anspruch 41, gekennzeichnet dadurch, dass falls das Ergebnis der Überprüfung des Schritts A0.0 negativ ist, das Verfahren den folgenden Schritt ausführt: F3 – Signalisieren durch den Client, dass die abgefragte Webseite nicht für Sprachinteraktion freigegeben ist.
Verfahren gemäß Anspruch 42, gekennzeichnet dadurch, dass der Schritt F3 aus der Sprachsynthese einer Mitteilung besteht, die durch die Sprach-Synthese-Maschine herbeigeführt wird.
Verfahren gemäß Anspruch 43, gekennzeichnet dadurch, dass die Visualisierungsdateien und die Sprachkonfigurationsdateien der Webseiten der betreffenden Site auf einem Server gespeichert werden, auf den mittels eines Telefonnetzwerks durch mindestens eine Benutzer-Telefonvorrichtung zugegriffen werden kann und dass das Verfahren in Bezug auf mindestens eine Seite der Website das Verfahren zum Ermöglichen der Sprachinteraktion einer Webseite gemäß einem der vorhergehenden Ansprüche 37 oder 38 ausführt.
Computer, in dem eine oder mehrere Webseiten-Visualisierungsdateien gespeichert sind, gekennzeichnet dadurch, dass darin außerdem gespeichert sind: für mindestens eine Webseite, in Bezug auf welche die zugehörige Visualisierungsdatei im Computer gespeichert ist, eine entsprechende Sprachkonfigurationsdatei, die angepasst wurde, um die Sprachinteraktion einer Webseite zu ermöglichen gemäß dem Verfahren zur Ermöglichung der Sprachinteraktion einer Webseite gemäß einem der vorhergehenden Ansprüche 1 bis 27.
Computer gemäß Anspruch 45, gekennzeichnet dadurch, dass darin die Sprachkonfigurationsdateien der Webseiten gespeichert sind, die zu einer einzelnen Website gehören, gemäß der gleichen Datenstruktur, durch die die Visualisierungsdateien der Webseite der betreffenden Site gespeichert sind.
Computer gemäß Anspruch 45 oder 46, gekennzeichnet dadurch, dass er ein Server ist, auf den durch mindestens einen Benutzer-Client durch ein Telekommunikationsnetzwerk zugegriffen werden kann, der eine Webseite abfragt, deren Visualisierungsdatei auf dem Server gespeichert ist, und außerdem dadurch gekennzeichnet, dass er angepasst ist, als Antwort auf einen Client, der eine Webseite abfragt, deren entsprechende Visualisierungsdatei im Computer gespeichert ist, den Schritt A0.3 gemäß dem Verfahren zum Ermöglichen der Sprachinteraktion einer Webseite gemäß einem der vorhergehenden Ansprüche 28 bis 36 auszuführen.
Benutzer-Computer oder Client, der mit einem Mikrofon-Mittel und mit einer Sprach-Synthese-Maschine und mit einer Spracherkennungsmaschine ausgestattet ist, angepasst, um gemäß Anspruch 47 durch ein Telekommunikationsnetzwerk auf einen Server zuzugreifen, um eine Webseite abzufragen, deren entsprechende Sprachkonfigurationsdatei auf dem Server gespeichert ist, gekennzeichnet dadurch, dass er angepasst ist, um die Sprachkonfigurationsdatei der abgefragten Webseite zu empfangen, und angepasst ist, um die Schritte A0.2, A1, B1, C1, D1, E1 und F2 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß einem der Ansprüche 28 bis 36 auszuführen.
Benutzer-Computer oder Client gemäß des Anspruchs 48, gekennzeichnet dadurch, dass er weiter angepasst ist, um den Schritt F1 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 2 auszuführen.
Benutzer-Computer oder Client gemäß Anspruch 48 oder 49, gekennzeichnet dadurch, dass er weiter angepasst ist, um den Schritt A2 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 4 auszuführen.
Benutzer-Computer oder Client gemäß einem der Ansprüche 48 bis 50, gekennzeichnet dadurch, dass er weiter angepasst ist, um den Schritt C2 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 8 auszuführen.
Benutzer-Computer oder Client gemäß einem der Ansprüche 48 bis 50, gekennzeichnet dadurch, dass er weiter angepasst ist, um den Schritt B2 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 14 auszuführen.
Benutzer-Computer oder Client gemäß Anspruch 52, gekennzeichnet dadurch, dass er weiter angepasst ist, um den Schritt B3 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 16 auszuführen.
Benutzer-Computer oder Client gemäß einem der Ansprüche 48 bis 53, gekennzeichnet dadurch, dass er weiter angepasst ist, um den Schritt B4 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 29 auszuführen.
Benutzer-Computer gemäß Anspruch 45 oder 46, gekennzeichnet dadurch, dass er ein Server ist, auf den durch mindestens eine Benutzer-Telefonvorrichtung durch ein Telefonnetzwerk zugegriffen werden kann und dass er mit einer Sprach-Synthese-Maschine und einer Spracherkennungsmaschine ausgestattet ist und dass er außerdem dadurch gekennzeichnet ist, dass er weiter angepasst ist, um die Schritte des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 37 oder 38 auszuführen.
Elektrisches, magnetisches oder elektromagnetisches Signal, dadurch gekennzeichnet, dass es mindestens eine Sprachkonfigurationsdatei einer Webseite beinhaltet, angepasst um die Sprachinteraktion der Webseite gemäß dem Verfahren zur Ermöglichung der Sprachinteraktion einer Webseite gemäß einem der Ansprüche 1 bis 27 zu ermöglichen.
Elektrisches, magnetisches oder elektromagnetisches Signal gemäß Anspruch 56, dadurch gekennzeichnet, dass mindestens eine Sprachkonfigurationsdatei einer Webseite angepasst ist, um die Sprachinteraktion der Webseite gemäß dem Verfahren zur Ermöglichung der Sprachinteraktion einer Webseite gemäß einem der Ansprüche 29 bis 35 zu ermöglichen.
Speichermedium, lesbar durch einen Computer, dadurch gekennzeichnet, dass es mindestens eine Sprachkonfigurationsdatei einer Webseite beinhaltet, angepasst um die Sprachinteraktion einer Webseite gemäß dem Verfahren zur Ermöglichung der Sprachinteraktion einer Webseite gemäß einem der Ansprüche 1 bis 27 zu ermöglichen.
Speichermedium gemäß Anspruch 58, gekennzeichnet dadurch, dass mindestens eine Sprachkonfigurationsdatei einer Webseite angepasst ist, um die Sprachinteraktion einer Webseite gemäß dem Verfahren zur Ermöglichung der Sprachinteraktion einer Webseite gemäß einem der Ansprüche 29 bis 35 zu ermöglichen.
Speichermedium gemäß Anspruch 58 oder 59, dadurch gekennzeichnet, dass in ihm die Sprachkonfigurationsdateien von Webseiten gespeichert sind, die zu einer einzelnen Website gehören, gemäß der gleichen Datenstruktur, nach der die Visualisierungsdateien der Webseite der betreffenden Seite gespeichert sind.
Computerprogramm, dadurch gekennzeichnet, dass es Code-Mittel beinhaltet, die beim Betrieb auf einem Computer zur Ausführung des Schrittes A0.3 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß einem der Ansprüche 28 bis 36 angepasst sind.
Speichermedium, lesbar durch einen Computer, auf dem ein Programm gespeichert ist, gekennzeichnet dadurch, dass das Programm ein Computerprogramm gemäß Anspruch 61 ist.
Computerprogramm, gekennzeichnet dadurch, dass es Code-Mittel beinhaltet, die beim Betrieb auf einem Computer zur Ausführung des Schrittes A0.2, A1, B1, C1, D1, E1 und F2 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß einem der Ansprüche 28 bis 36 angepasst sind.
Computerprogramm gemäß Anspruch 63, gekennzeichnet dadurch, dass es außerdem Code-Mittel beinhaltet, die beim Betrieb auf einem Computer zur Ausführung des Schrittes F1 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 2 angepasst sind.
Computerprogramm gemäß Anspruch 63 oder 64, gekennzeichnet dadurch, dass es weiter angepasst ist, um den Schritt A2 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 4 auszuführen.
Computerprogramm gemäß einem der Ansprüche 63 bis 65, gekennzeichnet dadurch, dass es weiter angepasst ist, um den Schritt C2 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 8 auszuführen.
Computerprogramm gemäß eine der Ansprüche 63 bis 66, gekennzeichnet dadurch, dass es weiter angepasst ist, um den Schritt B2 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 14 auszuführen.
Computerprogramm gemäß Anspruch 67, gekennzeichnet dadurch, dass es weiter angepasst ist, um den Schritt B3 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 16 auszuführen.
Computerprogramm gemäß einem der Ansprüche 63 bis 68, gekennzeichnet dadurch, dass es weiter angepasst ist, um den Schritt B4 des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 29 auszuführen.
Speichermedium, lesbar durch einen Computer, auf dem ein Programm gespeichert ist, gekennzeichnet dadurch, dass das Programm ein Computerprogramm, gemäß einem der Ansprüche 63 bis 69 ist.
Computerprogramm, gekennzeichnet dadurch, dass es Code-Mittel beinhaltet, die beim Betrieb auf einem Computer zur Ausführung der Schritte des Verfahrens zur Ermöglichung der Sprachinteraktion einer Webseite gemäß Anspruch 37 oder 38 angepasst sind.
Speichermedium, lesbar durch einen Computer, auf dem ein Programm gespeichert ist, gekennzeichnet dadurch, dass das Programm ein Computerprogramm gemäß Anspruch 71 ist.