DE19930407A1

DE19930407A1 - Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten

Info

Publication number: DE19930407A1
Application number: DE19930407A
Authority: DE
Inventors: Meinhard Ullrich; Eric Thelen; Stefan Besling
Original assignee: Philips Corporate Intellectual Property GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 1999-06-09
Filing date: 1999-07-02
Publication date: 2000-12-14
Also published as: US20050102147A1

Abstract

Das Verfahren ermöglicht es einem Benutzer eines Clients (2) vorgegebene Informationseinheiten in einem Kommunikationsnetz per Spracheingabe aufzurufen. Dazu lädt ein Client (2) eine eine Spracheingabe ermöglichende private Informationseinheit (27) von einem Server (6), ein Spracherkenner (8) erzeugt aus einer geäußerten Spracheingabe ein Erkennungsergebnis, und mit dem Erkennungsergebnis wird in einer Datenbank (5) ein Link (44-46, 48) zu einer Informationseinheit ermittelt, der einem Wort (41-43, 47), welches mit dem Erkennungsergebnis korreliert, zugeordnet ist. Außerdem wird mit einem Verfahren zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten (27) zur sprachbasierten Navigation in einem Kommunikationsnetzwerk (4), mittels eines Clients (1) eine Registrier-Informationseinheit (19) von einem Server (6) geladen, mittels der vorgegebenen Worte (41-43) benutzerspezifische Links (44-46) zugeordnet und die Zuordnung (25, 26) mit einem Benutzerkennzeichen (ID¶n¶) einer Datenbank (5) übermittelt werden und dem Client (1) das Benutzerkennzeichen (ID¶n¶) und eine Adresse eines Spracherkenners (8), die jeweils mit einer privaten Informationseinheit (27) zu verknüpfen sind, übermittelt werden.

Description

Die Erfindung bezieht sich auf ein Verfahren zur sprachbasierten Navigation und auf ein Verfahren zur Implementierung einer Spracheingabemöglichkeit in private Informations einheiten zur sprachbasierten Navigation in einem Kommunikationsnetzwerk.

Die Verbreitung von Informationen über Netzwerke wird zunehmend komplexer. Hierbei kommt dem Internet als Kommunikationsnetzwerk eine wachsende Bedeutung zu. Um an Informationen aus dem Internet zu gelangen, ist es wichtig, entsprechende Hilfsmittel ein zusetzen, die das Auffinden von Informationen erleichtern.

Das gebräuchlichste Kommunikationsmittel der Menschen ist die Sprache. Die Sprache als Eingabemedium zur Kommunikation mit einem Computer zu nutzen, beinhaltet jedoch einige Schwierigkeiten. Ein Programm, welches eine Spracherkennung vornimmt, im fol genden als Spracherkenner bezeichnet, muß einerseits an den Wortschatz angepaßt wer den, den es verstehen soll, andererseits muß es an die Aussprache des Sprechers angepaßt werden. Um zufriedenstellende Erkennungsergebnisse zu erzielen, ist ein aufwendiges Trai ning notwendig. Grundlage für die Spracherkennung ist weiterhin ein leistungsstarker Computer. Diese Grundvoraussetzung ist bei den meisten Computern, mit denen Anwen der Informationseinheiten aufrufen, nicht gegeben. Lokale Spracherkennungssyteme sind meist nur für einen Anwender ausgelegt, der wie oben beschrieben, ein aufwendiges Trai ning des von ihm benutzten Wortschatzes absolvieren muß.

In der DE 44 40 598 C1 wird ein durch gesprochene Worte steuerbares Hypertext- Navigationssystem beschrieben. Mit einem lokalen Spracherkenner, dem entsprechende Lexika und Wahrscheinlichkeitsmodelle zur Unterstützung einer akustischen Spracher kennung von Hyperlinks der Hypertext-Dokumente zugeordnet sind, wird die Steuerung eines Browsers oder Viewers ermöglicht. Das System erlaubt ein Aussprechen von Links, wobei die Spracherkennung an die zu erkennenden Links adaptiert wird, ohne daß diese vorher bekannt sein müssen. Dazu beinhalten die Hypertext-Dokumente Zusatzdaten, die zur Adaption des Spracherkenners notwendig sind. Diese Zusatzdaten werden entweder im aufrufenden Anwendersystem erzeugt oder vom Anbieter den Hypertext-Dokumenten zu geordnet und bei Aufruf vom Anwendersystem mit übertragen.

In der DE 197 07 973 A1 wird ein Verfahren zur Durchführung von Aktionen mittels Spracheingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet beschrieben. Dazu verfügt der Rechner des Benutzers über einen lokalen Spracherkenner, dessen Parameter zur Durchführung des Spracherkennungsprozesses von dem jeweiligen Diensteanbieter festgelegt und auf Anforderung des Benutzers von dem Diensteanbieter zum Benutzer übertragen werden.

Derartige lokale Spracherkennungssyteme erfordern einen leistungsstarken Rechner und sind in ihrer Flexibilität in bezug auf den Wortschatz beschränkt. Eine Erhöhung der Flexibilität erhöht die zu übertragende Datenmenge, da die notwendigen Parameter zur Abstimmung des lokalen Spracherkenners auf den lokalen Rechner übertragen werden müssen. Die Übertragung einer großen Datenmenge erfordert jedoch bei begrenzter Übertragungskapazität erheblich mehr Zeit.

Die Aufgabe der Erfindung ist es deshalb, für Informationseinheiten eine sprachbasierte Navigation zu vorgegebenen Web-Sites zu ermöglichen.

Diese Aufgabe ist erfindungsgemäß dadurch gelöst, daß ein Client eine Spracheingabe ermöglichende private Informationseinheit von einem Server lädt, und ein Spracherkenner aus einer geäußerten Spracheingabe ein Erkennungsergebnis erzeugt, und mit dem Erken nungsergebnis in einer Datenbank ein Link ermittelt wird, der einem Wort, welches mit dem Erkennungsergebnis korreliert, zugeordnet ist.

Zur Anzeige und Darstellung der Informationseinheiten wird ein Anwendungsprogramm, welches meist als Browser oder Viewer bezeichnet wird, auf einem Client ausgeführt. Der aufrufende Client ist über eine entsprechende Verbindung in einem Kommunikations netzwerk mit einem Server eines Diensteanbieter (Provider) verbunden, der den Zugang beispielsweise zum Internet ermöglicht. Das Aufrufen einer Informationseinheit erfolgt durch Eingabe einer IP-Adresse oder einer URL (Universal Resource Locator). Eine weitere Möglichkeit Informationen aufzurufen, bieten Verknüpfungen, die als Links oder Hyperlinks bezeichnet werden. Diese Links werden bei ihrer Darstellung farblich oder durch Unterstreichung vom restlichen Text hervorgehoben. Durch einen Klick auf diesen Link mit der Maus wird die Informationseinheit aufgerufen, die mit dem Link verknüpft ist. Das Anzeigen von Informationseinheiten und Aufrufen von weiteren Informations einheiten ausgehend von der momentan angezeigten Informationseinheit wird als Navi gieren bezeichnet. Die Informationen in Form von Informationseinheiten werden von Dienstleistern und Firmen im Internet angeboten und zugänglich gemacht. Zunehmend werden auch private Informationseinheiten, die insbesondere als Homepages bezeichnet werden, im Internet angeboten. Dabei werden von dem entsprechenden Besitzer oder Ersteller der Homepage interessierende Informationen auf dieser Homepage angeordnet. Meist sind auf derartigen Homepages Angaben zur Person, Beiträge zu Hobbys mit beispielsweise Fotos dargestellt. Außerdem geben die Besitzer der Homepages häufig wichtige Links an, die ein Besucher der Homepage auch ansehen sollte. Auch Firmen können Homepages erstellen und im Internet zugänglich machen, dabei wird meist die erste Web-Seite einer Web-Site als Homepage bezeichnet, von der ein Benutzer zu anderen firmenspezifischen Web-Seiten navigieren kann.

Ein Client lädt eine private Informationseinheit von einem Server, der per Kommunika tionsnetz mit dem Client verbunden ist. Diese Informationseinheit wird mittels eines Browsers einem Benutzer angezeigt. Der Benutzer wird durch beispielsweise angezeigte Information aufgefordert, eine Spracheingabe abzugeben. Diese Spracheingabe wird an einen Spracherkennungsserver weitergeleitet und dort einem Spracherkenner zugeführt, der einen Spracherkennungsprozeß durchführt. Das vom Spracherkenner erzeugte Erken nungsergebnis wird zum Client zurückgesendet. Der Client übermittelt das Erkennungs ergebnis einer Datenbank. Diese Datenbank befindet sich auf einem Datenbankserver, auf dem ein mit der Sprachäußerung korrelierender Link ermittelt wird. Die Sprachäußerung entspricht dabei einem Wort, dem ein Link zugeordnet ist.

In einer weiteren Ausgestaltung der Erfindung ist vorgesehen, daß die private Informa tionseinheit ein Benutzerkennzeichen enthält. Ein Erkennungsergebnis, das aus einer von einem Benutzer geäußerten Spracheingabe von dem Spracherkenner erzeugt wurde, wird mit dem Benutzerkennzeichen zur Datenbank übermittelt. In der Datenbank wird mit dem Erkennungsergebnis und dem Benutzerkennzeichen ein Link ermittelt. In der Daten bank sind Zuordnungen von Links zu Worten unter Benutzerkennzeichen abgespeichert. Bei einer Korrelation zwischen einem Wort aus der Zuordnung mit dem entsprechenden Benutzerkennzeichen und dem Erkennungsergebnis, wird der zugeordnete Link zum Client zurückgeliefert.

Der ermittelte Link kann entweder direkt zum Client zurückgeliefert werden, so daß der Benutzer den entsprechenden Link selbst aufrufen muß. Als besonders vorteilhaft erweist es sich jedoch, daß der Datenbankserver den ermittelten Link aktiviert und die damit ver bundene Informationseinheit zum Client geliefert und angezeigt wird.

Bei einer weiteren Ausgestaltung der Erfindung erweist es sich als vorteilhaft, die private Informationseinheit mit einer Adresse eines Spracherkennungsservers im Internet zu ver sehen. Diese Adresse wird dem Client bei Aufruf der privaten Informationseinheit über mittelt. Vom Benutzer geäußerte Spracheingaben werden dann über das Kommunikations netzwerk zu einem auf dem Spracherkennungsserver ausgeführten Spracherkenner übertra gen, auf dem dann die Spracherkennung durchgeführt wird. Das vom Spracherkenner er zeugte Erkennungsergebnis wird dem Client übermittelt. Vorteilhaft bei der Erzeugung des Erkennungsergebnisses auf einem Spracherkennungsserver ist die höhere Rechenleistung eines solchen Spracherkenners. Diese Spracherkenner sind spezialisiert und verfügen über einen speziell zugeschnittenen Wortschatz, so daß eine sprecherunabhängige Spracherken nung möglich ist. Dadurch wird eine höhere Erkennungsrate bei schnellerer Verfügbarkeit des Erkennungsergebnisses erreicht.

In einer weiteren Ausführung ist vorgesehen, die Spracherkennung lokal auf dem Rechner auszuführen. Für einfache Anwendungen mit einem beschränkten Wortschatz und einem ausreichend leistungsstarken Rechner wird die Spracherkennung lokal auf dem Client aus geführt. Dadurch entfällt die Übertragung zu einem entfernten Spracherkenner, wodurch Übertragungsfehler reduziert werden.

Aufgabe der Erfindung ist es außerdem, für Homepages eine Spracheingabemöglichkeit zu implementieren, ohne daß ein lokaler Spracherkenner verwendet wird.

Die Aufgabe eine Spracheingabemöglichkeit in Homepages zu implementieren, ohne ei nen lokalen Spracherkenner zu verwenden, wird dadurch gelöst, daß mittels eines Clients eine Registrier-Informationseinheit von einem Server geladen wird, mittels der vorgegebe nen Worten benutzerspezifische Links zugeordnet und die Zuordnung mit einem Benut zerkennzeichen einer Datenbank übermittelt werden und bei dem dem Client das Benut zerkennzeichen und eine Adresse eines Spracherkenners, die jeweils mit einer privaten In formationseinheit zu verknüpfen sind, übermittelt werden.

Hierbei lädt ein Benutzer, der eine Spracheingabemöglichkeit in seine private Informa tionseinheit implementieren möchte, eine Registrier-Informationseinheit von einem Ser ver. Auf dieser Registrier-Informationseinheit werden vom Benutzer vorgegebenen Worten entsprechende Links zugeordnet. Die Zuordnung erfolgt dabei mittels Tastatur und/oder Maus. Dabei ordnet der Benutzer diese Links, die mit entsprechenden Informationseinhei ten aus dem Internet verbunden sind, nach seinen Vorstellungen zu. Diese benutzerspezi fische Zuordnung von Worten zu persönlichen Links wird einer Datenbank übermittelt. In der Datenbank wird diese Zuordnung in Verbindung mit einem Benutzerkennzeichen abgespeichert. Das Benutzerkennzeichen und eine Adresse eines Spracherkennungsservers, auf dem ein Spracherkenner ausgeführt wird, werden daraufhin dem Client übermittelt. Dieses Benutzerkennzeichen und die Adresse des Spracherkenners werden vom Benutzer des Clients, der auch als Besitzer/Ersteller der privaten Informationseinheit bezeichnet wird, mit dieser privaten Informationseinheit verknüpft. Durch Speicherung der Zuord nung auf dem Datenbankserver mit dem individuellen Benutzerkennzeichen und der Ver knüpfung des Benutzerkennzeichens mit der privaten Informationseinheit wird eine Spracheingabemöglichkeit in private Informationseinheiten implementiert. Der Ersteller der Homepage ermöglicht den Besuchern seiner Homepage die entsprechenden vorgege benen Worte zu sprechen und somit per Spracheingabe auf die von ihm per Link zugeord neten Informationseinheit zu gelangen, ohne daß die Besucher einen lokalen Spracherken ner auf dem aufrufenden Client ausführen.

In einer weiteren Ausgestaltung der Erfindung ist vorgesehen, das der Spracherkenner nicht nur die vorgegebenen Worte erkennt. Der Spracherkenner erkennt auch benutzer unabhängige Worte. Diesen benutzerunabhängigen Worten wird jeweils von einem Diensteanbieter ein benutzerunabhängiger Link zugewiesen. Immer wenn der Spracher kenner aus einer Sprachäußerung ein Erkennungsergebnis erzeugt, das mit einem benutzer unabhängigen Wort korreliert, wird ein benutzerunabhängiger Link zum Client zurückge liefert, der von dem Diensteanbieter dem entsprechenden benutzerunabhängigen Wort zu gewiesen wurde. Es ist ebenfalls möglich, nicht den benutzerunabhängigen Link zum Client zurückzuliefern, sondern gleich die mit dem benutzerunabhängigen Link verbun dene Informationseinheit zum Client zu liefern.

Bei einer bevorzugten Ausführung der Erfindung ist vorgesehen, einerseits beim Aufruf der Registrier-Informationseinheit und andererseits bei Aufruf der mit der Spracheingabemög lichkeit versehenen privaten Informationseinheit zu überprüfen, ob auf dem jeweils aufru fenden Client ein Softwaremodul ausgeführt wird. Dieses Softwaremodul nimmt eine Merkmalsextraktion vor. Die Spracheingabedaten, die über ein Eingabemedium, z. B. Mik rofon, zu diesem Softwaremodul geleitet werden und als elektrisches Signal vorliegen, wer den von diesem Softwaremodul quantisiert und entsprechenden Analysen unterzogen, die Komponenten liefern, die Merkmalsvektoren zugeordnet werden. Diese Merkmalsvektoren werden dann zu dem gekoppelten Spracherkenner übertragen. Das Softwaremodul über nimmt außerdem das Handling des Absendens der Merkmalsvektoren und das Empfangen des Erkennungsergebnisses, sowie das Absenden von Benutzerkennzeichen und Erken nungsergebnis zum Datenbankserver und das Empfangen des Link. Bei Nichtvorhanden sein des Softwaremoduls wird dieses ebenfalls von dem Server geladen, auf dem die aufzu rufenden Informationseinheiten gespeichert sind.

Für Benutzer eines Clients, die nicht über eine eigene Homepage verfügen, demzufolge auch das Benutzerkennzeichen und die Adresse eines Spracherkenners nicht mit dieser Homepage verknüpfen können, ist vorgesehen, diesen Benutzern eine Informationseinheit zu übermitteln, die sowohl das individuelle Benutzerkennzeichen, als auch eine Adresse ei nes Spracherkenners enthält. Diese Informationseinheit wird von dem auf dem Client aus geführten Browser angezeigt und ermöglicht dem Benutzer per Spracheingabe die Infor mationseinheiten über die Links aufzurufen, denen er bei der Registrierung entsprechende vorgegebene Worte zugeordnet hat und die vom Diensteanbieter benutzerunabhängigen Worten zugewiesen wurden.

Als vorteilhaft erweist es sich, wenn die Datenbank, auf der die Zuordnung mit den Be nutzerkennzeichen gespeichert sind, und der Spracherkenner auf einem Server lokalisiert sind. Das hat den Vorteil, daß das Erkennungsergebnis nicht erst wieder zum Client und von dort zum Datenbankserver übermittelt werden muß, sondern das Erkennungsergebnis direkt auf dem gemeinsamen Server der Datenbank übermittelt wird. Das jeweilige Benut zerkennzeichen wird dann mit den Merkmalsvektoren zusammen zu dem gemeinsamen Server übermittelt. Dabei werden Laufzeiten gespart und gleichzeitig die Fehlerwahrschein lichkeit durch auftretende Übertragungsfehler minimiert.

Des weiteren wird die Aufgabe der Erfindung noch durch ein Softwaremodul gelöst, wel ches die Spracheingabedaten Merkmalsvektoren zuordnet. Dieses Softwaremodul übermit telt die Merkmalsvektoren an den in der Adresse festgelegten Spracherkenner. Das von dem Spracherkenner erzeugte Erkennungsergebnis wird von diesem Softwaremodul em pfangen und zusammen mit dem Benutzerkennzeichen zu einer Datenbank übermittelt. Ein ermittelter Link wird von diesem Softwaremodul empfangen und aufgerufen, so daß dem Benutzer des aufrufenden Clients die mit dem Link verbundene Informationseinheit dargeboten wird.

In einer bevorzugten Ausführung der Erfindung wird das Softwaremodul mit einem Bedienelement aktiviert. Eine Aktivierung dieses beispielsweise als Knopf dargestellten Bedienelements startet die Aufnahme von Spracheingabedaten.

Die Aufgabe der Erfindung wird auch durch einen Computer gelöst, auf dem ein oben beschriebenes Softwaremodul ausgeführt wird.

Ausführungsbeispiele der Erfindung werden im folgenden anhand der Zeichnungen näher erläutert. Es zeigen:

Fig. 1 Struktur zur Ausführung des erfindungsgemäßen Verfahrens

Fig. 2 Blockschaltbild zur sprachbasierten Navigation von einer Homepage

Fig. 3 Ablauf einer sprachbasierten Navigation

Fig. 4 Blockschaltbild für die Implementierung einer Spracheingabemöglichkeit in Homepages

Fig. 5 Ablauf der Implementierung einer Spracheingabemöglichkeit

In Fig. 1 ist eine Struktur dargestellt, in der Elemente, die zur Ausführung des erfin dungsgemäßen Verfahrens notwendig sind, dargestellt sind. Zur Ausführung des erfin dungsgemäßen Verfahrens sind mehrere Clients 1 und 2, ein Spracherkennungsserver 3, ein Server 6 und ein Datenbankserver 5 angeordnet. Diese Computer sind über ein Daten netz 4 miteinander verbunden. Dabei kann das Kommunikationsnetz 4 sowohl durch das Internet, als auch durch ein Intra- und/oder Extranet realisiert sein. Die einzelnen Kom munikationsnetze 4 unterscheiden sich prinzipiell nur durch eingeschränkte Benutzergrup pen, die zu diesen Kommunikationsnetzen Zugang haben.

Die Clients 1 und 2 sind Computer, von denen Benutzer mittels eines dort ausgeführten Anzeigeprogramms (Browser) Informationseinheiten, im folgenden als Homepages und/- oder Web-Seite bezeichnet, aufrufen. Dabei werden die Informationseinheiten, die von Firmen ins Internet gestellt werden, als Web-Sites bezeichnet. Die Eingangs-Informations einheit einer solchen Web-Site und Informationseinheiten von Privatpersonen werden als Homepages bezeichnet. Unter einer Web-Site versteht man eine Kollektion von Web- Seiten, die zusammengehören. Diese Homepages und Web-Sites sind beispielsweise auf einem Server 6 abgespeichert. Der Spracherkennungsserver 3 ist ein leistungsstarker Com puter, auf dem ein Spracherkennungsprogramm ausgeführt wird. Dieser Spracherken nungsserver 3 verfügt über einen applikationsspezifischen Wortschatz und ist mit seiner Architektur für die Spracherkennung optimiert. Der Datenbankserver 5 ist ebenfalls ein Computer, der mit dem Internet 4 verbunden ist. Auf diesem per Internet 4 verbundenen Datenbankserver 5 sind Zuordnungen abgespeichert.

In Fig. 2 ist eine Anordnung dargestellt, wie sie für die Ausführung der sprachbasierten Navigation zu vorgegebenen Informationseinheiten erforderlich ist. Auf dem Client 2 wird ein Browser 20 ausgeführt, mit dem die Informationseinheit 27 angezeigt wird. Informa tionseinheiten, wie die in diesem Ausführungsbeispiel verwendete Homepage 27, sind als HMTL-Seiten (Hyper Text Markup Language) auf dem Server 6 abgespeichert. Der Client 2 baut eine Verbindung über das Internet 4 mittels eines Links zum Server 6 auf, auf dem die Homepage 27 gespeichert ist. Die Links werden auch als Hyperlinks bezeichnet. Von diesem Server 6 wird die Homepage 27, die neben darzustellendem Text, auch Graphik symbole, Audio- und/oder Videodaten enthalten kann, geladen. Der Client 2 verfügt über ein Mikrofon 22, welches hier als Eingabemedium für die Spracheingabe dient. Die Spracheingabedaten, die als analoge Signale vorliegen, werden von einer Audioeinheit 23 in digitale Signale gewandelt und einem Softwaremodul 21 zur Verfügung gestellt. Mit diesem Softwaremodul 21 werden die Spracheingabedaten analysiert und Merkmalsvekto ren zugeordnet. Über das Internet 4 wird der Client 2 mit einem Datenbankserver 5 ver bunden. Auf diesem Datenbankserver 5 sind unter Benutzerkennzeichen ID₁ bis ID_n Zu ordnungen 25-26 abgespeichert. Dabei enthält eine der mehreren Zuordnungen 25-26 wenigstens ein Wort, welches einem entsprechenden Link zugeordnet ist. Der Client 2 ist außerdem über das Internet 4 mit einem Spracherkennungsserver 3 verbindbar. Mit den Verbindungen 28 und 29 ist je eine mögliche direkte Verbindung des Servers 6 mit dem Datenbankserver 5 und des Spracherkennungsservers 3 mit dem Datenbankserver 5 dar gestellt. Über eine derartige Verbindung 28 wird ein ermittelter Link vom Datenbankser ver 5 direkt an den Server 6 übermittelt. Ebenso ist über die Verbindung 29 ein direktes Übermitteln des Erkennungsergebnisses von einem Spracherkenner 8 an den Datenbank server 5 möglich. Hierbei wird vom Client 2 neben den Merkmalsvektoren auch das Benutzerkennzeichen ID_n zum Spracherkenner 8 übermittelt.

In Fig. 3 ist dargestellt, mit welchen Schritten eine sprachbasierte Navigation vorgenom men wird. In Schritt 30 (LHP, "Load Homepage") lädt der Benutzer des Clients 2 eine eine Spracheingabe ermöglichende Homepage 27 beispielsweise von einem Server 6. Der Benutzer kann auch als Besucher der Homepage 27 bezeichnet werden. In Schritt 31 (CHECK) wird geprüft, ob auf dem Client 2 das Softwaremodul 21 zur Merkmalsextrak tion vorhanden ist. Wenn dieses Softwaremodul 21 nicht vorhanden ist, wird es in Schritt 32 (LSM, "Load Softwaremodul") von dem Server 6 über das Internet 4 auf den Client 2 geladen. Nachdem diese private Homepage 27 von dem Browser 20 angezeigt ist, gibt der Benutzer in Schritt 33 (SI, "Speech Input") eine Spracheingabe ab. Diese Spracheingabe wird in Schritt 34 (EFV, "Extrakt into Feature Vektors") mittels des Sofrwaremoduls 20 in Merkmalsvektoren zerlegt. In Schritt 35 (TMSR, "Transmit Featurevektors to the Speech Recognizer") werden die Merkmalsvektoren zu einem Spracherkennungsserver 3 übermit telt. Dabei ist der Spracherkenner 8 über eine Adresse eines Spracherkennungsservers 3 de finiert, die dem Client 2 beim Laden der Homepage 27 mitgeteilt wird. In Schritt 36 (CRR, "Create Recognition Result") wird vom Spracherkenner 8 ein Erkennungsergebnis aus den übertragenen Merkmalsvektoren, die aus der vom Benutzer geäußerten Sprachein gabe stammen, erzeugt. Das Erkennungsergebnis wird in Schritt 37 (TRRC, "Transmit Recognition Result to the Client") zum Client 2 zurückgesendet. In Schritt 38 (TIDRR, "Transmit user IDentifier and Recognition Result") wird das Erkennungsergebnis vom Softwaremodul 21 zusammen mit einem Benutzerkennzeichen ID_n, welches beim Laden der Homepage 27 zum Client 2 übertragen wurde, zum Datenbankserver 5 übertragen. In Schritt 39 (SFS, "Search on the FileServer") wird mittels des Benutzerkennzeichens ID_n und des Erkennungsergebnisses ein Link gesucht. Die zu suchenden Links sind unter Be nutzerkennzeichen ID₁-ID_n vorgegebenen Worten zugeordnet. Eine vom Benutzer ge äußerte Spracheingabe entspricht dabei einem der vorgegebenen Worte. In Schritt 40 (TL, "Transmit Link") wird der ermittelte Link zum Client 2 übertragen. Mittels des Links wird die mit diesem Link verbundene Web-Site oder Homepage 27 geladen und auf dem Client 2 mittels des Browsers 20 dargestellt.

Um eine Sprachaufnahme zu starten, aktiviert der Benutzer per Maus oder Tastatur einen Knopf 24 und äußert eine Spracheingabe. Diese Spracheingabe wird, wie oben beschrie ben, in Merkmalsvektoren zerlegt. Die Merkmalsvektoren werden von dem Softwaremodul 21 zu einem festgelegten Spracherkenner 8 im Internet 4 gesendet. Der Spracherkenner 8 erhält die Merkmalsvektoren und erzeugt mittels eines Spracherkennungsprogramms ein Erkennungsergebnis.

In Fig. 4 ist ein Anordnung dargestellt, wie sie für die Implementierung einer Sprachein gabemöglichkeit in private Homepages 27 erforderlich ist. Mit diesem Verfahren wird von einem Benutzer eines Clients 1, der im folgenden als Ersteller der Homepage 27 bezeich net wird, eine Zuordnung 25-26 von Links 44-46 zu vorgegebenen Worten 41-43 vorge nommen. Der Client 1 lädt eine Registrier-Informationseinheit 19 vom Server 6. Mittels der Registrier-Informationseinheit 19 ordnet der Ersteller vorgegeben Worten 41-43 ent sprechende Links 44-46 zu. Dabei ist die Zuordnung 25-26 individuell. Das jeweilige vor gegebene Wort 41-43 ist einem Spracherkenner 8 bekannt und wird bei einer späteren korrelierenden Spracheingabe erkannt. Diese individuelle Zuordnung 25-26 wird vom Client 1 zum Datenbankserver 5 übertragen, auf dem die Zuordnung 25-26 mit einem Benutzerkennzeichen ID₁-ID_n gespeichert wird. Der Datenbankserver 5 sendet dem Client 1 das entsprechende Benutzerkennzeichen ID₁-ID_n unter dem die Zuordnung 25-26 des Erstellers gespeichert wurde. Außerdem erhält der Client 1 auch eine Adresse eines Spracherkennungsservers 3, auf dem ein Spracherkenner 8 ausgeführt wird. Der Ersteller verknüpft die Adresse des Spracherkenners 8 und das Benutzerkennzeichen ID_n mit seiner privaten Homepage 27. Dies ist beispielsweise möglich, indem mittels eines Tags oder ei ner Zusatzinformation im HTML-Code die Adresse des Spracherkenners und das Benut zerkennzeichen ID_n mitgeliefert werden. Die Zuordnung wird beispielsweise mittels Einga be des Links per Tastatur vorgenommen. Es ist auch möglich, aus einer Menge von vorge gebenen Worten durch Auswählen von Checkboxen mit der Maus eine bestimmte Unter menge aus Worten auszuwählen, denen dann entsprechende Links zugeordnet werden. Zur Verifikation der vorgegebenen Worte ist es möglich, daß der Ersteller die zugeord neten Worte per Spracheingabe eingibt. Diese werden dann zum Spracherkenner 8 über tragen und erkannt. Das Erkennungsergebnis wird zum Client 1 zurück geliefert.

Der Spracherkenner erkennt neben den vorgegebenen Worten 41-43 auch benutzerunab hängige Worte 47. Den vorgegebenen Worten 41-43 wird vom Ersteller der Homepage 27 jeweils ein Link 44-46 zugeordnet. Den benutzerunabhängigen Worten 47 werden dage gen vom Diensteanbieter, beispielsweise vom Betreiber des Spracherkenners 8 oder des Ser vers 6, Links 48 zugeordnet. Für diese benutzerunabhängige Zuordnung ist es notwendig, daß der Spracherkenner 8 auch diese benutzerunabhängigen Worte 47 erkennt. Welche Worte 41-43, 47 vom Spracherkenner 8 erkannt werden, wird vom Betreiber des Sprach erkenners 8 festgelegt.

Wenn ein Benutzer eines Clients keine Homepage 27 besitzt und auch keine Homepage 27 erstellen möchte, ist es ihm trotzdem möglich, per Spracheingabe zu vorgegebenen Informationseinheiten zu navigieren. Dazu nimmt der Benutzer auf der Registrier-Infor mationseinheit 19 ebenfalls die Zuordnung vor, die dann zum Datenbankserver 5 zur Speicherung unter einem Benutzerkennzeichen ID_n übermittelt wird. Von diesem Daten bankserver 5 wird ihm dann eine Datei übermittelt, die vom Browser 20 darstellbar ist und in der das Benutzerkennzeichen ID_n und die Adresse eines Spracherkenners enthalten sind. Damit kann der Benutzer bei Aufruf dieser Datei per Spracheingabe zu den von ihm oder vom Diensteanbieter per Zuordnung festgelegten Web-Seiten navigieren.

Auf dem Server 6, auf dem die Homepage 27 des Erstellers abgespeichert ist, kann einfach stenfalls auch die Datenbank 5 mit den Zuordnungen 25-26 gespeichert sein, sowie auch der Spracherkenner 8 ausgeführt werden. Diese Anordnung ist nicht dargestellt. In einem derartigen Fall werden die Merkmalsvektoren mit Benutzerkennzeichen ID_n vom Client 2 zu diesem einen Server 6 übermittelt. Das vom dortigen Spracherkenner 8 erzeugte Erken nungsergebnis wird mit dem Benutzerkennzeichen ID_n direkt auf dem Server 6 der Daten bank 5 übermittelt, in der dann der Link zu diesem Erkennungsergebnis und gegebenen falls auch dem Benutzerkennzeichen ID_n ermittelt wird. Dieser Link wird dann entweder an den Client 2 zurückgesendet oder die mit diesem Link verknüpfte Web-Site wird an den Client 2 übermittelt.

In Fig. 5 ist der Ablauf der Implementierung einer Spracheingabemöglichkeit in private Homepages dargestellt. In Schritt 50 (LRWS, "Load Register Web Site") lädt der Ersteller der Homepage 27 die Registrier-Informationseinheit 19 von einem Server 6. Im Schritt 53 (AWL, "Assign Words to Links") werden den vorgegebenen Worten 41-43 vom Ersteller entsprechende individuelle Links 44-46 zugeordnet. In Schritt 54 (SAFS, "Send Assign ments to File Server") wird die vom Ersteller vorgenommene Zuordnung zum Daten bankserver 5 übermittelt. In Schritt 55 (RIDAD, "Receive user Identifier and Adress") wird dem Client 2 vom Datenbankserver 5 das Benutzerkennzeichen ID_n, unter dem die Zuordnung des Ersteller gespeichert wurde, und die Adresse eines zuständigen Spracher kenners 8 übermittelt. In Schritt 56 (CIDADHP, "Connect user IDentifier and ADress with HomePage") verknüpft der Ersteller das Benutzerkennzeichen und die Adresse mit seiner Homepage. Diese Homepage, in die damit die Spracheingabemöglichkeit imple mentiert wurde, wird auf dem Server 6 abgespeichert. Bei Aufruf dieser Homepage von einem Benutzer kann dieser nun in oben beschriebener Weise per Spracheingabe zu den vorgegebenen Homepages oder Web-Sites navigieren.

Der Ersteller einer sprachbasierten Homepage 27 ordnet auf einer Registrier-Informations einheit 19 den vorgegebenen Worten folgende Links zu:
"hobby → www.sport.de"; "books → www.books.de"; "studies → www.uni.de"; Diese Zu ordnung wird vom Client 1 zum Datenbankserver 5 übermittelt. Dort wird der Benutzer des Clients 1 registriert, indem er ein individuelles Benutzerkennzeichen ID_n erhält und seine Zuordnung 25-26 auf dem Datenbankserver 5 gespeichert wird. An den Client 1 wird beispielsweise in Form einer Email das für ihn vergegebene Benutzerkennzeichen mit einer Adresse eines Spracherkenners übermittelt. Der Ersteller der sprachbasierten Home page 27 verknüpft sowohl das Benutzerkennzeichen ID_n, als auch die Adresse des Spracher kenners 8 mit seiner privaten Homepage 27. Diese wird dann beispielsweise auf dem Ser ver 6 abgespeichert. Zusätzlich zu den vom Ersteller zugeordneten Worten 41-43 werden vom Diensteanbieter benutzerunabhängige Worte 47 mit benutzerunabhängigen Links 48 verknüpft; z. B. das Wort "Politik → www.politik.de" oder "Telefonbuch → www.nummer.de". Der Benutzer des Clients 2 greift auf die private Homepage 27 des Er stellers zu. Diese wird auf dem Client 2 vom Browser 20 angezeigt. Der Benutzer aktiviert mittels Mausklick den Button 24 und gibt eine Spracheingabe ab. Das vom Benutzer ge sprochene Wort "books" wird vom Softwaremodul 21 in Merkmalsvektoren zerlegt, die dann zu dem per übermittelter Adresse bekannten Spracherkenner 8 gesendet werden. Dort wird aus der Spracheingabe "books" ein Erkennungsergebnis erzeugt und zum Client 2 zurückgesendet. Dieses Erkennungsergebnis wird mit dem Benutzerkennzeichen ID_n zur Datenbank 5 übertragen, in der unter dem Benutzerkennzeichen ID_n des Erstellers und dem Erkennungsergebnis der Link "www.books.de" ermittelt wird. Dieser Link wird dem Client 2 übermittelt und vom Client 2 aktiviert. Die mit dem Link "www.books.de" ver bundene Web-Site wird dann auf dem Client 2 dargestellt. Sagt der Benutzer des Clients 2 "Politik" wird die Web-Site "www.politik.de" dargestellt. Wenn der Benutzer des Clients 2 eine private Homepage eines zweiten Erstellers aufruft und dieser zweite Ersteller das Wort "books" mit "www.buecherwurm.de" verknüpft hat, wird bei einer Spracheingabe von "books" die Web-Site "www.buecherwurm.de" dargestellt. Bei einer Spracheingabe des benutzerunabhängigen Wortes "Politik" dagegen wird die gleiche Web-Site aufgerufen, wie bei der privaten Homepage 27 des ersten Erstellers.

Bei der Implementierung einer Spracheingabemöglichkeit in die Homepage einer Web- Site von Firmen werden vom Ersteller Links zu Web-Seiten aus dem gesamten Umfang der Web-Sites zugeordnet. Dadurch ist es möglich, per Sprache zu Web-Seiten der einzelnen Teilbereiche einer Firma zu gelangen. Der Spracherkenner ist mit den vorgegeben Worten auf das Vokabular einer Firma angepaßt. Das spezifische Vokabular kann beispielsweise Produktnamen beinhalten, so daß einem Besucher einer derartigen sprachbasierten Firmen-Homepage mittels Aussprache der Produktnamen oder Markennamen, an denen er interessiert ist, die entsprechenden Web-Seiten auf seinem Client angezeigt werden.

Die benutzerunabhängigen Worte können mittels kommerzieller Transaktionen Interes senten zugewiesen werden, so daß bei Aussprache des entsprechenden benutzerunabhäng igen Wortes automatisch die Web-Seite des Interessenten aufgerufen oder aktiviert wird. Diese Verknüpfung wird vom Betreiber des Spracherkenners vorgenommen, der dafür Sorge zu tragen hat, daß dieses benutzerunabhängige Wort nur einem Interessenten verkauft oder vermietet wird. Die Web-Seite des Interessenten kann auch mit mehreren Worten verknüpft sein, so daß beispielsweise bei Begriffen, die zu einem Thema gehören, immer dieselbe Web-Seite aufgerufen wird. Die benutzerunabhängigen Worte können temporär an Interessenten vergeben werden. Es ist außerdem möglich, eine derartige Web- Seite über einen Sprachausdruck, der in unterschiedlichen Sprachen erkannt wird, aufzuru fen oder zu aktivieren.

Um einen derartige Funktion zu gewährleisten, wird das entsprechende Wort oder der Sprachausdruck, bzw. die Ausprache des Wortes in unterschiedlichen Sprachen im Sprach erkenner vom Betreiber des Spracherkenners bekannt gemacht. Ein Benutzer einer sprach basierten Web-Site nimmt nun eine entsprechende Spracheingabe vor. Diese wird dann vom Spracherkenner erkannt und das erzeugte Erkennungsergebnis wird zu dem aufrufenden Client zurückgesendet. Das Erkennungsergebnis wird gegebenenfalls mit dem Benutzerkennzeichen zur Datenbank gesendet, auf der der zugeordnete Link ermittelt und entweder zum Client zurückgesendet oder die mit dem Link verbundene Web-Seite zum Client übertragen wird.

Claims

1. Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk (4), umfassend folgende Schritte:

- ein Client (2) lädt eine eine Spracheingabe ermöglichende private Informationseinheit (27) von einem Server (6),
- ein Spracherkenner (8) erzeugt aus einer geäußerten Spracheingabe ein Erkennungsergebnis, und
- mit dem Erkennungsergebnis wird in einer Datenbank (5) ein Link (44-46, 48) zu einer Informationseinheit ermittelt, der einem Wort (41-43, 47), welches mit dem Erkennungsergebnis korreliert, zugeordnet ist
- mittels einer kommerziellen Transaktion wird wenigstens zeitweise einem Interessenten das Recht zugewiesen bei wenigstens einem natürlichen Sprachausdruck, der vom Spracherkenner erkennbar ist, eine per Link zugeordnete Informationseinheit zu aktivieren.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der entsprechende Link über mehrere Sprachausdrücke aktivierbar und/oder der entsprechende Link über mehrere Sprachausdrücke, in mehreren Sprachen aktivierbar ist.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die private Informationseinheit (27) ein Benutzerkennzeichen (ID_n) enthält und mit dem Erkennungsergebnis und dem Benutzerkennzeichen (ID_n) in der Datenbank (5) der Link (44-46, 48) ermittelt wird, der einem Wort (41-43, 47), welches mit dem Erkennungsergebnis korreliert, und dem Benutzerkennzeichen (ID_n) zugeordnet ist.

4. Verfahren nach Anspruch 1 und 3, dadurch gekennzeichnet, daß der ermittelte Link zum Client (2) zu dessen Aufruf und zur Ausgabe zurückgeliefert wird.

5. Verfahren nach Anspruch 1 und 3, dadurch gekennzeichnet, daß die mit dem ermittelten Link verbundene Informationseinheit dem Client (2) zur Ausgabe übermittelt wird.

6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die private Informationseinheit (27) eine Adresse eines Spracherkenners (8) enthält und die Spracherkennung auf einem per Kommunikationsnetzwerk (4) verbundenen Spracherkennungsserver (3) ausgeführt wird.

7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Spracherkennung lokal auf dem Client (2) ausgeführt wird.

8. Verfahren zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten (27) zur sprachbasierten Navigation in einem Kommunikationsnetzwerk (4),

- bei dem mittels eines Clients (1) eine Registrier-Informationseinheit (19) von einem Server (6) geladen wird, mittels der vorgegebenen Worten (41-43) benutzerspezifische Links (44-46) zugeordnet und die Zuordnung (25, 26) mit einem Benutzerkennzeichen (ID_n) einer Datenbank (5) übermittelt werden und
- bei dem dem Client (1) das Benutzerkennzeichen (ID_n) und eine Adresse eines Spracherkenners (8), die jeweils mit einer privaten Informationseinheit (27) zu verknüpfen sind, übermittelt werden.

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, daß mindestens ein Wort (41-43) mit einem Link (44-46) verknüpft ist und diese Zuordnung (25, 26) mit dem individuellen Benutzerkennzeichen (ID_n) in der Datenbank (5) abgespeichert wird, das jeder Benutzer bei der Registrierung erhält.

10. Verfahren nach Anspruch 1 und 3, dadurch gekennzeichnet, daß der Spracherkenner (8) neben den vorgegebenen Worten (41-43) auch benutzerunabhängige Worte (47) erkennt, denen vom Diensteanbieter Links (48) zugeordnet sind und daß bei einer zu den benutzerunabhängigen Worten (47) korrelierenden Spracheingabe und einem daraus erzeugten Erkennungsergebnis unabhängig vom Benutzerkennzeichen (ID_n) ein benutzerunabhängiger Link (48) ermittelt wird.

11. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei Aufruf der privaten Informationseinheit (27) überprüft wird, ob auf dem aufrufenden Client (1, 2) ein Softwaremodul (21) vorhanden ist, welches zur Merkmalsextraktion der Spracheingabe und zur Übermittlung an den Spracherkenner (8) notwendig ist und dieses bei Nichtvorhandensein von dem Server (6) geladen wird.

12. Verfahren nach Anspruch 1, 8 und 10, dadurch gekennzeichnet, daß einem Benutzer für den keine private Informationseinheit (27) existiert, nach der Zuordnung eine Informationseinheit, die ein Benutzerkennzeichen (ID_n) und ein Adresse eines Spracherkenners (8) enthält, übermittelt wird, mit der dem Benutzer ein Aufruf der zugeordneten Informationseinheiten per Spracheingabe ermöglicht wird.

13. Verfahren nach Anspruch 1 oder 8, dadurch gekennzeichnet, daß die Registrier-Informationseinheit (19), die private Informationseinheit (27), der Spracherkenner (8) und die Datenbank (5) auf einem (7) oder auf mehreren per Kommunikationsnetzwerk (4) verbundenen Servern (3, 5, 6) gespeichert sind.

14. Softwaremodul (21) zur Durchführung des Verfahrens nach Anspruch 1.

15. Softwaremodul nach Anspruch 14, dadurch gekennzeichnet, daß dieses mittels eines Bedienelemente (24) aktiviert wird.

16. Computer, auf dem ein Softwaremodul (21) nach Anspruch 14 ausgeführt wird.