DE19755863C2

DE19755863C2 - Akustische Benutzeroberfläche zur mobilen und stationären Nutzung

Info

Publication number: DE19755863C2
Application number: DE1997155863
Authority: DE
Inventors: Wolfgang Bock
Original assignee: Anitra Medienprojekte GmbH
Current assignee: Anitra Medienprojekte GmbH
Priority date: 1997-12-16
Filing date: 1997-12-16
Publication date: 1999-12-30
Anticipated expiration: 2017-12-17
Also published as: DE19755863A1

Description

Die Erfindung betrifft ein Verfahren zur Auswahl von Objekten und Auslösung von zugeordneten Prozessen in einer Benutzeroberfläche insbesondere nach Art von Computermenüs, wobei die Benutzeroberfläche eine dreidimensional dargestellte Tonkulisse ist, in der die auswählbaren Objekte als unterschiedliche Tonelemente räumlich hörbar angeordnet werden.

Ein solches Verfahren ist beispielsweise aus dem Artikel "Audio User Interface System" in IBM Technical Disclosure Bulletin, Vol. 39 No. 03, März 1996, bekannt.

Bekannt sind ferner Blindenzeitungen, die auf text-to-speech-Verfahren beruhen. Der Benutzer navigiert vermöge eines mit Tastatur oder Computermaus implementierten Cursors z. B. in einem Textmenü, wobei die einzelnen Menüpunkte entsprechend angesagt werden; er kann sich eine Titelliste, in sequentieller Weise, als Endlosschleife vorlesen lassen, und bei Selektion eines bestimmten Titels wird der entsprechende Text - ebenfalls rein sequentiell - vorgelesen, wobei einzelne Parameter, insbesondere die Vorlesegeschwindigkeit, variiert werden können. Diese Verfahren sind nicht in den Massenmarkt vorgedrungen, weil

a) die Sprachwiedergabe noch unvollkommen ist
b) Bilder und Grafiken auf diese Weise nicht wiedergegeben werden können, und
c) sowohl die Navigation als auch das Lesen - insbesondere das Querlesen - in der visuellen Darstellung besser funktionieren.

Aus der Virtual-Reality-Forschung sind Verfahren bekannt, welche ein räumliche Hören mittels Kopfhörer ("Kunstkopf"-Verfahren u. ä.), oder zusätzlicher Lautsprecher ("Surround-Sound", Quadrophonie u. ä.) anbieten. Diese Verfahren wurden ursprünglich zur Darstellung natürlicher Töne entwickelt - etwa im Bereich der Musik, oder bei Telefonkonferenzen/Telepräsenzanwendungen. Die Signale, welche die verschiedenen Tongeber speisen, können natürlichen oder synthetischen Ursprungs sein; sie werden pro Tongeber so berechnet, dass beim Hörer der Eindruck eines räumlichen Hörens entsteht.

Bekannt ist auch in diesem Zusammenhang die Nutzung eines räumlich positionierbaren Cursors (z. B. einer MIDI-Tonfolge) der in der Tonkulisse frei bewegt werden kann, und damit die Selektion einzelner Tonobjekte vorschreiben kann. Beschrieben wurden Anwendungen, in denen auf diese Weise z. B. ein einzelnes Musikinstrument in einem virtuellen Orchester lauter gestellt werden könnte.

Diese Verfahren sind aber von der erforderlichen Rechenleistung her noch zu aufwendig für den Massenmarkt.

Es sind ferner Verfahren bekannt, einzelne Tonelemente aus einer Tonkulisse hervorzuheben, z. B. namentlich bezeichnete Objekte in einer akustischen Virtual-Reality-Darstellung. Die Hervorhebung kann dabei aus einer beliebigen Kombination akustisch wahrnehmbarer Änderungen der jeweiligen Tonelemente bestehen, wie z. B. Veränderung der Lautstärke, der Stimmlage (z. B. männlich/weiblich), der Klangfarbe, der Sprechgeschwin digkeit, der Verhallung.

Der Erfindung liegt die Aufgabe zugrunde, die Auswahl von Objekten in derartigen räumlich hörbar dargestellten Tonkulissen und das Auslösen zugeordneter Prozesse zu verbessern.

Die Erfindung löst diese Aufgabe durch das Verfahren nach Anspruch 1 und die Vorrichtung nach den Ansprüchen 15/16. Bevorzugte Ausführungsbeispiele sind in den Unteransprüchen beschrieben.

Damit ist insgesamt ein Verfahren und eine Vorrichtung geschaffen, die zur rein sprachlichen oder visuell auditiv gemischten Darstellung von GUIs und der zugehörigen Informationskonvolute dienen. Versprachlicht werden hierbei entweder die Betriebssystemoberfläche oder die Informationsdarstellung, oder beide. Diese Nutzungsform soll vor allen Dingen in Fahrzeugen aller Art und in sonstigen mobilen Anwendungen zum Tragen kommen, in Blindenzeitungen, und in Anwendungen, in denen der einen Informationsebene - über eine GUI - eine andere Informationsebene - die sprachliche - überlagert werden sollen, z. B. in Computertrainern oder -spielen, oder bei Fernbedienungen aller Art.

Damit können Informationsdienste wahlweise visuell oder akustisch durchsucht und angezeigt werden, also unter Nutzung derselben Infrastruktur - z. B. Datenfunk-Ausstrahlungen oder Online-Netze, wobei die akustische Nutzung durch die Erfindung bequemer und/oder schneller als nach Stand der Technik möglich sein soll. Dabei wird es dem jeweiligen Verleger oder Online-Betreiber überlassen, für Objekte, die nicht oder nicht einfach automatisch versprachlicht werden können (Bilder, Grafiken etc.) Erläuterungen so hinzuzufügen, dass sie für den GUI-Browser unsichtbar bleiben, jedoch eine mindestens partielle Versprachlichung des entsprechenden Objektes ermöglichen.

Insbesondere wird bei solchen Verfahren der sog. "Cocktail-Party-Effekt" genutzt, also die Fähigkeit des menschlichen Gehörs, eine Anzahl parallel verlaufender Gespräche in einer Tonkulisse auseinanderzuhalten und zu verstehen, wenn die jeweilige Tonquellen nur in ausreichender Weise räumlich getrennt erscheinen, wobei diese Tonquellen sich in der Tonkulisse auch bewegen dürfen.

Hierbei kann nicht nur die Berechnung der räumlichen Tonkulisse dynamisch erfolgen, sondern es können auch Elemente der Tonkulisse in vorgefertigter Form gespeichert werden. Diese werden also entweder nur einmal im Terminal des Endbenutzers berechnet, oder auf externen Speichern zur Verfügung gestellt oder ausserhalb dieses Terminals erstellt (z. B. in einem Sender oder angeschlossenen Online-Server). Dieses gilt insbesondere für den Betriebssystems-Teil.

Die Selektion eines Elementes wird dadurch angezeigt, dass es akustisch hervorgehoben wird. Das Verfahren muss also einen virtuellen Cursor nach dem Stand der Technik nicht mehr als separates Tonelement in einem dreidimensional wahrgenommenen Raum anzeigen, sondern dessen scheinbare Position wird durch das jeweilige akustisch hervorgehobene Tonelement des Navigationsmenüs oder der Informationsdarbietung angezeigt. Dieses verringert den Rechenaufwand und macht die Navigation und/oder die Orientierung für den Anwender einfacher.

Bevorzugt beinhalten die die Primärinformation enthaltenden Tonelemente der Darbietung im wesentlichen text-to-speech, z. B. gesprochene Zeitungsartikel. Dabei kann das Terminal bevorzugt mehrere räumlich separat wahrgenommene Text-to-speech Darbietungen gleichzeitig erzeugen, sodass der Anwender z. B. Zeitungsartikel nicht nur nacheinander, sondern nebeneinander nutzen kann. Dabei kann eine Untermenge dieser Darbietungen akustisch hervorgehoben werden.

Die Erfindung nutzt vorteilhaft die bekannten Verfahren für die verbesserte akustische Darstellung von Informationen in einer Weise, die aufgrund verringerten Rechen- und Darstellungsaufwandes für den mobilen Einsatz geeignet ist.

Die Erfindung sowie weitere Vorteile der Erfindung werden nunmehr anhand bevorzugter Ausführungsbeispiele mit Bezug auf die beigefügten Zeichnungen näher erläutert.

Abb. 1 zeigt, wie in einer mobilen Situation - z. B. in einem fahrenden Auto - durch mehrere Lautsprecher (0) eine dreidimensionale Tonkulisse aufgebaut wird. Diese Lautsprecher bilden ein für den Benutzer starres Bezugssystem, auf das die räumliche Tondarstellung aufsetzen kann. Die Tonkulisse beinhaltet, wie in Abb. 2 gezeigt, sowohl Menüelemente (2) als auch damit überlagerte Informationselemente (3), z. B. gesprochene Zeitungsartikel.

Menüelemente können insbesondere Ergebnisse einer Versprachlichung von Unterpunkten eines Computermenüs mittels text-to-speech beinhalten, wobei die jeweiligen Elemente (in Abb. 2 sind das beispielsweise die Befehle OPEN, CLOSE, DELETE, APPEND, DUPLICATE) parallel dargeboten werden. Sie können aber auch natürliche Sprache beinhalten, oder als Mischung aus synthetischen und natürlichen Tönen ausgeführt sein (in Abb. 2 wäre das, wieder beispielsweise, gesprochener Text aus einer elektronischen Zeitung, welchen, in diesem Beispiel, der Benutzer subjektiv hinter sich wahrnimmt).

Die entsprechenden Tonsignale werden je einmal als Soundfile - d. h. entweder als natürlicher Ton, mit einem Mikrofon aufgenommen, oder als reine Versprachlichung ohne räumliche Information - aufgezeichnet. Dabei bewirkt die Umrechnung in 4 verschiedene Signale, welche je einem Lautsprecher zugeführt werden, den räumlichen Höreindruck. Diese Umrechnung kann z. B. mit einem spezialisierten Sound-Board in einem PC vorgenommen werden. Das Ergebnis dieser Umrechnungen sind also vier neue Soundfiles, welche man in Echtzeit berechnen kann, oder aber - mindestens teilweise - einmal speichern und dann fallweise abrufen kann, was eine ganz erhebliche Verringerung des Rechenaufwandes erbringt.

In der so erzeugten Tonkulisse wird normalerweise genau ein selektiertes Menüelement akustisch hervorgehoben (4), indem es z. B. lauter gesprochen wird, schneller gesprochen, mit einer anderen Stimme, etc., als die gesamte das Menüelement umgebende Tonkulisse.

Die beiden Teile der Tonkulisse nach Abb. 2, Betriebssystems Teil (2) und eigentlicher Informationsteil (3) werden verschieden verwaltet:

- der Betriebssystems-Teil (2) wird, nach Betätigung des multifunktionalen Zeigers (1) durch den Benutzer, vom Terminal in einer Schleife solange wiederholt, bis eine Selektion erfolgt ist; erfolgt keine Selektion, so wird die Schleife nach einem vorgegebenen Zeitintervall wieder abgeschaltet. Erfolgt jedoch eine Selektion, so bewirkt diese entweder eine Veränderung im Menüteil oder im Informationsteil.
- der Informationsteil (3) besteht aus einem Tonelement, oder mehreren räumlich jeweils anders positionierten, Tonelementen, wobei jedes Tonelement einer Soundfile entspricht, welche normalerweise bis zu ihrem Ende abgearbeitet wird, es sei denn, der Benutzer unterbricht diesen Vorgang mit dem Zeiger (etwa, wie unten aufgeführt, durch Betätigung eines Hypertext-Links).

Beispielsweise kann in einer Verkehrstelematikanwendung die Richtung ("bitte links abbiegen") in dieser Weise vorgegeben werden.

Der Informationsteil kann aber auch mehrere, parallel wahrgenommene Tondarbietungen beinhalten (etwa mehrere gleichzeitig vorgelesene Zeitungsartikel) aus denen der Benutzer dann einen oder mehrere hervorheben kann. Er kann in diesem Falle auch durch entsprechendes Betätigen des Zeigers (1) bestimmte Darbietungen löschen, sodass dieser räumliche Teil der Tonkulisse entweder leer erscheint, oder sein Platz von einer anderen Soundfile belegt werden kann. Auf diese Weise lässt sich ein paralleles Überfliegen mehrerer Artikel realisieren, etwa wie bei einer Papierzeitung.

Der Zeiger dient sowohl dem Eingrenzen eines räumlich lokalisierten Bereiches der Tonkulisse als auch der Selektion des entsprechenden Tonelementes; die Selektion erfolgt, indem ein imaginärer Zeiger (7) nach Abb. 2 vom Benutzer in die Tonkulisse zeigt.

Insbesondere kann dieser Zeiger als Joystick ausgeführt werden. Abb. 2 verdeutlicht diese Wirkungsweise anhand einer vom Autofahrer zweidimensional wahrgenommenen Tonkulisse. Nun ist der - ebenfalls zweidimensionale - imaginäre Zeiger durch einen Winkel ϕ und eine Länge ρ bestimmt. Zum Beispiel wird der Winkel ϕ hier durch den eigentlichen Joystick (5) bestimmt und die Länge ρ durch einen am Joystick angebrachten Schieberegler (6).

Die Position der Spitze des imaginären Zeigers (7), welcher dem aktuellen Zustand des Joysticks und des Schiebereglers entspricht, wird dem Benutzer dadurch angezeigt, dass das dieser Position am nächsten liegende Tonelement akustisch hervorgehoben wird. Die funktionale Entsprechung zwischen den Tonelementen und dem jeweiligen Zustand des Joysticks ist in im Terminal in geeigneten Tabellen oder Funktionen niedergelegt und dem Benutzer nicht bekannt - er navigiert rein nach Gehör in der Tonkulisse.

Ist ein Tonelement erst einmal selektiert, so können entsprechende Events - z. B. ein Menüwechsel in der Bedienoberfläche - ausgelöst werden, indem mit dem Joystick-Schalter (8) geklickt wird. Statt des einfachen Klickens kann eine Codefolge (z. B. Einfach-, Doppel- und Dreifachklicks, morsezeichen-ähnliche Codes, etc.) verwendet werden, um jeweils verschiedene Events einzuleiten.

Die Wiedergabe der Informationselemente geschieht so, dass die entsprechenden, die Primärinformation enthaltenden Tonelemente vom Benutzer in einem, deutlich von den die Menüelemente enthaltenden Tonelementen abgesetzten, räumlichen Bereich wahrgenommen werden. Insbesondere könnten die Menüelemente vor dem Benutzer, und die Informationselemente hinter ihm wahrgenommen werden (Bild 2).

Die Selektion eines bestimmten Artikels erfolgt entweder aufgrund eines Titelmenüs, oder in der oben beschriebenen Weise.

In die Informationsdarbietung (hier z. B. Vorlesen eines Artikels) können sogenannte Hot Spots eingebettet werden, d. h. zeitliche Intervalle, die einem zusammenhängenden Stück Text entsprechen, oder einem beliebigen Tonsignal. Beispielsweise kann ein Hot Spot ein Werbespot sein, oder ein akustisch hervorgehobenes Stichwort oder Folge von Stichworten, mit der Funktionalität in der Darbietung eines Hypertext-Links.

Das Terminal verwaltet diese zeitlichen Intervalle derart dass, falls ein Klick oder eine codierte Folge von Klicks während der Darbietung eines Hot Spots erfolgt, entsprechende Events ausgelöst werden, also eine ähnliche Funktionalität bereitgestellt wird, wie beim Anklicken eines visuell dargebotenen Teils eines Textes: z. B. eine Bestellung bei einem Werbespot wie oben beschrieben, oder der Sprung in einen anderen Textes.

Dieser Vorgang kann dadurch erleichtert werden, dass - beispielsweise durch Klicken eines bestimmten Codes, etwa ein einziger langer Klick - analog wie bei einem Diktiergerät die Darbietung des gesamten Informationsteils um eine bestimmte Anzahl von Sekunden zurückfährt, sodass dieser Teil der Darbietung wiederholt wird und der Zuhörer eine ihn interessierende zeitliche Stelle der Darbietung bequemer und sicherer treffen kann. Dabei sind zwei Betriebsarten zu unterscheiden:

In der Betriebsart 1 kann der Benutzer die Darbietung beliebig oft abrufen, insbesondere beliebig oft wiederholen, z. B. weil das Terminal die entsprechenden Daten vor Beginn der Darbietung vollständig in einem internen Speicher geladen hat und aus diesem Speicher liest.

In der Betriebsart 2 wird unterstellt, dass das Terminal in seinem internen Speicher nur einen Teil der für die Darbietung erforderlichen Daten zwischenspeichern kann, z. B. bei Empfang von Hochgeschwindigkeits- Datenfunk. In diesem Falle ist die Anzahl und Länge der erlaubten Wiederholungen durch die im Terminal eingesetzte Technik begrenzt. Erstens müssen die während der Wiederholung eingegangenen Daten gespeichert werden, zweitens müssen diese Daten nachträglich dargeboten werden; drittens muss die durch die Wiederholungen verlorengegangene Zeit durch Beschleunigung der Darbietungsgeschwindigkeit wieder hereingeholt werden.

In Abb. 3 ist eine mögliche Ausführung dieses Verfahrens verdeutlicht: die Daten (8) werden im Terminal in einem sogenannten FIFO (first-in, first-out) Speicher (9) zwischengespeichert; wobei bei jedem Zeittakt der Inhalt des Puffers um jeweils eine Stelle - in Abb. 3 nach rechts - verschoben wird, um dem neu eintreffenden Datenelement Platz zu machen. Aus dem FIFO-Puffer kann somit (10) ein Datenbereich ausgelesen werden, der einem vergangenen zeitlichen Intervall [a, b] der Soundfile entspricht, insbesondere kann der zuletzt dargebotene Teil einer Tonkulisse wiederholt werden. Dabei wird angenommen, dass die Geschwindigkeit, mit der die Daten in den FIFO-Puffer eingelesen werden, sehr viel kleiner ist, als die Geschwindigkeit, mit der sie ausgelesen werden können. Ist der FIFO Puffer nun gross genug, so kann der einem Zeitintervall entsprechende Teil der Soundfile eine endliche Anzahl von Malen wiederholt werden, wobei gesichert ist, dass die auf dieses Teil der Soundfile folgenden Teile nach Ablauf der Wiederholung(en) immer noch abrufbereit im FIFO-Puffer zur Verfügung stehen. Arbeitet die Vorrichtung zur Erzeugung der Tondarbietung (11) nun die ausgelesenen Daten schneller ab, als sie in (8) eingelesen werden, so wird sie aus progressiv tiefer (in Abb. 3 weiter links) gelegenen Bereichen des FIFO-Puffers versorgt, sodass nicht nur ein Vorgang mehrerer Wiederholungen ohne Sound-Datenverlust gesichert ist, sondern auch eine Anzahl solcher Wiederholungen, wobei der zeitliche Abstand zwischen zwei Stellen, die jeweils entlich wiederholt werden, von der Grösse des FIFO-Puffers abhängt.

Glossar

Betriebssystem bezeichnet die Menge der Programme, die der Auffindung von Informationsdaten, der Steuerung ihrer Anzeige und ihrer Verwaltung im Terminal dienen, ebenso dem Aufbau und der Verwaltung von Kommunikationsverbindungen. Insbesondere werden in der hier vorgelegten Schrift die Navigations- und Kommunikationsprogramme dem Betriebssystem zugerechnet

Betriebssystemselemente bezeichnen diejenigen Elemente der Tonkulisse, die direkt einem Baustein (etwa einem Befehl) des Betriebssystems entsprechen. Sie beinhalten normalerweise einen zeitlichen Prozess, etwa das Versprachlichen eines Menüpunktes, wobei dieser Prozess in einer sich automatisch wiederholenden, nur durch den Benutzer abzubrechenden Endlosschleife ablaufen kann.

GUI-Browser bezeichnet ein Programm, welches Daten entweder online oder auf der Festplatte des Benutzers sucht, ihren Empfang steuert, die Daten verwaltet und sie anzeigt. Alle diese Verrichtungen werden vermöge einer sog. GUI ("graphical user interface"), also einer aus visuellen, am Computerschirm angezeigten Elementen bestehenden Benutzeroberfläche ausgeführt. Dabei setzt die GUI normalerweise akustische Objekte - Jingles etc. - nur als Hilfsmittel ein

imaginärer Zeiger bezeichnet einen gedachten Vektor, der z. B. entsprechend (7), ausgehend vom Benutzer auf einen Punkt des Raumes zeigt, und der sich von einem realen Vektor dadurch unterscheidet, dass seine "Länge" und "Stellung" durch das jeweils per Zeiger (z. B. Joystick (1, 5, 6)) aktivierte Tonelement bestimmt ist. Dass dieses keine Längen und Stellungen im Sinne eines richtigen Vektors sind, ergibt sich erstens aus der Tatsache dass die betroffenen Tonelemente eine unscharfe räumliche Ausdehnung haben, und zweitens, dass diese Ausdehnung von verschiedenen Benutzern fallweise anders wahrgenommen werden mag.

Information bezeichnet die Daten, welche die Information darstellen, im Gegensatz zu den Betriebssystemsdaten, die keinen informativen Wert besitzen, es sei denn als Hilfsmittel für den Zugriff auf die Information

Informationselemente bezeichnen diejenigen Elemente der Tonkulisse, die direkt einem Teil der Information entsprechen. Sie beinhalten normalerweise einen zeitlichen Prozess, etwa das Versprachlichen eines Zeitungsartikels

Navigation bezeichnet die Nutzung von Befehlen im Terminal, sofern diese der Auffindung und der Anzeige der Information dienen. Die Navigation ist in dieser Schrift Teil der Nutzung des Betriebssystems

Primärinformation: siehe Information

räumlich positioniert ist ein Tonelement, wenn es vom Benutzer einem vordefinierten Bereich des Raumes zugeordnet wird. Diese Zuordnung kann von einem Benutzer zum nächsten abweichen, und sie kann auch unscharf sein, sodass man in einer praktisch realisierbaren Tonkulisse nur wenige Elemente positionieren kann

Sound-Board: ein Einschub für ein Terminal oder einen PC, der programmgesteuert Töne erzeugen, abrufen und verarbeiten kann

Soundfile: eine Computer-Datei, die einem Tonelement oder Teilen von, oder einer ganzen Tonkulisse entspricht. Z. B. kann man eine Soundfile mittels geeigneter Hilfsprogramme und eines Sound-Boards erzeugen.

Normalerweise entsprechen aufeinanderfolgenden Elementen der Soundfile auch aufeinanderfolgende Teile der Darbietung

Telepräsenz: ein Massnahmebündel, um den besonders realistischen Eindruck einer Szene - oft auch das Abbild eines Kommunikationspartners - zu vermitteln. Massnahmen können den Einsatz von hochauflösendem Video, von Hi-Fi-Ton, von 3-D-Ton etc. beinhalten.

text-to-speech Programme sind Programme, die aufgrund eines formalen (z. B. auf Phonemen) basierenden Sprachmodells aus elektronischem Text ein Sprachsignal erzeugen. Die Erzeugung wirklich natürlich klingender Sprache ist dabei ein Fernziel, da sie in vielen Situationen ein tiefes semantisches Verständnis des jeweiligen Textes voraussetzt. Andererseits kann man mit Stand der Technik eine Sprachqualität erzeugen, die nicht nur von Blinden angenommen wird

Tonelement: eine akustische Darbietung, die erkennbar einem Element der Information oder des Betriebssystems zugeordnet werden kann

Tonkulisse: eine endliche Menge von Tonelementen, die normalerweise räumlich so positioniert und voneinander abgegrenzt werden, dass sie von "normalen" Zuhörern in einer vergleichbaren räumlichen Anordnung wahrgenommen werden.

Versprachlichung beinhaltet Massnahmen zur Erzeugung von Sprache aus Text, also vor allen Dingen text-to-speech, wobei aber natürlich gesprochene Tonelemente substituiert, andere Töne beigemischt werden können, etc.

Zeiger bezeichnet in dieser Schrift eine Vorrichtung zur Vorgabe eines imaginären Zeigers, z. B. einen Joystick nach 1, 5, 6 gem. Abb. 1 und B

Claims

1. Verfahren zur Auswahl von Objekten und Auslösung von zugeordneten Prozessen in einer Benutzeroberfläche insbesondere nach Art von Computermenüs, wobei die Benutzeroberfläche eine dreidimensional dargestellte Tonkulisse ist, in der die auswählbaren Objekte als unterschiedliche Tonelemente räumlich hörbar angeordnet werden,
dadurch gekennzeichnet
dass zur Objektauswahl und Prozessauslösung ein Zeigegerät (5, 6) verwendet wird, welches einen imaginären Zeiger (7), der in die dreidimensionale Tonkulisse hineingerichtet ist, nach Richtung und Länge bestimmt,
und dass das der Spitze des Zeigers (7) jeweils am nächsten liegende Objekt (4) akustisch hervorgehoben dargestellt wird, wobei die übrigen Objekte (2, 3) der Tonkulisse unverändert dargestellt werden.

2. Verfahren nach Patentanspruch 1, dadurch gekennzeichnet, dass die auswählbaren Objekte Menüelemente zur Verwaltung und/oder Navigation in der Benutzeroberfläche umfassen.

3. Verfahren nach Patentanspruch 2, dadurch gekennzeichnet, dass der Name eines Computerfensters in Sprachform ausgegeben wird.

4. Verfahren nach Patentanspruch 3, dadurch gekennzeichnet, dass Steuerbegriffe und/oder Menüelemente des Computerfensters in sprachlicher oder sonstiger akustischer Form ausgegeben werden.

5. Verfahren nach einem der Patentansprüche 1-4, dadurch gekennzeichnet, dass die auswählbaren Objekte den jeweils über ein Computerfenster zugänglichen Text umfassen.

6. Verfahren nach einem der Patentansprüche 1-5, dadurch gekennzeichnet, dass die auswählbaren Objekte Informationstexte umfassen, die in Sprachform ausgegeben werden.

7. Verfahren nach Patentanspruch 6, dadurch gekennzeichnet, dass die Informationstexte Zeitungsartikel sind.

8. Verfahren nach einem der Patentansprüche 5 bis 7, dadurch gekennzeichnet, dass mehrere Texte gleichzeitig akustisch dargestellt werden.

9. Verfahren nach einem der Patentansprüche 5 bis 8, dadurch gekennzeichnet, dass bestimmte Worte des Textes akustisch hervorgehoben werden, und dass während der Ausgabe eines akustisch hervorgehobenen Wortes oder einer Wortkombination, und noch für ein festgelegtes Zeitintervall danach, auf einen Eingabebefehl seitens des Bedieners gewartet wird.

10. Verfahren nach Patentanspruch 9, dadurch gekennzeichnet, dass im Falle einer erfolgten Eingabe eines solchen Befehls ein zugeordneter Prozess eingeleitet wird.

11. Verfahren nach Patentanspruch 9 oder 10, dadurch gekennzeichnet, dass im Falle einer erfolgten Eingabe eines solchen Befehls ein anderer Text akustisch dargeboten wird.

12. Verfahren nach Patentansprüchen 9 bis 11, dadurch gekennzeichnet, dass mindestens ein Text Hypertext-Links enthält, die mit dem Zeigegerät (5, 6) auswählbar sind.

13. Verfahren nach einem der Patentansprüche 1 bis 12, dadurch gekennzeichnet, dass ein Objekt dadurch akustisch hervorgehoben dargestellt wird, dass ein zugrundeliegender Text verändert wird, oder die Lautstärke des Tonelements, seine Stimmlage, Klangfarbe, Sprechgeschwindigkeit oder Verhallung verändert wird, oder durch eine Kombination dieser Massnahmen.

14. Verfahren nach einem der Patentansprüche 1 bis 13, dadurch gekennzeichnet, dass ein durch den imaginären Zeiger (7) akustisch hervorgehoben dargestelltes Objekt über einen Sprachbefehl oder ein manuelles Schalten am Zeigegerät ausgewählt wird und/oder dadurch ein zugeordneter Prozess ausgelöst wird.

15. Vorrichtung zur Durchführung des Verfahrens nach einem der Patentansprüche 1 bis 14, dadurch gekennzeichnet, dass zur Erzeugung der Tonkulisse mehrere Tonquellen (0) vorgesehen sind, die von einer Soundkarte eines PCs erzeugbar sind.

16. Vorrichtung zur Durchführung des Verfahrens nach einem der Patentansprüche 1 bis 14, oder Vorrichtung nach Patentanspruch 15, dadurch gekennzeichnet, dass zur Bewegung des imaginären Zeigers (7) ein Winkel- und Längengeber vorgesehen ist, welcher derart bewegbar ist, dass jeder Kombination aus Winkel und Länge ein Tonelement der Tonkulisse zuordenbar ist.

17. Vorrichtung nach Patentanspruch 16, dadurch gekennzeichnet, dass der Winkel- und Längengeber ein Joystick mit Schiebeschalter (1, 5, 6) ist.