DE10123823A1

DE10123823A1 - System und Verfahren zur parallelen Darbietung von mehreren Audioinformationsquellen

Info

Publication number: DE10123823A1
Application number: DE10123823A
Authority: DE
Inventors: Quing Gong; James R Lewis; Ronald E Vanbuskirk; Huifang Wang
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-06-15
Filing date: 2001-05-16
Publication date: 2002-01-03
Also published as: CA2345434C; US6757656B1; CA2345434A1; JP2002091756A

Abstract

Ein Verfahren zur parallelen Darbietung von mehreren Audioinformationsquellen. Im Verfahren werden Audioinformationen von wenigstens zwei Audioinformationsquellen parallel dargeboten, und eine Nutzersprachauswahl von einer der Audioinformationsquellen wird angenommen. Wenigstens eine der Audioinformationsquellen kann dann neu konfiguriert werden. Durch die Neukonfigurierung können die vom Nutzer ausgewählten Informationsquellen von anderen Audioinformationsquellen akustisch unterschieden werden.

Description

HINTERGRUND DER ERFINDUNG 1. Technisches Gebiet

Diese Erfindung bezieht sich auf das Gebiet von Audioschnittstellen und insbesondere auf ein System und ein Verfahren zur parallelen Darbietung von mehreren Audioinformationsquellen.

2. Beschreibung des Standes der Technik

Eine akustische Nutzerschnittstelle (Auditory User Interface) (AUI) ist eine Schnittstelle, an der ein Computer die Kommandos eines Nutzers akustisch erkennt, auf die Kommandos akustisch antwortet und mit den Kommandos zusammenhängende Aufgaben ausführt. So wie grafische Nutzerschnittstellen (GUIs) arbeiten AUIs direkt mit dem rechnenden Kern einer Computeranwendung zusammen. Genauer gesagt - AUIs stellen eine das Sprechen ermöglichende Vorgehensweise zur Verfügung, die die Berechnungen von der Nutzerschnittstelle trennt und Sprache in die Mensch- Computer-Wechselwirkung integriert. AUIs sind besonders nützlich in Umgebungen, in denen ein Nutzer mit einem Computer akustisch kommunizieren möchte, weil er oder sie eine begrenzte Möglichkeit hat, mit einer visuellen Anzeige des Computers zu kommunizieren.

Herkömmliche AUI-Systeme waren dadurch beschränkt, dass sie typischerweise zu einem bestimmten Zeitpunkt für einen Nutzer nur eine Audioinformationsquelle darstellen. Diese Beschränkung besteht, weil AUI-Systeme nicht die Fähigkeit hatten, einem Nutzer die Konzentration auf eine einzige Audioinformationsquelle zu erlauben, wenn mehrere Audioinformationsquellen dargestellt werden. Dieser Nachteil ist erheblich, weil es zahlreiche Situationen gibt, in denen ein Nutzer zahlreiche Audioinformationsquellen parallel überwachen möchte. Beispielsweise könnte es sein, dass ein Autofahrer, der sich visuell auf eine Autobahn konzentriert, sich parallel dazu mit einem globalen Satelliten- Navigationssystem und einem Zellulartelefon beschäftigen müsste. In ähnlicher Weise müsste ein Pilot, der ein Flugzeug fliegt, parallel dazu den Zustand mehrerer Computersysteme, sowie die Positionen und Abstände anderer Flugzeuge verfolgen. In noch einem anderen Beispiel müssten visuell beeinträchtigte oder blinde AUI-Nutzer eine Audioinformationsquelle, zum Beispiel ein Radio, schnell heraushören können, bevor sie auf eine andere Audioinformationsquelle, zum Beispiel ein Telefon, reagieren.

Die vorliegende Erfindung überwindet die Nachteile des Standes der Technik, indem sie es solchen Nutzern erlaubt, sich leichter auf eine oder mehrere Audioinformationsquellen aus einer Vielzahl von Audioinformationsquellen zu konzentrieren. In einigen Fällen kann die Erfindung auch die Abhängigkeit von GUIs verringern, indem sie es allen Nutzern erlaubt, einschließlich derer mit visuellen und anderen physischen Behinderungen, komplexe Computerfunktionen zu benutzen und in ihr Leben einzubeziehen.

ZUSAMMENFASSUNG DER ERFINDUNG

Die vorliegende Erfindung bezieht sich auf ein Verfahren zur parallelen Darbietung von mehreren Audioinformationsquellen. In dem Verfahren werden Audioinformationen von wenigstens zwei Audioinformationsquellen parallel dargeboten, und es wird eine Nutzersprachauswahl von einer der Audioinformationsquellen angenommen. Wenigstens eine der Audioinformationsquellen kann dann neu konfiguriert werden. Durch die Neukonfigurierung wird die vom Nutzer ausgewählte Audioinformationsquelle von anderen Audioinformationsquellen akustisch unterscheidbar.

Ein maschinenlesbarer Speicher hat entsprechend der Erfindung ein Computerprogramm gespeichert, das eine Vielzahl von Codeabschnitten besitzt, die durch eine Maschine ausführbar sind, um die Maschine zu veranlassen, die Schritte der parallelen Darbietung von Audioinformationert von mindestens zwei Audioinformationsquellen auszuführen und dabei die von einem Nutzer erfolgte Sprachauswahl einer der Audioinformationsquellen anzunehmen und mindestens eine der Audioinformationsquellen neu zu konfigurieren, so dass durch die Neukonfigurierung die vom Nutzer ausgewählte akustisch von anderen Audioinformationsquellen unterscheidbar wird.

Der Darbietungsschritt kann weiterhin die Darbietung von einer oder mehreren Audioinformationsquellen beinhalten, die akustisch von der der anderen Audioinformationsquellen unterschieden werden kann. Im Darbietungsschritt kann wenigstens eine Audioinformationsquelle mit einem Lautstärkepegel dargestellt werden, der sich von dem der anderen Audioinformationsquellen unterscheidet. Alternativ hierzu kann der Darbietungsschritt Folgendes beinhalten: wenigstens eine Audioinformationsquelle, die aus einer Richtung kommt, die sich von der der anderen Audioinformationsquellen unterscheidet, wenigsten eine Audioinformationsquelle, die sich in eine Richtung bewegt, die sich von der der anderen Audioinformationsquellen unterscheidet oder wenigstens eine Audioinformationsquelle, die wenigstens eine Klangeigenschaft besitzt, die sich von der der anderen Audioinformationsquellen unterscheidet. Der Darbietungsschritt kann auch die Anpassung einer klangbezogenen Eigenschaft von wenigstens einer Audioinformationsquelle enthalten. Die klangbezogene Eigenschaft kann wenigstens eine aus der Gruppe sein, die aus Klangfarbe, Nachhall, und Frequenz besteht.

Der Schritt der Annahme kann auch die Annahme eines Kommandos des Nutzers umfassen, das wenigstens eine der Audioinformationsquellen kennzeichnet. Das Kommando kann ein Sprachkommando sein. Darüber hinaus kann das Kommando des Nutzers im Wesentlichen das Gleiche sein wie wenigstens ein Wort, das von der Audioinformationsquelle erzeugt wurde. Das Kommando kann auch den Ort der Audioinformationsquelle bezüglich des Nutzers beschreiben oder wenigstens ein Wort sein, das dem Namen der Audioinformationsquelle zugeordnet ist.

In einer bevorzugten Ausführungsform kann das Verfahren auch einen Schritt der Annahme einer Nutzerauswahl von einer oder mehreren Audioinformationsquellen über eine Nutzerschnittstelle enthalten, bei dem die Nutzerschnittstelle die Nutzerauswahl einer oder mehreren Audioinformationsquellen elektronisch mitteilt. In dieser Ausführungsform kann die Nutzerschnittstelle ein Tastenfeld sein.

Der Darbietungsschritt kann weiterhin vor dem Schritt der Annahme den Schritt der zeitweiligen Neukonfigurierung von wenigstens einer Audioinformationsquelle enthalten, wodurch der Nutzer abschätzen kann, ob die zeitweilig neu konfigurierte Audioinformationsquelle auszuwählen ist. Vor dem Schritt der Annahme kann das Verfahren auch den Schritt enthalten, dass sich wenigstens eine Audioinformationsquelle selbst durch Erzeugung eines Tons identifiziert, der die Audioinformationsquelle beschreibt. Der Schritt der Neukonfigurierung kann die Anpassung der Lautstärke von wenigstens einer ausgewählten oder nicht ausgewählten Audioinformationsquelle enthalten.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

In den Zeichnungen werden jetzt Ausführungsformen dargestellt, die gegenwärtig bevorzugt werden, es ist jedoch zu verstehen, dass die Erfindung nicht auf die genauen dargestellten Anordnungen und Instrumentierungen beschränkt ist.

Fig. 1 ist eine bildliche Darstellung eines Nutzers, dem Audioinformationen von mehreren Audioinformationsquellen dargeboten werden.

Fig. 2 ist ein Blockschaltbild eines Computersystems, das für die Verwendung mit der gegenwärtigen Erfindung geeignet ist.

Fig. 3 ist eine schematische Darstellung einer Computerarchitektur zur Verwendung im Computersystem von Fig. 2, das für die Verwendung mit der gegenwärtigen Erfindung geeignet ist.

Fig. 4A bis 4D sind zusammengenommen bildliche Darstellungen eines Verfahrens und eines Systems für die parallele Darstellung mehrerer Audioinformationsquellen.

AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG

Die vorliegende Erfindung bezieht sich auf ein Verfahren und ein System zur parallelen Darbietung mehrerer Audioinformationsquellen. Fig. 1 zeigt einen Nutzer, dem Audioinformationen von mehreren Audioinformationsquellen dargeboten werden. Wie in Fig. 1 dargestellt, können die Audioinformationsquellen ein Radio 10 und ein Zellulartelefon 14 sein. Es ist jedoch verständlich, dass die Erfindung nicht auf eine spezielle Art oder Anzahl von Audioinformationsquellen beschränkt ist.

Fig. 2 zeigt ein typisches Computersystem 20, das für die Verwendung zusammen mit der vorliegenden Erfindung geeignet ist. Das System besteht vorzugsweise aus einem Computer 34, der eine Zentraleinheit (CPU) 36, eine oder mehrere Speichereinheiten 38 und zugeordnete Schaltkreise besitzt. Das Computersystem 20 enthält auch ein Mikrofon 30, das über geeignete Schnittstellen-Schaltkreise oder ein "Soundboard" (nicht dargestellt) funktionsmäßig mit dem Computersystem 20 verbunden ist, sowie eine Audiosteuerschnittstelle 28. Das Computersystem 20 kann auch wenigstens eine Nutzerschnittstellen-Anzeige 32 besitzen, zum Beispiel ein Videodaten-Terminal (VDT), das hier funktionsmäßig angeschlossen ist. Die Nutzerschnittstellen-Anzeige 32 kann so konfiguriert sein, dass ein Nutzer Instruktionen an das Computersystem durch Berührung eines Bildschirmes oder durch eine andere geeignete Vorrichtung auf der Nutzerschnittstellen-Anzeige 32 übermitteln kann.

Die CPU 36 kann aus irgendeinem geeigneten Mikroprozessor oder einer anderen elektronischen Verarbeitungseinheit bestehen, wie Fachleuten hinreichend bekannt ist. Beispielsweise kann die CPU 36 ein Mikroprozessor mit der Markenbezeichnung Pentium- oder Pentium II sein, der von der Intel Corporation verfügbar ist, obwohl die Erfindung in dieser Beziehung nicht beschränkt ist. Die Lautsprecher 23 sowie eine Schnittstelleneinheit 21, zum Beispiel ein Tastenfeld, können auch am Computersystem 20 vorgesehen sein, sind aber für die Arbeitsweise der Erfindung, so wie sie hier beschrieben ist, nicht notwendig. Die verschiedenen Hardware-Anforderungen für das Computersystem 20, wie sie hier beschrieben sind, können im Allgemeinen durch ein beliebiges der vielen handelsüblichen eingebetteten Hochgeschwindigkeits-Computersysteme erfüllt werden.

Fig. 3 veranschaulicht eine bevorzugte Architektur für ein Spracherkennungssystem, das in Verbindung mit dem Computersystem 20 benutzt werden kann. Das Computersystem 20 kann Computerspeichereinheiten 27 enthalten, die aus einem elektronischen Direktzugriffspeicher 27A und einem oder mehreren Massenspeichermedien 27B, zum Beispiel einem Magnetplattengerät, bestehen können. Das Computersystem 20 kann auch ein Betriebssystem 24 und eine Spracherkennungsmaschinen-Anwendung 26 enthalten. In dem dargestellten Beispiel werden auch ein Sprachkommando- Prozessor 22 und eine Audiosteuerschnittstelle 28 bereitgestellt. Jedoch ist die Erfindung in dieser Beziehung nicht beschränkt, da die Spracherkennungsmaschinen-Anwendung 26 mit irgendeinem anderen Anwendungsprogramm benutzt werden kann, das Sprache verarbeiten kann. In Fig. 3 werden die Spracherkennungsmaschine 26, ein Sprachkommandoprozessor 22 und eine Audiosteuerschnittstelle 28 als getrennte Anwendungsprogramme dargestellt. Es sollte jedoch beachtet werden, dass die Erfindung in dieser Beziehung nicht beschränkt ist und dass diese verschiedenen Anwendungsprogramme als komplexere Anwendungsprogramme ausgeführt werden könnten. Beispielsweise könnte die Spracherkennungsmaschine 26 mit dem Sprachkommandoprozessor 22 oder mit irgendeiner anderen Anwendung, die zusammen mit der Spracherkennungsmaschine 26 zu benutzen ist, kombiniert werden. Der Zweck der Audiosteuerschnittstelle 28 besteht in erster Linie darin, die Funktion der Spracherkennungsmaschine 26 besser zu koordinieren.

In einer bevorzugten Ausführungsform, die hier erörtert werden soll, ist das Betriebssystem 24 ein eingebettetes Betriebssystem, zum Beispiel QNX Neutrino® oder VxWorks® von Wind River. Das Betriebssystem 24 unterliegt in dieser Beziehung jedoch keinen Einschränkungen, da die Erfindung auch mit einem beliebigen anderen Typ eines Computer- Betriebssystems benutzt werden kann, zum Beispiel WindowsCE® oder WindowsNT®, die beide von der Microsoft Corporation in Redmond, Washington, erhältlich sind. Das Verfahren der vorliegenden Erfindung kann von einem Computerprogrammierer für die Ausführung im Betriebssystem 24 unter Benutzung handelsüblicher Entwicklungswerkzeuge für das oben beschriebene Betriebssystem 24 programmiert werden. Im Betrieb werden Audiosignale, die repräsentativ sind für den Schall, der vom Mikrofon 30 empfangen wurde, innerhalb des Computersystems 20 verarbeitet, wobei herkömmliche Computer- Audioschaltkreise verwendet werden, damit sie dem Betriebssystem 24 in digitalisierter Form zur Verfügung gestellt werden. Die Audiosignale, die von den Audioschaltkreisen 29 im Computersystem 20 empfangen wurden, werden der Spracherkennungsmaschinen-Anwendung 26 über das Betriebssystem 24 auf übliche Weise zur Verfügung gestellt, um Spracherkennungsfunktionen auszuführen. Wie in herkömmlichen Spracherkennungssystemen werden die Audiosignale von der Spracherkennungsmaschine 26 verarbeitet, um Worte zu identifizieren, die von einem Nutzer in das Mikrofon 30 gesprochen wurden.

Die vorliegende Erfindung kann als Hardware, als Software oder einer Kombination von Hardware und Software realisiert werden. Maschinenlesbarer Speicher entsprechend der vorliegenden Erfindung kann zentralisiert in einem Computersystem oder verteilt realisiert werden, wobei verschiedene Elemente über verschiedene verbundene Computersysteme verteilt werden. Jede Art Computersystem oder eine andere Vorrichtung, die zur Ausführung der hier beschriebenen Verfahren geeignet ist, ist annehmbar. Eine typische Kombination von Hardware und Software könnte ein Universal-Computersystem mit einem Computerprogramm sein, das, wenn es geladen und ausgeführt wird, das Computersystem so steuert, dass es die hier beschriebenen Verfahren ausführt. Die vorliegende Erfindung kann auch in ein Computerprogrammprodukt eingebettet werden, das alle die Eigenschaften umfasst, die die Realisierung der hier beschriebenen Verfahren ermöglichen und das, wenn es in ein Computersystem geladen wird, diese Verfahren ausführen kann.

Ein Computerprogramm kann im vorliegenden Zusammenhang irgendeinen Ausdruck einer Menge von Befehlen bedeuten, in einer beliebigen Sprache, in einem beliebigen Code oder in beliebiger Notation, die dazu bestimmt ist, ein System mit Informationsverarbeitungsfähigkeit dazu zu veranlassen, eine bestimmte Funktion entweder direkt oder nach einem oder beiden folgenden Schritte auszuführen: (a) Umwandlung in eine andere Sprache, einen anderen Code oder eine andere Notation; und (b) Wiedergabe in einer anderen materiellen Form. Die hier veröffentlichte Erfindung kann ein Verfahren sein, das in ein Computerprogramm eingebettet ist, das von einem Programmierer geschrieben werden kann, der handelsübliche Entwicklungswerkzeuge für das oben beschriebene Betriebssystem 24 benutzt.

Die Erfindung kann umfassender verstanden werden, wenn man erkennt, dass Personen normalerweise nicht mehrere Ströme von Audioinformationen parallel verarbeiten können, aber gewöhnlich mehrere verschiedene Ströme von Audioinformationen zur gleichen Zeit überwachen und auswählen können, um sich auf einen oder mehrere bestimmte Audioinformationsströme zu konzentrieren. Beispielsweise kann man in einer Büroumgebung 25 die Laute einer Unterhaltung zwischen Kollegen erkennen und von jemandem, der am Telefon spricht und von einer von einem Computer erzeugten Stimme eines Spracherkennungssystems unterscheiden. Ein Verfahren oder ein System entsprechend der Anordnung der Erfindung erlaubt es einem Nutzer, sich auf einen oder mehrere Audioinformationsströme zu konzentrieren, die von einer Vielzahl von Audioinformationsquellen erzeugt werden.

Entsprechend der Erfindung können einem Nutzer Audioinformationen von einer Vielzahl von Audioinformationsquellen parallel dargeboten werden. Jede geeignete Audioinformationsquelle kann zusammen mit der Erfindung benutzt werden. Beispielsweise können ein Telefon, ein Radio oder das Computersystem 20, das einen Sprachkommandoprozessor 22 besitzt, eine Audioinformationsquelle sein. Wenigstens eine Audioinformationsquelle weist eine Konfiguration auf, die sich von der Konfiguration der anderen Audioinformationsquellen unterscheidet, so dass ein Nutzer Audioinformationen von der einen Audioinformationsquelle von denen der anderen Audioinformationsquellen unterscheiden kann.

Es gibt zahlreiche Möglichkeiten, Audioinformationsquellen so zu konfigurieren, dass sie einem Nutzer Audioinformationen in einer Art und Weise parallel so darbieten können, dass der Nutzer die verschiedenen Audioinformationsströme unterscheiden kann. Beispielsweise kann eine Vielzahl von Audioinformationsquellen konfiguriert werden, um Audioinformationen auf einer Vielzahl von Lautstärkeniveaus darzubieten. Alternativ hierzu können die Audioinformationen auf der Grundlage des Ortes variieren, von dem die Audioinformationen herzurühren scheinen, zum Beispiel links von einem Lautsprecher, rechts von ihm, vor ihm, hinter ihm. In ähnlicher Weise können sich Audioinformationen auf der Grundlage der Richtung ändern, in der sie sich zu bewegen scheinen, zum Beispiel von links nach rechts, von rechts nach links, von vorn nach hinten oder von hinten nach vorn. Audioinformationsquellen können auch Audioinformationen mit sich ändernden Klangeigenschaften darstellen, so dass sich eine Vielzahl von Audioinformationsquellen ändern, beispielsweise in der Klangfarbe, im Nachhall oder dem Geschlecht der Stimme. Es ist verständlich, dass die obigen Beispiele in Verbindung miteinander benutzt werden können und dass andere Methoden und/oder Kombinationen zur Konfigurierung von Audioinformationsquellen ebenfalls annehmbar sind.

Wenn Audioinformationen von mehreren Audioinformationsquellen parallel dargeboten werden, kann ein Nutzer eine oder mehrere Audioinformationsquellen auswählen. Es gibt zahlreiche Möglichkeiten, mit der der Nutzer eine Audioinformationsquelle auswählen kann. Beispielsweise kann der Nutzer eine Audioinformationsquelle auswählen, indem er eine oder mehrere Worte von sich gibt, die kurz zuvor von einer Audioinformationsquelle erzeugt wurden. Alternativ hierzu kann der Nutzer eine Audioinformationsquelle auswählen, indem er ein Kommando sagt, das die Audioinformationsquelle beschreibt, zum Beispiel "eine, die von meiner linken Seite kommt".

Wenn Audioinformationsquellen Audioinformationen von mehreren Orten darbieten, können Nutzer eine Schnittstelleneinheit 21 benutzen, beispielsweise ein Tastenfeld mit Pfeiltasten, um eine oder mehrere Audioinformationsquellen auszuwählen. In diesem Szenarium kann der Nutzer eine Pfeiltaste drücken, die in die Richtung der Audioinformationen zeigt, auf die sich der Nutzer konzentrieren möchte.

In noch einem weiteren Beispiel können einer oder mehreren Audioinformationsquellen ein Name zugeordnet werden, zum Beispiel der Name eines Gegenstandes der Ausrüstung, vom dem der Schall herrührt (d. h. Telefon oder eine Stimme von einer Spracherkennungsanwendung) oder der Name einer Person. In diesem Fall kann sich der Nutzer auf einen Strom von Audioinformationen konzentrieren, der von einer Audioinformationsquelle erzeugt wird, indem er den Namen, der dieser Audioinformationsquelle zugeordnet ist, ausspricht.

Während dem Nutzer mehrere Audioinformationsströme dargeboten werden, kann es für ihn schwierig sein, einen Audioinformationsstrom von einem anderen zu unterscheiden. Um dem Nutzer zu helfen, Audioinformationsströme und die Audioinformationsquellen, von denen sie herrühren, zu unterscheiden, können ein oder mehrere Audioinformationsströme in irgendeiner geeigneten Weise zeitweilig in den Vordergrund gebracht werden. Eine Art und Weise, in der ein Audioinformationsstrom in den Vordergrund gebracht werden kann, besteht darin, seine Lautstärke relativ zu den anderen Audioinformationsströmen zeitweilig zu erhöhen. In ähnlicher Weise können mehrere Audioinformationsströme zeitweilig und nacheinander in den Vordergrund gebracht werden, so dass sich der Nutzer auf jeweils eine Folge von Audioinformationsströmen konzentrieren kann. Es ist verständlich, dass andere Verfahren, einen oder mehrere Audioinformationsströme in den Vordergrund zu bringen, auch geeignet sind.

Ausgewählte Audioinformationsquellen können neu konfiguriert werden. Durch diese Neukonfigurierung können sich die vom Nutzer gewählte Audioinformationsquelle oder -quellen von den anderen Audioinformationsquellen unterscheiden. Diese Neukonfigurierung kann in beliebiger geeigneter Weise geschehen, zum Beispiel durch Anpassung einer Klangcharakteristik von einem oder mehreren Audioinformationsströmen. Alternativ hierzu kann die Lautstärke der Audioinformationen, die von einer ausgewählten Schallquelle erzeugt wurden, erhöht werden, oder die Lautstärke der Audioinformationen der nicht ausgewählten Schallquellen kann verringert werden. Diese Verringerung der Lautstärke kann ein vollständiges oder teilweises Stummschalten der Audioinformationen von nicht ausgewählten Schallquellen sein. Der Nutzer kann anschließend die Audioinformationen, die den nicht ausgewählten Schallquellen zugeordnet sind, über ein Sprachkommando oder eine manuelle Aktion (zum Beispiel durch Drücken eines Tastenfeldes) auf ihren ursprünglichen Lautstärkepegel zurückbringen.

Fig. 4A-4D veranschaulichen bevorzugte Ausführungsformen der Erfindung, in denen einem Nutzer mehrere Audioinformationsquellen dargeboten werden. In jeder der Abb. 4A-4D werden einem Nutzer parallel Audioinformationen von drei verschiedenen Audioinformationsquellen dargeboten, die als Schallquellen A, B und C bezeichnet werden. Jede Schallquelle kann Audioinformationen auf dem gleichen oder auf verschiedenen Lautstärkeniveaus darbieten. Schallquelle A befindet sich links vom Nutzer, Schallquelle B befindet sich vor dem Nutzer, und Schallquelle C befindet sich rechts vom Nutzer.

In Fig. 4A werden dem Nutzer Audioinformationen dargeboten, die von den Schallquellen A, B und C erzeugt werden. Die Lautstärke der von der Schallquelle A erzeugten Audioinformationen unterscheidet sich von der Lautstärke der Audioinformationen, die von den anderen Schallquellen B und C erzeugt werden. In Fig. 4A ist der Nutzer daran interessiert, sich auf die Audioinformationen zu konzentrieren, die von der Schallquelle A erzeugt werden, und formuliert "die, die von meiner linken Seite kommt". Daraufhin wird entweder die Lautstärke der ausgewählten Schallquelle A neu konfiguriert, so dass sie lauter als die Schallquellen B und C ist, oder die Lautstärke der nicht ausgewählten Schallquellen B und C wird neu konfiguriert, so dass sie leiser als die Schallquelle A sind. Beispielsweise können in einem bevorzugten Fall die Audioinformationen, die von den Schallquellen B und C herrühren, stummgeschaltet werden, um die Audioinformationen, die von der Schallquelle A herrühren, zu isolieren. Demzufolge kann sich der Nutzer auf die Audioinformationen konzentrieren, die von der Schallquelle A erzeugt werden. Diese Anordnung kann in vielen Fällen nützlich sein. Beispielsweise könnte ein Autofahrer, der sich visuell auf die Autobahn konzentriert, wünschen, die Lautstärke des Autoradios (Schallquelle B) und die vom Computer erzeugte Stimme, die zum Navigationssystem des Autos gehört (Schallquelle C), zu verringern, während er oder sie ein Gespräch über ein Mobiltelefon führt (Schallquelle A). In einem anderen Beispiel kann ein Nutzer eines Spracherkennungssystems wünschen, die Lautstärke des Dialogs, der zwischen dem Nutzer und dem System (Schallquelle A) stattfindet, zu erhöhen, während eine Stimme, die eine Liste von Computerbefehlen, die für den Nutzer verfügbar sind, wiederholt (Schallquelle B oder C), in den Hintergrund gebracht wird.

In Fig. 4B werden dem Nutzer Audioinformationen dargeboten, die von den Schallquellen A, B und C erzeugt werden. Im Gegensatz zu Fig. 4 A, wo sich die Lautstärke der von der Schallquelle A dargebotenen Audioinformationen von der Lautstärke der von den Schallquellen B und C dargebotenen Audioinformationen unterscheidet, unterscheiden sich in der Anordnung von Fig. 4B die Eigenschaften der von der Schallquelle A dargebotenen Informationen von denen der Audioinformationen, die von den anderen Schallquellen B und C dargeboten wurden. Die Eigenschaften können eine beliebige Zahl von klangbezogenen Merkmalen sein, zum Beispiel die Klangfarbe oder eine Stimme eines bestimmten Geschlechtes. In Fig. 4B ist der Nutzer daran interessiert, sich auf die Audioinformationen zu konzentrieren, die von der Quelle A erzeugt wurden. Wenn der Nutzer formuliert "die von links kommt", werden die Eigenschaften der Audioinformationen, die von der Schallquelle erzeugt werden, neu konfiguriert, oder die Eigenschaften der Audioinformationen, die von den Schallquellen 8 und C erzeugt werden, wird neu konfiguriert. Als Ergebnis dieser Neukonfigurierung kann sich der Nutzer auf die von der Schallquelle A dargebotenen Informationen konzentrieren.

In Fig. 4C ist der Nutzer daran interessiert, sich auf die Audioinformationen zu konzentrieren, die von der Schallquelle B erzeugt wurden. Ein Sprachkommando des Nutzers wählt die Schallquelle B durch Angabe des Namens aus, der der Schallquelle B zugeordnet ist. Der zugeordnete Name kann der Name eines geeigneten Objektes sein, zum Beispiel ein Telefon, ein Fernsehgerät oder ein Radio. Als Alternative hierzu kann der zugeordnete Name auch der Name der Person sein, deren Stimme von der Schallquelle B erzeugt wird. Das Sprachkommando des Nutzers zeigt auch an, dass die Schallquelle B neu konfiguriert werden soll, indem ihre Lautstärke erhöht wird.

In Fig. 4D bieten alle Audioinformationsquellen A, B und C dem Nutzer Audioinformationen dar. Jede Audioinformationsquelle A, B und C kann sich selbst durch Angabe von einem oder mehreren beschreibenden Worten, zum Beispiel "Telefon", "Computer" oder "Radio" identifizieren. Diese Identifikation kann parallel mit der Darbietung der Audioinformation geschehen. Zum Beispiel können sich die Audioinformationen selbst periodisch identifizieren, in bestimmten Zeitintervallen, zum Beispiel alle dreißig Sekunden. In Fig. 4D ist der Nutzer an den Audioinformationen interessiert, die von der Schallquelle C erzeugt werden. Als Reaktion auf die identifizierende Schallquelle C des Nutzers wird die von der Schallquelle C erzeugte Information neu konfiguriert, oder die von den Schallquellen A und B erzeugten Audioinformationen werden neu konfiguriert. Als Ergebnis dieser Neukonfigurierung kann sich der Nutzer auf die Audioinformationen konzentrieren, die von der Schallquelle C dargeboten wurden.

Es sollte verstanden werden, dass die hier beschriebenen Beispiele und Ausführungsformen nur dem Zweck der Veranschaulichung dienen und dass angesichts dessen für Fachleute verschiedene Modifikationen oder Veränderungen offensichtlich sind und dass solche Modifikationen oder Veränderungen in den Geist und den Geltungsbereich dieser Anmeldung einzubeziehen sind. Darüber hinaus kann die Erfindung andere spezifische Formen annehmen, ohne von deren Geist oder wichtigen Eigenschaften abzuweichen.

Claims

1. Verfahren zur parallelen Darbietung von mehreren Audioinformationsquellen, das die folgenden Schritte umfasst:
parallele Darbietung von Audioinformationen von wenigstens zwei Audioinformationsquellen;
Annehmen einer Nutzersprachauswahl von wenigstens einer der Audioinformationsquellen; und
Neukonfigurieren wenigstens einer der Audioinformationsquellen, wobei durch die Neukonfigurierung die wenigstens eine vom Nutzer ausgewählte Audioinformationsquelle von den anderen Informationsquellen akustisch unterscheidbar wird.

2. Verfahren nach Anspruch 1, wobei der Darbietungsschritt weiterhin die Darbietung von wenigstens einer Audioinformationsquelle umfasst, die man akustisch von jeder anderen Audioinformationsquelle unterscheiden kann.

3. Verfahren nach Anspruch 1, wobei der Darbietungsschritt weiterhin das Vorhandensein von wenigstens einer Audioinformationsquelle mit einem Lautstärkeniveau umfasst, das sich von dem der anderen Audioinformationsquellen unterscheidet.

4. Verfahren nach Anspruch 1, wobei der Darbietungsschritt weiterhin das Vorhandensein von wenigstens einer Audioinformationsquelle umfasst, die aus einer Richtung stammt, die sich von der Richtung unterscheidet, aus der die anderen Audioinformationsquellen stammen.

5. Verfahren nach Anspruch 1, wobei der Darbietungsschritt weiterhin das Vorhandensein von wenigstens einer Audioinformationsquelle umfasst, die sich in eine Richtung bewegt, die sich von der Richtung unterscheidet, in die sich die anderen Audioinformationsquellen bewegen.

6. Verfahren nach Anspruch 1, wobei des Schritt des Annehmens weiterhin die Annahme eines Kommandos vom Nutzer umfasst, das wenigstens eine Audioinformationsquelle identifiziert.

7. Verfahren nach Anspruch 6, das weiterhin den Schritt des Annehmens einer Nutzerauswahl von wenigstens einer Audioinformationsquelle über eine Nutzerschnittstelle umfasst, wobei die Nutzerschnittstelle die Nutzerauswahl wenigstens einer Audioinformationsquelle elektronisch mitteilt.

8. Verfahren nach Anspruch 7, bei dem die Nutzerschnittstelle ein Tastenfeld ist.

9. Verfahren nach Anspruch 6, bei dem das Kommando ein Sprachkommando ist.

10. Verfahren nach Anspruch 6, bei dem das Kommando des Nutzers im Wesentlichen das Gleiche ist wie wenigstens ein Wort, das von der Audioinformationsquelle erzeugt wurde.

11. Verfahren nach Anspruch 6, bei dem das Kommando den Ort der Audioinformationsquelle relativ zum Nutzer beschreibt.

12. Verfahren nach Anspruch 6, bei dem das Kommando wenigstens ein Wort ist, das dem Namen von wenigstens einer Audioinformationsquelle zugeordnet ist.

13. Verfahren nach Anspruch 1, in dem vor dem Schritt der Annahme der Darbietungsschritt weiterhin den Schritt umfasst, wenigstens eine Audioinformationsquelle zeitweilig neu zu konfigurieren, wodurch der Nutzer erwägen kann, ob die zeitweilig neukonfigurierte Audioinformationsquelle auszuwählen ist.

14. Verfahren nach Anspruch 1, in dem vor dem Schritt der Annahme das Verfahren weiterhin den Schritt enthält, dass sich wenigstens eine Audioinformationsquelle selbst identifiziert, indem Schall erzeugt wird, der die Audioinformationsquelle beschreibt.

15. Verfahren nach Anspruch 1, in dem der Schritt der Neukonfigurierung weiterhin die Anpassung der Lautstärke von wenigstens einer ausgewählten Audioinformationsquelle umfasst.

16. Verfahren nach Anspruch 1, in dem der Schritt der Neukonfigurierung weiterhin die Anpassung der Lautstärke von wenigstens einer nicht ausgewählten Audioinformationsquelle umfasst.

17. Verfahren nach Anspruch 1, in dem der Darbietungsschritt weiterhin die Anpassung einer klangbezogenen Eigenschaft von wenigstens einer Audioinformationsquelle umfasst.

18. Verfahren nach Anspruch 17, in dem die klangbezogene Eigenschaft wenigstens eine ist, die aus der Gruppe ausgewählt wurde, die aus Klangfarbe, Nachhall und Frequenz besteht.

19. Maschinenlesbarer Speicher, in dem ein Computerprogramm gespeichert ist, das eine Vielzahl von Codeabschnitten aufweist, die durch eine Maschine ausgeführt werden können, um die Maschine zu veranlassen, die folgenden Schritte zu bewirken:
parallele Darbietung von Audioinformationen von wenigstens zwei Audioinformationsquellen;
Annehmen einer Nutzersprachauswahl von wenigstens einer der Audioinformationsquellen; und
Neukonfigurierung von wenigstens einer der Audioinformationsquellen, wobei durch die Neukonfigurierung die wenigstens eine vom Nutzer ausgewählte Audioinformationsquelle von den anderen Informationsquellen akustisch unterscheidbar wird.

20. Maschinenlesbarer Speicher nach Anspruch 19, wobei der Darbietungsschritt weiterhin die Darbietung von wenigstens einer Audioinformationsquelle umfasst, die man akustisch von jeder anderen Audioinformationsquelle unterscheiden kann.

21. Maschinenlesbarer Speicher nach Anspruch 19, wobei der Darbietungsschritt weiterhin das Vorhandensein von wenigstens einer Audioinformationsquelle mit einem Lautstärkeniveau umfasst, das sich von dem der anderen Audioinformationsquellen unterscheidet.

22. Maschinenlesbarer Speicher nach Anspruch 19, wobei der Darbietungsschritt weiterhin das Vorhandensein von wenigstens einer Audioinformationsquelle umfasst, die aus einer Richtung stammt, die sich von der Richtung unterscheidet, aus der die anderen Audioinformationsquellen stammen.

23. Maschinenlesbarer Speicher nach Anspruch 19, wobei der Darbietungsschritt weiterhin das Vorhandensein von wenigstens einer Audioinformationsquelle umfasst, die sich in eine Richtung bewegt, die sich von der Richtung unterscheidet, in die sich die anderen Audioinformationsquellen bewegen.

24. Maschinenlesbarer Speicher nach Anspruch 19, wobei der Schritt der Annahme weiterhin die Annahme eines Kommandos vom Nutzer umfasst, das wenigstens eine Audioinformationsquelle identifiziert.

25. Maschinenlesbarer Speicher nach Anspruch 24, der weiterhin den Schritt der Annahme einer Nutzerauswahl von wenigstens einer Audioinformationsquelle über eine Nutzerschnittstelle umfasst, wobei die Nutzerschnittstelle die Nutzerauswahl wenigstens einer Audioinformationsquelle elektronisch mitteilt.

26. Maschinenlesbarer Speicher nach Anspruch 25, bei dem die Nutzerschnittstelle ein Tastenfeld ist.

27. Maschinenlesbarer Speicher nach Anspruch 24, bei dem das Kommando ein Sprachkommando ist.

28. Maschinenlesbarer Speicher nach Anspruch 24, bei dem das Kommando des Nutzers im Wesentlichen das Gleiche ist wie wenigstens ein Wort, das von der Audioinformationsquelle erzeugt wurde.

29. Maschinenlesbarer Speicher nach Anspruch 24, bei dem das Kommando den Ort der Audioinformationsquelle relativ zum Nutzer beschreibt.

30. Maschinenlesbarer Speicher nach Anspruch 24, bei dem das Kommando wenigstens ein Wort ist, das dem Namen von wenigstens einer Audioinformationsquelle zugeordnet ist.

31. Maschinenlesbarer Speicher nach Anspruch 19, in dem vor dem Schritt der Annahme der Darbietungsschritt weiterhin den Schritt umfasst, wenigstens eine Audioinformationsquelle zeitweilig neu zu konfigurieren, wodurch der Nutzer erwägen kann, ob die zeitweilig neukonfigurierte Audioinformationsquelle auszuwählen ist.

32. Maschinenlesbarer Speicher nach Anspruch 19, in dem vor dem Schritt der Annahme das Verfahren weiterhin den Schritt enthält, dass sich wenigstens eine Audioinformationsquelle selbst identifiziert, indem Schall erzeugt wird, der die Audioinformationsquelle beschreibt.

33. Maschinenlesbarer Speicher nach Anspruch 19, in dem der Schritt des Neukonfigurierens weiterhin die Anpassung der Lautstärke von wenigstens einer ausgewählten Audioinformationsquelle umfasst.

34. Maschinenlesbarer Speicher nach Anspruch 19, in dem der Schritt des Neukonfigurierens weiterhin die Anpassung der Lautstärke von wenigstens einer ausgewählten Audioinformationsquelle umfasst.

35. Maschinenlesbarer Speicher nach Anspruch 19, in dem der Darbietungsschritt weiterhin die Anpassung einer klangbezogenen Eigenschaft von wenigstens einer Audioinformationsquelle umfasst.

36. Maschinenlesbarer Speicher nach Anspruch 35, in dem die klangbezogene Eigenschaft wenigstens eine ist, die aus der Gruppe ausgewählt wurde, die aus Klanghöhe, Nachhall und Frequenz besteht.