DE102015107903A1

DE102015107903A1 - Intelligente Freisprecheinrichtung

Info

Publication number: DE102015107903A1
Application number: DE102015107903.8A
Authority: DE
Inventors: Rogerio Guedes Alves; Tao Yu
Original assignee: Cambridge Silicon Radio Ltd
Current assignee: Qualcomm Technologies International Ltd
Priority date: 2014-07-10
Filing date: 2015-05-20
Publication date: 2016-01-14
Also published as: GB2528154A; GB201506289D0; US20160012827A1

Abstract

Ausführungsformen betreffen ein Lautsprecher-/Mikrofonsystem. Jedes Mikrofon in einem Mikrofonarray erzeugt ein Audiosignal auf der Basis von Schall in einem physischen Raum. Das Mikrofonarray kann ausgelegt sein zum logischen Definieren des physischen Raums zu mehreren Regionen, die einen Status von aktiv oder inaktiv aufweisen. Aus den Audiosignalen kann ein Ausgangssignal erzeugt werden, so dass an Audiosignalen, die inaktiven Regionen zugeordnet sind, gerichtete Geräuschverminderung ausgeführt wird und an Audiosignalen, die aktiven Regionen zugeordnet sind, Sprachanhebung ausgeführt wird. Der aktuelle Status einer Region kann auf der Basis einer von einem Benutzer bereitgestellten Anforderung in seinen entgegengesetzten Status modifiziert werden. Die Anforderung kann von einem Aktivator oder einem gesprochenen Wort/einer Phrase getriggert werden, das bzw. die vom Benutzer bereitgestellt wird. Dem Benutzer kann eine Angabe hinsichtlich jedes aktuellen Status für jede Region bereitgestellt werden. Die Angabe kann auch eine Qualität von aktiven Regionen zugeordneten Audiosignalen repräsentieren.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung betrifft allgemein gerichtete Geräuschminderung und Sprachverbesserung und insbesondere, aber nicht ausschließlich, Verfolgung von Benutzersprache über verschiedene Hörregionen einer Freisprecheinrichtung.
HINTERGRUND
Heutzutage verwenden viele Menschen ”Freihand”-Telekommunikationssysteme, um miteinander zu sprechen. Diese Systeme benutzen oft Mobiltelefone, einen entfernten Lautsprecher und ein entferntes Mikrofron zur Erzielung des Freihandbetriebs und können allgemein als Freisprecheinrichtungen bezeichnet werden. Freisprecheinrichtungen können einem Benutzer die Freiheit geben, in unterschiedlichen Umgebungen zu telefonieren. In rauschbehafteten Umgebungen können diese Systeme jedoch nicht auf einem Niveau arbeiten, das für einen Benutzer zufriedenstellend ist. Zum Beispiel kann die schwankende Leistung von Benutzersprache im Mikrofon der Freisprecheinrichtung abhängig von der Umgebung und/oder der Distanz zwischen dem Benutzer und dem Mikrofon einen unterschiedlichen Rauschabstand (SNR) erzeugen. Ein geringer SNR kann es erschweren, das Benutzersprachsignal aus den Rauschsignalen zu detektieren oder zu unterscheiden. Außerdem kann ein Benutzer während eines Anrufs Orte wechseln, was sich auf die Nützlichkeit von gerichteten Geräuschminderungsalgorithmen auswirken kann. Mit Bezug auf diese Gesichtspunkte und andere erfolgte somit die Erfindung.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Nicht einschränkende und nicht erschöpfende Ausführungsformen der vorliegenden Erfindung werden mit Bezug auf die folgenden Zeichnungen beschrieben. In den Zeichnungen beziehen sich in den verschiedenen Figuren durchweg gleiche Bezugszahlen auf gleiche Teile, sofern es nicht anders angegeben wird.
Für ein besseres Verständnis der vorliegenden Erfindung wird auf die folgende ausführliche Beschreibung verwiesen, die in Verbindung mit den beigefügten Zeichnungen zu lesen ist. Es zeigen:
1 eine Systemdarstellung einer Umgebung, in der Ausführungsformen der Erfindung implementiert werden können;
2 eine Ausführungsform eines Netzwerkcomputers, der in einem System wie dem in 1 gezeigten enthalten sein kann;
3 eine Ausführungsform eines Lautsprecher-/Mikrofonsystems, das in einem System wie dem in 1 gezeigten enthalten sein kann;
4 ein beispielhaftes Benutzungsfallumfeld und Szenario zur Verwendung von hier beschriebenen Ausführungsformen;
5A–5C beispielhafte alternative Benutzungsfallumfelder zur Verwendung von hier beschriebenen Ausführungsformen;
6 eine Blockdarstellung, die allgemein ein System zeigt, das gemäß hier beschriebenen Ausführungsformen verwendet werden kann;
7 ein logisches Flussdiagramm eines Umfeldes, das allgemein eine Ausführungsform eines Übersichtsprozesses zur Verfolgung von Audiohörregionen zeigt; und
8 ein logisches Flussdiagramm eines Umfeldes, das allgemein eine Ausführungsform eines Prozesses zur Verfolgung von Audiohörregionen und zum Bereitstellen von Benutzerrückmeldung zeigt.
AUSFÜHRLICHE BESCHREIBUNG
Im Folgenden werden verschiedene Ausführungsformen unter Bezugnahme auf die beigefügten Zeichnungen ausführlicher beschrieben, die einen Teil hiervon bilden und die zur Veranschaulichung spezifische Ausführungsformen zeigen, mittels derer die Erfindung ausgeübt werden kann. Die Ausführungsformen können jedoch in vielen verschiedenen Formen realisiert werden und sollten nicht als auf die hier dargelegten Ausführungsformen beschränkt aufgefasst werden; stattdessen werden diese Ausführungsformen angegeben, so dass die vorliegende Offenbarung umfassend und vollständig ist, und werden Fachleuten den Schutzbereich der Ausführungsformen vollständig vermitteln. Unter anderem können die verschiedenen Ausführungsformen Verfahren, Systeme, Medien oder Vorrichtungen sein. Dementsprechend können die verschiedenen Ausführungsformen Ausführungsformen ganz in Hardware, Ausführungsformen ganz in Software oder Ausführungsformen, die Software- und Hardwareaspekte kombinieren, sein. Die folgende ausführliche Beschreibung sollte deshalb nicht beschränkend sein.
In der Beschreibung und in den Ansprüchen weisen die folgenden Ausdrücke durchweg die hier explizit zugeordneten Bedeutungen auf, sofern es der Kontext nicht deutlich anders vorschreibt. Der Ausdruck ”hier” bezieht sich auf die Beschreibung, die Ansprüche und die Zeichnungen, die der vorliegenden Anmeldung zugeordnet sind. Die Phrase ”bei einer Ausführungsform”, sowie sie hier gebraucht wird, bezieht sich nicht unbedingt auf dieselbe Ausführungsform, obwohl sie es kann. Ferner bezieht sich die Phrase ”bei einer anderen Ausführungsform”, so wie sie hier gebraucht wird, nicht unbedingt auf eine andere Ausführungsform, obwohl sie es kann. Wie nachfolgend beschrieben, können somit verschiedene Ausführungsformen der Erfindung ohne weiteres kombiniert werden, ohne vom Schutzbereich oder Wesen der Erfindung abzuweichen.
Außerdem ist im vorliegenden Gebrauch der Ausdruck ”oder” ein inklusiver ”oder”-Operator und ist dem Ausdruck ”und/oder” äquivalent, sofern es der Kontext nicht deutlich anders vorschreibt. Der Ausdruck ”basierend auf” ist nicht ausschließend und erlaubt, auf zusätzlichen Faktoren zu basieren, die nicht beschrieben werden, sofern es der Kontext nicht deutlich anders vorschreibt. Außerdem umfasst in der Beschreibung die Bedeutung von ”ein”, ”eine” und ”der/die/das” Pluralverweise. Die Bedeutung von ”in” umfasst ”in” und ”auf”.
Im vorliegenden Gebrauch kann sich der Ausdruck ”Lautsprecher-/Mikrofonsystem” auf ein System oder eine Vorrichtung beziehen, das bzw. die verwendet werden kann, um ”Freihand”-Telekommunikation zu ermöglichen. Eine beispielhafte Ausführungsform eines Lautsprecher-/Mikrofonsystems ist in 3 dargestellt. Kurz gefasst kann ein Lautsprecher-/Mikrofonsystem jedoch einen oder mehrere Lautsprecher, ein Mikrofonarray und mindestens einen Indikator umfassen. Bei bestimmten Ausführungsformen kann ein Lautsprecher-/Mikrofonsystem auch einen oder mehrere Aktivatoren umfassen.
Im vorliegenden Gebrauch kann sich der Ausdruck ”Mikrofonarray” auf mehrere Mikrofone eines Lautsprecher-/Mikrofonsystems beziehen. Jedes Mikrofon im Mikrofonarray kann so positioniert, ausgelegt und/oder angeordnet werden, dass ein physischer Raum neben dem Lautsprecher-/Mikrofonsystem konzeptuell/logisch in eine vorbestimmte Anzahl von Regionen aufgeteilt wird. Bei verschiedenen Ausführungsformen können ein oder mehrere Mikrofone einer Region entsprechen oder ihr zugeordnet sein.
Im vorliegenden Gebrauch kann sich der Ausdruck ”Region” oder ”Hörregion” auf einen Fokusbereich für ein oder mehrere Mikrofone des Mikrofonarrays beziehen, wobei das eine oder die mehreren Mikrofone in der Lage sein können, gerichtetes Hören zu gewährleisten, um Audiosignale aus einer gegebenen Richtung (z. B. aktiven Regionen) aufzunehmen, während Signale aus anderen Richtungen/Regionen (z. B. inaktiven Regionen) minimiert oder ignoriert werden. Bei verschiedenen Ausführungsformen können mehrere Strahlen für verschiedene Regionen gebildet werden, die wie Ohren wirken können, die sich auf eine spezifische Richtung konzentrieren. Im vorliegenden Gebrauch kann sich der Ausdruck ”aktive Region” auf eine Region beziehen, bei der die dieser Region zugeordneten Audiosignale als Benutzersprachsignale bezeichnet werden und in einem Ausgangssignal verstärkt werden können. Im vorliegenden Gebrauch kann sich der Ausdruck ”inaktive Region” auf eine Region beziehen, bei der die dieser Region zugeordneten Audiosignale als Rauschsignale bezeichnet werden und im Ausgangssignal unterdrückt, reduziert oder anderweitig gelöscht werden können.
Obwohl hier der Ausdruck inaktiv verwendet wird, erfassen inaktiven Regionen zugeordnete Mikrofone weiter Schall und erzeugen Audiosignale (z. B. zur Verwendung beim Detektieren von gesprochenen Triggerwörtern und/oder -phrasen).
Im vorliegenden Gebrauch kann sich der Ausdruck ”Trigger” auf eine Benutzereingabe beziehen, die eine Änderung eines Status einer oder mehrerer Regionen anfordert. Der Trigger kann von physischen Mitteln (z. B. durch Aktivieren eines Aktivators), Sprachbefehlen (z. B. spricht oder sagt ein Benutzer ein Triggerwort oder eine Triggerphrase) oder dergleichen eingegeben werden. Im vorliegenden Gebrauch kann sich der Ausdruck ”Aktivator” auf einen Mechanismus zum Empfangen von Eingaben aus einem Benutzer zum Modifizieren eines Status einer oder mehrerer Regionen (z. B. aktiv zu inaktiv oder inaktiv zu aktiv) beziehen. Beispiele für Aktivatoren wären, aber ohne Beschränkung darauf, Tasten; Schalter; Anzeigetasten; Symbole oder andere grafische oder Audiobenutzeroberflächen; Gesten oder andere Benutzerbewegungserfassungstechnologie; oder dergleichen.
Im vorliegenden Gebrauch kann sich der Ausdruck ”Indikator” auf eine Repräsentation des Status einer Region und/oder eine Qualität eines einer aktiven Region zugeordneten Signals beziehen, das einem Benutzer durch verschiedene grafische oder Audio-Benutzerschnittstellen bereitgestellt werden kann. Bei verschiedenen Ausführungsformen können Indikatoren eine visuelle Repräsentation sein, wie zum Beispiel Leuchtdioden (LEDs), Anzeigebildschirme oder dergleichen. Bei anderen Ausführungsformen können Indikatoren Audioindikatoren oder -aufforderungen umfassen, wie zum Beispiel ”Region eins ist nun aktiv”, ”schlechte Signalqualität, bitte näher ans Mikrofon bewegen” oder dergleichen. Bei bestimmten Ausführungsformen kann jede Region einen entsprechenden Indikator aufweisen, um einem Benutzer den Status einer Region, z. B. aktiv oder inaktiv, zu präsentieren. Bei anderen Ausführungsformen kann jede Region einen entsprechenden Indikator aufweisen, um dem Benutzer die Qualität von Signalen (z. B. einen Rauschabstand (SNR)) dieser Region zu präsentieren. Bei bestimmten Ausführungsformen können der Region-Status-Indikator und der Signalqualitätsindikator derselbe Indikator oder getrennte Indikatoren sein. Es können verschiedene unterschiedliche Farben, unterschiedliche Lichtintensitäten, unterschiedliche Blinkschemata/-Muster oder dergleichen verwendet werden, um verschiedene Status und/oder Signalqualitäten einer Region anzugeben.
Das Folgende beschreibt kurz Ausführungsformen der Erfindung, um ein Grundverständnis bestimmter Aspekte der Erfindung bereitzustellen. Diese kurze Beschreibung ist nicht als extensive Übersicht gedacht. Sie soll nicht Schlüssel- oder kritische Elemente identifizieren und auch nicht den Schutzbereich abgrenzen oder anderweitig schmälern. Ihr Zweck ist lediglich das Präsentieren bestimmter Konzepte in vereinfachter Form als Einleitung für die ausführlichere Beschreibung, die später präsentiert wird.
Kurz gefasst betreffen verschiedene Ausführungsformen ein Lautsprecher-/Mikrofonsystem, das gerichtete Sprachanhebung und Geräuschverminderung bereitstellt. Das System kann einen Lautsprecher zum Ausgeben von Schall/Audio an einen Benutzer umfassen. Das System kann auch ein Mikrofonarray umfassen, das mehrere Mikrofone umfasst. Mit jedem mehrerer Mikrofone kann mindestens ein Audiosignal auf der Basis von Schall erzeugt werden, der in einem physischen Raum relativ zum System und/oder Benutzer erfasst wird. Die mehreren Mikrofone können so ausgelegt werden, dass der physische Raum logisch in mehrere Hörregionen definiert wird und wobei jeder Status für jede Hörregion logisch als aktiv oder inaktiv definiert ist. Aus den Audiosignalen kann ein Ausgangssignal erzeugt werden, so dass gerichtete Geräuschminderung an jedem jeder inaktiven Hörregion zugeordneten Audiosignal ausgeführt werden kann und an jedem jeder aktiven Hörregion zugeordneten Audiosignal Sprachanhebung ausgeführt werden kann.
Ein aktueller Status wenigstens einer der mehreren Hörregionen kann auf der Basis einer Anforderung, den aktuellen Status in seinen entgegengesetzten Status umzuändern, modifiziert werden. Bei verschiedenen Ausführungsformen kann die Modifikation des aktuellen Status einer Hörregion Modifikation eines aktuellen Status wenigstens einer anderen Hörregion zu ihrem entgegengesetzten Status triggern. Bei bestimmten Ausführungsformen können wenigstens die jeder inaktiven Hörregion zugeordneten Audiosignale auf ein gesprochenes Wort überwacht werden, das wirkt, um die Anforderung, den aktuellen Status zu ändern, zu triggern. Bei wenigstens einer der verschiedenen Ausführungsformen kann wenigstens das wenigstens eine jeder inaktiven Hörregion zugeordnete Signal auf ein gesprochenes Wort überwacht werden, das die Anforderung triggert, wobei ein erstes überwachtes gesprochenes Wort Aktivierung einer inaktiven Hörregion triggert und gleichzeitig Deaktivierung einer aktiven Hörregion triggert und wobei ein zweites überwachtes gesprochenes Wort Aktivierung der inaktiven Hörregion triggert und der aktuelle Status jeder anderen Hörregion unverändert bleibt. Bei anderen Ausführungsformen kann die Anforderung zum Statuswechsel durch eine Aktion des Benutzers an wenigstens einem von mehreren Aktivatoren getriggert werden, wobei jeder Aktivator wenigstens einer verschiedenen Hörregion entspricht.
Einem Benutzer kann eine Angabe hinsichtlich jedes aktuellen Status für jede der mehreren Hörregionen bereitgestellt werden. Bei bestimmten Ausführungsformen kann dem Benutzer eine andere Angabe hinsichtlich einer Qualität der jeder aktiven Hörregion zugeordneten Audiosignale bereitgestellt werden. Bei verschiedenen Ausführungsformen kann dem Benutzer eine grafische Benutzeroberfläche bereitgestellt werden, die einen Aktivator und einen Indikator für jede der mehreren Hörregionen umfassen kann, wobei jeder Aktivator dem Benutzer ermöglicht, den aktuellen Status für wenigstens eine entsprechende Hörregion zu aktivieren oder zu inaktivieren, und jeder Indikator eine jeder aktiven Hörregion zugeordnete Audiosignalqualität repräsentiert.
Beispielhaftes Betriebsumfeld
1 zeigt Komponenten einer Ausführungsform eines Umfelds, in dem verschiedene Ausführungsformen der Erfindung praktiziert werden können. Nicht alle Komponenten können zum Praktizieren der verschiedenen Ausführungsformen erforderlich sein, und es können Abwandlungen der Anordnung und Art der Komponenten vorgenommen werden, ohne vom Wesen oder Schutzbereich der Erfindung abzuweichen. Wie gezeigt, kann das System 100 von 1 ein Lautsprecher-/Mikrofonsystem 110, entfernte Computer 102–105 und Kommunikationstechnologie 108 umfassen.
Wenigstens eine Ausführungsform der entfernten Computer 102–105 wird im Folgenden ausführlicher in Verbindung mit dem Computer 200 von 2 beschrieben. Kurz gefasst können bei bestimmten Ausführungsformen die entfernten Computer 102–105 für Kommunikation mit dem Lautsprecher-/Mikrofonsystem 110 ausgelegt sein, um Freihand-Telekommunikation mit anderen Vorrichtungen zu ermöglichen, während Hörregionverfolgung mit Benutzerrückmeldung wie hier beschrieben bereitgestellt wird.
Bei bestimmten Ausführungsformen können wenigstens bestimmte der entfernten Computer 102–105 über ein drahtgebundenes und/oder drahtloses Netzwerk (z. B. Kommunikationstechnologie 108) wirken, um mit anderen Datenverarbeitungsvorrichtungen oder dem Lautsprecher-/Mikrofonsystem 110 zu kommunizieren. Im Allgemeinen können die entfernten Computer 102–105 Datenverarbeitungsvorrichtungen umfassen, die in der Lage sind, über ein Netzwerk zu kommunizieren, um Informationen zu senden und/oder zu empfangen, verschiedene Online- und/oder Offline-Aktivitäten durchzuführen oder dergleichen. Es versteht sich, dass hier beschriebene Ausführungsformen nicht durch die Anzahl oder Art verwendeter entfernter Computer eingeschränkt werden und mehr oder weniger entfernte Computer und/oder Arten von entfernten Computern als in 1 dargestellt verwendet werden können.
Vorrichtungen, die als entfernte Computer 102–105 wirken können, wären verschiedene Datenverarbeitungsvorrichtungen, die sich typischerweise unter Verwendung eines drahtgebundenen und/oder drahtlosen Kommunikationsmediums mit einem Netzwerk oder einer anderen Datenverarbeitungsvorrichtung verbinden. Entfernte Computer können tragbare und/oder nicht tragbare Computer umfassen. Bei bestimmten Ausführungsformen können die entfernten Computer Client-Computer, Server-Computer oder dergleichen umfassen. Beispiele für entfernte Computer 102–105 wären, aber ohne Beschränkung darauf, Desktop-Computer (z. B. der entfernte Computer 102), Personal Computer, Mehrprozessorsysteme, mikroprozessorgestützte oder programmierbare elektronische Vorrichtungen, Netzwerk-PCs, Laptop-Computer (z. B. der entfernte Computer 103), Smartphones (z. B. der entfernte Computer 104), Tablet-Computer (z. B. der entfernte Computer 105), Mobiltelefone, Anzeige-Pager, Hochfrequenz- bzw. HF-Vorrichtungen, Infrarot- bzw. IR-Vorrichtungen, PDAs (Personal Digital Assistants), in der Hand gehaltene Computer, tragbare Datenverarbeitungsvorrichtungen, Unterhaltungs-/Hausmediensysteme (z. B. Fernseher, Spielkonsolen, Audiogeräte oder dergleichen), Haushaltsgeräte (z. B. Thermostate, Kühlschränke, Haussicherheitssysteme oder dergleichen), Multimedia-Navigationssysteme, Kraftfahrzeugkommunikations- und -unterhaltungssysteme, integrierte Vorrichtungen, die Funktionalität einer oder mehrerer der vorhergehenden Vorrichtungen kombinieren, oder dergleichen. Dementsprechend können die entfernten Computer 102–105 Computer mit vielfältigen Fähigkeiten und Merkmalen umfassen.
Die entfernten Computer 102–105 können auf verschiedene Datenverarbeitungsanwendungen zugreifen und/oder diese verwenden, um Benutzern von entfernten Computern zu ermöglichen, verschiedene Online- und/oder Offline-Aktivitäten durchzuführen. Solche Aktivitäten wären zum Beispiel, aber ohne Beschränkung darauf, Erzeugen von Dokumenten, Sammeln/Überwachen von Daten, Aufnehmen/Manipulieren von Bildern, Verwalten von Medien, Verwalten von Finanzinformationen, Spielspielen, Verwalten persönlicher Informationen, Browsen im Internet oder dergleichen. Bei bestimmten Ausführungsformen können die entfernten Computer 102–105 in der Lage sein, sich durch einen Browser oder eine andere webgestützte Anwendung mit einem Netzwerk zu verbinden.
Die enternten Computer 102–105 können ferner ausgelegt sein zum Bereitstellen von Informationen, die den entfernten Computer identifizieren. Solche Identifizierungsinformationen wären zum Beispiel, aber ohne Beschränkung darauf, ein Typ, eine Fähigkeit, eine Konfiguration, ein Name oder dergleichen des entfernten Computers. Bei wenigstens einer Ausführungsform kann sich ein entfernter Computer durch einen beliebigen von vielfältigen Mechanismen eindeutig identifizieren, wie etwa eine Internetprotokoll- bzw. IP-Adresse, Telefonnummer, MIN (Mobile Identification Number), MAC-Adresse (Media Access Control), ESN (Electronic Serial Number) oder eine andere Vorrichtungskennung.
Wenigstens eine Ausführungsform des Lautsprecher-/Mikrofonsystems 110 wird nachfolgend in Verbindung mit dem Computer 300 von 3 ausführlicher beschrieben. Kurz gefasst kann bei bestimmten Ausführungsformen das Lautsprecher-/Mikrofonsystem 110 für Kommunikation mit einem oder mehreren entfernten Computern 102–105 ausgelegt sein, um entfernte, Freihand-Telekommunikation mit anderen bereitzustellen, während Hörregionverfolgung mit Benutzerrückmeldung ermöglicht wird. Das Lautsprecher-/Mikrofonsystem 110 kann im Allgemeinen ein Mikrofonarray, einen Lautsprecher, einen oder mehrere Indikatoren und einen oder mehrere Aktivatoren umfassen. Beispiele für das Lautsprecher-/Mikrofonsystem 110 wären, aber ohne Beschränkung darauf, ein Bluetooth-Soundbar oder -Lautsprecher mit Telefonanrufunterstützung, Karaokemaschinen mit eingebautem Mikrofon, Heimkinosysteme, Mobiltelefone oder dergleichen.
Die entfernten Computer 102–105 können über Kommunikationstechnologie 108 mit dem Lautsprecher-/Mikrofonsystem 110 kommunizieren. Bei verschiedenen Ausführungsformen kann die Kommunikationstechnologie 108 eine drahtgebundene Technologie sein, wie etwa, aber ohne Beschränkung darauf, ein Kabel mit einem Stecker zum Verbinden mit einem Audioeingangs-/-ausgangsport an entfernten Vorrichtungen 102–105 (ein solcher Stecker wäre zum Beispiel, aber ohne Beschränkung darauf, ein typischer Kopfhörerstecker, eine USB-Verbindung oder ein anderer geeigneter Computerverbinder). Bei anderen Ausführungsformen kann die Kommunikationstechnologie 108 eine drahtlose Kommunikationstechnologie sein, die praktisch jede drahtlose Technologie zur Kommunikation mit einer entfernten Vorrichtung umfassen kann, wie etwa, aber ohne Beschränkung darauf, Bluetooth, WiFi oder dergleichen.
Bei bestimmten Ausführungsformen kann die Kommunikationstechnologie 108 ein Netzwerk sein, ausgelegt zum Koppeln von Netzwerkcomputern mit anderen Datenverarbeitungsvorrichtungen, darunter die entfernten Computer 102–105, das Lautsprecher-/Mikrofonsystem 110 oder dergleichen. Bei verschiedenen Ausführungsformen können zwischen Vorrichtungen übermittelte Informationen verschiedene Arten von Informationen umfassen, darunter, aber ohne Beschränkung darauf, prozessorlesbare Anweisungen, Fernanforderungen, Serverantworten, Programmmodule, Anwendungen, Rohdaten, Steuerdaten, Systeminformationen (z. B. Log-Dateien), Videodaten, Sprachdaten, Bilddaten, Textdaten, strukturierte/unstrukturierte Daten oder dergleichen. Bei bestimmten Ausführungsformen können diese Informationen unter Verwendung einer oder mehrerer Technologien und/oder Netzwerkprotokolle zwischen Vorrichtungen übermittelt werden.
Bei bestimmten Ausführungsformen kann ein solches Netzwerk verschiedene drahtgebundene Netzwerke, drahtlose Netzwerke oder eine beliebige Kombination davon umfassen. Bei verschiedenen Ausführungsformen kann das Netzwerk in der Lage sein, verschiedene Formen von Kommunikationstechnologie, Topologie, computerlesbaren Medien oder dergleichen zum Übermitteln von Informationen von einer elektronischen Vorrichtung zur anderen zu verwenden. Zum Beispiel kann das Netzwerk – zusätzlich zum Internet – LAN, WAN, persönliche Netzwerke (PAN), Campusnetzwerke (CAN), städtische Netzwerke (MAN), direkte Kommunikationsverbindungen (wie etwa durch einen USB-Port (Universal Serial Bus)) oder dergleichen oder eine beliebige Kombination davon umfassen.
Bei verschiedenen Ausführungsformen wären Kommunikationsverbindungen in und/oder zwischen Netzwerken zum Beispiel, aber ohne Beschränkung darauf, verdrillte Doppelleitungen, optische Fasern, Freiluftlaser, Koaxialkabel, Analog-Telefondienst (POTS), Wellenleiter, Akustik, voll oder teilweise dedizierte digitale Leitungen (wie T1, T2, T3 oder T4), E-Träger, ISDN (diensteintegrierte digitale Netzwerke), digitale Teilnehmeranschüsse (DSL), drahtlose Verbindungen (darunter Satellitenverbindungen) oder andere Verbindungen und/oder Trägermechanismen, die Fachleuten bekannt sind. Außerdem können Kommunikationsverbindungen eine beliebige von vielfältigen digitalen Signalisierungstechnologien verwenden, darunter ohne Beschränkung zum Beispiel DS-0, DS-1, DS-2, DS-3, DS-4, OC-3, OC-12, OC-48 oder dergleichen. Bei bestimmten Ausführungsformen kann ein Router (oder eine andere Zwischennetzwerkvorrichtung) als Verbindung zwischen verschiedenen Netzwerken – einschließlich der auf verschiedenen Architekturen und/oder Protokollen basierenden – wirken, um den Transfer von Informationen von einem Netzwerk zum anderen zu ermöglichen. Bei anderen Ausführungsformen könnten entfernte Computer und/oder andere diesbezügliche elektronische Vorrichtungen über ein Moden und eine temporäre Telefonverbindung mit einem Netzwerk verbunden werden. Im Prinzip kann das Netzwerk eine beliebige Kommunikationstechnologie umfassen, mittels derer Informationen zwischen Datenverarbeitungsvorrichtungen wandern können.
Das Netzwerk kann bei bestimmten Ausführungsformen verschiedene drahtlose Netzwerke umfassen, die ausgelegt sein können, verschiedene tragbare Netzwerkvorrichtungen, entfernte Computer, drahtgebundene Netzwerke, andere drahtlose Netzwerke oder dergleichen zu koppeln. Drahtlose Netzwerke können ein beliebiges von vielfältigen Subnetzwerken umfassen, die ferner selbständigen ad-hoc-Netzwerken oder dergleichen überlagert sein können, um eine infrastrukturorientierte Verbindung für wenigstens die entfernten Computer 103–105 bereitzustellen. Solche Subnetzwerke können Mesh-Netzwerke, drahtlose LAN(WLAN-)Netzwerke, Mobilfunknetze oder dergleichen umfassen. Bei wenigstens einer der verschiedenen Ausführungsformen kann das System mehr als ein drahtloses Netzwerk umfassen.
Das Netzwerk kann mehrere drahtgebundene und/oder drahtlose Kommunikationsprotokolle und/oder Technologien verwenden. Beispiele für verschiedene Generationen (z. B. dritte (3G), vierte (4G) oder fünfte (5G)) von Kommunikationsprotokollen und/oder Technologien, die vom Netzwerk verwendet werden können, wären, aber ohne Beschränkung darauf, GSM (Global System for Mobile Communication), GPRS (General Packet Radio Services), EDGE (Enhanced Data GSM Environment), CDMA (Code Division Multiple Access), W-CDMA (Wideband Code Division Multiple Access, CDMA2000 (Code Division Multiple Access 2000), HSDPA (High Speed Downlink Packet Access), LTE (Long Term Evolution), UMTS (Universal Mobile Telecommunications System), Ev-DO (Evolution-Data Optimized), WiMax (Worldwide Interoperability for Microwave Access), TDMA (Time Division Multiple Access), OFDM (Orthogonal Frequency-Division Multiplexing), UWB (Ultra Wide Band), WAP (Wireless Application Protocol), UDP (User Datagram Protocol), TCP/IP (Transmission Control Protocol/Internet Protocol), ein beliebiger Teil der Protokolle des OSI-Modells (Open Systems Interconnection), SIP/RTP (Session Initiated Protocol/Real-Time Transport Protocol), SMS (Short Message Service), MMS (Multimedia Messaging Service) oder beliebige von vielfältigen anderen Kommunikationsprotokollen und/oder Technologien. Im Prinzip kann das Netzwerk Kommunikationstechnologien umfassen, mittels derer sich Informationen zwischen den entfernten Computern 102–105, dem Lautsprecher-/Mikrofonsystem 110, nicht dargestellten anderen Datenverarbeitungsvorrichtungen, anderen Netzwerken oder dergleichen ausbreiten können.
Bei verschiedenen Ausführungsformen kann wenigstens ein Teil des Netzwerks als autonomes System von Knoten, Verbindungen, Pfaden, Endgeräten, Gateways, Routern, Switches, Firewalls, Lastausgleichern, Weiterleitern, Repeatern, Umsetzern von optisch in elektrisch oder dergleichen ausgelegt sein, die von verschiedenen Kommunikationsverbindungen verbunden werden können. Diese autonomen Systeme können ausgelegt sein, sich selbst auf der Basis aktueller Betriebsbedingungen und/oder auf Regeln basierender Richtlinien zu organisieren, so dass die Netzwerktopologie des Netzwerks modifiziert werden kann.
Beispielhafter Netzwerkcomputer
2 zeigt eine Ausführungsform des entfernten Computers 200, die viel mehr oder weniger Komponenten als die gezeigten umfassen kann. Der entfernte Computer 200 kann zum Beispiel wenigstens eine Ausführungsform der in 1 gezeigten entfernten Computer 102–105 repräsentieren.
Der enfternte Computer 200 kann einen Prozessor 202 in Kommunikation mit Speicher 204 über den Bus 228 umfassen. Der entfernte Computer 200 kann auch eine Energieversorgung 230, eine Netzwerkschnittstelle 232, eine prozessorlesbare stationäre Speichervorrichtung 234, eine prozessorlesbare Wechselspeichervorrichtung 236, eine Eingabe-/Ausgabeschnittstelle 238, Kamera(s) 240, eine Videoschnittstelle 242, eine Berührungsschnittstelle 244, einen Projektor 246, eine Anzeige 250, ein Tastenfeld 252, einen Illuminator 254, eine Audioschnittstelle 256, einen GPS-Empfänger (Global Positioning Systems) 258, eine Freiluftgestenschnittstelle 260, eine Temperaturschnittstelle 262, eine haptische Schnittstelle 264 und eine Zeigevorrichtungsschnittstelle 266 umfassen. Gegebenenfalls kann der entfernte Computer 200 mit einer (nicht gezeigten) Basisstation oder direkt mit einem anderen Computer kommunizieren. Und bei einer Ausführungsform kann, obwohl es nicht gezeigt ist, ein Gyroskop, ein Beschleunigungsmesser oder eine andere (nicht dargestellte) Technologie im entfernten Computer 200 verwendet werden, um eine Orientierung des entfernten Computers 200 zu messen und/oder aufrechtzuerhalten.
Die Energieversorgung 230 kann dem entfernten Computer 200 Energie bereitstellen. Zur Bereitstellung von Energie kann eine wiederaufladbare oder nicht wiederaufladbare Batterie verwendet werden. Die Energie kann auch von einer externen Energiequelle bereitgestellt werden, wie etwa einem Wechselstromadapter oder einer mit Energie versorgten Dockschale, die die Batterie ergänzt und/oder wiederauflädt.
Die Netzwerkschnittstelle 232 umfasst Schaltungen zum Koppeln des entfernten Computers 200 mit einem oder mehreren Netzwerken und ist für Verwendung mit einem oder mehreren Kommunikationsprotokollen und einer oder mehreren Technologien konstruiert, darunter, aber ohne Beschränkung darauf, Protokolle und Technologien, die einen beliebigen Teil des OSI-Modells, GSM, CDMA, TDMA (Time Division Multiple Access), UDP, TCP/IP, SMS, MMS, GPRS, WAP, UWB, WiMax, SIP/RTP, GPRS, EDGE, WCDMA, LTE, UMTS, OFDM, CDMA2000, EV-DO, HSDPA oder beliebige von vielfältigen anderen drahtlosen Kommunikationsprotokollen implementieren. Die Netzwerkschnittstelle 232 ist manchmal als Sendeempfänger, Sende-/Empfangsvorrichtung oder Netzwerkschnittstellenkarte (NIC) bekannt.
Die Audioschnittstelle 256 kann ausgelegt sein zum Produzieren und Empfangen von Audiosignalen wie etwa des Klangs einer menschlichen Stimme. Zum Beispiel kann die Audioschnittstelle 256 mit einem Lautsprecher und Mikrofon (nicht gezeigt) gekoppelt sein, um Telekommunikation mit anderen zu ermöglichen und/oder eine Audiobestätigung einer bestimmten Aktion zu erzeugen. Ein Mikrofon in der Audioschnittstelle 256 kann auch für Eingabe in den entfernten Computer 200 oder Steuerung dieses verwendet werden, z. B. unter Verwendung von Spracherkennung, Detektion von Berührung auf der Basis von Schall und dergleichen. Bei bestimmten Ausführungsformen kann die Audioschnittstelle 256 wirken, um mit dem Lautsprecher-/Mikrofonsystem 300 von 3 zu kommunizieren.
Die Anzeige 250 kann eine Flüssigkristallanzeige(LCD)-, Gasplasma-, e-Ink-, Leuchtdioden(LED)-, organische LED(OLED)- oder eine beliebige andere Art von lichtreflektierender oder lichtdurchlässiger Anzeige sein, die mit einem Computer verwendet werden kann. Die Anzeige 250 kann auch eine Berührungsschnittstelle 244 umfassen, die ausgelegt ist, Eingaben von einem Objekt wie einem Stift oder einem Finger einer menschlichen Hand zu erhalten, und kann resistive, kapazitive, Oberflächenwellen(SAB)-, Infrarot-, Radar- oder andere Technologien zur Erfassung von Berührung und/oder Gesten verwenden.
Der Projektor 246 kann ein entfernter in der Hand gehaltener Projektor oder ein integrierter Projektor sein, der ein Bild auf eine entfernte Wand oder ein beliebiges anderes reflektierendes Objekt, wie etwa eine entfernte Leinwand, projizieren kann.
Die Videoschnittstelle 242 kann ausgelegt sein zum Erfassen von Videobildern, wie etwa eines Standphotos, eines Videosegments, eines Infrarotvideos oder dergleichen. Zum Beispiel kann die Videoschnittstelle 242 mit einer digitalen Videokamera, einer Webkamera oder dergleichen gekoppelt sein. Die Videoschnittstelle 242 kann eine Linse, einen Bildsensor und andere Elektronik umfassen. Bildsensoren können eine integrierte CMOS-Schaltung (Complementary Metal-Oxide-Semiconductor), eine CCD-Vorrichtung (Charge-Coupled Device) oder eine beliebige andere integrierte Schaltung zum Erfassen von Licht umfassen.
Das Tastenfeld 252 kann eine beliebige zum Empfangen von Eingaben von einem Benutzer ausgelegte Eingabevorrichtung umfassen. Zum Beispiel kann das Tastenfeld 252 eine numerische Drucktastenfläche oder eine Tastatur umfassen. Das Tastenfeld 252 kann auch Befehlstasten umfassen, die dem Auswählen und Senden von Bildern zugeordnet sind.
Der Illuminator 254 kann eine Statusanzeige bereitstellen und/oder Licht bereitstellen. Der Illuminator 254 kann für spezielle Zeiträume oder in Reaktion auf Ereignisse aktiv bleiben. Wenn zum Beispiel der Illuminator 254 aktiv ist, kann er den Hintergrund der Tasten auf dem Tastenfeld 252 beleuchten und eingeschaltet bleiben, während der mobile Computer mit Energie versorgt wird. Außerdem kann der Illuminator 254 den Hintergrund dieser Tasten in verschiedenen Mustern beleuchten, wenn bestimmte Aktionen ausgeführt werden, wie etwa Anwählen eines anderen mobilen Computers. Der Illuminator 254 kann auch bewirken, dass in einer transparenten oder durchscheinenden Hülle des mobilen Computers positionierte Lichtquellen in Reaktion auf Aktionen aufleuchten.
Der enfternte Computer 200 kann auch eine Eingabe-/Ausgabeschnittstelle 238 zum Kommunizieren mit externen Peripherievorrichtungen oder anderen Computern wie etwa mobilen Computern und Netzwerkcomputern umfassen. Die Peripherievorrichtungen wären ein entferntes Lautsprecher-/Mikrofonsystem (z. B. Vorrichtung 300 von 3), Kopfhörer, Anzeigebildschirmbrillen, ein entferntes Lautsprechersystem oder dergleichen. Die Eingabe-/Ausgabeschnittstelle 238 kann eine oder mehrere Technologien benutzen, wie etwa USB (Universal Serial Bus), Infrarot, WiFi, WiMax, Bluetooth^TM, drahtgebundene Technologien oder dergleichen.
Die haptische Schnittstelle 264 kann ausgelegt sein, einem Benutzer eines mobilen Computers fühlbare Rückmeldung bereitzustellen. Zum Beispiel kann die haptische Schnittstelle 264 verwendet werden, um den entfernten Computer 200 auf eine besondere Weise vibrieren zu lassen, wenn ein anderer Benutzer eines Computers anruft. Mit der Temperaturschnittstelle 262 kann einem Benutzer des entfernten Computers 200 eine Temperaturmesseingabe und/oder eine Temperaturänderungsausgabe bereitgestellt werden. Die Freiluft-Gestenschnittstelle 260 kann physische Gesten eines Benutzers des entfernten Computers 200 erfassen, zum Beispiel durch Verwendung von Einzel- oder Stereovideokameras, Radar, eines Kreiselsensors in einem vom Benutzer gehaltenen oder getragenen Computer oder dergleichen. Mit der Kamera 240 können physische Augenbewegungen eines Benutzers des entfernten Computers 200 verfolgt werden.
Der GPS-Sendeempfänger 258 kann die physischen Koordinaten des entfernten Computers 200 auf der Erdoberfläche bestimmen, wodurch typischerweise ein Ort als Breiten- und Längengradwerte ausgegeben wird. Der GPS-Sendeempfänger 258 kann auch andere Geopositionsbestimmungsmechanismen verwenden, darunter, aber ohne Beschränkung darauf, Triangulation, unterstütztes GPS (AGPS), E-OTD (Enhanced Observed Time Difference), CI (Cell Identifier), SAI (Service Area Identifier), ETA (Enhanced Timing Advance), BSS (Base Station Subsystem) oder dergleichen, um den physischen Ort des entfernten Computers 200 auf der Erdoberfläche weiter zu bestimmen. Es versteht sich, dass unter verschiedenen Bedingungen der GPS-Sendeempfänger 258 einen physischen Ort für den entfernten Computer 200 bestimmen kann. Bei mindestens einer Ausführungsform kann der entfernte Computer 200 jedoch mittels anderer Komponenten andere Informationen bereitstellen, mit denen ein physischer Ort des mobilen Computers bestimmt werden kann, darunter zum Beispiel eine MAC-Adresse (Media Access Control), eine IP-Adresse und dergleichen.
Menschen-Schnittstellenkomponenten können Peripheriegeräte sein, die physisch vom entfernten Computer 200 getrennt sind, wodurch Ferneingabe und/oder -ausgabe in den entfernten Computer 200 möglich wird. Zum Beispiel können Informationen, die wie hier beschrieben mittels Menschen-Schnittstellenkomponenten, wie etwa der Anzeige 250 oder der Tastatur 252 geroutet werden, stattdessen mittels der Netzwerkschnittstelle 232 zu entsprechenden Menschen-Schnittstellenkomponenten geroutet werden, die entfernt angeordnet sind. Beispiele für Menschen-Schnittstellen-Peripheriekomponenten, die entfernt sein können, wären, aber ohne Beschränkung darauf, Audiovorrichtungen, Zeigevorrichtungen, Tastenfelder, Anzeigen, Kameras, Projektoren und dergleichen. Diese Peripheriekomponenten können über ein Pico-Netzwerk, wie etwa Bluetooth^TM, Zigbee^TM und dergleichen, kommunizieren. Ein nichteinschränkendes Beispiel für einen mobilen Computer mit solchen Peripherie-Menschen-Schnittstellenkomponenten ist ein tragbarer Computer, der einen entfernten Pico-Projektor zusammen mit einer oder mehreren Kameras umfassen könnte, die mit einem getrennt angeordneten mobilen Computer fernkommunizieren, um Gesten eines Benutzers in Richtung von Teilen eines durch den Pico-Projektor auf eine reflektierende Oberfläche, wie etwa eine Wand oder die Hand eines Benutzers projizierten Bildes zu erfassen.
Ein mobiler Computer kann eine Browser-Anwendung umfassen, die ausgelegt ist zum Empfangen und Senden von Webseiten, webgestützten Nachrichten, Grafiken, Text, Multimedia und dergleichen. Die Browser-Anwendung des mobilen Computers kann praktisch jede Programmiersprache verwenden, einschließlich WAP-Nachrichten (Wireless Application Protocol) und dergleichen. Bei mindestens einer Ausführungsform ist die Browser-Anwendung in der Lage, HDML (Handheld Device Markup Language) WML (Wirelss Markup Language), WMLScript, JavaScript, SGML (Standard Generalized Markup Language), HTML (HyperText Markup Language), XML (eXtensible Markup Language), HTML5 und dergleichen zu verwenden.
Der Speicher 204 kann RAM, ROM und/oder andere Arten von Speicher umfassen. Der Speicher 204 zeigt ein Beispiel für computerlesbare Speichermedien (Vorrichtungen) zum Speichern von Informationen, wie z. B. computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen oder anderen Daten. Der Speicher 204 kann ein BIOS 208 zum Steuern des Betriebs des entfernten Computers 200 auf niedriger Ebene speichern. Der Speicher kann auch ein Betriebssystem 206 zum Steuern des Betriebs des entfernten Computers 200 speichern. Es versteht sich, dass diese Komponente ein Vielzweck-Betriebssystem umfassen kann (z. B. eine Version von Windows oder Windows Phone^TM der Microsoft Corporation, OSX^TM oder iOS^TM der Apple Corporation, Android, UNIX, LINUX^TM der Google Corporation oder dergleichen). Bei anderen Ausführungsformen kann das Betriebssystem 206 ein kundenspezifisches oder anderweitig spezialisiertes Betriebssystem sein. Die Betriebssystemfunktionalität kann von einer oder mehreren Bibliotheken, Modulen, Plugins oder dergleichen erweitert werden.
Der Speicher 204 kann ferner eine oder mehrere Datenspeicherungen 210 umfassen, die vom entfernten Computer 200 benutzt werden können, um unter anderem Anwendungen 220 und/oder andere Daten zu speichern. Zum Beispiel kann die Datenspeicherung 210 auch verwendet werden, um Informationen zu speichern, die verschiedene Fähigkeiten des entfernten Computers 200 beschreiben. Die Informationen können dann einer anderen Vorrichtung oder einem anderen Computer auf der Basis vielfältiger Ereignisse zugeführt werden, darunter das Senden als Teil eines Headers während einer Kommunikation, Senden auf Anforderung oder dergleichen. Die Datenspeicherung 210 kann auch zum Speichern von Sozialvernetzungs-Informationen verwendet werden, darunter Adressbücher, Listen von Freunden, Alias-Namen, Benutzerprofilinformationen oder dergleichen. Die Datenspeicherung 210 kann ferner Programmcode, Daten, Algorithmen und dergleichen zur Verwendung von einem Prozessor umfassen, wie etwa dem Prozessor 202, um Aktionen auszuführen und durchzuführen. Bei einer Ausführungsform könnte auch wenigstens ein Teil der Datenspeicherung 210 auf einer anderen Komponente des entfernten Computers 200 gespeichert werden, darunter, aber ohne Beschränkung darauf, eine nichtflüchtige prozessorlesbare wechselbare Speichervorrichtung 236, eine prozessorlesbare stationäre Speichervorrichtung 234, oder sogar außerhalb des mobilen Computers.
Die Anwendungen 220 können computerausführbare Anweisungen umfassen, die, wenn die vom mobilen Computer 200 ausgeführt werden, Anweisungen und Daten senden, empfangen und/oder anderweitig verarbeiten. Beispiele für Anwendungsprogramme wären, aber ohne Beschränkung darauf, Kalender, Suchprogramme, E-Mail-Client-Anwendungen, IM-Anwendungen, SMS-Anwendungen, VOIP-Anwendungen (Voice Over Internet Protocol), Kontaktmanager, Aufgabenmanager, Transcoder, Datenbankprogramme, Textverarbeitungsprogramme, Sicherheitsanwendungen, Tabellenkalkulationsprogramme, Spiele, Suchprogramme und so weiter.
Beispielhaftes Lautsprecher-/Mikrofonsystem
3 zeigt eine Ausführungsform des Lautsprecher-/Mikrofonsystems 300, die viel mehr oder weniger Komponenten als die gezeigten umfassen kann. Das System 300 kann zum Beispiel wenigstens eine Ausführungsform des in 1 gezeigten Lautsprecher-/Mikrofonsystems 110 repräsentieren. Bei verschiedenen Ausführungsformen kann das System 300 bezüglich einer anderen Vorrichtung, wie etwa des entfernten Computers 200 von 2, entfernt (z. B. physisch getrennt) angeordnet sein.
Obwohl das Lautsprecher-/Mikrofonsystem 300 als eine einzige Vorrichtung dargestellt ist – wie etwa als entferntes Lautsprechersystem mit Freihand-Telekommunikationsfähigkeit (umfasst z. B. einen Lautsprecher, ein Mikrofon und Bluetooth-Fähigkeit, um einem Benutzer Telekommunikation mit anderen zu ermöglichen) – sind Ausführungsformen nicht darauf beschränkt. Zum Beispiel kann bei bestimmten anderen Ausführungsformen das Lautsprecher-/Mikrofonsystem 300 als mehrere getrennte Vorrichtungen verwendet werden, wie etwa ein entferntes Lautsprechersystem und ein getrenntes entferntes Mikrofon, die zusammen ausgelegt sein können, um Freihand-Telekommunikation zu ermöglichen. Obwohl Ausführungsformen hauptsächlich als Smartphone beschrieben werden, das einen entfernten Lautsprecher mit Mikrofonsystem benutzt, sind Ausführungsformen nicht darauf beschränkt. Stattdessen können hier beschriebene Ausführungsformen in anderen Systemen verwendet werden, wie etwa, aber ohne Beschränkung darauf, Soundbars mit Telefonanruffähigkeit, Heimkinosystemen mit Telefonanruffähigkeit, Mobiltelefonen mit Freisprechvorrichtungsfähigkeit, Kraftfahrzeugvorrichtungen mit Freihand-Telefonanruffähigkeit oder dergleichen.
Auf jeden Fall kann das System 300 einen Prozessor 302 in Kommunikation mit Speicher 304 über einen Bus 310 umfassen. Das System 300 kann auch eine Energieversorgung 312, eine Eingabe-/Ausgabeschnittstelle 320, einen Lautsprecher 322, ein Mikrofonarray 324, Indikator(en) 326, Aktivator(en) 328, prozessorlesbare Speichervorrichtung 316 umfassen. Bei bestimmten Ausführungsformen kann der Prozessor 302 (in Verbindung mit dem Speicher 304) als digitaler Signalprozessor im System 300 verwendet werden. Also kann das System 300 bei bestimmten Ausführungsformen den Lautsprecher 322, das Mikrofonarray 324 und einen Chip umfassen (man beachte, das ein solches System andere Komponenten umfassen kann, wie etwa eine Energieversorgung, verschiedene Schnittstellen, andere Schaltungen oder dergleichen), wobei der Chip mit Schaltungen, Logik oder anderen Komponenten wirkt, die in der Lage sind, hier beschriebene Ausführungsformen zu verwenden.
Die Energieversorgung 312 kann das System 300 mit Energie versorgen. Es kann eine wiederaufladbare oder nicht wiederaufladbare Batterie verwendet werden, um Energie bereitzustellen. Die Energie kann auch von einer externen Energiequelle bereitgestellt werden, wie etwa einem Wechselstromadapter, der die Batterie ergänzt und/oder wiederauflädt.
Der Lautsprecher 322 kann ein Lautsprecher oder eine andere Vorrichtung sein, die ausgelegt ist, um elektrische Signale in hörbaren Schall umzuwandeln. Bei bestimmten Ausführungsformen kann der Lautsprecher 322 einen einzigen Lautsprecher umfassen, während der Lautsprecher 322 bei anderen Ausführungsformen mehrere Lautsprecher umfassen kann (z. B. falls das System 300 als Soundbar implementiert wird).
Das Mikrofonarray 324 kann mehrere Mikrofone umfassen, ausgelegt zum Erfassen von hörbarem Schall und Umwandeln dieses in elektrische Signale. Bei verschiedenen Ausführungsformen kann das Mikrofonarray physisch auf dem System 300 positioniert/ausgelegt/angeordnet sein, um logisch einen physischen Raum relativ zum System 300 in mehrere Hörregionen zu definieren, wobei jeder Status für jede Hörregion logisch als aktiv oder inaktiv definiert ist.
Bei wenigstens einer der verschiedenen Ausführungsformen kann der Lautsprecher 322 in Kombination mit dem Mikrofonarray 324 Telekommunikation mit Benutzern anderer Vorrichtungen ermöglichen.
Indikator(en) 326 können einen oder mehrere Indikatoren umfassen, um einem Benutzer Rückmeldung bereitzustellen. Bei verschiedenen Ausführungsformen kann der Indikator 326 einen Status jeder von mehreren Regionen (erzeugt durch das Mikrofonarray 324) angeben, wie etwa welche Regionen aktive Regionen (z. B. Hörregionen, die Sprachanhebung bereitstellen) und welche Regionen inaktive Regionen (z. B. Geräuschminderungsregionen) sind. Bei bestimmten Ausführungsformen kann der Indikator 326 ein Anzeigebildschirm sein, der die verschiedenen Regionen und ihren entsprechenden Status zeigen kann. Bei anderen Ausführungsformen kann der Indikator 326 eine Audioaufforderung sein, die eine verbale Angabe des Status einer Region umfassen kann. Bei weiteren Ausführungsformen kann der Indikator 326 eine getrennte LED oder eine andere Kennung für jede Region umfassen, die den Status (z. B. aktiv oder inaktiv) der entsprechenden Region angeben kann. Bei wenigstens einer verschiedener Ausführungsformen kann eine grüne LED angeben, dass ihre entsprechende Region aktiv ist, und eine rote LED kann angeben, dass ihre entsprechende Region inaktiv ist. Bei anderen Ausführungsformen können blinkende LEDs eine aktive Region angeben, während dauernd leuchtende LEDs oder nicht leuchtende LEDs inaktive Regionen sein können. Ausführungsformen sind jedoch nicht darauf beschränkt, und es können andere Indikatoren oder Arten von Indikatoren verwendet werden, um einen Status jeder von mehreren Regionen anzugeben.
Bei verschiedenen Ausführungsformen können Indikator(en) 326 einem Benutzer Rückmeldung bereitstellen, die eine Qualität von mittels aktiver Hörregionen empfangenen Signalen abbildet. Bei wenigstens einer verschiedener Ausführungsformen kann die Qualität von Signalen auf dem Rauschabstand (SNR) basieren. Falls der SNR unter eine vorbestimmte Schwelle fällt, kann sich bei verschiedenen Ausführungsformen der Indikator für die aktive Region ändern, um die Änderung oder Verschlechterung des empfangenen Signals zu demonstrieren. Zum Beispiel kann eine aktive Region mit einem SNR über einer ersten Schwelle einem Benutzer von einer grünen LED repräsentiert werden. Falls der SNR für die aktive Region unter die erste Schwelle fällt, kann diese Verschlechterung des Signals dem Benutzer von einer gelben LED repräsentiert werden (so dass der Indikator von grün zu gelb wechseln kann). Es können mehr oder weniger Schwellen, Farben, Blinksequenzen oder dergleichen oder Indikatoren verwendet werden, um mehrere verschiedene Qualitäten von Signalen zu repräsentieren, die von einer aktiven Region empfangen werden. In einem anderen Beispiel kann, falls der Indikator ein Anzeigebildschirm ist, ein solcher Bildschirm sich ändernde Farben oder Wörter aufweisen, um Änderungen des Signals für eine aktive Region anzugeben. Bei bestimmten Ausführungsformen kann also der Anzeigeindikator sagen, welche Regionen aktiv und welche inaktiv sind, und von den aktiven Regionen die Qualität des in dieser Region empfangenen Signals. Bei bestimmten Ausführungsformen kann der Anzeigeindikator (oder eine Audioaufforderung bzw. ein Indikator) dem Benutzer Anweisungen für Weisen zur Anhebung der Qualität des Signals bereitstellen, wie etwa, aber ohne Beschränkung darauf, ”lauter sprechen”, ”näher an den Lautsprecher”, ”Bewegen zu einer anderen Region” (entweder aktiv oder inaktiv, man beachte, dass der Benutzer die inaktive Region aktivieren müssen kann (z. B. durch Äußern des Triggerworts oder Aktivieren eines Aktivators 328, der dieser Region entspricht)) oder dergleichen oder eine Kombination davon.
Aktivator(en) 328 können einen oder mehrere Aktivatoren zum Aktivieren/Inaktivieren (oder Deaktivieren) einer entsprechenden Region umfassen. Bei verschiedenen Ausführungsformen können Aktivator(en) 328 mehrere Tasten oder Schalter umfassen, die jeweils einer anderen Region entsprechen. Bei anderen Ausführungsformen kann ein Berührungsschirm einem Benutzer ermöglichen, eine Region für Aktivierung oder Inaktivierung auszuwählen (der ein selber oder anderer Bildschirm als der Indikator 326 sein kann). Bei verschiedenen Ausführungsformen kann ein Aktivator verwendet werden, um alle Regionen zu aktivieren oder zu inaktivieren. Bei bestimmten Ausführungsformen können Aktivator(en) 328 optional sein, wie etwa, wenn Aktivierung/Inaktivierung von Regionen durch Spracherkennung eines Triggers oder eines Aktivierungsworts/einer Aktivierungsphrase (z. B. von der Triggerüberwachungsvorrichtung 334 bestimmt) getriggert werden kann.
Das System 300 kann auch eine Eingabe-/Ausgabeschnittstelle 320 zur Kommunikation mit anderen Vorrichtungen oder anderen Computern, wie etwa dem entfernten Computer 200 von 2, oder anderen mobilen/Netzwerkcomputern umfassen. Die Eingabe-/Ausgabeschnittstelle 320 kann eine oder mehrere Technologien benutzen, wie etwa USB (Universal Serial Bus), Infrarot, WiFi, WiMax, Bluetooth^TM, drahtgebundene Technologien oder dergleichen.
Obwohl es nicht dargestellt ist, kann das System 300 auch eine Netzwerkschnittstelle umfassen, die zum Koppeln des Systems 300 mit einem oder mehreren Netzwerken wirksam sein kann und für Verwendung mit einem oder mehreren Kommuniktionsprotokollen und Technologien konstruiert sein kann, wie etwa, aber ohne Beschränkung darauf, Protokolle und Technologien, die einen beliebigen Teil des OSI-Modells, GSM, CDMA, TDMA (Time Division Multiple Access), UDP, TCP/IP, SMS, MMS, GPRS, WAP, UWB, WiMax, SIP/RTP, GPRS, EDGE, WCDMA, LTE, UMTS, OFDM, CDMA2000, EV-DO, HSDPA oder beliebige von vielfältigen anderen drahtlosen Kommunikationsprotokollen implementieren. Eine solche Netzwerkschnittstelle ist manchmal als Sendeempfänger, Sende-/Empfangsvorrichtung oder Netzwerkschnittstellenkarte (NIC) bekannt.
Der Speicher 304 kann RAM, ROM und/oder andere Arten von Speicher umfassen. Der Speicher 304 veranschaulicht ein Beispiel für computerlesbare Speichermedien (Vorrichtungen) zur Speicherung von Informationen wie computerlesbaren Anweisungen, Datenstrukturen, Programmmodulen oder anderen Daten. Der Speicher 304 kann ferner eine oder mehrere Datenspeicherungen 306 umfassen. Bei bestimmten Ausführungsformen kann die Datenspeicherung 306 unter anderem Anwendungen 308 speichern. Bei verschiedenen Ausführungsformen kann die Datenspeicherung 306 Programmcode, Daten, Algorithmen und dergleichen zur Verwendung von einem Prozessor, wie etwa dem Prozessor 302 zum Ausführen und Durchführen von Aktionen, umfassen. Bei einer Ausführungsform könnte wenigstens ein Teil der Datenspeicherung 306 auch auf einer anderen Komponente des Systems 300 gespeichert sein, darunter, aber ohne Beschränkung darauf, die nicht vergängliche prozessorlesbare Speicherung 316.
Die Anwendungen 308 können einen Sprachanheber 332, eine Triggerüberwachungsvorrichtung 334 und einen Anzeigeindikator 336 umfassen. Bei verschiedenen Ausführungsformen kann diese Anwendung in der Lage sein, hier beschriebene Ausführungsformen zu verwenden und/oder ähnliche Prozesse oder Teile von Prozessen wie die in Verbindung mit 7 und 8 beschriebenen zu verwenden.
Der Sprachanheber 332 kann ausgelegt sein, um verschiedene Algorithmen, Verfahren und/oder Mechanismen zum Anheben von durch das Mikrofonarray 324 empfangener Sprache bereitzustellen. Bei verschiedenen Ausführungsformen kann der Sprachanheber 332 verschiedene Strahlauswahlen und Kombinationstechniken, Strahlformungstechniken, Geräuschminderungstechniken (für durch inaktive Regionen empfangene Geräusche), Geräuschanhebungstechniken (für durch aktive Regionen empfangene Signale oder dergleichen oder eine Kombination davon verwenden. Es können verschiedene Strahlformungstechniken verwendet werden, wie etwa, aber ohne Beschränkung darauf, US-Patentanmeldung Nr. 13/842,911 mit dem Titel ”METHOD, APPARATUS, AND MANUFACTURE FOR BEAMFORMING WITH FIXED WEIGHTS AND ADAPTIVE SELECTION OR RESYNTHESIS”, US-Patentanmeldung Nr. 13/843254 mit dem Titel ”METHOD, APPARATUS, AND MANUFACTURE FOR TWO-MICROPHONE ARRAY SPEECH ENHANCEMENT FOR AN AUTOMOTIVE ENVIRONMENT”; und Patentanmeldung Nr. 13/666,101 mit dem Titel ”ADAPTIVE MICROPHONE BEAMFORMING”, die hiermit durch Bezugnahme aufgenommen werden.
Die Triggerüberwachungsvorrichtung 334 kann ausgelegt sein, um Aktivierung/Inaktivierung (d. h. Status) der mehreren Regionen zu verwalten. Bei bestimmten Ausführungsformen kann sich die Triggerüberwachungsvorrichtung 334 mit Aktivator(en) 328 in Kommunikation befinden, um den Status jeder Region zu bestimmen oder um zu bestimmen, ob sich der Status einer Region geändert hat. Bei anderen Ausführungsformen kann die Triggerüberwachungsvorrichtung 334 durch das Mikrofonarray 324 empfangene Signale überwachen, um Triggerwörter/-phrasen zu detektieren, die einer Statusänderung einer Region zugordnet sein können. Bei bestimmten Ausführungsformen kann sich ein Trigger auf eine einzige Region auswirken, wie etwa Aktivierung einer inaktiven Region, wenn ein Triggerwort in einem der inaktiven Region zugeordneten Signal detektiert wird. Bei anderen Ausführungsformen kann sich ein Trigger auf mehrere Regionen auswirken, wie etwa Inaktivierung mehrerer Regionen, Aktivierung einer oder mehrerer Regionen während des Inaktivierens einer oder mehrerer anderer Regionen oder dergleichen. Bei wenigstens einer der verschiedenen Ausführungsformen kann ein Trigger alle Regionen aktivieren oder inaktivieren (z. B. ein Triggerwort bzw. eine Triggerphrase oder ein Aktivator ”alle an”).
Der Anzeigeindikator 336 kann ausgelegt sein, um Indikator(en) 326 mit verschiedenen Informationen hinsichtlich des Status jeder Region, der Qualität von aktiven Regionen zugeordneten Signalen oder dergleichen zu verwalten.
Bei bestimmten Ausführungsformen können Hardwarekomponenten, Softwarekomponenten oder eine Kombination davon des Systems 300 ähnliche Prozesse oder Teile von Prozessen wie die in Verbindung mit 7 und 8 beschriebenen verwenden.
Beispielhafte Benutzungsfallumfelder
Die Klarheit von hier beschriebenen Ausführungsformen kann verbessert werden, indem zuerst ein Beispielszenario beschrieben wird, in dem Ausführungsformen verwendet werden können. Dementsprechend zeigt 4 ein beispielhaftes Benutzungsfallumfeld und -szenario zur Verwendung von hier beschriebenen Ausführungsformen.
Das Umfeld 400 kann eine Lautsprecheinrichtung (z. B. das Lautsprecher-/Mikrofonsystem 300 von 3) in der Mitte eines Raums positioniert umfassen. Die Lautsprecheinrichtung kann ausgelegt sein, vier getrennte Regionen, die Regionen A, B, C und D, aufzuweisen (obwohl auch mehr oder weniger Regionen verwendet werden können). Man stelle sich vor, dass eine Familie von vier Personen (Vater, Mutter, Sohn und Tochter) um die Lautsprecheinrichtung herum sitzen, so dass sich Mutter in Region B, Vater in Region A und Sohn und Tochter in Region D (und ein Fernseher in Region C) befinden. Wie dargestellt, kann Region A aktiv sein und kann Vater einen Aktive-Region-Indikator in Form einer grünen LED bereitstellen. Region B, C und D können inaktiv sein, was durch die roten LED-Inaktive-Region-Indikatoren repräsentiert werden kann. Diese anfänglichen Status können auf Vorgabeeinstellung basieren, für wann ein Telefonanruf eingeleitet wird.
Man nehme an, dass Vater die Lautsprecheinrichtung zum Sprechen mit Großmutter verwendet, aber der Rest der Familie (Mutter, Sohn und Tochter) nicht Teil des aktuellen Gesprächs sein möchten. Zum Beispiel kann Mutter ein Video auf ihrem Smartphone betrachten und die Kinder können über die Schule sprechen. In dieser Situation ist nur Vaters Stimme auf dem Telefonanruf erwünscht. Dementsprechend können verschiedene Strahlformungsalgorithmen verwendet werden, um Region A zugeordnete Signale anzuheben und somit Vaters Sprache anzuheben, während die den Regionen B, C und D zugeordneten Geräusch-/Störungssignale verringert, unterdrückt oder anderweitig vermindert werden.
Man nehme die folgenden Änderungen des Szenarios an:

– Minute 0.00 – Vater leitet einen Anruf an Großmutter von Region A aus ein. Die Lautsprecheinrichtung sollte Geräusche, die aus den Regionen B, C und D kommen, unterdrücken.
– Minute 2:00 – Die Kinder möchten Großmutter ”Hallo” sagen, nachdem Vater ihr seine ”großartigen” Neuigkeiten berichtet. Die Lautsprecheinrichtung sollte die aktive Region von A nach D wechseln und sollte Geräusche, die aus den Regionen A, B und C kommen, unterdrücken.
– Minute 3:00 – Vater möchte sein Gespräch mit Großmutter wiederaufnehmen. Die Lautsprecheinrichtung könnte die aktive Region von D nach A wechseln und Geräusche, die aus den Regionen B, C und D kommen, unterdrücken.
– Minute 5:00 – Mutter möchte Großmutter mehr Informationen über die ”großartigen” Neuigkeiten mitteilen. Die Lautsprecheinrichtung könnte die aktive Region von A nach B wechseln und Geräusche, die aus den Regionen A, C und D kommen, unterdrücken.
– Minute 6:30 – Vater möchte sich Mutter bei ihrem Gespräch mit Großmutter anschließen. Die Lautsprecheinrichtung sollte ändern: Region A aktiv machen während Region B aktiv gehalten wird, und Geräusche, die aus den Regionen C und D kommen, unterdrücken.
– Minute 8:30 – Vater geht von Region A zu Region C, während Großmutter spricht, und nun möchte er den Anruf von Region C aus ohne Mutter beendigen. Die Lautsprecheinrichtung sollte die aktive Hörregion von A nach C wechseln und Geräusche, die aus den Regionen, A, B und D kommen, unterdrücken.

Durch Verwendung von hier beschriebenen Ausführungsformen können die folgenden Aktionen durchgeführt werden, um den Status jeder Region entsprechend zu justieren. (Man beachte, dass in diesem Beispiel Änderungen des Status wenigstens einer Region von Triggerwörtern/-phrasen getriggert werden können, die in Audiosignalen, die wenigstens inaktiven Regionen zugeordnet sind, detektiert/identifiziert werden können (z. B. durch Verwendung von Sprach-/Stimmerkennungsalgorithmen). Ausführungsformen sind jedoch nicht darauf beschränkt, und es können auch andere Trigger, wie Aktivatoren 328 von 3, oder als Alternative verwendet werden, um Änderungen des Status einer oder mehrerer Regionen zu triggern).

– Minute 0.00 – Vater leitet von Region A aus einen Anruf an Großmutter ein. Die Lautsprecheinrichtung kann Vorgabeeinstellungen dergestalt aufweisen, dass Region A aktiv und die Regionen B, C und D inaktiv sind, so dass Region A zugeordnete Signale angehoben und den Regionen B, C und D zugeordnete Signale unterdrückt werden können.
– Minute 2:00 – Die Kinder möchten Großmutter ”Hallo” sagen, nachdem Vater ihr seine ”großartigen” Neuigkeiten mitteilt. Die Kinder können das Triggerwort sagen, während sie sich in Region D befinden, was von einem oder mehreren Region D zugeordneten Mikrofonen aufgenommen werden kann. Dementsprechend kann Region D aktiv und Region A inaktiv werden, so dass Region D zugeordnete Signale angehoben und Region A (zusammen mit den Regionen B und C) zugeordnete Signale unterdrückt werden können.
– Minute 3:00 – Vater möchte sein Gespräch mit Großmutter wiederaufnehmen. Vater kann das Triggerwort sagen, während er sich in Region A befindet, was von einem oder mehreren Region A zugeordneten Mikrofonen aufgenommen werden kann. Dementsprechend kann Region A aktiv und Region D inaktiv werden, so dass Region A zugeordnete Signale angehoben und Region D (zusammen mit Region B und C) zugeordnete Signale unterdrückt werden können.
– Minute 5:00 – Mutter möchte Großmutter mehr Informationen über die ”großartigen” Neuigkeiten mitteilen. Mutter kann das Triggerwort sagen, während sie sich in Region B befindet, was von einem oder mehreren Region B zugeordneten Mikrofonen aufgenommen werden kann. Dementsprechend kann Region B aktiv und Region A inaktiv werden, so dass Region B zugeordnete Signale angehoben und Region A (zusammen mit Region C und D) zugeordnete Signale unterdrückt werden können.
– Minute 6:30 – Vater möchte sich Mutter bei ihrem Gespräch mit Großmutter anschließen. Vater kann ein anderes Triggerwort sagen, während er sich in Region A befindet, was von Region A zugeordneten Mikrofonen aufgenommen werden kann. Dementsprechend kann Region A aktiv werden und Region B kann aktiv bleiben, so dass den Regionen A und B zugeordnete Signale angehoben und den Regionen C und D zugeordnete Signale unterdrückt werden können.
– Minute 8:30 – Vater geht von Region A zu Region C, während Großmutter spricht, und nun möchte er von Region C aus ohne Mutter den Anruf beendigen. Vater kann das erste Triggerwort sagen, während er sich in Region C befindet, was an Region C zugeordneten Mikrofonen aufgenommen werden kann. Dementsprechend kann Region C aktiv werden und die Regionen A und B können inaktiv werden, so dass Region C zugeordnete Signale angehoben und den Regionen A, B und D zugeordnete Signale unterdrückt werden können.

Es sollte beachtet werden, dass, während der Status einer Region von aktiv zu inaktiv wechselt, die grüne LED der Region zu rot wechseln kann, und während der Status einer Region von inaktiv zu aktiv wechselt, die rote LED der Region zu grün wechseln kann. Ausführungsformen sind nicht darauf beschränkt, und es können wie hier beschrieben andere Indikatoren verwendet werden. Ähnlich kann der Indikator einem Benutzer auch eine visuelle Repräsentation einer Qualität von einer aktiven Region zugeordneten Signalen (oder wie laut die Rauschsignale in inaktiven Regionen sind) bereitstellen.
Es sollte auch beachtet werden, dass andere Trigger verwendet werden können, um den Status einer Region zu ändern. Zum Beispiel kann in Minute 5:00 Mutter auf der Lautsprecheinrichtung eine Taste (oder einen anderen Aktivator) betätigen, um Region B zu aktivieren, was automatisch Region B inaktivieren kann. Oder Mutter kann bei anderen Ausführungsformen eine Taste auf der Lautsprecheinrichtung betätigen, um Region B zu aktivieren, kann aber auch eine andere Taste betätigen, um Region A zu inaktivieren.
5A–C zeigen beispielhafte alternative Benutzungsfallumfelder zur Verwendung von hier beschriebenen Ausführungsformen. In einem nicht einschränkenden nicht erschöpfenden Beispiel können die Systeme 500A, 500B und 500C von 5A–5C jeweils ein Lautsprecher-/Mikrofonsystem (z. B. das Lautsprecher-/Mikrofonsystem 300 von 3) repräsentieren, das in einer Automobilumgebung verwendet werden kann. Das System 500A kann ein Mikrofonarray umfassen, das den Innenraum (der auch als Fahrer-/Fahrgastraum bezeichnet wird) eines Automobils logisch in zwei Hörregionen, Region X und Region Y, trennen kann. In diesem Beispiel kann Region X auf einen Fahrer (oder den Fahrersitzbereich) gerichtet sein und Region Y kann auf einen Beifahrer (oder Beifahrersitzbereich) gerichtet sein. Bei bestimmten Ausführungsformen kann das System 500A also vor und zwischen dem Fahrer und dem Beifahrer positioniert sein (wobei Fahrer und Beifahrer sich in einer nebeneinander angeordneten Sitzanordnung befinden).
Ausführungsformen sind jedoch nicht darauf beschränkt, und das System 500A kann sich an anderen Positionen des Automobils befinden und/oder kann logisch den Innenraum in mehr Hörregionen (z. B. eine Region pro Fahrgastsitz) trennen. Zum Beispiel kann bei anderen Ausführungsformen das System 500A im Dach des Automobils relativ zentral (z. B. in der Nähe eines Oberlichts eines Automobils) angeordnet sein und kann den Innenraum logisch in fünf Hörregionen aufteilen, eine für den Fahrer, eine für den Beifahrer, eine für den hinteren Fahrgast auf der Fahrerseite, einen für den hinteren Fahrgast auf der Beifahrerseite und eine für den hinteren Fahrgast in der Mitte. Bei anderen Ausführungsformen können mehrere Lautsprecher-/Mikrofonsysteme verwendet werden, wie etwa ein System für den Fahrer und Beifahrer und ein anderes System für die Fahrgäste auf dem Rücksitz. Bei bestimmten Ausführungsformen können diese Systeme unabhängig voneinander wirken. Bei anderen Ausführungsformen können diese Systeme miteinander kooperieren, um zusätzliche Sprachanhebung aktiver Regionen und Geräuschminderung-/reduktion inaktiver Regionen zwischen beiden Systemen bereitzustellen.
Für das System 500A kann unter der Annahme, dass der Fahrer und Fahrgast an einem Telefonanruf teilnehmen, eine grüne LED repräsentieren, dass Region X aktiv ist, und eine rote LED repräsentieren, dass Region Y inaktiv ist, so dass Sprachsignale vom Fahrer angehoben, aber Sprachsignale vom Beifahrer reduziert oder aufgehoben werden. Es sollte beachtet werden, dass auch andere hier beschriebene Indikatoren (z. B. ein Anzeigebildschirm) verwendet werden können. Bei verschiedenen Ausführungsformen können auch andere Geräuschminderungsalgorithmen verwendet werden, um anderes Umgebungsgeräusch, wie etwa Automobilgeräusch, Straßengeräusch, aus einem Radio-/Stereosystem produzierte Audiosignale oder dergleichen, zu verringern/mindern.
Durch Verwendung von hier beschriebenen Ausführungsformen kann der Beifahrer wünschen, am Telefonanruf teilzunehmen. Der Beifahrer kann ein Triggerwort bzw. eine Triggerphrase sagen und/oder kann einen Aktivator (z. B. Betätigen einer Taste) verwenden, um den Status von Region Y von inaktiv in aktiv umzuändern. Nach Aktivierung durch den Beifahrer kann Region Y aktiv und Region X inaktiv werden, was durch System 500B in 5B dargestellt ist. Bei bestimmten Ausführungsformen kann der Beifahrer (oder der Fahrer) Region X inaktivieren müssen, so dass nicht beide Regionen gleichzeitig aktiv sind. Bei anderen Ausführungsformen kann Region X bei Aktivierung von Region Y automatisch inaktiviert werden. Wenn sich der Status einer Region ändert, kann sich die LED auch ändern, um den geänderten Status zu repräsentieren.
Das System 500C in 5C zeigt das Szenario, bei dem sowohl Region X als auch Region Y beide aktiv sind. Zum Beispiel kann bei bestimmten Ausführungsformen der Beifahrer Aktivierung von Region Y (aus 5A) triggern, was Region Y aktivieren kann, während der Status von Region X unverändert bleibt, so dass mehrere Regionen gleichzeitig aktiv sind.
Beispielhafte Systemdarstellung
6 zeigt eine Blockdarstellung, die allgemein ein System zeigt, das gemäß hier beschriebenen Ausführungsformen verwendet werden kann. Das System 600 kann eine Ausführungsform des Lautsprecher-/Mikrofonsystems 300 von 3 sein. Bei verschiedenen Ausführungsformen können wenigstens der Sprachanheber 608, die Triggerüberwachungsvorrichtung 610 und/oder der Anzeigeindikator 620 als Logik in einem Hardwarechip (z. B. einem digitalen Signalprozessor, einem Mikrocontroller, anderen Hardwarechips/Schaltungen oder dergleichen) verwendet werden. Das Signal x kann (z. B. durch eine Eingangslogik) aus einem Mikrofonarray eingegeben werden (bei verschiedenen Ausführungsformen kann das Signal x mehrere Signale oder Strahlen umfassen, z. B. eines bzw. einen aus jedem Mikrofon im Array). Das Signal x kann in Strahlen 602–604 getrennt werden, wobei jeder Strahl eine entsprechende Hörregion repräsentiert. Es sollte beachtet werden, dass die Strahlen 602–604 auf der Anzahl von Mikrofonen im Mikrofonarray und der Anzahl von Hörregionen basieren kann.
Jeder der Strahlen 602–604 kann in den Sprachanheber 608 eingegeben werden. Der Sprachanheber 608 kann verschiedene Strahlauswahl- und -kombinationsalgorithmen ausführen, um Geräusche aus inaktiven Regionen zu reduzieren/vermindern, während Benutzersprache aus aktiven Regionen angehoben wird, abhängig davon, welche Regionen aktiv sind und welche Regionen inaktiv sind. Bei verschiedenen Ausführungsformen kann der Sprachanheber 608 eine Ausführungsform des Sprachanhebers 332 von 3 sein.
Bei bestimmten Ausführungsformen kann jeder der Strahlen 602–604 auch in die Triggerüberwachungsvorrichtung 610 eingegeben werden, wie etwa falls Änderungen des Status einer Region durch ein gesprochenes Triggerwort und/oder eine gesprochene Triggerphrase getriggert werden können. Bei anderen Ausführungsformen können Änderungen des Status einer Region durch Regionenaktivatoren 620–622 getriggert werden, wobei jeder getrennte Aktivator einer getrennten Region entspricht. Bei verschiedenen Ausführungsformen können die Regionenaktivatoren 620–622 Ausführungsformen von Aktivator(en) 328 von 3 sein. Bei bestimmten Ausführungsformen können sowohl Triggerwort/Phrase als auch Regionenaktivatoren verwendet werden, um Änderungen des Status einer oder mehrerer Regionen zu triggern.
Bei bestimmten Ausführungsformen kann die Triggerüberwachungsvorrichtung 610 eine Ausführungsform der Triggerüberwachungsvorrichtung 334 sein und kann verschiedene Sprach- und/oder Stimmenerkennungsalgorithmen ausführen, um Triggerwörter/-phrasen in den Strahlen 602–604 zu detektieren. Bei anderen Ausführungsformen kann die Triggerüberwachungsvorrichtung 610 Eingaben aus Regionenaktivatoren 620–622 annehmen. Auf der Basis der Eingaben und/oder der Spracherkennung kann die Triggerüberwachungsvorrichtung 610 den Aktiv/Inaktiv-Status jeder Region an den Sprachanheber 608 ausgeben. Auf diese Weise weiß der Sprachanheber 608, welche Regionen aktiv sind und welche Regionen inaktiv sind und wann es Änderungen des Status einer Region gibt. Die Triggerüberwachungsvorrichtung 610 kann auch den Status jeder Region an Regionenindikatoren 616–618 ausgeben.
Die Regionenindikatoren 616–618 können Ausführungsformen von Indikator(en) 326 von 3 sein. Die Regionenindikatoren 616–618 können einem Benutzer eine Repräsentation des Status einer Region (z. B. grüne/rote LEDs, einen Anzeigebildschirm oder dergleichen) bereitstellen.
Der Sprachanheber 608 kann das Signal y_out aus einem ausgewählten Strahl oder kombinierten mehreren Strahlen ausgeben, während Signal(e) aus anderen Strahlen auf der Basis der Beziehung der Strahlen mit aktiven/inaktiven Regionen blockiert werden. Die unerwünschten Geräusche inaktiver Regionen können deshalb unterdrückt und die interessante Sprache aktiver Regionen angehoben werden. Das Signal y_out kann zu einer anderen Vorrichtung gesendet werden, die am Telefonanruf teilnimmt, und es kann auch in den Schätzer 612 für den SNR (Rauschabstand) eingegeben werden.
Der SNR-Schätzer 612 kann den SNR auf der Basis des Ausgangssignals bestimmen und/oder schätzen. Der SNR-Schätzer 612 kann den SNR mit einem oder mehreren Schwellenwerten vergleichen, um eine Qualität der aktiven Regionen zugeordneten Sprachsignale zu bestimmen. Auf der Basis dieses Vergleichs kann der SNR-Indikator 614 einem Benutzer eine Repräsentation der Signalqualität bereitstellen. Falls der SNR zum Beispiel relativ hoch ist (z. B. über einer ersten Schwelle), kann der SNR-Indikator 614 eine grüne LED sein. Falls der SNR nicht hoch ist (z. B. unter der ersten Schwelle aber über einer zweiten Schwelle), kann der SNR-Indikator 614 gelb sein. Falls der SNR sehr niedrig ist (z. B. unter der zweiten Schwelle), kann der SNR-Indikator 614 eine blaue LED sein. Bei verschiedenen Ausführungsformen können auch andere Indikatoren zur Repräsentation der Signalqualität verwendet werden. Bei bestimmten Ausführungsformen kann der SNR-Indikator 614 eine Ausführungsform des Indikators 326 von 3 sein. Bei anderen Ausführungsformen kann jeder Regionenindikator 616 auch einen entsprechenden SNR-Indikator 614 umfassen. Bei bestimmten anderen Ausführungsformen kann die Funktionalität des SNR-Schätzers 612 vom Sprachanheber 608 verwendet werden, so dass der Sprachanheber 608 ein SNR-Indikatorsignal ausgibt.
Verschiedene Funktionalität des SNR-Schätzers 612, des SNR-Indikators 614 und/oder der Regionenindikatoren 616 kann vom Anzeigeindikator 620 verwendet werden, der auf der Basis der Triggerüberwachungsvorrichtung 610 und des Sprachanhebers 608 bestimmen und/oder verwalten kann, wie sich jeder Indikator verhalten kann. Bei verschiedenen Ausführungsformen kann der Anzeigeindikator 620 eine Ausführungsform des Anzeigeindikators 336 von 3 sein.
Allgemeine Funktionsweise
Die Funktionsweise bestimmter Aspekte der Erfindung wird nun mit Bezug auf 7 und 8 beschrieben. Bei wenigstens einer verschiedener Ausführungsformen kann wenigstens ein Teil der Prozesse 700 und 800, die in Verbindung mit 7 bzw. 8 beschrieben werden, von einem oder mehreren Netzwerkcomputern, wie etwa dem Lautsprecher-/Mikrofonsystem 300 von 3, implementiert und/oder auf diesen ausgeführt werden. Außerdem können verschiedene hier beschriebene Ausführungsformen in einem System wie dem System 100 von 1 implementiert werden.
7 zeigt ein logisches Flussdiagramm eines Umfelds, das allgemein eine Ausführungsform eines Übersichtsprozesses zum Verfolgen von Audiohörregionen zeigt.
Prozess 700 kann nach einem Startblock im Block 702 beginnen, in dem ein Status jeder einem Mikrofonarray zugeordneten Region bestimmt werden kann. Bei verschiedenen Ausführungsformen kann die Anzahl der Mikrofone im Mikrofonarray und/oder der verwendeten Strahlformungstechniken die Anzahl der Regionen bestimmen. Beispiele für die Anzahl der Mikrofone verglichen mit der Anzahl der Regionen wären, aber ohne Beschränkung darauf, fünf Mikrofone für vier Regionen, wie in 4 dargestellt; drei Mikrofone für zwei Regionen, wie in 5A–5C dargestellt; zwei Mikrofone für vier Regionen, oder dergleichen.
Bei verschiedenen Ausführungsformen kann jede Region einen Status von aktiv oder inaktiv aufweisen. Wie hier beschrieben, kann eine aktive Region eine interessierende Region sein, so dass aus der aktiven Region empfangene Signale als die Zielbenutzersprache verwendet werden. Bei bestimmen Ausführungsformen können aus der aktiven Region empfangene Signale angehoben oder anderweitig verbessert werden. Eine inaktive Region kann eine Geräuschregion oder eine nicht aktive Region sein, so dass aus der inaktiven Region empfangene Signale reduziert, unterdrückt oder anderweitig aus dem Aktivregionsignal herausgehoben werden.
Bei bestimmten Ausführungsformen kann jede Region einen vorbestimmten oder Vorgabestatus aufweisen, wenn das Lautsprecher-/Mikrofonsystem eingeschaltet wird. In einem nicht einschränkenden, nicht erschöpfenden Beispiel kann jede Region anfänglich inaktiv sein. In einem anderen Beispiel kann eine Region aktiv sein und jede andere Region kann inaktiv sein. Bei bestimmten anderen Ausführungsformen kann der Status jeder Region auf einen vorherigen Status zurückgesetzt werden, der vor dem Ausschalten des Systems gespeichert wurde.
In jedem Fall kann der Prozess 700 zum Block 704 voranschreiten, in dem Signale aus dem Mikrofonarray für jede verschiedene Region erhalten werden können. Bei bestimmten Ausführungsformen kann ein einzelnes erhaltenes Signal einer bestimmten Region entsprechen. Bei anderen Ausführungsformen können mehrere der erhaltenen Signale einer bestimmten Region entsprechen. Bei weiteren Ausführungsformen können ein oder mehrere erhaltene Signale mehreren Regionen entsprechen. Die Signale und ihre entsprechenden Regionen können vom physischen Layout oder der Positionierung des Mikrofonarrays und/oder der zur Bereitstellung von gerichtetem Hören verwendeten Strahlformungstechniken abhängen.
Der Prozess 700 kann im Block 706 fortgesetzt werden, in dem Geräuschverminderung von inaktiver/n Region(en) zugeordneten Signalen durchgeführt werden kann. Es können verschiedene Geräuschminderungstechniken und/oder gerichtete Strahlformungstechniken verwendet werden, um Signale, die inaktiven Regionen zugeordnet sind, aus einem Ausgangssignal zu verringern, zu unterdrücken oder zu mindern.
Der Prozess 700 kann als nächstes zum Block 708 voranschreiten, in dem Sprachanhebung von aktiver/n Region(en) zugeordneten Signalen durchgeführt werden kann. Verschiedene Sprach- oder Signalanhebungstechniken oder gerichtete Strahlformungstechniken können verwendet werden, um aktiven Regionen zugeordnete Signale für das Ausgangssignal anzuheben.
Nach Block 708 kann der Prozess 700 im Entscheidungsblock 710 fortgesetzt werden, in dem bestimmt werden kann, ob eine Anforderung, den Status einer Region zu ändern, empfangen wurde. Bei verschiedenen Ausführungsformen kann eine Regionenstatusänderungsanforderung empfangen werden, falls ein Benutzer einen Trigger für eine Region einschaltet. Dieser Trigger kann zum Umändern einer aktiven Region in eine inaktive Region oder zum Umändern einer inaktiven Region in eine aktive Region sein. Bei bestimmten Ausführungsformen können sich auf der Basis einer einzigen Regionenstatusänderungsanforderung oder mehrerer Regionenstatusänderungsanforderungen mehrere Regionen ändern. Bei verschiedenen Ausführungsformen kann der Trigger oder die Änderungsanforderung auf Identifikation eines Triggerworts oder einer Triggerphrase in einem Signal (z. B. einem einer inaktiven Region zugeordneten Signal) und/oder Benutzerverwendung eines Aktivators (z. B. Aktivator(en) 328 von 3) basieren. Falls eine Regionenstatusänderungsanforderung empfangen wurde, kann der Prozess 700 zum Block 712 fließen; andernfalls kann der Prozess 700 in einer Schleife Block 704 erreichen, um weiter Signale aus dem Mikrofonarray zu erhalten.
Im Block 712 kann der Status wenigstens einer Region auf der Basis der empfangenen Anforderung (z. B. Verwendung des Aktivators oder Empfang eines Triggerworts/einer Triggerphrase) modifiziert werden. Bei bestimmten Ausführungsformen kann der Status einer Region, der einer Änderungsanforderung entspricht, modifiziert werden. Zum Beispiel kann, wenn ein Benutzer ein Triggerwort in einer bestimmten Region verwendet (z. B. Spracherkennung eines der Region zugeordneten Signals kann detektiert werden), sich diese bestimmte Region von inaktiv zu aktiv (oder von aktiv zu inaktiv) ändern. Ähnlich kann ein Benutzer eine Taste (oder einen anderen Aktivator) betätigt haben, die der Region entspricht, um ihren Status zu ändern.
Bei anderen Ausführungsformen kann der Status mehrerer Regionen auf der Basis einer Regionenstatusänderungsanforderung modifiziert werden. Zum Beispiel kann, wenn ein Benutzer ein Triggerwort in einer bestimmten inaktiven Region verwendet, diese bestimmte Region von inaktiv zu aktiv wechseln, und eine aktuell aktive Region kann in inaktiv umgeändert werden. Bei verschiedenen Ausführungsformen kann die aktuell aktive Region gleichzeitig mit der neu aktivierten Region geändert oder kann verzögert werden. Bei wenigstens einer Ausführungsform kann die aktuell aktive Region aktiv bleiben, falls ein anderes Triggerwort empfangen wird oder falls der Benutzer weiter in dieser Region spricht. Bei einer anderen Ausführungsform kann die aktuell aktive Region aktiv bleiben, bis eine Statusänderungsanforderung zum Inaktivieren der Region empfangen wird.
Nach Block 712 kann der Prozess 700 in einer Schleife Block 704 erreichen, um weiter Signale aus dem Mikrofonarray zu erhalten.
Bei bestimmen Ausführungsformen kann der Prozess 700 fortgesetzt werden, bis das Lautsprecher-/Mikrofonsystem ausgeschaltet wird, ein Telefonanruf endet oder getrennt wird oder dergleichen.
8 zeigt ein logisches Flussdiagramm eines Umfelds, das allgemein eine Ausführungsform eines Prozesses zur Verfolgung von Audiohörregionen und zum Bereitstellen von Benutzerrückmeldung zeigt.
Der Prozess 800 kann nach einem Startblock im Block 802 beginnen, in dem aktive und inaktive Regionen, die dem Mikrofonarray zugeordnet sind, bestimmt werden können. Bei wenigstens einer verschiedener Ausführungsformen kann Block 802 Ausführungsformen des Blocks 702 von 7 verwenden.
Der Prozess 800 kann zum Block 804 voranschreiten, in dem Signale aus dem Mikrofonarray für jede verschiedene Region erhalten werden können. Bei verschiedenen Ausführungsformen kann der Block 804 Ausführungsformen des Blocks 704 von 7 verwenden.
Es kann jede Region getrennt verarbeitet werden, wobei der Prozess 800 für jede aktive Region von Block 804 zu Block 806 fließen kann und wobei der Prozess 800 für jede inaktive Region von Block 804 zu Block 816 fließen kann.
Im Block 806 kann einem Benutzer ein Aktive-Region-Indikator bereitgestellt werden. Wie hier beschrieben, kann jede Region einen entsprechenden Indikator (z. B. Indikator(en) 326 von 3) aufweisen. Bei bestimmten Ausführungsformen kann ein Aktive-Region-Indikator eine grüne LED, ein Anzeigebildschirm, der eine aktive Region angibt, oder dergleichen sein.
Der Prozess 800 kann für jede aktive Region zu Block 808 voranschreiten, in dem einem Benutzer ein Indikator der Signalqualität jeder aktiven Region bereitgestellt werden kann. Bei verschiedenen Ausführungsformen kann dieser Indikator einen SNR des der aktiven Region zugeordneten Signals repräsentieren. Wie hier beschrieben, können eine oder mehrere Schwellen der Signalqualität mit einem oder mehreren verschiedenen Indikatoren, die die verschiedenen Bänder zwischen Schwellen angeben, verwendet werden. Zum Beispiel kann ein Signal guter Qualität (oder SNR über einer ersten Schwelle) eine grüne LED sein, ein Signal annehmbarer Qualität (oder SNR unter der ersten Schwelle, aber über einer zweiten Schwelle) kann eine gelbe LED sein, ein Signal geringer Qualität (oder SNR unter der zweiten Schwelle, aber über einer dritten Schwelle) kann eine orange LED sein und ein Signal schlechter Qualität (oder SNR unter der dritten Schwelle) kann eine blaue LED sein. Es versteht sich, dass auch andere Farben, Arten von Indikatoren, Anzahlen von Indikatoren oder andere visuelle Indikatoren verwendet werden können, um einem Benutzer eine aktuelle Signalqualität einer aktiven Region anzugeben. Zum Beispiel kann bei bestimmten Ausführungsformen der Indikator eine Anzeige sein, die Wörter hinsichtlich der Signalqualität umfassen kann und/oder dem Benutzer Anweisungen für Benutzeraktionen bereitstellen kann, die die Signalqualität verbessern können (z. B. näher an das Lautsprecher-/Mikrofonsystem bewegen).
Der Prozess 800 kann für jede aktive Region zum Block 810 voranschreiten, wobei Sprachanhebungsalgorithmen und/oder -mechanismen am den aktiven Regionen zugeordneten Signal bzw. den den aktiven Regionen zugeordneten Signalen verwendet werden können. Bei verschiedenen Ausführungsformen kann Block 810 Ausführungsformen des Blocks 708 zur Anhebung von Aktive-Region-Signalen verwenden.
Der Prozess 800 kann als nächstes für jede aktive Region zum Entscheidungsblock 812 voranschreiten, in dem bestimmt werden kann, ob ein Inaktivierungstrigger empfangen wurde. Bei verschiedenen Ausführungsformen kann ein Benutzer einen Aktivator (z. B. Aktivator(en) 328 von 3) verwenden, der ein Trigger zum Inaktivieren einer aktuell aktiven Region sein kann. Zum Beispiel kann ein Benutzer eine Taste (die eine physische Taste oder eine grafische Taste auf einem Anzeigebildschirm sein kann) betätigen, die einer Region entspricht, um die Region zu inaktivieren. Bei anderen Ausführungsformen kann ein Benutzer eine Taste auf einer anderen Region betätigen, die aktuell inaktiv ist (wie z. B. im Entscheidungsblock 822 beschrieben), wobei Aktivierung der anderen Region die aktuell aktive Region triggert, inaktiv zu werden. Wie hier beschrieben, können verschiedene Trigger verwendet werden, um Inaktivierung einer Region einzuleiten.
Falls ein Inaktivierungstrigger empfangen wird, kann der Prozess 800 zum Block 814 fließen, um die Region zu inaktivieren; andernfalls kann der Prozess 800 in einer Schleife Block 804 erreichen, um zusätzliche Signale aus dem Mikrofonarray zu erhalten.
Nachdem im Block 814 aktive Regionen inaktiviert sind, kann der Prozess 800 in einer Schleife Block 804 erreichen, um weiter Signale aus dem Mikrofonarray zu erhalten.
Für jede inaktive Region kann der Prozess 800 vom Block 804 zum Block 816 fließen. Im Block 816 kann dem Benutzer ein Inaktive-Region-Indikator bereitgestellt werden. Ähnlich wie bei Block 806 (aber dafür, dass der Indikator für eine inaktive Region ist, statt für eine aktive Region), kann ein Inaktive-Region-Indikator eine rote LED, ein Anzeigebildschirm, der eine inaktive Region angibt, oder dergleichen sein.
Der Prozess 800 kann für jede inaktive Region zum Block 818 voranschreiten, in dem Geräuschverminderung an den inaktiven Regionen zugeordneten Signalen durchgeführt werden kann. Bei verschiedenen Ausführungsformen kann Block 818 Ausführungsformen des Blocks 706 von 7 verwenden.
Der Prozess 800 kann für jede inaktive Region im Block 820 fortgesetzt werden, in dem die den inaktiven Regionen zugeordneten Signale auf einen Aktivierungstrigger gescannt werden können. Bei verschiedenen Ausführungsformen kann jedes einer inaktiven Region zugeordnete Signal durch Stimmen- und/oder Spracherkennungsverfahren verarbeitet werden, um Triggerwörter und/oder -phrasen zu detektieren. Bei verschiedenen Ausführungsformen kann der Aktivierungstrigger ein einziges Wort sein, wie etwa ”Cowboy”, oder kann mehrere Wörter oder eine Phrase sein, wie etwa ”Lass mich sprechen”. Ausführungsformen sind jedoch nicht auf ein spezielles Wort und/oder eine spezielle Phrase als Aktivierungstrigger beschränkt. Zum Beispiel kann bei bestimmten Ausführungsformen das Lautsprecher-/Mikrofonsystem so programmierbar sein, dass ein Benutzer ein spezielles Wort oder eine spezielle Phrase zur Verwendung als Trigger auswählen und/oder aufzeichnen kann. Bei bestimmten Ausführungsformen kann ein Triggerwort zum Aktivieren einer inaktiven Region verwendet werden, während zum Inaktivieren einer aktiven Region (wie z. B. in Block 812 und 814 bestimmt und ausgeführt) ein anderes Triggerwort verwendet werden kann. Ähnlich kann ein Triggerwort zum Aktivieren einer inaktiven Region und gleichzeitig Inaktivieren jeder anderen aktiven Region verwendet werden, während unabhängig vom Status jeder anderen Region zum Aktivieren einer inaktiven Region ein anderes Triggerwort verwendet werden kann.
Der Prozess 800 kann als nächstes für jede inaktive Region zum Entscheidungsblock 822 voranschreiten, in dem bestimmt werden kann, ob ein Aktivierungstrigger empfangen wurde. Bei bestimmten Ausführungsformen kann der Aktivierungstrigger ein Wort oder eine Phrase sein, das bzw. die im Block 820 in einem einer inaktiven Region zugeordneten Signal detektiert wird. Bei anderen Ausführungsformen kann der Aktivierungstrigger auch Verwendung einer Taste oder eines anderen physischen Aktivators sein (ähnlich wie im Entscheidungsblock 812 (wobei aber die resultierende Aktion Aktivieren einer oder mehrerer Regionen ist, statt Inaktivieren einer oder mehrerer Regionen).
Falls ein Aktivierungstrigger empfangen wird, kann der Prozess 800 zum Block 824 fließen, um die Region zu aktivieren; andernfalls kann der Prozess 800 in einer Schleife Block 804 erreichen, um zusätzliche Signale aus dem Mikrofonarray zu erhalten.
Nachdem im Block 824 inaktive Regionen aktiviert sind, kann der Prozess 800 in einer Schleife Block 804 erreichen, um weiter Signale aus dem Mikrofonarray zu erhalten.
Es versteht sich, dass die in den verschiedenen Flussdiagrammen beschriebenen Ausführungsformen parallel, in Serie oder einer Kombination davon ausgeführt werden können, sofern es der Kontext nicht deutlich anders vorschreibt. Dementsprechend können ein oder mehrere Blöcke oder Kombinationen von Blöcken in den verschiedenen Flussdiagrammen gleichzeitig mit anderen Blöcken oder Kombinationen von Blöcken ausgeführt werden. Außerdem können ein oder mehrere Blöcke oder Kombinationen von Blöcken in einer Sequenz ausgeführt werden, die von der in den Flussdiagrammen dargestellten Sequenz abweicht.
Ferner können die hier beschriebenen und in den verschiedenen Flussdiagrammen gezeigten Ausführungsformen als Ausführungsformen ganz in Hardware (z. B. Spezialhardware), Ausführungsformen ganz in Software (z. B. prozessorlesbare Anweisungen), benutzerunterstützt oder eine Kombination davon implementiert werden. Bei bestimmten Ausführungsformen können Softwareausführungsformen mehrere Prozesse oder Threads umfassen, die je nach Bedarf statisch oder dynamisch gestartet werden, oder dergleichen.
Die hier beschriebenen und in den verschiedenen Flussdiagrammen gezeigten Ausführungsformen können durch Computeranweisungen (oder prozessorlesbare Anweisungen) implementiert werden. Diese Computeranweisungen können einem oder mehreren Prozessoren zugeführt werden, um eine Maschine zu produzieren, so dass Ausführung der Anweisungen auf dem Prozessor bewirkt, dass eine Reihe von Verfahrensschritten ausgeführt wird, um ein Mittel zum Implementieren der hier beschriebenen und/oder in den Flussdiagrammen gezeigten Ausführungsformen zu erzeugen. Bei bestimmten Ausführungsformen können diese Computeranweisungen auf maschinenlesbaren Speichermedien, wie etwa prozessorlesbaren nichtflüchtigen Speichermedien, gespeichert werden.
Die obige Beschreibung, die obigen Beispiele und Daten geben eine vollständige Beschreibung der Herstellung und Verwendung der Zusammensetzung der Erfindung. Da viele Ausführungsformen der Erfindung hergestellt werden können, ohne vom Wesen und Schutzbereich der Erfindung abzuweichen, liegt die Erfindung in den im Folgenden angefügten Ansprüchen verankert.

Claims

Verfahren zur Bereitstellung von gerichteter Sprachanhebung und Geräuschminderung, umfassend: Verwenden jedes an mehreren Mikrofonen zum Erzeugen wenigstens eines Audiosignals auf der Basis von in einem physischen Raum erfasstem Schall, wobei die mehreren Mikrofone ausgelegt sind zum logischen Definieren des physischen Raums zu mehreren Hörregionen und wobei jeder Status für jede Hörregion logisch als aktiv oder inaktiv definiert ist; Erzeugen eines Ausgangssignals aus den Audiosignalen, wobei gerichtete Geräuschverminderung an jedem jeder inaktiven Hörregion zugeordneten Audiosignal ausgeführt wird und Sprachanhebung an jedem jeder aktiven Hörregion zugeordneten Audiosignal ausgeführt wird; Modifizieren eines aktuellen Status wenigstens einer der mehreren Hörregionen auf der Basis einer Anforderung, den aktuellen Status in seinen entgegengesetzten Status umzuändern; und Bereitstellen einer Angabe für einen Benutzer hinsichtlich jedes aktuellen Status für jede der mehreren Hörregionen.
Verfahren nach Anspruch 1, das ferner umfasst, dem Benutzer eine andere Angabe hinsichtlich einer Qualität der jeder aktiven Hörregion zugeordneten Audiosignale bereitzustellen.
Verfahren nach Anspruch 1, das ferner umfasst, wenigstens die jeder inaktiven Hörregion zugeordneten Audiosignale auf ein gesprochenes Wort zu überwachen, das ausgelegt ist, um die Anforderung, den aktuellen Status zu ändern, zu triggern.
Verfahren nach Anspruch 1, wobei die Anforderung von einer Aktion des Benutzers an wenigstens einem von mehreren Aktivatoren getriggert wird, wobei jeder Aktivator wenigstens einer verschiedenen Hörregion entspricht.
Verfahren nach Anspruch 1, wobei Modifizieren des aktuellen Status ferner Triggern der Modifikation eines aktuellen Status wenigstens einer anderen Hörregion zu ihrem entgegengesetzten Status umfasst.
Verfahren nach Anspruch 1, das ferner umfasst, dem Benutzer eine Benutzeroberfläche bereitzustellen, die einen Aktivator und einen Indikator für jede der mehreren Hörregionen umfasst, wobei jeder Aktivator dem Benutzer ermöglicht, den aktuellen Status für wenigstens eine entsprechende Hörregion zu aktivieren oder zu inaktivieren, und jeder Indikator eine jeder aktiven Hörregion zugeordnete Audiosignalqualität repräsentiert.
Verfahren nach Anspruch 1, das ferner umfasst, wenigstens die jeder inaktiven Hörregion zugeordneten Audiosignale auf ein gesprochenes Wort zu überwachen, das die Anforderung triggert, wobei ein erstes überwachtes gesprochenes Wort Aktivierung einer inaktiven Hörregion triggert und gleichzeitig Inaktivierung einer aktiven Hörregion triggert und wobei ein zweites überwachtes gesprochenes Wort Aktivierung der inaktiven Hörregion triggert und der aktuelle Status jeder anderen Hörregion unverändert bleibt.
Vorrichtung zur Bereitstellung von gerichteter Sprachanhebung und Geräuschminderung, umfassend: einen Sendeempfänger, ausgelegt zum Kommunizieren und Ermöglichen von Telefonanrufunterstützung mit einem entfernten Computer; einen Lautsprecher, ausgelegt zum Produzieren von Audio aus der Kommunikation mit dem entfernten Computer; ein Mikrofonarray, ausgelegt zum Erzeugen wenigstens eines Audiosignals auf der Basis von in einem physischen Raum erfasstem Schall, wobei das Mikrofonarray ausgelegt ist zum logischen Definieren des physischen Raums zu mehreren Hörregionen und wobei jeder Status für jede Hörregion logisch als aktiv oder inaktiv definiert ist; einen Prozessor, ausgelegt zum Ausführen von Anweisungen, die Aktionen ermöglichen, umfassend: Erzeugen eines Ausgangssignals aus den Audiosignalen, wobei gerichtete Geräuschverminderung an jedem jeder inaktiven Hörregion zugeordneten Audiosignal ausgeführt wird und Sprachanhebung an jedem jeder aktiven Hörregion zugeordneten Audiosignal ausgeführt wird; und Modifizieren eines aktuellen Status wenigstens einer der mehreren Hörregionen auf der Basis einer Anforderung, den aktuellen Status in seinen entgegengesetzten Status umzuändern; und wenigstens einen Indikator, ausgelegt zum Bereitstellen einer Angabe für einen Benutzer hinsichtlich jedes aktuellen Status für jede der mehreren Hörregionen.
Vorrichtung nach Anspruch 8, die ferner wenigstens einen anderen Indikator umfasst, ausgelegt, um dem Benutzer eine andere Angabe hinsichtlich einer Qualität der jeder aktiven Hörregion zugeordneten Audiosignale bereitzustellen.
Vorrichtung nach Anspruch 8, wobei der Prozessor ausgelegt ist, um Anweisungen auszuführen, die weitere Aktionen ermöglichen, umfassend Überwachen wenigstens der jeder inaktiven Hörregion zugeordneten Audiosignale auf ein gesprochenes Wort, das ausgelegt ist, um die Anforderung, den aktuellen Status zu ändern, zu triggern.
Vorrichtung nach Anspruch 8, die ferner mehrere Aktivatoren umfasst, wobei jeder Aktivator wenigstens einer verschiedenen Hörregion entspricht und wobei die Anforderung von einer Aktion des Benutzers an wenigstens einem der mehreren Aktivatoren getriggert wird.
Vorrichtung nach Anspruch 8, wobei Modifizieren des aktuellen Status ferner Triggern der Modifikation eines aktuellen Status wenigstens einer anderen Hörregion zu ihrem entgegengesetzten Status umfasst.
Vorrichtung nach Anspruch 8, die ferner einen Anzeigebildschirm umfasst, der ausgelegt ist, um dem Benutzer eine Benutzeroberfläche bereitzustellen, die einen Aktivator und einen Indikator für jede der mehreren Hörregionen umfasst, wobei jeder Aktivator dem Benutzer ermöglicht, den aktuellen Status für wenigstens eine entsprechende Hörregion zu aktivieren oder zu inaktivieren, und jeder Indikator eine jeder aktiven Hörregion zugeordnete Audiosignalqualität repräsentiert.
Vorrichtung nach Anspruch 8, wobei der Prozessor ausgelegt ist, um Anweisungen auszuführen, die weitere Aktionen ermöglichen, umfassend Überwachen wenigstens der jeder inaktiven Hörregion zugeordneten Audiosignale auf ein gesprochenes Wort, das die Anforderung triggert, wobei ein erstes überwachtes gesprochenes Wort Aktivierung einer inaktiven Hörregion triggert und gleichzeitig Inaktivierung einer aktiven Hörregion triggert und wobei ein zweites überwachtes gesprochenes Wort Aktivierung der inaktiven Hörregion triggert und der aktuelle Status jeder anderen Hörregion unverändert bleibt.
Hardwarechip, der ausgelegt ist, um gerichtete Sprachanhebung und Geräuschverminderung für ein Lautsprecher- und Mikrofonsystem bereitzustellen, umfassend: eine Eingangslogik, die ausgelegt ist, um jedes von mehreren Mikrofonen zu verwenden, um wenigstens ein Audiosignal auf der Basis von in einem physischen Raum erfasstem Schall zu erzeugen, wobei die mehreren Mikrofone ausgelegt sind zum logischen Definieren des physischen Raums zu mehreren Hörregionen und wobei jeder Status für jede Hörregion logisch als aktiv oder inaktiv definiert ist; eine Sprachanheberlogik, die ausgelegt ist, um ein Ausgangssignal aus den Audiosignalen zu erzeugen, wobei gerichtete Geräuschverminderung an jedem jeder inaktiven Hörregion zugeordneten Audiosignal ausgeführt wird und Sprachanhebung an jedem jeder aktiven Hörregion zugeordneten Audiosignal ausgeführt wird; eine Triggerüberwachungslogik, die ausgelegt ist, um einen aktuellen Status wenigstens einer der mehreren Hörregionen auf der Basis einer Anforderung, den aktuellen Status in seinen entgegengesetzten Status umzuändern, zu modifizieren; und eine Anzeigeindikatorlogik, die ausgelegt ist, um einem Benutzer eine Angabe hinsichtlich jedes aktuellen Status für jede der mehreren Hörregionen bereitzustellen.
Hardwarechip nach Anspruch 15, wobei die Anzeigeindikatorlogik ferner ausgelegt ist, um dem Benutzer eine andere Angabe hinsichtlich einer Qualität der jeder aktiven Hörregion zugeordneten Audiosignale bereitzustellen.
Hardwarechip nach Anspruch 15, wobei die Triggerüberwachungslogik ferner ausgelegt ist, um wenigstens die jeder inaktiven Hörregion zugeordneten Audiosignale auf ein gesprochenes Wort zu überwachen, das ausgelegt ist, um die Anforderung, den aktuellen Status zu ändern, zu triggern.
Hardwarechip nach Anspruch 15, wobei die Anforderung von einer Aktion des Benutzers an wenigstens einem von mehreren Aktivatoren getriggert wird, wobei jeder Aktivator wenigstens einer verschiedenen Hörregion entspricht.
Hardwarechip nach Anspruch 15, wobei die Anzeigeindikatorlogik ferner ausgelegt ist, um dem Benutzer eine Benutzeroberfläche bereitzustellen, die einen Aktivator und einen Indikator für jede der mehreren Hörregionen umfasst, wobei jeder Aktivator dem Benutzer ermöglicht, den aktuellen Status für wenigstens eine entsprechende Hörregion zu aktivieren oder zu inaktivieren, und jeder Indikator eine jeder aktiven Hörregion zugeordnete Audiosignalqualität repräsentiert.
Hardwarechip nach Anspruch 15, wobei die Triggerüberwachungslogik ferner ausgelegt ist, um wenigstens die jeder inaktiven Hörregion zugeordneten Audiosignale auf ein gesprochenes Wort zu überwachen, das die Anforderung triggert, wobei ein erstes überwachtes gesprochenes Wort Aktivierung einer inaktiven Hörregion triggert und gleichzeitig Inaktivierung einer aktiven Hörregion triggert und wobei ein zweites überwachtes gesprochenes Wort Aktivierung der inaktiven Hörregion triggert und der aktuelle Status jeder anderen Hörregion unverändert bleibt.