DE102022104516A1

DE102022104516A1 - Automatischer akustischer handoff

Info

Publication number: DE102022104516A1
Application number: DE102022104516.1A
Authority: DE
Inventors: Jonathan D. Sheaffer; Martin E. Johnson; Andrew P. Bright
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2021-02-26
Filing date: 2022-02-25
Publication date: 2022-09-01
Also published as: US20220279305A1; CN114979880A

Abstract

Offenbart werden Systeme und Verfahren zum automatischen Wechsel zwischen Kommunikationsmodi von tragbaren Audioausgabevorrichtungen, die ausschließlich auf akustischer Analyse basieren. Die Audioausgabevorrichtungen können in einem von drei elektroakustischen Modi arbeiten. Im Transparenzmodus kann eine Audioausgabevorrichtung das Sprachsignal eines in der Nähe befindlichen Benutzers weiterleiten. Im Peer-to-Peer-Modus kann die Audioausgabevorrichtung eine direkte Hochfrequenzverbindung (HF-Verbindung) mit niedriger Latenz zu einer anderen Audioausgabevorrichtung herstellen. Im Telefoniemodus kann die Audioausgabevorrichtung mit einer anderen Audioausgabevorrichtung unter Verwendung von Netzwerktelefonie kommunizieren. Die offenbarten Verfahren und Systeme führen eine akustische Analyse des Nahfeld-Sprachsignals eines lokalen Trägers der Audioausgabevorrichtung und des Fernfeld-Sprachsignals eines entfernten Sprechers durch, um den besten zu verwendenden Modus für die Audioausgabevorrichtung zu bestimmen und um nahtlos zwischen den Modi zu wechseln, wenn sich die akustische Umgebung zwischen den Trägern ändert.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht den Vorteil der vorläufigen US-Anmeldung mit der Nr. 63/154.651 , eingereicht am Freitag, 26. Februar 2021, deren Offenbarung hierin in vollem Umfang durch Bezugnahme aufgenommen wird.
GEBIET
Diese Offenbarung bezieht sich auf das Gebiet der Audiokommunikation, einschließlich digitaler Signalverarbeitungsverfahren, die dazu ausgelegt sind, automatisch verschiedene Modi der elektroakustischen Kommunikation zu identifizieren und zwischen ihnen zu wechseln, um sich an wechselnde akustische Umgebungen anzupassen. Es werden auch andere Gesichtspunkte beschrieben.
STAND DER TECHNIK
Audioausgabevorrichtungen, einschließlich tragbare Audioausgabevorrichtungen wie Kopfhörer, Ohrstöpsel, Ohrhörer usw., werden häufig verwendet, um Benutzern über verschiedene elektroakustische Kommunikationsmodi eine Audioausgabe bereitzustellen. Eine tragbare Audioausgabevorrichtung kann in einem Telefoniemodus mit einem Telefon gekoppelt werden oder in einem Transparenzmodus betrieben werden, der es einem Benutzer ermöglicht, die Umgebungsgeräusche durch die Audioausgabevorrichtung zu hören, wodurch die Kommunikation mit einem in der Nähe befindlichen Sprecher ermöglicht wird, ohne dass die Audioausgabevorrichtung entfernt werden muss.
KURZDARSTELLUNG
Offenbart werden Gesichtspunkte von Verfahren und Systemen zum automatischen Wechsel zwischen Kommunikationsmodi von tragbaren Audioausgabevorrichtungen, die ausschließlich auf akustischer Analyse basieren. Die Audioausgabevorrichtungen können in einem von drei elektroakustischen Modi arbeiten, wenn sie von Benutzern getragen werden, die unter Verwendung der Audioausgabevorrichtungen kommunizieren. Im Transparenzmodus kann eine Audioausgabevorrichtung das Sprachsignal eines in der Nähe befindlichen Benutzers weiterleiten. Im Peer-to-Peer-Modus kann die Audioausgabevorrichtung eine direkte Hochfrequenzverbindung (HF-Verbindung) mit niedriger Latenz zu einer anderen Audioausgabevorrichtung innerhalb eines Kommunikationsbereichs der HF-Verbindung herstellen. Im Telefoniemodus kann die Audioausgabevorrichtung mit einer anderen Audioausgabevorrichtung unter Verwendung von Netzwerktelefonie kommunizieren. Die offenbarten Verfahren und Systeme führen eine akustische Analyse des Nahfeld-Sprachsignals eines lokalen Trägers der Audioausgabevorrichtung und des Fernfeld-Sprachsignals eines entfernten Sprechers durch, um den besten Modus für die Audioausgabevorrichtung zu bestimmen und um nahtlos zwischen den Modi zu wechseln, wenn sich die akustische Umgebung zwischen dem lokalen Träger der Audioausgabevorrichtung und dem entfernten Sprecher ändert.
In einem Gesichtspunkt kann das Verfahren die Nahfeld- und Fernfeld-Sprachsignale verarbeiten, die von einem oder mehreren Mikrofonen der Audioausgabevorrichtung erfasst werden, um Parameter der akustischen Umgebung zu schätzen. In einem Gesichtspunkt können die Audioausgabevorrichtung des lokalen Trägers und die Audioausgabevorrichtung des entfernten Sprechers die akustischen Parameter der Umgebung wechselweise schätzen. Die zwei Audioausgabevorrichtungen können jeweils die akustischen Parameter und deren Änderungsrate auf der Grundlage ihrer jeweiligen Nahfeld- und Fernfeld-Sprachsignale schätzen. Die zwei Audioausgabevorrichtungen können die geschätzten akustischen Parameter austauschen, zum Beispiel durch die direkte HF-Verbindung des Peer-to-Peer-Modus, um die Zuverlässigkeit der geschätzten akustischen Parameter zu erhöhen. Faktisch können die zwei Audioausgabevorrichtungen als ein verteiltes, nicht phasenstarres Mikrofonarray fungieren, um die gegenseitige Schätzung der akustischen Parameter durchzuführen, um den für die Kommunikation zwischen den beiden Trägern der Audioausgabevorrichtungen zu verwendenden elektroakustischen Modus zu bestimmen. In einem Gesichtspunkt kann nur eine Audioausgabevorrichtung die akustischen Parameter und ihre Änderungsrate schätzen, wenn die andere Audioausgabevorrichtung nicht über die nötige Verarbeitungsfähigkeit verfügt, Verarbeitungseinschränkungen aufweist oder Strom sparen möchte.
Das Verfahren kann die geschätzten akustischen Parameter verarbeiten, um zu bestimmen, ob es möglich ist, den Trägern der Audioausgabevorrichtungen zu erlauben, im Transparenzmodus zu kommunizieren, wie etwa, wenn sich die Träger in Hörweite voneinander befinden, um ein Gespräch von Angesicht zu Angesicht zu führen. Das Verfahren kann ferner die geschätzten akustischen Parameter verarbeiten, um Spatialisierungsmetadaten des entfernten Sprechers zu erzeugen. In einem Gesichtspunkt kann, wenn das Fernfeld-Sprachsignal zu abgeschwächt ist, wie beispielsweise wenn der Abstand zwischen den beiden Trägern einen hörbaren Kommunikationsbereich überschreitet, die Audioausgabevorrichtung des lokalen Trägers eine direkte HF-Verknüpfung mit niedriger Latenz im Peer-to-Peer-Modus mit der Audioausgabevorrichtung des entfernten Sprechers herstellen, um das Fernfeld-Sprachsignal elektromagnetisch zu empfangen. Das Verfahren kann die Spatialisierungsmetadaten verwenden, um das über die direkte HF-Verbindung empfangene Fernfeld-Sprachsignal so neu zu verräumlichen, dass es einen Pegel und eine wahrgenommene Einfallsrichtung aufweist, die den entfernten Sprecher räumlich nachahmen. Das verräumlichte Fernfeld-Sprachsignal aus der direkten HF-Verbindung kann verwendet werden, um das akustisch von den Mikrofonen empfangene Fernfeld-Sprachsignal zu erweitern. In einem Gesichtspunkt kann das Verfahren das von den Mikrofonen akustisch empfangene Fernfeld-Sprachsignal mit dem verräumlichten Fernfeld-Sprachsignal aus der HF-Verbindung addieren, um das Signal-Rausch-Verhältnis (SNR) des Fernfeld-Sprachsignals zu verbessern. In einem Gesichtspunkt kann die Audioausgabevorrichtung des lokalen Trägers das erweiterte Fernfeld-Sprachsignal über einen Lautsprecher der Audioausgabevorrichtung im Peer-to-Peer-Modus an den Benutzer ausgeben.
Das Verfahren kann das Leistungsspektrum des akustischen Fernfeld-Sprachsignals, das verräumlichte Fernfeld-Sprachsignal oder das erweiterte Fernfeld-Sprachsignal schätzen, z. B. durch Erzeugen einer laufenden Schätzung der Leistungsspektrumdichte (PSD) der Fernfeld-Sprachsignale im Transparenzmodus oder im Peer-to-Peer-Modus. In einem Gesichtspunkt kann das Verfahren die geschätzten akustischen Parameter verarbeiten, um zu bestimmen, dass die Entfernung zwischen den beiden Sprechern die Kommunikationsreichweite der direkten HF-Verbindung überschreitet. Die Audioausgabevorrichtung des lokalen Trägers kann von dem Peer-to-Peer-Modus in den Telefoniemodus umschalten, um das Fernfeld-Sprachsignal von der Audioausgabevorrichtung des entfernten Sprechers über vernetzte Telefonie zu empfangen. Das Verfahren kann das über den Telefoniemodus empfangene Fernfeld-Sprachsignal mit der laufenden Schätzung der Leistungsspektrumdichte entzerren, um den Übergang vom Peer-to-Peer-Modus in den Telefoniemodus zu glätten. In einem Gesichtspunkt kann das Verfahren das entzerrte Fernfeld-Sprachsignal im Telefoniemodus mit dem verräumlichten Fernfeld-Sprachsignal oder dem erweiterten Fernfeld-Sprachsignal im Peer-to-Peer-Modus summieren. In einem Gesichtspunkt kann das Verfahren das Leistungsspektrum des akustischen Nahfeld-Signals schätzen, indem es eine laufende PSD-Schätzung des Nahfeld-Sprachsignals im Transparenzmodus oder im Peer-to-Peer-Modus erzeugt. Das Verfahren kann die geschätzten akustischen Parameter, die PSD-Schätzungen der Fernfeld-Sprachsignale und die PSD-Schätzungen der Nahfeld-Sprachsignale verarbeiten, um die Entfernung zwischen den beiden Sprechern zu schätzen und zwischen dem Transparenzmodus, dem Peer-to-Peer-Modus und dem Telefoniemodus umzuschalten. In einem Gesichtspunkt kann das Verfahren, wenn eine der Audioausgabevorrichtungen nicht über die Fähigkeit zur direkten HF-Verbindung des Peer-to-Peer-Modus verfügt, direkt zwischen dem Transparenzmodus und dem Telefoniemodus umschalten.
In einem Gesichtspunkt wird ein Verfahren zum Kommunizieren zwischen einem lokalen Sprecher, der einen lokalen Ohrhörer trägt, und einem entfernten Sprecher, der einen entfernten Ohrhörer trägt, offenbart. Das Verfahren verarbeitet das Nahfeld-Sprachsignal des lokalen Sprechers und das Fernfeld-Sprachsignal des entfernten Sprechers, die über den lokalen Ohrhörer empfangen werden, um akustische Parameter zu schätzen. Das Verfahren verarbeitet auch die geschätzten akustischen Parameter, um einen Kommunikationsmodus zwischen dem lokalen Ohrhörer und dem entfernten Ohrhörer zu bestimmen. Der Kommunikationsmodus schließt einen akustischen Transparenzmodus, einen Peer-to-Peer-HF-Modus oder einen Telefoniemodus ein. Wenn der Kommunikationsmodus als Peer-to-Peer-Modus bestimmt wird, verarbeitet das Verfahren das über den Peer-to-Peer-Modus empfangene Fernfeld-Sprachsignal, um ein verräumlichtes Sprachsignal zu erzeugen. Wenn der Kommunikationsmodus als Telefoniemodus bestimmt wird, verarbeitet das Verfahren das über den Telefoniemodus empfange Fernfeld-Sprachsignal, um ein Telefonie-Sprachsignal zu erzeugen. Das Verfahren gibt das durch den akustischen Transparenzmodus empfangene Fernfeld-Sprachsignal, das verräumlichte Sprachsignal im Peer-to-Peer-Modus oder das Telefonie-Sprachsignal im Telefoniemodus an einen Lautsprecher des lokalen Ohrhörers aus.
In einem Gesichtspunkt wird ein Verfahren zum Kommunizieren zwischen einem lokalen Sprecher, der einen lokalen Ohrhörer trägt, und einem entfernten Sprecher, der einen entfernten Ohrhörer trägt, offenbart. Das Verfahren verarbeitet das Nahfeld-Sprachsignal des lokalen Sprechers und das Fernfeld-Sprachsignal des entfernten Sprechers, um akustische Parameter zu schätzen. Das Fernfeld-Sprachsignal wird als akustisches Signal mit einem Mikrofon des lokalen Ohrhörers erfasst. Das Verfahren verarbeitet die geschätzten akustischen Parameter, um zu bestimmen, ob das akustische Signal durch eine HF-Übertragung erweitert werden soll, die der lokale Ohrhörer von dem entfernten Ohrhörer empfängt. Die HF-Übertragung wird verwendet, um das Fernfeld-Sprachsignal elektromagnetisch zu übertragen. Wenn bestimmt wird, dass das akustische Signal erweitert wird, verarbeitet das Verfahren das akustische Signal und das über die HF-Übertragung empfangene Fernfeld-Sprachsignal, um ein erweitertes akustisches Signal zu erzeugen. Das Verfahren gibt das erweiterte akustische Signal oder das nicht erweiterte akustische Signal an einen Lautsprecher des lokalen Ohrhörers aus.
Die vorstehende Zusammenfassung schließt keine erschöpfende Aufzählung aller Gesichtspunkte der vorliegenden Erfindung ein. Es ist angedacht, dass die Erfindung alle Systeme und Verfahren einschließt, die aus allen geeigneten Kombinationen der verschiedenen vorstehend zusammengefassten Gesichtspunkte sowie denjenigen, die in der nachstehenden detaillierten Beschreibung offenbart und in den mit der Anmeldung eingereichten Ansprüchen besonders hervorgehoben sind, ausgeübt werden können. Solche Kombinationen weisen bestimmte Vorteile auf, die in der vorstehenden Kurzdarstellung nicht spezifisch angegeben sind.
Figurenliste
Verschiedene Gesichtspunkte der Offenbarung hierhin werden in beispielhafter und nicht einschränkender Weise in den Figuren der begleitenden Zeichnungen veranschaulicht, in denen gleiche Bezüge gleiche Elemente angeben. Es sei darauf hingewiesen, dass sich Verweise auf „einen“ Gesichtspunkt in dieser Offenbarung nicht notwendigerweise auf denselben Gesichtspunkt beziehen, und dass sie mindestens einen meinen. Außerdem kann der Kürze halber und zur Verringerung der Gesamtzahl der Figuren eine bestimmte Figur auch zur Veranschaulichung der Merkmale von mehr als einem Gesichtspunkt der Offenbarung verwendet werden, und nicht alle Elemente in der Figur sind für einen bestimmten Gesichtspunkt erforderlich.

1 zeigt zwei Träger von Audioausgabevorrichtungen, die miteinander unter Verwendung eines Transparenzmodus, eines Peer-to-Peer-Modus oder eines Telefoniemodus der Audioausgabevorrichtungen gemäß einem Gesichtspunkt der Offenbarung kommunizieren.

2 zeigt eine tragbare Audioausgabevorrichtung und den wahrgenommenen Umgebungsschall gemäß einem Gesichtspunkt der Offenbarung.
3 zeigt ein Funktionsblockdiagramm eines Systems, das Umgebungsschall einschließlich Sprachsignale, die akustisch von einem Mikrofonarray einer lokalen tragbaren Audioausgabevorrichtung erfasst werden, und Sprachsignale, die elektromagnetisch von einer entfernten tragbaren Audioausgabevorrichtung empfangen werden, verarbeitet, um gemäß einem Gesichtspunkt der Offenbarung einen Kommunikationsmodus zwischen den Audioausgabevorrichtungen allein auf der Grundlage einer akustischen Analyse zu bestimmen und zwischen den Kommunikationsmodi zu wechseln.
4 zeigt ein Funktionsblockdiagramm eines Merkmalextraktormoduls, das die Nahfeld-Sprachsignale und die Fernfeld-Sprachsignale verarbeitet, um Parameter der akustischen Umgebung zu schätzen, die verwendet werden, um den Kommunikationsmodus einer tragbaren Audioausgabevorrichtung gemäß einem Gesichtspunkt der Offenbarung zu bestimmen.
5 zeigt ein Funktionsblockdiagramm eines Klassifikator- und Parameterschätzmoduls, das die geschätzten Parameter verarbeitet, um den Kommunikationsmodus und die Spatialisierungsmetadaten zu bestimmen, die verwendet werden, um das im Peer-to-Peer-Modus empfangene Fernsprachsignal gemäß einem Gesichtspunkt der Offenbarung neu zu verräumlichen.
6 zeigt ein Funktionsblockdiagramm eines Raumfiltermoduls, welches das im Peer-to-Peer-Modus empfangene Fernsprachsignal unter Verwendung von Spatialisierungsmetadaten neu verräumlicht und Leistungsspektrumsmetadaten erzeugt, die verwendet werden, um das im Telefoniemodus empfangene Fernsprachsignal gemäß einem Gesichtspunkt der Offenbarung zu entzerren.
7 ist ein Flussdiagramm eines Verfahrens zum Bestimmen des Kommunikationsmodus und zum Wechseln zwischen den Kommunikationsmodi einer tragbaren Audioausgabevorrichtung, das allein auf einer akustischen Analyse gemäß einem Gesichtspunkt der Offenbarung basiert.
8 ist ein Flussdiagramm eines Verfahrens zum Erweitern des akustischen Signals der Fernfeldsprache, das von einem Mikrofon einer tragbaren Audioausgabevorrichtung erfasst wird, um das Fernfeld-Sprachsignal, das auf einer HF-Übertragung getragen wird, die allein auf einer akustischen Analyse gemäß einem Gesichtspunkt der Offenbarung basiert.

DETAILLIERTE BESCHREIBUNG
Eine tragbare Audioausgabevorrichtung kann in einem Transparenzmodus arbeiten, der es einem Benutzer ermöglicht, den Umgebungsschall zu hören, ohne dass der Benutzer die Audioausgabevorrichtung abnehmen muss. In einigen Szenarien kann der vom Benutzer wahrgenommene Umgebungsschall, einschließlich der Sprache eines in der Nähe befindlichen Sprechers, aufgrund der durch die Audioausgabevorrichtung hervorgerufenen physischen Behinderung gedämpft werden. In einem Modus kann die Audioausgabevorrichtung den gedämpften Umgebungsschall an das Ohr des Benutzers weiterleiten oder alternativ den Umgebungsschall verstärken, indem sie den Umgebungsschall mit einem Mikrofon aufnimmt und das aufgenommene akustische Signal wiedergibt.
In einem anderen Modus, wenn die Audioausgabevorrichtung mit einem Telefon gekoppelt ist, kann die Audioausgabevorrichtung den Umgebungsschall aktiv unterdrücken, damit der Benutzer herkömmliche Telefongespräche führen kann. Die beiden Kommunikationsmodi werden üblicherweise getrennt behandelt. Wenn ein Benutzer zwischen den Modi umschalten möchte, muss der Benutzer dies manuell tun. Wenn ein Benutzer beispielsweise ein Gespräch mit einem in der Nähe befindlichen Sprecher im Transparenzmodus unterbrechen möchte, um einen Telefonanruf zu tätigen, muss der Benutzer den Transparenzmodus gegebenenfalls ausschalten, um den Telefonanruf zu tätigen. Nach dem Telefonanruf muss der Benutzer den Transparenzmodus gegebenenfalls erneut aktivieren, um das Gespräch mit dem in der Nähe befindlichen Sprecher fortzusetzen.
In einem anderen Szenario möchte der Benutzer das Gespräch mit dem in der Nähe befindlichen Sprecher möglicherweise auch dann fortsetzen, wenn sich entweder der Benutzer oder der in der Nähe befindliche Sprecher außerhalb des Hörbereichs des Gesprächs bewegt. Wenn das Sprachsignal des in der Nähe befindlichen Sprechers aufgrund der größeren Entfernung zu schwach wird, um hörbar zu sein, muss der Benutzer möglicherweise den Transparenzmodus manuell ausschalten, um einen Anruf an den Sprecher zu tätigen, wodurch das Gespräch möglicherweise unterbrochen wird. Daher kann es unpraktisch sein, dass der Benutzer manuell zwischen den Betriebsmodi der tragbaren Audioausgabevorrichtung umschalten muss, und das gesamte Audioerlebnis des Benutzers kann beeinträchtigt werden.
Es ist wünschenswert, dass das Wechseln zwischen den Kommunikationsmodi von tragbaren Audioausgabevorrichtungen automatisch und ausschließlich auf der Grundlage der akustischen Analyse erfolgt, ohne dass manuelle Eingriffe oder Befehle des Benutzers erforderlich sind. Wenn sich beispielsweise zwei Träger von Kopfhörern, Ohrstöpseln, Ohrhörern usw. in unmittelbarer Nähe von Angesicht zu Angesicht unterhalten, kann jede Audioausgabevorrichtung in einem Transparenzmodus arbeiten, um das Sprachsignal des anderen Sprechers akustisch mit Hilfe eines Mikrofonarrays zu erfassen, das die räumlichen Eigenschaften des Sprachsignals bewahrt. Jede Audioausgabevorrichtung kann das von dem Mikrofonarray erfasste akustische Signal verarbeiten, um akustische Parameter und ihre Änderungsrate zu extrahieren, um zu bestimmen, ob es machbar ist, das Gespräch in dem Transparenzmodus fortzusetzen, wenn sich der Abstand zwischen den beiden Sprechern oder die akustische Umgebung ändert. In einem Gesichtspunkt können die akustischen Parameter die Pegeldifferenz zwischen der Fernfeldsprache des entfernten Sprechers und der Nahfeldsprache des lokalen Sprechers, das Direktschall-zu-Nahschall-Verhältnis des Fernfeld-Sprachsignals, ein Maß für die Energieverteilung des Fernfeld-Sprachsignals, den Lombard-Effekt oder die Änderung des Pegels des Nahfeld-Sprachsignals, die Einfallsrichtung des Fernfeld-Sprachsignals, ein Maß für die Verständlichkeit des Fernfeld-Sprachsignals usw. einschließen.
Die Audioausgabevorrichtung kann die extrahierten akustischen Parameter verarbeiten, um zu bestimmen, dass das Fortsetzen des Gesprächs unter Verwendung des Transparenzmodus aufgrund des zunehmenden Abstands zwischen den Gesprächspartnern oder aufgrund einer Geräuschquelle nicht mehr machbar ist. Die Audioausgabevorrichtung kann das akustische Signal im Transparenzmodus erweitern, indem sie das Fernfeld-Sprachsignal elektromagnetisch über eine direkte HF-Verbindung mit geringer Latenz empfängt, indem sie die beiden Vorrichtungen in den Peer-to-Peer-Modus schaltet. Die Audioausgabevorrichtung kann auf der Grundlage der extrahierten akustischen Parameter den für die neue Verräumlichung erforderlichen Pegel und die Richtung des über die HF-Verbindung empfangenen Fernfeld-Sprachsignals schätzen. Die Audioausgabevorrichtung kann das über die HF-Verbindung empfangene Fernfeld-Sprachsignal derart neu verräumlichen, dass es mit der räumlichen Position des entfernten Sprechers übereinstimmt, so dass das akustische Signal auf nahtlose Weise erweitert werden kann. In einem Gesichtspunkt kann die Audiovorrichtung das akustisch über die Mikrofone empfangene Fernfeld-Sprachsignal mit dem über die HF-Verbindung empfangenen verräumlichten Fernfeld-Sprachsignal addieren, um das SNR der Fernfeld-Sprache in dem erweiterten Signal zu verbessern.
In einem Gesichtspunkt kann, wenn die Audioausgabevorrichtung bestimmt, dass die HF-Verbindung ihren Betriebsbereich überschreitet, die Audioausgabevorrichtung in den Telefoniemodus mit der anderen Audioausgabevorrichtung umschalten. Die Audioausgabevorrichtung kann das vom Telefoniesignal übertragene Fernfeld-Sprachsignal so entzerren, dass es ein ähnliches Leistungsspektrum wie das verräumlichte Fernfeld-Sprachsignal aufweist. In einem Gesichtspunkt kann die Audioausgabevorrichtung die laufenden Statistiken der Leistungsspektrumdichte (PSD) des verräumlichten Fernfeld-Sprachsignals im Transparenzmodus oder im Peer-to-Peer-Modus schätzen. Die Audioausgabevorrichtung kann das von dem Telefoniesignal getragene Fernfeld-Sprachsignal unter Verwendung der laufenden PSD-Schätzung entzerren, um den Übergang in den Telefoniemodus zu glätten. Das akustische Rohsignal im Transparenzmodus, das erweiterte Fernfeld-Sprachsignal im Peer-to-Peer-Modus oder das entzerrte Fernfeld-Sprachsignal im Telefoniemodus kann über einen Lautsprecher der Audioausgabevorrichtung an den Benutzer ausgegeben werden. In einem Gesichtspunkt kann die Audioausgabevorrichtung die PSD des Nahfeld-Sprachsignals im Transparenzmodus oder im Peer-to-Peer-Modus schätzen. Das Verfahren kann die PSD-Schätzungen der Fernfeld-Sprachsignale und die PSD-Schätzungen der Nahfeld-Sprachsignale oder ihre relativen Änderungsraten vergleichen, um den Abstand zwischen den beiden Sprechern oder Änderungen in der akustischen Umgebung zu schätzen. Die Audioausgabevorrichtung kann die Informationen verwenden, um zu bestimmen, wann zwischen dem Transparenzmodus, dem Peer-to-Peer-Modus und dem Telefoniemodus umgeschaltet werden soll.
In der folgenden Beschreibung werden zahlreiche spezifische Details dargelegt. Es versteht sich jedoch, dass Gesichtspunkte der vorliegenden Offenbarung auch ohne diese spezifischen Details umgesetzt werden können. In anderen Fällen wurden allgemein bekannte Schaltungen, Strukturen und Techniken nicht im Detail gezeigt, um das Verständnis dieser Beschreibung nicht zu erschweren.
Die hierin verwendete Terminologie dient lediglich dem Zweck der Beschreibung besonderer Gesichtspunkte und ist nicht als Einschränkung der Erfindung zu verstehen. Raumbezogene Begriffe, wie „unter“, „unterhalb“, „unten“, „oberhalb“, „oben“ und dergleichen, können hierin zur einfachen Beschreibung verwendet werden, um die Beziehung eines Elements oder eines Merkmals zu einem anderen Element, anderen Elementen, einem anderen Merkmal oder anderen Merkmalen, wie in den Figuren veranschaulicht, zu beschreiben. Es versteht sich, dass die raumbezogenen Begriffe dazu dienen, zusätzlich zu der in den Figuren dargestellten Ausrichtung verschiedene Ausrichtungen der Elemente oder Merkmale im Gebrauch oder Betrieb zu erfassen. Wenn zum Beispiel eine Vorrichtung, die mehrere Elemente in den Figuren enthält, umgedreht wird, würden Elemente, die als „unter“ oder „unterhalb von“ anderen Elementen oder Merkmalen beschrieben werden, dann „oberhalb“ der anderen Elemente oder Merkmale ausgerichtet sein. Somit kann der beispielhafte Begriff „unterhalb“ sowohl eine Ausrichtung oberhalb als auch unterhalb einschließen. Die Vorrichtung kann anders ausgerichtet sein (z. B. um 90 Grad gedreht oder in anderen Ausrichtungen), und die hierin verwendeten raumbezogenen Deskriptoren können entsprechend interpretiert werden.
So wie sie hierin verwendet werden, sollen die Singularformen „ein“, „eine“, „eines“ und „der“, „die“, „das“ auch die Pluralformen einschließen, sofern aus dem Kontext nichts anderes hervorgeht. Es versteht sich ferner, dass die Begriffe „umfasst“ und/oder „umfassend“ das Vorhandensein von aufgeführten Merkmalen, Schritten, Vorgängen, Elementen und/oder Komponenten spezifizieren, aber das Vorhandensein oder die Hinzufügung von einem oder mehreren anderen Merkmalen, Schritten, Vorgängen, Elementen, Komponenten und/oder Gruppen davon nicht ausschließen.
Die Begriffe „oder“ und „und/oder“, wie sie hierin verwendet werden, sind als einschließend oder ein Beliebiges oder eine beliebige Kombination bedeutend zu interpretieren. Daher bedeuten „A, B oder C“ oder „A, B und/oder C“ eines der Folgenden: A; B; C; A und B; A und C; B und C; A, B und C“. Eine Ausnahme von dieser Definition tritt nur auf, wenn sich eine Kombination von Elementen, Funktionen, Schritten oder Aktionen in irgendeiner Weise inhärent gegenseitig ausschließt.
1 zeigt zwei Träger von Audioausgabevorrichtungen, die miteinander unter Verwendung eines Transparenzmodus, eines Peer-to-Peer-Modus oder eines Telefoniemodus der Audioausgabevorrichtungen gemäß einem Gesichtspunkt der Offenbarung kommunizieren. Zur Vereinfachung der Beschreibung wird der Träger der Audioausgabevorrichtung, der die Sprachsignale des anderen Sprechers empfängt, als lokaler Sprecher bezeichnet. Die Audioausgabevorrichtung, die der lokale Sprecher trägt, wird als lokale Audioausgabevorrichtung bezeichnet. Das Signal, das die Sprache des lokalen Sprechers repräsentiert, wird als Nahfeld-Sprachsignal bezeichnet. Umgekehrt wird der andere Sprecher als entfernter Sprecher bezeichnet, die vom entfernten Sprecher getragene Audioausgabevorrichtung wird als entfernte Audioausgabevorrichtung bezeichnet, und das Signal, das die Sprache des entfernten Sprechers repräsentiert, wird als Fernfeld-Sprachsignal bezeichnet.
In einem Untermodus des Transparenzmodus kann die lokale Audioausgabevorrichtung eine oder mehrere Audiokomponenten ausgeben, wie den Umgebungsschall einschließlich des Fernfeld-Sprachsignals des entfernten Sprechers. Die lokale Audioausgabevorrichtung kann das Fernfeld-Sprachsignal unter Verwendung eines oder mehrerer Mikrofone erfassen, die der umgebenden akustischen Umgebung zugewandt sind. Die lokale Audioausgabevorrichtung kann das erfasste Fernfeld-Sprachsignal verstärken und dem lokalen Sprecher über einen Lautsprecher der lokalen Audioausgabevorrichtung wiedergeben. In diesem Untermodus des Transparenzmodus mit aktiver Schallwiedergabe kann der lokale Sprecher möglicherweise einen größeren Anteil des Umgebungsschalls aus der umgebenden physischen Umgebung hören, als dies sonst mit der passiven Dämpfung des Umgebungsschalls aufgrund der physischen Behinderung der lokalen Audioausgabevorrichtung im Ohr des lokalen Sprechers hörbar wäre. In einem Gesichtspunkt kann die lokale Audioausgabevorrichtung, wenn sich die beiden Sprecher ausreichend nahe sind, die aktive Schallwiedergabe ausschalten, so dass jeder Anteil des Umgebungsschalls, den der lokale Sprecher wahrnimmt, auf die passive Dämpfung durch die lokale Audioausgabevorrichtung zurückzuführen ist. Dieser passive akustische Leckuntermodus des Transparenzmodus kann als Durchleitungsuntermodus oder als „Aus“-Untermodus bezeichnet werden. Gesichtspunkte der Offenbarung, die sich auf den Transparenzmodus beziehen, können für den Untermodus der aktiven Schallwiedergabe oder den Durchleitungsuntermodus des Transparenzmodus oder jeden anderen Modus gelten, der es dem lokalen Sprecher ermöglicht, die natürliche Welt über die lokale Audioausgabevorrichtung zu hören. In ähnlicher Weise können sich Verweise auf das erfasste akustische Signal im Transparenzmodus auf das verstärkte Signal oder das passive Lecksignal beziehen, das von den Mikrofonen ohne aktive Verstärkung erfasst wird.
2 zeigt eine tragbare Audioausgabevorrichtung und den wahrgenommenen Umgebungsschall gemäß einem Gesichtspunkt der Offenbarung. Die tragbare Audioausgabevorrichtung 301 schließt den Ohrstöpsel 303, Schaft 305 und das Ohrstück 314 ein. Die tragbare Audioausgabevorrichtung 301 wird von einem Benutzer so getragen, dass sich Ohrstöpsel 303 und Ohrstück 314 im linken Ohr des Benutzers befinden. Ohrstück 314 erstreckt sich mindestens teilweise in den Gehörgang des Benutzers. In einem Anwendungsfall kann beim Einsetzen des Ohrstöpsels 303 und des Ohrstücks 314 in das Ohr des Benutzers eine Dichtung zwischen dem Ohrstück 314 und dem Ohr des Benutzers gebildet werden, um den Gehörgang des Benutzers von der umgebenden physischen Umgebung abzutrennen. In anderen Anwendungsfällen blockieren Ohrstöpsel 303 und Ohrstück 314 zusammen einen Teil, aber nicht notwendigerweise den ganzen Umgebungsschall der physischen Umgebung, damit dieser das Ohr des Benutzers nicht erreicht.
Ein erstes Mikrofon oder ein erstes Array von Mikrofonen 302-1 befindet sich auf der tragbaren Audioausgabevorrichtung 301, um den Umgebungsschall zu erfassen, der als Wellenform 322 im Bereich 316 einer den Benutzer umgebenden physischen Umgebung dargestellt wird. Ein zweites Mikrofon oder eine zweites Array von Mikrofonen 302-2 befindet sich an der tragbaren Audioausgabevorrichtung 301, um jedweden als Wellenform 324 dargestellten Umgebungsschall zu erfassen, der nicht vollständig durch den Ohrstöpsel 303 und das Ohrstück 314 blockiert wird und im Bereich 318 innerhalb des Gehörgangs des Benutzers hörbar ist. In einem Gesichtspunkt kann das zweite Mikrofon 302-2 verwendet werden, um das Nahfeld-Sprachsignal des Benutzers zu erfassen.
Unter erneuter Bezugnahme auf 1 wird das Fernfeld-Sprachsignal, wenn sich der entfernte Sprecher von dem lokalen Sprecher entfernt, in Abhängigkeit von dem Abstand zwischen den beiden Sprechern gedämpft. Die lokale Audioausgabevorrichtung kann das Fernfeld-Sprachsignal und das Nahfeld-Sprachsignal analysieren, um akustische Parameter der lokalen Umgebung und die Änderungsrate der geschätzten akustischen Parameter zu schätzen. In einem Gesichtspunkt können die lokale Audioausgabevorrichtung und die entfernte Audioausgabevorrichtung jeweils die akustischen Parameter ihrer jeweiligen Umgebungen und ihre Änderungsrate auf der Grundlage ihrer jeweiligen Nahfeld- und Fernfeld-Sprachsignale schätzen. Die zwei Audioausgabevorrichtungen können die geschätzten akustischen Parameter austauschen, zum Beispiel durch die direkte HF-Verbindung des Peer-to-Peer-Modus, um die Zuverlässigkeit der geschätzten akustischen Parameter zu erhöhen. Zum Beispiel kann die lokale Audioausgabevorrichtung die von der entfernten Audioausgabevorrichtung empfangenen akustischen Parameter analysieren, wobei die akustischen Parameter von der entfernten Audioausgabevorrichtung auf der Grundlage des von der entfernten Audioausgabevorrichtung akustisch empfangenen Nahfeld-Sprachsignals des lokalen Sprechers geschätzt werden. Die lokale Audioausgabevorrichtung kann die akustischen Parameter, die dem Fernfeld-Sprachsignal des entfernten Sprechers zugeordnet sind, das von der lokalen Audioausgabevorrichtung akustisch empfangen wird, wechselseitig schätzen. Faktisch können die zwei Audioausgabevorrichtungen als ein verteiltes, nicht phasenstarres Mikrofonarray fungieren, um eine gegenseitige Schätzung der akustischen Parameter durchzuführen. In einem Gesichtspunkt kann nur eine der zwei Audioausgabevorrichtungen die akustischen Parameter und ihre Änderungsrate schätzen, wenn die andere Audioausgabevorrichtung nicht über die nötige Verarbeitungsfähigkeit verfügt, Verarbeitungseinschränkungen aufweist oder Strom sparen möchte. Die Audioausgabevorrichtung, welche die akustischen Parameter schätzt, kann die geschätzten akustischen Parameter über die HF-Verbindung an die andere Audioausgabevorrichtung übertragen.
Die lokale Audioausgabevorrichtung kann die geschätzten akustischen Parameter analysieren, um zu bestimmen, ob es möglich ist, das Gespräch im Transparenzmodus fortzusetzen. Wenn die Analyse der akustischen Parameter darauf hinweist, dass das Fernfeld-Sprachsignal ausreichend gedämpft ist, so dass es möglicherweise nicht verständlich ist, kann die lokale Audioausgabevorrichtung eine direkte HF-Verbindung mit niedriger Latenz im Peer-to-Peer-Modus mit der entfernten Audioausgabevorrichtung herstellen, um das Fernfeld-Sprachsignal elektromagnetisch über die direkte HF-Verbindung zu empfangen. Um einen reibungslosen Übergang zu ermöglichen, kann die lokale Audioausgabevorrichtung die geschätzten akustischen Parameter verarbeiten, um Spatialisierungsmetadaten des entfernten Sprechers zu erzeugen.
Die lokale Audioausgabevorrichtung kann die Spatialisierungsmetadaten verwenden, um das über die direkte HF-Verbindung empfangene Fernfeld-Sprachsignal so neu zu verräumlichen, dass es einen Pegel und eine wahrgenommene Einfallsrichtung aufweist, die den entfernten Sprecher räumlich nachahmen. Das verräumlichte Fernfeld-Sprachsignal aus der direkten HF-Verbindung kann verwendet werden, um das akustisch von den Mikrofonen empfangene Fernfeld-Sprachsignal im Transparenzmodus zu erweitern. In einem Gesichtspunkt kann die lokale Audioausgabevorrichtung das Fernfeld-Sprachsignal von den Mikrofonen zeitlich mit dem verräumlichten Fernfeld-Sprachsignal von der direkten HF-Verbindung abstimmen, um das erweiterte Fernfeld-Sprachsignal zu erzeugen. In einem Gesichtspunkt kann die lokale Audiovorrichtung das von den Mikrofonen empfangene Fernfeld-Sprachsignal mit dem verräumlichten Fernfeld-Sprachsignal von der HF-Verbindung addieren, um das SNR der erweiterten Fernfeld-Sprache zu verbessern. In einem Gesichtspunkt kann die lokale Audioausgabevorrichtung in den Peer-to-Peer-Modus umschalten, um das verräumlichte Fernfeld-Sprachsignal an den Lautsprecher der lokalen Audioausgabevorrichtung auszugeben, ohne das akustische Fernfeld-Sprachsignal des Transparenzmodus zu erweitern.
Wenn sich der entfernte Sprecher weiter vom lokalen Sprecher entfernt, kann die lokale Audioausgabevorrichtung die geschätzten akustischen Parameter analysieren, um zu bestimmen, dass die direkte HF-Verbindung ihren Betriebsbereich überschreitet. Die lokale Audioausgabevorrichtung kann umschalten, um mit der entfernten Audioausgabevorrichtung im Telefoniemodus zu arbeiten. Die lokale Audioausgabevorrichtung kann das über das Telefoniesignal empfangene Fernfeld-Sprachsignal so entzerren, dass es ein ähnliches Leistungsspektrum wie das verräumlichte Fernfeld-Sprachsignal aufweist. In einem Gesichtspunkt kann die lokale Audioausgabevorrichtung die laufenden Statistiken der Leistungsspektrumdichte (PSD) des verräumlichten Fernfeld-Sprachsignals im Transparenzmodus oder im Peer-to-Peer-Modus schätzen. Die lokale Audioausgabevorrichtung kann das über das Telefoniesignal empfangene Fernfeld-Sprachsignal unter Verwendung der laufenden PSD-Schätzung entzerren, um den Übergang in den Telefoniemodus zu glätten. Die lokale Audioausgabevorrichtung kann das entzerrte Fernfeld-Sprachsignal im Telefoniemodus an den Lautsprecher der lokalen Audioausgabevorrichtung ausgeben.
In einem Gesichtspunkt kann, wenn der entfernte Sprecher keine Audioausgabevorrichtung trägt oder die entfernte Audioausgabevorrichtung nicht über die Fähigkeit zur direkten HF-Verbindung des Peer-to-Peer-Modus verfügt, die lokale Audioausgabevorrichtung direkt zwischen dem Transparenzmodus und dem Telefoniemodus umschalten. Zum Beispiel kann die lokale Audioausgabevorrichtung die geschätzten akustischen Parameter in dem Transparenzmodus analysieren, um zu bestimmen, dass das von den Mikrofonen akustisch empfangene Fernfeld-Sprachsignal ausreichend gedämpft ist, sodass der Kommunikationsmodus von dem Transparenzmodus in den Telefoniemodus umgeschaltet werden sollte.
3 zeigt ein Funktionsblockdiagramm eines Systems 300, das Umgebungsschall einschließlich Sprachsignale, die akustisch von einem Mikrofonarray einer lokalen tragbaren Audioausgabevorrichtung erfasst werden, und Sprachsignale, die elektromagnetisch von einer entfernten tragbaren Audioausgabevorrichtung empfangen werden, verarbeitet, um gemäß einem Gesichtspunkt der Offenbarung einen Kommunikationsmodus zwischen den Audioausgabevorrichtungen allein auf der Grundlage einer akustischen Analyse zu bestimmen und zwischen den Kommunikationsmodi zu wechseln. Das System 300 kann sich in der lokalen Audioausgabevorrichtung oder in einer mobilen Vorrichtung, die mit der lokalen Audioausgabevorrichtung gepaart ist, befinden.
Das Mikrofonarray 340 kann das erste Mikrofon/Mikrofonarray 302-1 und das zweite Mikrofon/Mikrofonarray 302-2 der in 2 dargestellt tragbaren Audioausgabevorrichtung 301 einschließen. Das Mikrofonarray 340 kann das Fernfeld-Sprachsignal des entfernten Sprechers und das Nahfeld-Sprachsignal des lokalen Sprechers erfassen. In einem Gesichtspunkt können die Mikrofone des Mikrofonarrays 340 eine Richtungsempfindlichkeit aufweisen, die es dem System 300 ermöglicht, die Einfallsrichtung des Sprachsignals im Fernfeld zu schätzen.
Ein Merkmalextraktormodul 350 kann die akustischen Signale des Fernfeld-Sprachsignals und des Nahfeld-Sprachsignals verarbeiten, um Parameter der akustischen Umgebung und die Änderungsrate der akustischen Parameter zu schätzen. In einem Gesichtspunkt kann das Merkmalextraktionsmodul 350 akustische Parameter empfangen, die von der entfernten Audioausgabevorrichtung geschätzt werden. Die lokalen und entfernten Audioausgabevorrichtungen können die geschätzten akustischen Parameter durch die direkte HF-Verbindung des Peer-to-Peer-Modus austauschen, um die Zuverlässigkeit der geschätzten akustischen Parameter zu erhöhen. In einem Gesichtspunkt kann die lokale Audioausgabevorrichtung die von der entfernten Audioausgabevorrichtung geschätzten akustischen Parameter verwenden, um ihre reziproken akustischen Parameter zu schätzen. Zum Beispiel können die von der entfernten Audioausgabevorrichtung empfangenen geschätzten akustischen Parameter darauf hinweisen, dass das Fernfeld-Sprachsignal des lokalen Sprechers von der entfernte Audioausgabevorrichtung mit einer bestimmten Einfallsrichtung bei einem bestimmten Sprachpegel empfangen wird und dass das Nahfeld-Sprachsignal des entfernten Sprechers von der entfernten Audioausgabevorrichtung auf einem anderen Pegel erfasst wird. Auf der wechselseitigen Beziehung zwischen den zwei Audioausgabevorrichtungen basierend, kann das Merkmalextraktionsmodul 350 diese Informationen und Informationen über den geschätzten Sprachpegel des Nahsprachsignals des lokalen Sprechers verwenden, um die Einfallsrichtung und den Sprachpegel des Fernfeld-Sprachsignals des entfernten Sprechers zu schätzen. In einem Gesichtspunkt kann die lokale Audioausgabevorrichtung die akustischen Parameter ohne Unterstützung der entfernten Audioausgabevorrichtung schätzen und dann die von der entfernten Audioausgabevorrichtung geschätzten akustischen Parameter verwenden, um die von der lokalen Audioausgabevorrichtung geschätzten akustischen Parameter zu überprüfen oder zu verfeinern.
4 zeigt ein Funktionsblockdiagramm des Merkmalextraktormoduls 350, das die Nahfeld-Sprachsignale und die Fernfeld-Sprachsignale verarbeitet, um Parameter der akustischen Umgebung zu schätzen, die verwendet werden, um den Kommunikationsmodus der lokalen Audioausgabevorrichtung gemäß einem Gesichtspunkt der Offenbarung zu bestimmen.
Ein Filtermodul 351 kann die von dem Mikrofonarray 340 erfassten akustischen Signale filtern, um das Fernfeld-Sprachsignal und das Nahfeld-Sprachsignal zu erfassen. Zum Beispiel kann das Filtermodul 351 die erfassten akustischen Signale filtern, die von dem ersten Mikrofon/Mikrofonarray 302-1 und dem zweite Mikrofon/Mikrofonarray 302-2 der in 2 dargestellten tragbaren Audioausgabevorrichtung 301 erfasst werden, um das Fernfeld-Sprachsignal bzw. das Nahfeld-Sprachsignal zu erkennen. In einem Gesichtspunkt kann das Filtermodul 351 das über die direkte HF-Verbindung des Peer-to-Peer-Modus empfangene Signal filtern, um das Fernfeld-Sprachsignal oder die von der entfernte Audioausgabevorrichtung geschätzten akustischen Parameter zu erkennen. Verschiedene Module können die Fernfeld- und Nahfeld-Sprachsignale verarbeiten, um verschiedene akustische Parameter zu schätzen.
Zum Beispiel kann ein Nahfeld-Pegeländerungsschätzmodul 352 das Nahfeldsprachsignal verarbeiten, um die Änderung des Pegels des Nahfeld-Sprachsignals über die Zeit zu schätzen. Zum Beispiel kann das Nahfeld-Pegeländerungsschätzmodul 352 den Lombard-Effekt messen, d. h. die unwillkürliche Tendenz des lokalen Sprechers, die Stimmeffekte zu verstärken, um die Hörbarkeit der Stimme zu verbessern, wenn dieser in einer lauten Umgebung spricht oder wenn die Entfernung zum entfernten Sprecher zunimmt. Solche Stimmeffekte können eine erhöhte Lautstärke, eine höhere Stimmlage, ein langsameres Tempo oder eine längere Dauer der Silben usw. einschließen.
Ein Fernfeld-zu-Nahfeld-Pegeldifferenzschätzmodul 353 kann die Nahfeld- und Fernfeld-Sprachsignale verarbeiten, um den Unterschied im Pegel oder in der Lautstärke zwischen den Nahfeld- und Fernfeld-Sprachsignalen und die Änderung der Pegeldifferenz zu schätzen. Wenn beispielsweise der entfernte Sprecher weit vom lokalen Sprecher entfernt ist, kann die Pegeldifferenz zwischen den Nahfeld- und Fernfeld-Sprachsignalen groß sein. In einem Gesichtspunkt kann das Fernfeld-zu-Nahfeld-Pegeldifferenzschätzmodul 353 die PSD der Nahfeld- und Fernfeld-Sprachsignale schätzen. Die PSD der Nahfeld- und Fernfeld-Sprachsignale können verglichen werden oder ihre relativen Änderungsraten können analysiert werden, um die Entfernung zwischen dem lokalen und dem entfernten Sprecher abzuschätzen oder um Änderungen in der akustischen Umgebung abzuschätzen.
Ein Modul zur Schätzung des Direktschall-zu-Nachhall-Verhältnisses (DRR) im Fernfeld 354 kann das Fernfeld-Sprachsignal verarbeiten, um das DRR des Fernfeld-Sprachsignals und die Änderung des DRR zu schätzen. In einem Gesichtspunkt können ein Sprachaktivitätsdetektor und ein Nahfeld-/Fernfeld-Klassifikator das Fernfeld-Sprachsignal erkennen und kann die Direktschallkomponente und die Nachhallkomponente des Fernfeld-Sprachsignals schätzen, um das DRR zu schätzen. In einem Gesichtspunkt können der Sprachaktivitätsdetektor und der Nahfeld-/Fernfeld-Klassifikator einen maschinellen Lernansatz anwenden, wie etwa unter Verwendung eines faltenden neuronalen Netzwerks (CNN, Convolutional Neural Network), eines rekurrierendes neuronales Netz (RNN, Recursive Neural Network) usw. In einem Gesichtspunkt kann ein Sprachaktivitätsdetektor Sprache auf dem Nahfeldsprachsignal erkennen. Die lokale Audioausgabevorrichtung kann ein Signal an die entfernte Audioausgabevorrichtung übertragen, das auf die Erkennung von Sprache des lokalen Sprechers hinweist, um es der entfernten Audioausgabevorrichtung zu ermöglichen, die akustischen Parameter des vom lokalen Sprecher empfangenen Sprachsignals zu schätzen. Im Gegenzug kann das Merkmalextraktormodul 350 der lokalen Audioausgabevorrichtung ein Signal von der entfernten Audioausgabevorrichtung empfangen, das auf die Erkennung von Sprache des entfernten Sprechers hinweist, um es dem Merkmalextraktormodul 350 zu ermöglichen, die akustischen Parameter des Fernfeld-Sprachsignals zu schätzen.
Das Modul zur Schätzung der Dominanz im Fernfeld 355 kann das Fernfeld-Sprachsignal verarbeiten, um dessen Energieverteilung und die Änderung der Energieverteilung zu schätzen, wie etwa durch Schätzen der räumlichen Kovarianzmatrix und der zeitlichen Varianz der räumlichen Kovarianzmatrix. Das Modul zur Schätzung der Dominanz im Fernfeld 355 kann messen, ob die Energie des Fernfeld-Sprachsignals durch kompakte Quellen dominiert wird, wie etwa wenn der entfernte Sprecher eine deutliche akustische Signatur aufweist, oder von diffuser Energie, wie etwa wenn der entfernte Sprecher zu weit entfernt ist, um eine aussagekräftige akustische Signatur zu haben.
Eine Fernfeld-Einfallsrichtungs- und Lokalisierungsmodul 356 kann das Fernfeld-Sprachsignal verarbeiten, um seine Einfallsrichtung und die Änderung der Einfallsrichtung zu schätzen. In einem Gesichtspunkt kann das Mikrofonarray 340 eine Richtungsempfindlichkeit aufweisen, um das Fernfeld-Einfallsrichtungs- und Lokalisierungsmodul 356 in die Lage zu versetzen, die Einfallsrichtung des Fernfeld-Sprachsignals zu schätzen. In einem Gesichtspunkt kann die Einfallsrichtung des Fernfeld-Sprachsignals von dem lokalen Sprecher, die von der entfernten Audioausgabevorrichtung geschätzt wird, von der lokalen Audioausgabevorrichtung als Hilfsmittel verwendet werden, um die Einfallsrichtung des Fernfeld-Sprachsignals des entfernten Sprechers auf der Grundlage der Reziprozität der räumlichen Beziehung zwischen den beiden Audioausgabevorrichtungen zu schätzen.
Ein Fernfeld-Sprachverständlichkeitsindexmodul 357 kann das Fernfeld-Sprachsignal verarbeiten, um den Verständlichkeitsparameter und die Änderung des Verständlichkeitsparameters der Fernfeld-Sprache zu schätzen. In einem Gesichtspunkt kann das Fernfeld-Sprachverständlichkeitsindexmodul 357 einen maschinellen Lernansatz anwenden, wie etwa unter Verwendung eines CNN, eines RNN usw.
Unter erneuter Bezugnahme auf 3 kann ein Klassifikator- und Parameterschätzmodul 360 die geschätzten akustischen Parameter analysieren, um den besten Kommunikationsmodus der lokalen und entfernten Audioausgabevorrichtungen zur Verwendung durch den lokalen und den entfernten Sprechern zu bestimmen, damit diese sich miteinander unterhalten können. In einem Gesichtspunkt kann der beste Kommunikationsmodus eine Funktion der Verständlichkeit, der Direktionalität, des DRR, der Energieverteilung usw. des Fernfeld-Sprachsignals sein.
Wenn die Analyse der akustischen Parameter durch das Klassifikator- und Parameterschätzmodul 360 darauf hinweist, dass der aktuelle Kommunikationsmodus die Unterhaltung zwischen dem lokalen und dem entfernten Sprecher nicht mehr unterstützt, kann das Klassifikator- und Parameterschätzmodul 360 die lokale Audioausgabevorrichtung auffordern, in einen anderen Kommunikationsmodus zu wechseln. Wenn zum Beispiel die von dem Mikrofonarray 340 erfassten Signale aufgrund des zunehmenden Abstands oder aufgrund einer Geräuschquelle die akustische Kommunikation zwischen dem lokalen und dem entfernten Sprecher im Transparenzmodus nicht mehr unterstützen können, kann die lokale Audioausgabevorrichtung das akustische Signal im Transparenzmodus mit dem über die direkte HF-Verbindung mit geringer Latenz des Peer-to-Peer-Modus empfangenen Fernfeld-Sprachsignal erweitern. Der Klassifikator- und Parameterschätzmodul 360 kann die erforderlichen Pegel- und Richtungsmetadaten für die Neuverräumlichung des über die HF-Verbindung empfangenen Fernfeld-Sprachsignals auf der Grundlage der extrahierten akustischen Parameter schätzen. Das über die HF-Verbindung empfangene Fernfeld-Sprachsignal kann derart neu verräumlicht sein, dass es mit der räumlichen Position des entfernten Sprechers übereinstimmt, sodass das akustische Signal auf nahtlose Weise erweitert werden kann.
In einem Gesichtspunkt kann der Kommunikationsmodus, der sowohl von den lokalen als auch von den entfernten Audioausgabevorrichtungen verwendet wird, der gleiche sein. Die lokale Audioausgabevorrichtung kann das Umschalten des Kommunikationsmodus mit der entfernten Audioausgabevorrichtung synchronisieren. In einem Gesichtspunkt kann der Kommunikationsmodus, der von den lokalen und von den entfernten Audioausgabevorrichtungen verwendet wird, unterschiedlich sein. Dieser asymmetrische Modus kann auftreten, wenn eine örtlich begrenzte Geräusch- oder Störquelle sich nur auf die lokale oder auf die entfernte Audioausgabevorrichtung auswirkt.
5 zeigt ein Funktionsblockdiagramm des Klassifikator- und Parameterschätzmoduls 360, das die geschätzten Parameter verarbeitet, um den Kommunikationsmodus und die Spatialisierungsmetadaten zu bestimmen, die verwendet werden, um das im Peer-to-Peer-Modus empfangene Fernsprachsignal gemäß einem Gesichtspunkt der Offenbarung neu zu verräumlichen.
Ein Sprachmodusbestimmungsmodul 361 kann die geschätzten akustischen Parameter wie den Nahfeld-Pegeländerungsparameter, den Fernfeld-zu-Nahfeld-Pegeldifferenzparameter, den Fernfeld-DRR-Parameter, den Fernfeld-Dominanzparameter, den Fernfeld-Einfallsrichtungs- und Lokalisierungsparameter, den Fernfeld-Sprachverständlichkeitsparameter usw. verarbeiten, um den besten Kommunikationsmodus zu bestimmen. In einem Gesichtspunkt kann das Sprachmodusbestimmungsmodul 361 einen zusammengesetzten Verständlichkeitsindex des Fernfeld-Sprachsignals aus den geschätzten akustischen Parametern bestimmen. Wenn der zusammengesetzte Verständlichkeitsindex über einem ersten Schwellenwert liegt, kann das Sprachmodusbestimmungsmodul 361 bestimmen, dass der beste Kommunikationsmodus der Transparenzmodus ist. Wenn der zusammengesetzte Verständlichkeitsindex unter den ersten Schwellenwert fällt, aber über einem zweiten Schwellenwert liegt, kann das Sprachmodusbestimmungsmodul 361 bestimmen, dass es der beste Kommunikationsmodus ist, das akustische Signal des Transparenzmodus mit dem über die direkte HF-Verbindung empfangenen Fernfeld-Sprachsignal zu erweitern. Wenn der zusammengesetzte Verständlichkeitsindex unter den zweiten Schwellenwert fällt, kann das Sprachmodusbestimmungsmodul 361 bestimmen, dass der beste Kommunikationsmodus der Telefoniemodus ist.
Um das akustische Signal im Transparenzmodus mit dem Fernfeld-Sprachsignal zu erweitern, das über die direkte RF mit niedriger Latenz empfangen wird, kann ein Raumparameterschätzer 362 Spatialisierungsmetadaten schätzen, die auf das Fernfeld-Sprachsignal anzuwenden sind, das über die direkte RF mit niedriger Latenz empfangen wird. Zum Beispiel kann das Sprachmodusbestimmungsmodul 361 den Fernfeld-zu-Nahfeld-Pegeldifferenzparameter, den Fernfeld-Einfallsrichtungs- und Lokalisierungsparameter, den Fernfeld-Sprachverständlichkeitsparameter usw. an den Raumparameterschätzer 362 bereitstellen, damit der Raumparameterschätzer 362 Spatialisierungsmetadaten des entfernten Sprechers wie die Pegelraummetadaten und die Richtungsraummetadaten erzeugt.
Unter erneuter Bezugnahme auf 3 kann ein Raumfilter 370 das über die direkte HF-Verbindung empfangene Fernfeld-Sprachsignal unter Verwendung der Spatialisierungsmetadaten neu verräumlichen, um einen Pegel und eine wahrgenommene Einfallsrichtung zu erhalten, die den entfernten Sprecher räumlich nachahmen. Der Raumfilter 370 kann auch eine PSD des verräumlichten Fernfeld-Sprachsignals erzeugen, die zum Entzerren des über den Telefoniemodus empfangenen Fernfeld-Sprachsignals verwendet wird, wenn der Kommunikationsmodus auf den Telefoniemodus umgeschaltet wird.
6 zeigt ein Funktionsblockdiagramm des Raumfiltermoduls 370, welches das im Peer-to-Peer-Modus empfangene Fernsprachsignal unter Verwendung von Spatialisierungsmetadaten neu verräumlicht und Leistungsspektrumsmetadaten erzeugt, die verwendet werden, um das im Telefoniemodus empfangene Fernsprachsignal gemäß einem Gesichtspunkt der Offenbarung zu entzerren.
Ein Sprachspatialisierungsfilter 371 wendet die Pegelspatialisierungsmetadaten und die von dem Klassifikator- und Parameterschätzmodul 360 erzeugten Richtungsspatialisierungsmetadaten auf das von der direkten HF-Verbindung im Peer-to-Peer-Modus empfangene Fernsprachsignal an, um das verräumlichte Sprachsignal zu erzeugen. Das verräumlichte Fernfeld-Sprachsignal aus der direkten HF-Verbindung kann verwendet werden, um das akustisch von dem Mikrofonarray 340 empfangene Fernfeld-Sprachsignal im Transparenzmodus zu erweitern. In einem Gesichtspunkt kann der Sprachspatialisierungsfilter 371 das von den Mikrofonen empfangene Fernfeld-Sprachsignal mit dem verräumlichten Fernfeld-Sprachsignal der HF-Verbindung addieren, um das SNR der erweiterten Fernfeld-Sprache im Transparenz- oder Peer-to-Peer-Modus zu verbessern.
Ein Zeitausrichtungs-/Mischermodul 372 kann das Fernfeld-Sprachsignal von dem Mikrofonarray 340 mit dem verräumlichten Fernfeld-Sprachsignal der direkten HF-Verbindung zeitlich abstimmen und mischen, um das erweiterte Fernfeld-Sprachsignal zu erzeugen. In einem Gesichtspunkt können, wenn das Fernfeld-Sprachsignal von dem Mikrofonarray 340 aufgrund einer langen Verarbeitungslatenz des Sprachspatialisierungsfilters 371 eine kürzere Latenz als das verräumlichte Fernfeld-Sprachsignal von der direkten HF-Verbindung aufweist, Frames des Fernfeld-Sprachsignals von dem Mikrofonarray 340 durch einen Verzögerungspuffer verzögert werden, um zeitlich mit den Frames des verräumlichten Fernfeld-Sprachsignals abgestimmt zu werden. In einem Gesichtspunkt können, wenn das verräumlichte Fernfeld-Sprachsignal von der direkten HF-Verbindung eine kürzere Latenz als das Fernfeld-Sprachsignal von dem Mikrofonarray 340 aufweist, Frames des verräumlichten Fernsprachsignals durch einen Verzögerungspuffer verzögert werden, um zeitlich mit den Frames des Fernfeld-Sprachsignals von dem Mikrofonarray 340 abgestimmt zu werden.
Ein Leistungsspektrumschätzmodul 372 kann die laufenden Statistiken der PSD des verräumlichten Fernfeld-Sprachsignals oder des erweiterten Fernfeld-Sprachsignals im Transparenzmodus oder im Peer-to-Peer-Modus schätzen, um die Leistungsspektrumsmetadaten zu erzeugen. Die Leistungsspektrumsmetadaten können verwendet werden, um das im Telefoniemodus empfangene Fernsprachsignal zu entzerren, damit es ein ähnliches Leistungsspektrum wie das verräumlichte Fernfeld-Sprachsignal oder das erweiterte Fernfeld-Sprachsignal aufweist, um den Übergang in den Telefoniemodus zu glätten. In einem Gesichtspunkt kann das Leistungsspektrumschätzmodul 372 die laufenden Statistiken der PSD des Nahfeld-Sprachsignals im Transparenzmodus schätzen, um die Leistungsspektrumsmetadaten zu erzeugen. Die Leistungsspektrumsmetadaten können verwendet werden, um das im Telefoniemodus empfangene Fernsprachsignal zu entzerren, wenn der Kommunikationsmodus direkt von dem Transparenzmodus in den Telefoniemodus wechselt
Unter erneuter Bezugnahme auf 3 kann ein Summiermodul 380 das im Telefoniemodus empfangene Fernsprachsignal unter Verwendung der Leistungsspektrumsmetadaten entzerren. Das Summiermodul 380 kann das entzerrte Fernsprachsignal im Telefoniemodus und das verräumlichte Fernfeld-Sprachsignal oder das erweiterte Fernfeld-Sprachsignal im Transparenzmodus oder im Peer-to-Peer-Modus summieren, um das verarbeitete Fernfeld-Sprachsignal zu erzeugen, um den Lautsprecher 390 der lokalen Audioausgabevorrichtung anzusteuern. Alternativ kann im Transparenzmodus oder im Peer-to-Peer-Modus das akustische Signal des Mikrofonarrays 340, das verräumlichte Fernfeld-Sprachsignal oder das erweiterte Fernfeld-Sprachsignal an den Lautsprecher 390 gesteuert werden.
7 ist ein Flussdiagramm eines Verfahrens 700 zum Bestimmen des Kommunikationsmodus und zum Wechseln zwischen den Kommunikationsmodi einer tragbaren Audioausgabevorrichtung wie eines Ohrhörers, das allein auf einer akustischen Analyse gemäß einem Gesichtspunkt der Offenbarung basiert. Das Verfahren 700 kann durch das System 300 von 3 ausgeführt werden.
Bei Vorgang 701 verarbeitet das Verfahren 700 ein Nahfeld-Sprachsignal und ein Fernfeld-Sprachsignal, die von einem lokalen Ohrhörer empfangen werden, um die akustischen Parameter der akustischen Umgebung zu schätzen. Das Nahfeld-Sprachsignal wird von einem lokalen Benutzer des lokalen Ohrhörers empfangen, und das Fernfeld-Sprachsignal wird von einem entfernten Benutzer eines entfernten Ohrhörers empfangen.
Bei Vorgang 703 verarbeitet das Verfahren 700 die geschätzten akustischen Parameter, um einen Kommunikationsmodus zwischen dem lokalen Ohrhörer und dem entfernten Ohrhörer zu bestimmen. Der Kommunikationsmodus schließt einen akustischen Transparenzmodus, einen Peer-to-Peer-HF-Modus oder einen Telefoniemodus ein.
Bei Vorgang 705 bestimmt das Verfahren 700, ob der Kommunikationsmodus der Transparenzmodus ist. Wenn es sich um den Transparenzmodus handelt, gibt Vorgang 709 das Fernfeld-Sprachsignal an den lokalen Benutzer des lokalen Ohrhörers aus.
Wenn es sich bei dem Kommunikationsmodus nicht um den Transparenzmodus handelt, bestimmt Vorgang 707, ob es sich bei dem Kommunikationsmodus um den HF-Peer-to-Peer-Modus handelt. Wenn es sich um den HF-Peer-to-Peer-Modus handelt, gibt Vorgang 709 ein verräumlichtes Sprachsignal auf der Grundlage des Fernfeld-Sprachsignals an den lokalen Ohrhörer aus. In einem Gesichtspunkt kann das Verfahren 700 das im HF-Peer-to-Peer-Modus empfangene Fernfeld-Sprachsignal verarbeiten, um das verräumlichte Sprachsignal auf der Grundlage einer wahrgenommenen Richtung des entfernten Benutzers zu erzeugen, die aus den geschätzten akustischen Parametern bestimmt wird.
Andernfalls, wenn der Kommunikationsmodus weder der Transparenzmodus noch der HF-Peer-to-Peer-Modus ist, gibt Vorgang 709 basierend auf dem Fernfeld-Sprachsignal ein Telefonie-Sprachsignal an den lokalen Ohrhörer aus.
8 ist ein Flussdiagramm eines Verfahrens 800 zum Erweitern des akustischen Signals der Fernfeldsprache, das von einem Mikrofon einer tragbaren Audioausgabevorrichtung wie einem Ohrhörer erfasst wird, um das Fernfeld-Sprachsignal, das auf einer HF-Übertragung getragen wird, die allein auf einer akustischen Analyse gemäß einem Gesichtspunkt der Offenbarung basiert. Das Verfahren 800 kann durch das System 300 von 3 ausgeführt werden.
Bei Vorgang 801 verarbeitet das Verfahren 800 das Nahfeld-Sprachsignal und das Fernfeld-Sprachsignal, die als akustische Signale von dem Mikrofon empfangen wurden, um die akustischen Parameter der akustischen Umgebung zu schätzen.
Bei Vorgang 803 verarbeitet das Verfahren 800 die geschätzten akustischen Parameter, um zu bestimmen, ob das akustische Signal mit einem über HF-Übertragung übertragenen Fernfeld-Sprachsignal erweitert werden soll.
Bei Vorgang 805 prüft das Verfahren 800, ob die Entscheidung darin besteht, das akustische Signal zu erweitern. Wenn keine Erweiterung vorhanden ist, gibt der Vorgang 811 das rohe Fernfeld-Sprachsignal an den Lautsprecher des Ohrhörers aus.
Wenn die Entscheidung darin besteht, das akustische Signal zu erweitern, teilt das Verfahren in Vorgang 807 dem entfernten Ohrhörer mit, in den Peer-to-Peer-Modus zu wechseln.
Bei Vorgang 809 verarbeitet das Verfahren 800 das vom Mikrofon und über das Peer-to-Peer-HF-Signal empfangene Fernfeld-Sprachsignal, um das vom Mikrofon empfangene Fernfeld-Sprachsignal zu erweitern.
Bei Vorgang 811 gibt das Verfahren 800 das erweiterte Fernfeld-Sprachsignal an den Lautsprecher des Ohrhörers aus.
Die hierin beschriebenen Ausführungsformen der Stereosignalidentifizierer oder Audiosignalidentifizierer können in einem Datenverarbeitungssystem implementiert werden, beispielsweise durch einen Netzwerkcomputer, einen Netzwerkserver, einen Tablet-Computer, ein Smartphone, einen Laptop-Computer, einen Desktop-Computer, andere Unterhaltungselektronikvorrichtungen oder andere Datenverarbeitungssysteme. Insbesondere handelt es sich bei den Vorgängen, die zum Bestimmen des besten Kommunikationsmodus zur Verwendung durch eine tragbare Audioausgabevorrichtung beschrieben sind, um digitale Signalverarbeitungsvorgänge, die von einem Prozessor durchgeführt werden, der in einem oder mehreren Speichern gespeicherte Anweisungen ausführt. Der Prozessor kann die gespeicherten Anweisungen aus den Speichern lesen und die Anweisungen ausführen, um die beschriebenen Vorgänge durchzuführen. Diese Speicher stellen Beispiele für maschinenlesbare, nichtflüchtige Speichermedien dar, die Computerprogrammanweisungen speichern oder enthalten können, die, wenn sie ausgeführt werden, ein Datenverarbeitungssystem dazu veranlassen, das eine oder die mehreren hierin beschriebenen Verfahren durchzuführen. Bei dem Prozessor kann es sich um einen Prozessor einer lokalen Vorrichtung wie einem Smartphone, einen Prozessor in einem entfernten Server oder um ein verteiltes Verarbeitungssystem mit mehreren Prozessoren in der lokalen Vorrichtung und im entfernten Server handeln, deren jeweilige Speicher verschiedene Teile der Anweisungen enthalten, die zum Durchführen der beschriebenen Vorgänge erforderlich sind.
Die hierin beschriebenen Prozesse und Blöcke sind nicht auf die beschriebenen spezifischen Beispiele beschränkt und sind nicht auf die spezifischen Reihenfolgen beschränkt, die als Beispiele hierin verwendet werden. Vielmehr kann jeder der Verarbeitungsblöcke je nach Bedarf neu geordnet, kombiniert oder entfernt, parallel oder seriell ausgeführt werden, um die vorstehend beschriebenen Ergebnisse zu erzielen. Die Verarbeitungsblöcke, die mit dem Implementieren des Audioverarbeitungssystems verbunden sind, können von einem oder mehreren programmierbaren Prozessoren durchgeführt werden, die ein oder mehrere Computerprogramme ausführen, die auf einem nichtflüchtigen computerlesbaren Speichermedium gespeichert sind, um die Funktionen des Systems durchzuführen. Das gesamte Audioverarbeitungssystem oder ein Teil davon kann als Speziallogikschaltlogik (z. B. ein FPGA (Field-Programmable Gate Array) und/oder ein ASIC (Application-Specific Integrated Circuit)) implementiert sein. Das gesamte Audiosystem oder ein Teil davon kann unter Verwendung einer elektronischen Hardwareschaltlogik implementiert werden, die elektronische Vorrichtungen, wie mindestens eines von einem Prozessor, einem Speicher, einer programmierbaren Logikvorrichtung oder einem Logikgatter, einschließt. Ferner können die Prozesse in jeder Kombination von Hardwarevorrichtungen und Softwarekomponenten implementiert werden.
Auch wenn gewisse beispielhafte Fälle beschrieben und in den begleitenden Zeichnungen gezeigt wurden, versteht es sich, dass diese für die allgemeine Erfindung lediglich veranschaulichend und nicht einschränkend sind und dass diese Erfindung nicht auf die spezifischen gezeigten und beschriebenen Konstruktionen und Anordnungen beschränkt ist, da Fachleuten verschiedene andere Modifikationen einfallen können. Die Beschreibung ist somit als veranschaulichend und nicht als einschränkend zu betrachten.
Um das Patentamt und alle Leser von Patenten, die basierend auf dieser Anmeldung erteilt werden, bei der Auslegung der beiliegenden Ansprüche zu unterstützen, möchten die Anmelder darauf hinweisen, dass sie sich bei keinem der beiliegenden Ansprüche oder Anspruchselemente auf die Anwendung von 35 U.S.C. 112(f) berufen möchten, es sei denn, die Begriffe „Mittel für“ oder „Schritt für“ werden ausdrücklich in dem bestimmten Anspruch verwendet.
Wie vorstehend beschrieben, besteht ein Gesichtspunkt der vorliegenden Technologie in der Übertragung und Nutzung von Sprache oder Daten aus spezifischen und berechtigten Quellen an! durch eine Audioausgabevorrichtung unter Verwendung verschiedener Kommunikationsmodi. Die vorliegende Offenbarung geht davon aus, dass dieser Beitrag oder diese Daten in einigen Fällen personenbezogene Daten einschließen können, die eine bestimmte Person eindeutig identifizieren oder zur Identifizierung einer bestimmten Person verwendet werden können. Diese personenbezogenen Daten können demografische Daten, standortbezogene Daten, Online-Kennungen, Telefonnummern, E-Mail-Adressen, Privatadressen, Daten oder Aufzeichnungen über die Gesundheit oder den Fitnessgrad eines Benutzers (z. B. Vitalparametermessungen, Medikamenteninformationen, Trainingsinformationen), das Geburtsdatum oder andere personenbezogene Daten einschließen. Die vorliegende Offenbarung erkennt, dass die Verwendung solcher personenbezogenen Daten in der vorliegenden Technologie zum Vorteil von Benutzern verwendet werden kann.
Die vorliegende Offenbarung geht davon aus, dass die Stellen, die für die Sammlung, Analyse, Offenbarung, Übertragung, Speicherung oder andere Verwendung solcher personenbezogenen Daten verantwortlich sind, gängige Datenschutzrichtlinien und/oder Datenschutzpraktiken einhalten werden. Insbesondere wird von solchen Stellen erwartet, dass sie Datenschutzpraktiken implementieren und konsistent anwenden, von denen allgemein anerkannt wird, dass sie branchenübliche oder staatliche Anforderungen für das Wahren des Datenschutzes von Benutzern erfüllen oder über diese hinausgehen. Diese Informationen bezüglich der Verwendung von personenbezogenen Daten sollten für Benutzer sichtbar und leicht zugänglich sein und sollten bei Änderungen an der Sammlung und/oder Verwendung von Daten aktualisiert werden. Personenbezogene Daten von Benutzern sollten nur für rechtmäßige Verwendungen gesammelt werden. Ferner sollte eine solche Sammlung/Weitergabe nur nach dem Erhalt der Einwilligung der Benutzer oder einer anderen im geltenden Recht festgelegten rechtmäßigen Grundlage erfolgen. Außerdem sollten solche Stellen in Betracht ziehen, alle notwendigen Schritte für den Schutz und die Sicherung des Zugangs zu solchen personenbezogenen Daten zu ergreifen und sicherzustellen, dass andere, die Zugang zu den personenbezogenen Daten haben, sich an ihre Datenschutzrichtlinien und -prozeduren halten. Ferner können solche Stellen sich einer Evaluierung durch Dritte unterwerfen, um bestätigen zu lassen, dass sie sich an gemeinhin anerkannte Datenschutzrichtlinien und -praktiken halten. Darüber hinaus sollten die Richtlinien und Praktiken an die besonderen Arten von personenbezogenen Daten, die gesammelt und/oder abgerufen werden, angepasst und an die geltenden Gesetze und Normen, einschließlich gerichtsspezifischer Erwägungen, die dazu dienen können, einen höheren Standard durchzusetzen, angepasst werden. Zum Beispiel kann in den USA die Sammlung von bestimmten Gesundheitsdaten oder der Zugang zu diesen durch Bundes- und/oder Bundesstaatsgesetze, wie den Health Insurance Portability and Accountability Act (HIPAA), geregelt werden; während Gesundheitsdaten in anderen Ländern anderen Vorschriften und Richtlinien unterliegen können und entsprechend behandelt werden sollten.
Trotz der vorstehenden Ausführungen betrachtet die vorliegende Offenbarung auch Ausführungsformen, in denen Benutzer die Nutzung von oder den Zugang zu personenbezogenen Daten selektiv blockieren. Das heißt, dass die vorliegende Offenbarung davon ausgeht, dass Hardware- und/oder Softwareelemente bereitgestellt werden können, um einen Zugang zu solchen personenbezogenen Daten zu verhindern oder zu sperren.
Darüber hinaus ist es die Absicht der vorliegenden Offenbarung, dass personenbezogene Daten auf eine Weise verwaltet und behandelt werden, dass Risiken eines unbeabsichtigten oder unbefugten Zugangs oder einer unbeabsichtigten oder unbefugten Verwendung minimiert werden. Das Risiko kann minimiert werden, indem die Sammlung von Daten begrenzt wird und Daten gelöscht werden, sobald sie nicht mehr benötigt werden. Außerdem und bei Bedarf, einschließlich in bestimmten gesundheitsbezogenen Anwendungen, kann eine Datendeidentifizierung zum Datenschutz eines Benutzers verwendet werden. Die Deidentifizierung kann gegebenenfalls erleichtert werden, indem Kennungen entfernt werden, die Menge oder Spezifität der gespeicherten Daten kontrolliert werden (z. B. Erhebung von Standortdaten auf Stadtebene statt auf Adressebene), die Art und Weise kontrolliert wird, wie Daten gespeichert werden (z. B. Aggregation von Daten über Benutzer hinweg), und/oder durch andere Verfahren wie differentieller Datenschutz.
Obwohl die vorliegende Offenbarung die Übertragung der Verwendung personenbezogener Daten zur Implementierung einer oder mehrerer verschiedener offenbarter Ausführungsformen breit abdeckt, zieht die vorliegende Offenbarung daher auch in Betracht, dass die verschiedenen Ausführungsformen auch ohne die Notwendigkeit des Zugreifens auf diese personenbezogenen Daten implementiert werden können. Das heißt, die verschiedenen Ausführungsformen der vorliegenden Technologie werden aufgrund des Fehlens aller derartigen personenbezogenen Daten oder eines Teils davon nicht funktionsunfähig. Zum Beispiel können Inhalte basierend auf aggregierten nicht personenbezogenen Daten oder einer reinen Mindestmenge an personenbezogenen Informationen, wie den nur auf der Vorrichtung des Benutzers gehandhabten Inhalten oder anderer für Inhaltsbereitstellungsdienste verfügbare nicht personenbezogene Informationen, ausgewählt und den Benutzern zur Verfügung gestellt werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 63/154651 [0001]

Claims

Verfahren zum Kommunizieren zwischen einem lokalen Ohrhörer und einem entfernten Ohrhörer, wobei das Verfahren umfasst: Verarbeiten, durch den lokalen Ohrhörer, eines Nahfeld-Sprachsignals eines lokalen Sprechers, der den lokalen Ohrhörer trägt, und eines Fernfeld-Sprachsignals eines entfernten Sprechers, das von dem lokalen Ohrhörer empfangen wird, um akustische Parameter zu schätzen; Bestimmen eines Kommunikationsmodus zwischen dem lokalen Ohrhörer und dem entfernten Ohrhörer, der von dem entfernten Sprecher getragen wird, basierend auf den geschätzten akustischen Parametern, wobei der Kommunikationsmodus eines von einem akustischen Transparenzmodus, der das Fernfeld-Sprachsignal durch ein Mikrofon des lokalen Ohrhörers erfasst, einem Peer-to-Peer-Hochfrequenz-Modus (Peer-to-Peer-HF-Modus) oder einem Telefoniemodus einschließt, wobei der Peer-to-Peer-HF-Modus oder der Telefoniemodus unter Verwendung von HF-Signalen zwischen dem lokalen Ohrhörer und dem entfernten Ohrhörer kommuniziert; und Ausgeben, an einen Lautsprecher des lokalen Ohrhörers, des Fernfeld-Sprachsignals im akustischen Transparenzmodus, eines auf dem Fernfeld-Sprachsignal basierenden erweiterten Sprachsignals im Peer-to-Peer-HF-Modus oder eines auf dem Fernfeld-Sprachsignal basierenden Telefonie-Sprachsignals im Telefoniemodus.
Verfahren nach Anspruch 1, wobei das Mikrofon ein Array von Mikrofonen umfasst.
Verfahren nach Anspruch 1, wobei das Bestimmen des Kommunikationsmodus umfasst: Erzeugen eines Verständlichkeitsindex eines akustischen Signals, welches das Fernfeld-Sprachsignal trägt, das von einem Mikrofon des lokalen Ohrhörers erfasst wird, basierend auf den geschätzten akustischen Parametern; Bestimmen, ob der Verständlichkeitsindex eine erste Verständlichkeitsschwelle überschreitet; als Reaktion darauf, dass der Verständlichkeitsindex die erste Verständlichkeitsschwelle überschreitet, Bestimmen des akustischen Transparenzmodus als den Kommunikationsmodus, und Ausgeben des akustischen Signals, welches das Fernfeld-Sprachsignal trägt, an den Lautsprecher des lokalen Ohrhörers im akustischen Transparenzmodus.
Verfahren nach Anspruch 3, ferner umfassend: als Reaktion darauf, dass der Verständlichkeitsindex die erste Verständlichkeits schwelle nicht überschreitet, Bestimmen, ob der Verständlichkeitsindex eine zweite Verständlichkeitsschwelle überschreitet, als Reaktion darauf, dass der Verständlichkeitsindex die zweite Verständlichkeitsschwelle überschreitet, Bestimmen des Peer-to-Peer-HF-Modus als den Kommunikationsmodus, wobei im Peer-to-Peer-HF-Modus der lokale Ohrhörer ein HF-Signal empfängt, welches das Fernfeld-Sprachsignal über eine Peer-to-Peer-HF-Verbindung mit dem entfernten Ohrhörer trägt; und als Reaktion darauf, dass der Verständlichkeitsindex die zweite Verständlichkeits schwelle nicht überschreitet, Bestimmen des Telefoniemodus als den Kommunikationsmodus, wobei im Telefoniemodus der lokale Ohrhörer ein HF-Signal empfängt, welches das Fernfeld-Sprachsignal über eine Netzwerkverbindung mit dem entfernten Ohrhörer trägt.
Verfahren nach Anspruch 4, ferner umfassend: Erzeugen des erweiterten Sprachsignals basierend auf dem Erweitern des akustischen Signals, welches das Fernfeld-Sprachsignal trägt, mit dem HF-Signal, welches das Fernfeld-Sprachsignal trägt, wenn der Peer-to-Peer-HF-Modus als der Kommunikationsmodus bestimmt ist.
Verfahren nach Anspruch 5, wobei das Erzeugen des erweiterten Sprachsignals umfasst: Erzeugen von Spatialisierungsmetadaten des entfernten Sprechers unter Verwendung der geschätzten akustischen Parameter; Erzeugen eines verräumlichten Fernfeld-Sprachsignals mit einem Pegel und einer Einfallsrichtung, die den entfernten Sprecher räumlich nachahmen, basierend auf dem Fernfeld-Sprachsignal, das von dem HF-Signal und den Spatialisierungsmetadaten getragen wird; und Erzeugen des erweiterten Sprachsignals basierend auf dem Erweitern des akustischen Signals, welches das Fernfeld-Sprachsignal trägt, um das verräumlichte Fernfeld-Sprachsignal, um das Signal-Rausch-Verhältnis (SNR) des Fernfeld-Sprachsignals zu erhöhen.
Verfahren nach Anspruch 6, wobei das verräumlichte Fernfeld-Sprachsignal räumlich mit dem akustischen Signal übereinstimmt, welches das Fernfeld-Sprachsignal trägt, und wobei das Verfahren ferner umfasst: Erzeugen des erweiterten Sprachsignals basierend auf dem zeitlichen Ausrichten des akustischen Signals mit dem verräumlichten Fernfeld-Sprachsignal.
Verfahren nach Anspruch 1, ferner umfassend: Schätzen eines Leistungsspektrums des Fernfeld-Sprachsignals; und Erzeugen des Telefonie-Sprachsignals, das mit dem Leistungsspektrum des Fernfeld-Sprachsignals entzerrt wird, wenn der Telefoniemodus als der Kommunikationsmodus bestimmt wird.
Verfahren nach Anspruch 1, wobei das Verarbeiten des Nahfeld-Sprachsignals des lokalen Sprechers und des Fernfeld-Sprachsignals des entfernten Sprechers umfasst: Verarbeiten eines HF-Signals, das von dem lokalen Ohrhörer aus dem entfernten Ohrhörer empfangen wird, um die akustischen Parameter zu schätzen, wobei das HF-Signal Informationen über ein reziprokes Fernfeld-Sprachsignal des lokalen Sprechers enthält, das von dem entfernten Ohrhörer akustisch empfangen wird.
Verfahren nach Anspruch 9, wobei die Informationen über das reziproke Fernfeld-Sprachsignal reziproke akustische Parameter umfassen, die von dem entfernten Ohrhörer geschätzt werden.
Verfahren nach Anspruch 1, ferner umfassend: Übertragen, durch den lokalen Ohrhörer, der geschätzten akustischen Parameter an den entfernten Ohrhörer, um den entfernten Ohrhörer dabei zu unterstützen, den Kommunikationsmodus zwischen dem lokalen Ohrhörer und dem entfernten Ohrhörer zu bestimmen.
Verfahren nach Anspruch 1, wobei die geschätzten akustischen Parameter eines oder mehrere von Folgendem umfassen: eine Sprachpegeldifferenz zwischen dem Nahfeld-Sprachsignal und dem Fernfeld-Sprachsignal oder eine Änderungsrate der Sprachpegeldifferenz; ein Direktschall-zu-Nachhall-Verhältnis (DRR) eines Sprachpegels einer Direktschallkomponente und einer Nachhallkomponente des Fernfeld-Sprachsignals; eine Änderungsrate des DRR, ein Maß für die Energieverteilung des Fernfeld-Sprachsignals; eine Änderungsrate des Maßes der Energieverteilung; eine Änderung des Sprachpegels des Nahfeld-Sprachsignals; eine Änderungsrate des Sprachpegels des Nahfeld-Sprachsignals; eine geschätzte Einfallsrichtung des Fernfeld-Sprachsignals; eine Änderungsrate der geschätzten Einfallsrichtung, ein Maß für die Verständlichkeit des Fernfeld-Sprachsignals; und eine Änderungsrate des Maßes der Verständlichkeit.
Verfahren zur Kommunikation zwischen einem lokalen Ohrhörer und einem entfernten Ohrhörer, wobei das Verfahren umfasst: Verarbeiten eines Nahfeld-Sprachsignals eines lokalen Sprechers, der den lokalen Ohrhörer trägt, und eines Fernfeld-Sprachsignals eines entfernten Sprechers, um akustische Parameter zu schätzen, wobei das Fernfeld-Sprachsignal als akustisches Signal unter Verwendung eines Mikrofons des lokalen Ohrhörers erfasst wird; Bestimmen, ob das akustische Signal mit einem HF-Signal erweitert werden soll, das von dem lokalen Ohrhörer aus dem entfernten Ohrhörer empfangen wird, der von dem entfernten Sprecher getragen wird, basierend auf den akustischen Parametern, wobei das HF-Signal auch das Fernfeld-Sprachsignal trägt; Übertragen, durch den lokalen Ohrhörer, eines Signals an den entfernten Ohrhörer, um den entfernten Ohrhörer anzuweisen, das Fernfeld-Sprachsignal als Reaktion auf das Bestimmen, das akustische Signal zu erweitern, unter Verwendung des HF-Signals zu übertragen; Empfangen des HF-Signals, welches das Fernfeld-Sprachsignal trägt; Erzeugen eines erweiterten akustischen Signals durch Verarbeiten des akustischen Signals und des auf dem HF-Signal empfangenen Fernfeld-Sprachsignals; und Ausgeben entweder des erweiterten akustischen Signals oder des akustischen Signals an einen Lautsprecher des lokalen Ohrhörers.
Verfahren nach Anspruch 13, wobei das Bestimmen, das akustische Signal zu erweitern, umfasst: Erzeugen eines Verständlichkeitsindex des akustischen Signals auf der Grundlage der geschätzten akustischen Parameter; Bestimmen, ob der Verständlichkeitsindex unter eine erste Verständlichkeitsschwelle fällt; und als Reaktion darauf, dass der Verständlichkeitsindex unter die erste Verständlichkeitsschwelle fällt, Bestimmen, das akustische Signal zu erweitern.
Verfahren nach Anspruch 14, wobei das Erzeugen des erweiterten akustischen Signals umfasst: Erzeugen von Spatialisierungsmetadaten des entfernten Sprechers unter Verwendung der akustischen Parameter; Erzeugen eines verräumlichten Fernfeld-Sprachsignals mit einem Pegel und einer Einfallsrichtung, die den entfernten Sprecher räumlich nachahmen, basierend auf dem auf dem HF-Signal empfangenen Fernfeld-Sprachsignal und den Spatialisierungsmetadaten; zeitliches Ausrichten des akustischen Signals mit dem verräumlichten Fernfeld-Sprachsignal; und Erzeugen des erweiterten akustischen Signals basierend auf dem Erweitern des akustischen Signals mit dem verräumlichten Fernfeld-Sprachsignal, um das Signal-Rausch-Verhältnis (SNR) des Fernfeld-Sprachsignals zu erhöhen.
Prozessor eines Ohrhörers, wobei der Prozessor konfiguriert ist, um Vorgänge durchzuführen, die Folgendes umfassen: Verarbeiten eines Nahfeld-Sprachsignals eines lokalen Sprechers, der den Ohrhörer trägt, und eines Fernfeld-Sprachsignals eines entfernten Sprechers, das von dem Ohrhörer empfangen wird, um akustische Parameter zu schätzen; Bestimmen eines Kommunikationsmodus zwischen dem Ohrhörer und dem entfernten Ohrhörer, der von dem entfernten Sprecher getragen wird, basierend auf den geschätzten akustischen Parametern, wobei der Kommunikationsmodus eines von einem akustischen Transparenzmodus, der das Fernfeld-Sprachsignal durch ein Mikrofon des Ohrhörers erfasst, einem Peer-to-Peer-Hochfrequenz-Modus (Peer-to-Peer-HF-Modus) oder einem Telefoniemodus einschließt, wobei der Peer-to-Peer-HF-Modus oder der Telefoniemodus konfiguriert ist, um unter Verwendung von HF-Signalen zwischen dem lokalen Ohrhörer und dem entfernten Ohrhörer zu kommunizieren; und Ausgeben, an einen Lautsprecher des Ohrhörers, des Fernfeld-Sprachsignals im akustischen Transparenzmodus, eines auf dem Fernfeld-Sprachsignal basierenden erweiterten Sprachsignals im Peer-to-Peer-HF-Modus oder eines auf dem Fernfeld-Sprachsignal basierenden Telefonie-Sprachsignals im Telefoniemodus.
Prozessor nach Anspruch 16, wobei die Vorgänge zum Bestimmen des Kommunikationsmodus Vorgänge umfassen zum: Erzeugen eines Verständlichkeitsindex eines akustischen Signals, welches das Fernfeld-Sprachsignal trägt, das von einem Mikrofon des Ohrhörers erfasst wird, basierend auf den geschätzten akustischen Parametern; Bestimmen, ob der Verständlichkeitsindex eine erste Verständlichkeitsschwelle überschreitet; als Reaktion darauf, dass der Verständlichkeitsindex die erste Verständlichkeitsschwelle überschreitet, Bestimmen des akustischen Transparenzmodus als den Kommunikationsmodus; Ausgeben des akustischen Signals, welches das Fernfeld-Sprachsignal trägt, an den Lautsprecher des Ohrhörers im akustischen Transparenzmodus. als Reaktion darauf, dass der Verständlichkeitsindex die erste Verständlichkeitsschwelle nicht überschreitet, Bestimmen, ob der Verständlichkeitsindex eine zweite Verständlichkeitsschwelle überschreitet; als Reaktion darauf, dass der Verständlichkeitsindex die zweite Verständlichkeitsschwelle überschreitet, Bestimmen des Peer-to-Peer-HF-Modus als den Kommunikationsmodus, wobei in dem Peer-to-Peer-HF-Modus der Ohrhörer ein HF-Signal empfängt, welches das Fernfeld-Sprachsignal über eine Peer-to-Peer-HF-Verbindung mit dem entfernten Ohrhörer trägt; und als Reaktion darauf, dass der Verständlichkeitsindex die zweite Verständlichkeits schwelle nicht überschreitet, Bestimmen des Telefoniemodus als den Kommunikationsmodus, wobei im Telefoniemodus der Ohrhörer ein HF-Signal empfängt, welches das Fernfeld-Sprachsignal über eine Netzwerkverbindung mit dem entfernten Ohrhörer trägt.
Prozessor nach Anspruch 17, wobei die Vorgänge ferner umfassen: Erzeugen des erweiterten Sprachsignals basierend auf dem Erweitern des akustischen Signals, welches das Fernfeld-Sprachsignal trägt, um das HF-Signal, welches das Fernfeld-Sprachsignal trägt, um ein Signal-Rausch-Verhältnis (SNR) des Fernfeld-Sprachsignals zu erhöhen, wenn der Peer-to-Peer-HF Modus als der Kommunikationsmodus bestimmt wird, wobei das erweiterte Sprachsignal räumlich mit dem akustischen Signal übereinstimmt und zeitlich mit dem akustischen Signal abgestimmt ist.
Prozessor nach Anspruch 16, wobei die Vorgänge zum Verarbeiten des Nahfeld-Sprachsignals des lokalen Sprechers und des Fernfeld-Sprachsignals des entfernten Sprechers Vorgänge umfassen zum: Verarbeiten eines HF-Signals, das von dem Ohrhörer aus dem entfernten Ohrhörer empfangen wird, um die akustischen Parameter zu schätzen, wobei das HF-Signal reziproke akustische Parameter enthält, die durch den entfernten Ohrhörer auf einem reziproken Fernfeld-Sprachsignal des lokalen Sprechers geschätzt werden, das durch den entfernten Ohrhörer akustisch empfangen wird.
Ohrhörer, wobei der Ohrhörer konfiguriert ist, um Vorgänge durchzuführen, die Folgendes umfassend: Verarbeiten eines Nahfeld-Sprachsignals eines lokalen Sprechers, der den Ohrhörer trägt, und eines Fernfeld-Sprachsignals eines entfernten Sprechers, um akustische Parameter zu schätzen, wobei das Fernfeld-Sprachsignal unter Verwendung eines Mikrofons des Ohrhörers als ein akustisches Signal erfasst wird; Bestimmen, ob das akustische Signal mit einem HF-Signal erweitert werden soll, das von dem Ohrhörer aus einem entfernten Ohrhörer empfangen wird, der von dem entfernten Sprecher getragen wird, basierend auf den akustischen Parametern, wobei das HF-Signal auch das Fernfeld-Sprachsignal trägt; Übertragen eines Signals an den entfernten Ohrhörer, um den entfernten Ohrhörer anzuweisen, das Fernfeld-Sprachsignal als Reaktion auf das Bestimmen, das akustische Signal zu erweitern, unter Verwendung des HF-Signals zu übertragen; Empfangen des HF-Signals, welches das Fernfeld-Sprachsignal trägt; Erzeugen eines erweiterten akustischen Signals basierend auf dem akustischen Signal und dem auf dem HF-Signal empfangenen Fernfeld-Sprachsignal; und Ausgeben eines von dem erweiterten akustischen Signal oder dem akustischen Signal an einen Lautsprecher des Ohrhörers.