EP4158901B1

EP4158901B1 - Verfahren, vorrichtung, kopfhörer und computerprogramm zur aktiven unterdrückung des okklusionseffektes bei der wiedergabe von audiosignalen

Info

Publication number: EP4158901B1
Application number: EP21729292.9A
Authority: EP
Inventors: Johannes Fabry; Stefan Liebich; Peter Jax
Original assignee: Rheinisch Westlische Technische Hochschuke RWTH
Current assignee: Rheinisch Westlische Technische Hochschuke RWTH
Priority date: 2020-05-29
Filing date: 2021-05-27
Publication date: 2025-07-16
Anticipated expiration: 2041-05-27
Also published as: EP4158901A1; CN115398934A; EP4158901C0; US12284486B2; US20230328462A1; DE102020114429A1; WO2021239864A1

Description

Die vorliegende Erfindung betrifft ein Verfahren zur aktiven Unterdrückung des Okklusionseffektes bei der Wiedergabe von Audiosignalen mit einem Kopfhörer oder Hörgerät. Die vorliegende Erfindung betrifft weiterhin eine Vorrichtung zur Durchführung des Verfahrens. Ferner betrifft die Erfindung einen Kopfhörer, der eingerichtet ist, ein erfindungsgemäßes Verfahren auszuführen oder eine erfindungsgemäße Vorrichtung aufweist sowie ein Computerprogramm mit Instruktionen, die einen Computer zur Ausführung der Schritte des Verfahrens veranlassen.
Die dumpfe und unnatürliche Wahrnehmung der eigenen Stimme beim Tragen von Kopfhörern, Hörgeräten oder Headsets wird von den Trägern solcher Geräte als störend empfunden. Dieser Effekt, bekannt als Verschlusseffekt oder Okklusionseffekt, tritt auf, wenn der Ohrkanal des Trägers eines solchen Kopfhörers oder Hörgerätes durch das Gerät teilweise oder vollständig verschlossen wird. Besonders ausgeprägt ist der Okklusionseffekt daher auch bei sogenannten Im-Ohr-("In-Ear") -Geräten, bei denen der Kopfhörer oder die Hörhilfe in den Öffnungsbereich des Gehörgangs eingeführt ist und an dessen Innenwand anliegt. Die dumpfe Wahrnehmung der eigenen Stimme beruht hierbei einerseits darauf, dass die hochfrequenten Anteile der durch den Luftschall übertragenen eigenen Stimme aufgrund des den Ohrkanal verschließenden Kopfhörers oder Hörgerätes deutlich abgeschwächt werden. Andererseits werden vornehmlich die tieffrequenten Anteile der eigenen Stimme auch durch Körperschall, insbesondere über eine Schallübertragung der Knorpel oder Knochen des Kopfes, in den Gehörgang übertragen und können aufgrund des Verschlusses dem Gehörkanal nicht oder nur teilweise entweichen, sodass es sogar zu einer Verstärkung der tieffrequenten Anteile kommt
Verfahren zur Kompensation des Okklusionseffekts durch eine Korrektur der Luft- und der Körperschall-Anteile in leisen Umgebungen sind bekannt. Diese beinhalten eine Dämpfung der Körperschallanteile über einen rückgekoppelten Regelkreis basierend auf einem Mikrofon-Signal, das Schallsignale aus dem Gehörgang wiederspiegelt und mit einem inneren Mikrofon aufgenommen wird. Die Luftschallanteile werden durch ein äußeres Mikrofon aufgezeichnet, gefiltert und über einen inneren Lautsprecher wiedergegeben, um eine akustisch transparente Empfindung der von außen auftreffenden Schallsignale zu erzeugen.
Der Luftschallanteil beinhaltet jedoch neben der eigenen Stimme auch Störschall aus der Umgebung. Da aktuelle technische Lösungen in Umgebungen mit einem hohen Störgeräuschpegel bisher versagen, sind Maßnahmen, die eine möglichst natürliche Wahrnehmung der eigenen Stimme auch unter solchen Bedingungen ermöglichen, Gegenstand aktueller Forschung.
Weiterhin verfügen verschiedene In-Ear-Kopfhörer und Headsets bereits über eine "Sidetone"- oder "Hear-through"-Funktion. Beim "Sidetone"-Verfahren ist es möglich, die eigene Stimme beispielsweise während eines Telefonanrufs, welcher mit einem solchen Kopfhörer bzw. Headset durchgeführt wird, zu hören. Hierzu wird mit einem Mikrofon ein Sprachsignal aufgezeichnet, dass zwar eine klare Sprachwiedergabe ermöglicht, allerdings gehen dabei räumliche und binaurale Informationen verloren. Das "Hear-through"-Verfahren ermöglicht, die Umgebung wahrzunehmen und sich beispielsweise unterhalten zu können, ohne die Kopfhörer entfernen zu müssen. Es werden hierfür pro Kopfhörerseite ein oder mehrere äußere Mikrofone verwendet, wodurch räumliche Informationen der eigenen Stimme erhalten bleiben, das Signal enthält in diesem Fall jedoch ungewünschte Umgebungsgeräusche.
Die EP 2 920 980 A1 offenbart ein System zur Verbesserung der Wahrnehmung der eigenen Stimme welches ein Ohrkanalmikrofon und ein äußeres Mikrofon umfasst. Aus den Mikrofonsignalen werden eine Schätzung des Umgebungsschalls sowie eine Schätzung der eigenen Stimme gewonnen, welche mit variablen Verstärkungsfaktoren addiert werden.
Die EP 3 213 527 B1 sowie die US 2014/126 735 A1 geben Systeme zur Reduzierung des Okklusionseffekts in ANC Kopfhörern und Headsets an.
Ein Kopfhörer, der zunächst in einem "Noise Cancelling"-Modus arbeitet und dann auf einen "Hear-through"-Modus umschaltet, sobald eine Sprechaktivitätserkennung feststellt, dass sich der Benutzer in einem Anruf befindet, wird in der EP 3 188 495 A1 beschrieben. Ähnlich beschreibt auch die EP 2 362 678 A1 ein Kommunikationsheadset mit einer Umschaltfunktion zwischen einem Transparenz- und einem Kommunikationsmodus. Weiterhin werden in der US 10,034,092 B1 digitale Audiosignalverarbeitungstechniken beschrieben, die verwendet werden, um eine akustische Transparenzfunktion in einem Kopfhörer bereitzustellen. Hierbei wird eine Mehrzahl akustischer Pfade, für verschiedene Nutzer oder Kunstköpfe berücksichtigt, um ein Transparenzfilter zu bestimmen, welches für die meisten Nutzer gute Ergebnisse liefert.
Es ist eine Aufgabe der Erfindung, ein Verfahren und eine Vorrichtung zur aktiven Unterdrückung des Okklusionseffektes bei der Wiedergabe von Audiosignalen mit einem Kopfhörer oder Hörgerät in Umgebungen mit einem hohen Störgeräuschpegel, sowie einen entsprechenden Kopfhörer und ein Computerprogramm zur Ausführung des Verfahrens zur Verfügung zu stellen.
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1, eine entsprechende Vorrichtung gemäß Anspruch 8, sowie einen entsprechenden Kopfhörer gemäß Anspruch 10 gelöst. Bevorzugte Ausgestaltungen der Erfindung sind Gegenstand der abhängigen Ansprüche.
Bei dem erfindungsgemäßen Verfahren zur aktiven Unterdrückung des Okklusionseffektes bei der Wiedergabe von Audiosignalen mit einem Kopfhörer oder Hörgerät wird mit mindestens einem äußeren Mikrofon des Kopfhörers oder Hörgeräts Außenschall in Form eines von außen auftretendes Schallsignal erfasst. Ein Stimmsignal wird mit mindestens einem zusätzlichen Mikrofon erfasst. Der trockene Anteil des erfassten Stimmsignals wird geschätzt, wobei der trockene Anteil des erfassten Stimmsignals der Anteil des erfassten Stimmsignals ohne durch den umgebenden Raum verursachten Nachhall oder Umgebungsgeräusche ist. Aus dem mit dem mindestens einen äußeren Mikrofon erfassten Außenschall wird ein Stimmanteil durch ein Filter extrahiert, wobei Filterkoeffizienten des Filters basierend auf dem geschätzten trockenen Anteil des erfassten Stimmsignals ermittelt werden, oder der geschätzte trockene Anteil des erfassten Stimmsignals wird so gefiltert, dass ein Stimmanteil erzeugt wird, der eine vergleichbare Räumlichkeit zu dem Stimmanteil an den äußeren Mikrofonen aufweist. Der extrahierte oder erzeugte Stimmanteil wird über einen Lautsprecher des Kopfhörers oder Hörgeräts ausgegeben.
Auf diese Weise erfolgt eine natürlichere und ungestörte Wahrnehmung der eigenen Stimme. Dieses führt zu einem signifikanten Komfortgewinn, der nicht nur zu einer erhöhten Akzeptanz von solchen Kopfhörern bzw. Hörgeräten führt, sondern auch die Möglichkeit für neuartige Nutzererfahrungen bei der Verwendung dieser Produkte eröffnet.
Gemäß einer Ausführungsform der Erfindung wird das Stimmsignal mit mindestens einem auf den Mund des Nutzers gerichtetem Mikrofon oder Mikrofonarray und/oder einem inneren Mikrofon des Kopfhörers oder Hörgeräts erfasst Sowohl ein solches Mundmikrofon als auch die inneren Mikrofone bieten, entweder durch ihre Richtcharakteristik, durch ihre räumliche Nähe oder durch die Abschirmung, ein sehr gutes Signal-zu-Rausch-Verhältnis. Insbesondere wird ein monauraler trockener Anteil aus dem erfassten Stimmsignal geschätzt, wobei basierend darauf binaurale Stimmsignale aus den Signalen mindestens zweier äußerer Mikrofone eines linken und rechten Kopfhörers oder linken und rechten Hörgeräts extrahiert werden. Alternativ kann der geschätzte monaurale trockene Stimmanteil auch so gefiltert werden, dass binaurale Stimmsignale mit einer vergleichbaren Räumlichkeit zu dem Stimmanteil an den äußeren Mikrofonen erzeugt werden.
Damit werden die Vorteile des "Sidetone"- sowie des "Hearthrough"-Verfahrens kombiniert, so dass räumliche und binaurale Informationen bei der Wiedergabe der Schallsignale erhalten bleiben und gleichzeitig ungewünschte Umgebungsgeräusche unterdrückt werden.
Gemäß einer Ausführungsform der Erfindung werden die binauralen Stimmsignale vor der jeweiligen Ausgabe über einen Lautsprecher für einen linken und rechten Kopfhörer oder ein linkes und rechtes Hörgerät gefiltert.
Vorteilhafterweise erfolgt die Schätzung des trockenen Stimmanteils am äußeren Mikrofon durch eine Filterung mit der jeweiligen relativen Impulsantwort zwischen dem Mundmikrofon oder Mikrofonarray und dem äußeren Mikrofon und einer anschließenden Durchschnittsbildung.
Weiterhin ist das Filter zur Extraktion oder Erzeugung des Stimmanteils basierend auf dem erfassten Außenschall und der geschätzten trockenen Stimme vorzugsweise ein Wiener-Filter, ein adaptives Filter oder ein Filter, welches eine Raumimpulsantwort nachbildet.
Gemäß einer weiteren Ausführungsform der Erfindung werden der geschätzte trockene Anteil des erfassten Stimmsignals und der extrahierte oder erzeugte Stimmanteil linear gewichtet und dann addiert.
Entsprechend umfasst eine erfindungsgemäße Vorrichtung zur aktiven Unterdrückung des Okklusionseffektes bei der Wiedergabe von Audiosignalen über einen Lautsprecher eines mit mindestens einem äußeren Mikrofon versehenen Kopfhörers oder Hörgeräts,

mindestens ein zusätzliches Mikrofon zur Erfassung eines Stimmsignals eines Nutzers;
einen digitalen Signalprozessor, der eingerichtet ist, um
- den trockenen Anteil eines mit dem mindestens einen zusätzlichen Mikrofon erfassten Stimmsignals zu schätzen, wobei der trockene Anteil des erfassten Stimmsignals der Anteil des erfassten Stimmsignals ohne durch den umgebenden Raum verursachten Nachhall oder Umgebungsgeräusche ist;
- aus dem mit dem mindestens einen äußeren Mikrofon erfassten Außenschall den Stimmanteil mit einem Filter zu extrahieren, wobei Filterkoeffizienten des Filters basierend auf dem geschätzten trockenen Anteil des erfassten Stimmsignals ermittelt werden, oder den geschätzten trockenen Anteil des erfassten Stimmsignals so filtert, dass ein Stimmanteil erzeugt wird, der eine vergleichbare Räumlichkeit zu dem Stimmanteil an den äußeren Mikrofonen aufweist; und
- den extrahierten oder erzeugten Stimmanteil über den Lautsprecher auszugeben.

Gemäß einer Ausführungsform der Erfindung ist zusätzlich ein digitales Filter vorgesehen, dem der extrahierte oder erzeugte Stimmanteil vor der Ausgabe über den Lautsprecher zugeführt wird.
Die Erfindung betrifft auch einen Kopfhörer, der eingerichtet ist, das erfindungsgemäße Verfahren auszuführen oder eine erfindungsgemäße Vorrichtung aufweist.
Weitere Merkmale der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung und den Ansprüchen in Verbindung mit den Figuren ersichtlich.

Fig. 1: zeigt schematisch einen In-Ohr-Kopfhörer mit Verschluss des Ohrkanals eines Nutzers;
Fig. 2: zeigt ein Ablaufdiagramm des erfindungsgemäßen Verfahrens zur aktiven Unterdrückung des Okklusionseffektes;
Fig. 3: zeigt ein Blockdiagramm einer ersten Ausführungsform eines erfindungsgemäßen Kopfhörers;
Fig. 4: zeigt ein Blockdiagramm einer zweiten Ausführungsform eines erfindungsgemäßen Kopfhörers; und
Fig. 5: zeigt schematisch ein Kommunikationsheadset zur Durchführung des erfindungsgemäßen Verfahrens.

Zum besseren Verständnis der Prinzipien der vorliegenden Erfindung werden nachfolgend Ausführungsformen der Erfindung anhand der Figuren detaillierter erläutert. Es versteht sich, dass sich die Erfindung nicht auf diese Ausführungsformen beschränkt und dass die beschriebenen Merkmale auch kombiniert oder modifiziert werden können, ohne den Schutzbereich der Erfindung, wie er in den Ansprüchen definiert ist, zu verlassen.
Das erfindungsgemäße Verfahren kann beispielsweise zur Reduzierung des Okklusionseffektes bei In-Ohr-Kopfhörern, wie in Figur 1 schematisch dargestellt, eingesetzt werden. Der In-Ohr-Kopfhörer 10 befindet sich hierbei am Ohr eines Nutzers, wobei ein Ohreinsatz 14 des In-Ohr-Kopfhörers im äußeren Gehörgang 15 eingebracht ist, um diesen an Ort und Stelle zu halten. Durch den Ohreinsatz wird, je nach individuellem Sitz im Gehörgang und Material, der Gehörgang zu einem gewissen Grad abgedichtet. Dieses führt dazu, dass äußere Störgeräusche zumindest teilweise abgeschirmt werden, sodass diese Störgeräusche dann nur mit einem verringerten Pegel zum Trommelfell 16 des Nutzers gelangen. Damit wird einerseits eine Musikwiedergabe über den Kopfhörer oder die Wiedergabe der Stimme eines Anrufers bei einem mittels des Kopfhörers erfolgenden Telefonat weniger gestört. Andererseits wird durch den Ohreinsatz aber auch die Stimme des Nutzers gedämpft und führt so zu dem bereits oben erwähnten Okklusionseffekt.
Ein aus der Umgebung auf den Kopfhörer eintreffendes Störschallsignal x(t), das insbesondere die Stimme des Nutzers, aber ebenso auch Umgebungsgeräusche enthalten kann, wird mit einem äußeren Mikrofon 11, das vom Gehörgang weg in Richtung des Kopfhörerumfelds gerichtet ist, erfasst. Weiterhin weist der In-Ohr-Kopfhörer 10 ein inneres Mikrofon 12, das auf den Gehörgang 15 in Richtung des Ohrkanals bzw. Trommelfells des Nutzers gerichtet ist und einen Lautsprecher 13, der sich in der Nähe des inneren Mikrofons 12 befindet, auf. Mittels des Lautsprechers 13 kann ein Kompensationssignal u(t) ausgegeben werden, mit dem der Okklusionseffekt möglichst umfassend unterdrückt, zumindest aber reduziert, wird, so dass dem Nutzer idealerweise der Eindruck vermittelt wird, dass er keinen Kopfhörer tragen würde.
Mit Hilfe des äußeren Mikrofons 11 werden hierbei die Luftschallanteile des Störschallsignals erfasst und hierfür ein Kompensationssignal erzeugt. Zusätzlich erfasst das innere Mikrofon 12 ein Restsignal e(t) nach einer Überlagerung von dem durch den Sekundärpfad S(s) gefilterten Kompensationssignal u(t) mit dem durch den Primärpfad P(s) gefilterten Störschallsignal x(t) und ermöglicht insbesondere, auch einen Körperschallanteil zu erfassen und bei dem Kompensationssignal zu berücksichtigen. Der akustische Primärpfad P (s) beschreibt hierbei die Übertragungsfunktion für die akustische Übertragung vom äußeren Mikrofon 11 zum inneren Mikrofon 12, und kann beispielsweise mit einem externen Lautsprecheraufbau gemessen werden. Der akustische Sekundärpfad S (s) beschreibt die Übertragungsfunktion von dem internen Lautsprecher 13 zum inneren Mikrofon 12 und kann unter Verwendung dieses Lautsprechers und inneren Mikrofons gemessen werden.
Der dargestellte In-Ohr-Kopfhörer weist lediglich ein äußeres Mikrofon auf, ebenso können aber auch mehrere Mikrofone, die in einem Mikrofon-Array angeordnet sind, zum Einsatz kommen. Weiterhin kann der Okklusionseffekt auch bei anderen Kopfhörern, wie beispielsweise Bügelkopfhörern mit ohrumschließenden Ohrpolstern, die durch eine geschlossene Bauweise den Gehörgang verschließen, oder Hörgeräten auftreten und, wie im Folgenden beschrieben, kompensiert werden.
Figur 2 zeigt schematisch das Grundkonzept für ein Verfahren zur aktiven Unterdrückung des Okklusionseffektes, wie es beispielsweise bei der Wiedergabe von Audiosignalen mit einem In-Ohr-Kopfhörer aus Figur 1 durchgeführt werden kann. Hierbei wird in einem ersten Schritt 20 mit mindestens einem äußeren Mikrofon 11 des Kopfhörers oder Hörgeräts der Außenschall erfasst. Dieser erfasste Außenschall umfasst auch einen akustischen Stimmanteil, der von einer Sprachausgabe des Nutzers, welcher den Kopfhörer trägt, herrührt In einem darauffolgenden Schritt 21 wird ein Stimmsignal, das der Sprachausgabe des Nutzers entspricht, mit mindestens einem zusätzlichen Mikrofon, beispielsweise mit einem auf den Mund des Nutzers gerichtetes Mikrofon eines Kommunikationsheadsets, im Folgenden auch kurz als Mundmikrofon bezeichnet, erfasst.
Daraufhin wird in Schritt 22 der trockene Anteil des mit dem zusätzlichen Mikrofon erfassten Stimmsignals geschätzt. Wie dem Fachmann bekannt ist, wird unter einem trocken aufgenommenen Audiosignal ein reines Schallsignal verstanden, wie es ursprünglich bei der Erzeugung vorliegt, das heißt mit keinerlei Nachhall durch Reflexionen der erzeugten Schallwellen in einem geschlossenen Raum oder in einem natürlich begrenzten Bereich sowie frei von ambienten, akustischen Störungen. Es wird in diesem Schritt also das Stimmsignal geschätzt, wie es unmittelbar durch den Vokaltrakt des Nutzers erzeugt worden ist.
Basierend auf dem geschätzten trockenen Anteil des erfassten Stimmsignals wird im darauffolgenden Schritt 23 für das Mikrofonsignal des jeweiligen äußeren Mikrofons das enthaltene binaurale Stimmsignal geschätzt und mit einem Filter extrahiert, wobei Filterkoeffizienten des Filters basierend auf dem geschätzten trockenen Anteil des erfassten Stimmsignals ermittelt werden. Alternativ kann das geschätzte trockene Stimmsignal auch so gefiltert werden, dass es eine vergleichbare Räumlichkeit zu dem Stimmanteil an den äußeren Mikrofonen aufweist. Der extrahierte oder erzeugte binaurale Stimmanteil wird dann in Schritt 24 über den entsprechenden Lautsprecher des Kopfhörers oder Hörgeräts ausgegeben, wobei zuvor mittels eines Vorwärts- ("Feedforward") -Filters das Signal so angepasst wird, dass eine akustisch möglichst transparente Wiedergabe der Stimmsignale möglich ist
Figur 3 zeigt ein Blockdiagramm einer erfindungsgemäßen Vorrichtung, die insbesondere in einem Kopfhörer, ebenso aber auch in einem Hörgerät, implementiert sein kann. Obwohl üblicherweise bei Kopfhörern oder Hörgeräten Schallwandler für beide Ohren des Nutzers vorgesehen sind, ist in der Figur zur Erhöhung der Übersichtlichkeit lediglich der konzeptuelle Aufbau bezogen auf ein Ohr dargestellt. Ebenso sind für eine digitale Signalverarbeitung zwar Analog-Digital-Wandler zur Digitalisierung der mit den Mikrofonen erfassten Schallsignale und Digital-Analog-Wandler zur Wandlung der verarbeiteten Signale für eine Ausgabe über den Lautsprecher erforderlich, zur Vereinfachung in der Figur aber nicht wiedergegeben. Aufgrund der digitalen Signalverarbeitung werden die Signale im Folgenden im Zeitbereich mit einem diskreten Zeitindex n betrachtet, der Index z steht entsprechend für eine Frequenzbereichsdarstellung der zeitdiskreten Signale und Filter.
Wie bereits im Zusammenhang mit Figur 1 erwähnt, ist neben dem Lautsprecher 13 ein äußeres Mikrofon 11 sowie ein inneres Mikrofon 12 vorgesehen, die jeweils in einem Ohrhörer oder einer Kopfhörermuschel angeordnet sein können. Das äußere Mikrofon 11, welches das Signal x(n) liefert, ist hierbei an der Außenseite des Kopfhörers angebracht Der Lautsprecher 13 und das innere Mikrofon 12 dagegen sind im Inneren des Kopfhörers angeordnet und in Richtung Trommelfell gerichtet.
Weiterhin ist ein Mundmikrofon 17 vorgesehen. Dieses kann beispielsweise Teil eines Kommunikationsheadsets sein und an einem schwenkbaren Bügel angebracht sein, um vor dem Mund des Nutzers angeordnet und auf den Mund ausgerichtet zu werden. Ebenso kann aber auch ein aus mehreren Mikrofonen bestehendes Mikrofon-Array vorgesehen sein, dass an der Außenseite des Kopfhörers bzw. Hörgerätes angeordnet ist und beispielsweise durch ein Beam-Forming-Verfahren auf den Mund ausgerichtet wird. Neben dem Primärpfad P(z), der die akustische Übertragung vom äußeren Mikrofon zum inneren Mikrofon bezeichnet und dem Sekundärpfad S(z) für die Übertragung vom Lautsprecher zum inneren Mikrofon ist hierbei auch der Übertragungspfad B(z) zwischen dem Mundmikrofon und dem externen Referenzmikrofon vermerkt, der beispielsweise bei einem Kommunikationsheadset durch die vordefinierte Position des Schwenkmikrofons vor dem Mund relativ zur Position des äußeren Mikrofons gegeben ist. Die Übertragungspfade enthalten hierbei auch den Einfluss weiterer Komponenten, wie beispielsweise der nicht dargestellten Analog-Digital-Wandler und Digital-Analog-Wandler.
Erfolgt durch den Nutzer des Kopfhörers bzw. Hörgerätes eine Sprachausgabe, so wird ein dieser Sprachausgabe entsprechendes Stimmsignal x_v(n) durch das äußere Mikrofon 11 erfasst Das erfasste Stimmsignal x_v(n) beinhaltet hierbei die Raumimpulsantwort, die alle relevante Informationen über die aktuellen akustischen Raumeigenschaften enthält Zusätzlich zu diesem Stimmsignal wird durch das äußere Mikrofon 11 jedoch auch ein durch Umgebungsgeräusche verursachtes Störsignal x_a(n) erfasst, da das äußere Mikrofon 11 an der Außenseite des Kopfhörers angebracht ist Das aus diesen beiden Signalanteilen bestehende Audiosignal x(n) wird dann wie im Folgenden beschrieben basierend auf einer Schätzung des trockenen Stimmsignals verarbeitet, um durch eine Ausgabe der verarbeiteten Sprachsignale u(n) über den Lautsprecher 13 des Kopfhörers oder Hörgerätes eine akustische Transparenz für die eigene Stimme zu erzielen. Hierbei wird das Stimmsignal, das von außen auf den Kopfhörer trifft, sowohl über den Primärpfad P (z) vom äußeren zum inneren Mikrofon als auch über den Sekundärpfad S(z) in Form des Signals übertragen, das aktiv über den Lautsprecher 13 ausgegeben wird. Auf diese Weise wird der fehlende Luftschall-Anteil der eigenen Stimme wieder hinzugefügt. Eine akustische Interferenz der über diese beiden Pfade übertragenen Schallsignale führt dann zu der akustischen Transparenz für das Stimmsignal.
In dem dargestellten Ausführungsbeispiel wird sowohl das durch das Mundmikrofon 17 gemessene Stimmsignal v(n) als auch das Fehlersignal e(n) des inneren Mikrofons einer Schätzeinheit 30 zugeführt, in der das reine, trockene Stimmsignal ṽ(n), wie es im Vokaltrakt erzeugt wird und ohne durch den umgebenden Raum verursachten Nachhall sowie frei von ambienten akustischen Störungen vorliegen würde; geschätzt wird. Anhand dieser monauralen Schätzung v̂(n) wird durch eine zweite Schätzeinheit 31 das binaurale Stimmsignal aus dem mit dem äußeren Mikrofon des linken bzw. rechten Kopfhörers erfassten Signal extrahiert. Alternativ kann das geschätzte trockene Stimmsignal auch so gefiltert werden, dass es eine vergleichbare Räumlichkeit zu dem Stimmanteil an den äußeren Mikrofonen aufweist. Die binauralen Stimmsignale x_v(n) werden dann durch eine digitale Filtereinheit 32 mit negierter Übertragungsfunktion gefiltert und schließlich als Lautsprechersignal u(n) einem Schallwandler zur Ausgabe über den Kopfhörer zugeführt. Die digitale Filtereinheit 32 ist hierbei insbesondere als Vorwärtsfilter ("Feed-Forward-Filter") ausgestaltet.
Für die Schätzung des trockenen Stimmsignals ṽ(n) in der Schätzeinheit 30 kann durch ein Mundmikrofon 17, das Stimmsignal v(n) gemessen und dann als Sprachreferenz genutzt werden. Die Schätzung des trockenen Stimmanteils am äußeren Mikrofon kann beispielsweise durch eine Filterung der zusätzlichen Signale mit der jeweiligen relativen Impulsantwort zwischen dem zusätzlichen Mikrofon und dem äußeren Mikrofon und einer anschließenden Durchschnittsbildung erfolgen. Hierfür kann das Mundmikrofonsignal v(n) beispielsweise durch eine Schätzung B̂(n) des relativen Übertragungspfades B(z) zwischen dem Mundmikrofon und den äußeren Mikrofonen gefiltert werden. Das Stimmsignal v(n) wird dabei als monaurale Quelle betrachtet, welches dann aber für beide Kopfhörer bzw. Ohren genutzt wird.
Ebenso kann durch das innere Mikrofon 12 ein Fehlersignal e(n) erfasst werden, dass ebenfalls für die Schätzung des trockenen Stimmsignals ṽ(n) genutzt und hierfür der Schätzeinheit 30 zugeführt werden kann. Da das Ohr durch den Kopfhörer verschlossen ist, koppelt die eigene Stimme über den Körper stark in den Gehörgang ein, so dass mittels der Mikrofonsignale des inneren Mikrofons ebenfalls Informationen über die eigene Stimme gewonnen werden können. Das Fehlersignal e(n) umfasst eine auf dem Stimmsignal beruhende Fehlerkomponente e_v(n) und eine weitere Fehlerkomponente e_b(n), die auf weiteren Störungen wie beispielsweise über den Körper des Nutzers in den Gehörgang übertragenen Trittschall beruht. Hierbei werden für jedes der beiden Kopfhörer bzw. Ohren separate Fehlersignale erzeugt. Diese können sich beispielsweise dann unterscheiden, wenn sich die Passung der Kopfhörer unterscheidet. Die separaten Fehlersignale können aber gegebenenfalls auch gemittelt werden, um wieder ein monaurales Signal zu erhalten.
Die Signale des Mundmikrofons sowie der inneren Mikrofone lassen sich beispielsweise durch eine digitale Filterung angleichen und durch eine anschließende Mittelung kombinieren, um das Signal-zu-Rausch-Verhältnis weiter zu verbessern. Dabei gilt es zu beachten, dass die über die Kopfhörerlautsprecher abgespielten Signale jeweils mit einer Schätzung des jeweiligen Sekundärpfades gefaltet und von dem jeweiligen inneren Mikrofonsignal abgezogen werden, um eine Signalrückkopplung zu unterbinden.
Da die inneren Mikrofone hauptsächlich den Körperschallanteil der eigenen Stimme aufzeichnen, welcher keine Aufschlüsselung beispielsweise von Frikativen erlaubt, ist weiterhin eine Bandbreitenerweiterung der Signale der inneren Mikrofone denkbar.
Da sowohl das Mundmikrofon als auch die inneren Mikrofone ein gutes Signal-zu-Rausch-Verhältnis bieten, kann es auch vorgesehen werden, anstatt einer Schätzung basierend auf einer Kombination von Signalen der beiden Mikrofone eine Schätzung lediglich basierend auf den mit dem Mundmikrofon gemessenen Signal oder dem Signal des inneren Mikrofons durchzuführen. Schließlich können diese bei besonders günstigen Verhältnissen bereits eine trockene Referenz der Stimme liefern, ohne dass eine zusätzliche Schätzung erfolgen muss.
In der zweiten Schätzeinheit 31 wird das binaurale Stimmsignal geschätzt, indem basierend auf der Schätzung der trockenen Stimme die binaurale Stimme aus den, durch ambiente Geräusche gestörten, Signalen der äußeren Mikrofonsignale extrahiert, oder ein Stimmsignal, welches eine vergleichbare Räumlichkeit zu dem Stimmanteil an den äußeren Mikrofonen aufweisen, erzeugt werden kann. Wichtig dabei ist, dass die Prozessierung eine kurze und konstante Verzögerung aufweist, sodass die Verzögerung für die Berechnung des Vorwärtsfilters W(z) berücksichtigt werden kann.
Hierfür kann beispielsweise auf ein Wiener-Filter oder andere Algorithmen zur Störgeräuschunterdrückung zurückgegriffen werden. Bei dem Wiener-Filter werden die Magnituden-Spektren der erfassten Signale ausgewertet, um mit einer Schätzung des Sprachsignals und einer Schätzung des vorliegenden Störsignals einen Filter zu berechnen, mit dem das Sprachsignal optimal extrahiert werden kann. So kann zum Beispiel das Magnituden-Spektrum des Mundmikrofons mit dem Magnituden-Spektrum der inneren Mikrofone kombiniert werden, um damit das Magnituden-Spektrum des trockenen Stimmsignals zu schätzen und dann den Sprachanteil aus den Signalen der äußeren Mikrofone zu extrahieren. Hierbei kann die Übertragungsfunktion B(z) genutzt werden, um zu schätzen, wie die trockene Stimme vom Mundmikrofon am äußeren Mikrofon ankommt, um damit dann die Laufzeiten des Direktschalls zu kompensieren.
Da bei einem Kommunikationsheadset die Übertragungsfunktion B(z) auch für verschiedene Personen sehr ähnlich ist, kann die Impulsantwort beispielsweise durch eine Messreihe für ein bestimmtes Headset bestimmt werden und dann im Anschluss für Anwendungen von Headsets dieser Bauform genutzt werden.
Eine Möglichkeit bietet eine Wiener-Filterung in einer "Filterbank-Equalizer" Struktur. Diese Struktur setzt ein Prototyptiefpassfilter voraus, welches eine konstante Gruppenlaufzeit besitzt. Die Spektralen gewichte des Wiener-Filters setzen eine Schätzung des Nutz- und des Störsignals voraus. Für die Schätzung des Nutzsignalanteils kann die Schätzung der trockenen Stimme benutzt werden.
Alternativ lässt sich ein adaptives Filter a(n) zur Schätzung der binauralen Stimme nutzen. Unter der Annahme, dass sich das äußere Mikrofonsignal x(n)=x_a(n)+x_v(n) zusammensetzt aus ambienten Geräuschen x_a (n) und einem Stimmanteil x_v(n), welcher kohärent zu der Schätzung v̂(n) der trockenen Stimme ist, kann ein adaptives Filter genutzt werden um den Stimmanteil x_v(n) in x(n) basierend auf v̂(n) zu reproduzieren. Mit dem Ausgang $\hat{x_{v}} (n)$ des adaptiven Filters lässt sich eine Vorschrift zur Anpassung des adaptiven Filters basierend auf der folgenden Kostenfunktion finden: $C_{v} = E \{{(x (n) - \hat{x_{v}} (n))}^{\land} 2\}, mit \hat{x_{v}} (n) = a (n) * \hat{v} (n) .$
Des Weiteren, kann die Schätzeinheit 31 den akustischen Einfluss des Raumes auf die eigene Stimme analysieren und basierend darauf ein Filter auswählen oder entwerfen, welches auf das geschätzte trockene Stimmsignal angewandt werden kann, um ein Stimmsignal zu erzeugen, welches eine vergleichbare Räumlichkeit zu dem Stimmanteil an den äußeren Mikrofonen aufweist.
Das Vorwärtsfilter W(z) kann beispielsweise durch das Lösen der Wiener-Hopf Gleichung $w = Ψ_{s' s'}^{- 1} φ_{s' (p - h)}$ bestimmt werden. Dazu werden eine oder mehrere Messungen des Primärpfades P(z) und des Sekundärpfades S(z) benötigt. Diese Messungen können z.B. an einem Kunstkopf oder an Probanden durchgeführt werden. Wichtig hierbei ist, dass jegliche Verzögerung durch die Prozessierung in dem Zweig zwischen dem jeweiligen äußeren Mikrofon und dem Kopfhörerlautsprecher durch den, für die Berechnung des Vorwärtsfilters benutzten, Sekundärpfad berücksichtigt wird. Werden also beispielsweise das Signal x(n) oder jegliche daraus abgeleiteten Signale, welche anschließend über den Lautsprecher abgespielt werden, bei der Schätzung der binauralen Stimme verzögert, so muss diese Verzögerung durch den Sekundärpfad berücksichtigt werden. Dies wird in der obenstehenden Wiener-Hopf Gleichung durch einen Apostroph gekennzeichnet.
Das gewünschte Übertragungsverhalten vom äußeren zum inneren Mikrofon, welches sich für die natürliche Wahrnehmung der eigenen Stimme üblicherweise durch einen flachen Magnitudengang auszeichnet, wird durch H(z) im z-Bereich oder durch die Impulsantwort h(n) beschrieben und wird ebenfalls für die Wiener-Hopf Gleichung benötigt.
Figur 4 zeigt ein Blockdiagramm einer weiteren erfindungsgemäßen Vorrichtung. Zusätzlich zu den Einheiten der erfindungsgemäßen Vorrichtung aus Figur 3 sind hier noch eine Steuerungseinheit 40 zur Ansteuerung zweier Gewichtungseinheiten 41 und 42 vorgesehen. Da in dem dargestellten Fall v̂(n) und x_v(n) kohärent sind, d.h. im Zeitbereich nicht oder zumindest nicht merklich gegeneinander verschoben sind, können beide Signale mit linearen Gewichtungsfaktoren α und 1-α, mit 0≤α≤1 gewichtet werden und dann addiert werden. Die Gewichtungseinheiten 41 und 42 ermöglichen hiermit dem Nutzer eine Personalisierung der Mischung aus trockener und binauraler Stimme. Der Nutzer kann damit selbst entscheiden und einstellen, wie er seine Stimme wahrnimmt, beispielsweise in welchem Verhältnis die Lautstärke des Nachhalls zur Lautstärke seiner eigenen Stimme sein soll. Ebenso kann die Steuerung aber auch automatisch erfolgen.
Wie oben beschrieben, ist eine Folge des Okklusionseffekts, dass die tiefen Frequenzanteile der eigenen Stimme verstärkt werden. Um dieses zu kompensieren, kann zusätzlich mit einem rückgekoppelten Regler das innere Mikrofonsignal so gefiltert werden, dass die tiefen Frequenzanteile der eigenen Stimme reduziert werden. Auf diese Weise erscheint die Wahrnehmung der eigenen Stimme bei Tragen eines Kopfhörers dann noch natürlicher.
Die Schätzeinheiten 30 und 31 sowie die Steuerungseinheit 40 können hierbei Teil einer Prozessoreinheit sein, die einen oder mehrere digitale Signalprozessoren aufweist, aber auch anders geartete Prozessoren oder Kombinationen daraus beinhalten kann. Weiterhin können durch den digitalen Signalprozessor die Filterkoeffizienten des digitalen Filters 32 angepasst werden. Das Filter kann als zeitinvariantes Filter implementiert werden, das einmalig berechnet, auf die Firmware des Kopfhörers aufgespielt und in dieser Form genutzt wird, ohne dass zur Laufzeit Änderungen vorgenommen werden. Ein adaptives Filter, welches sich zur Laufzeit ändert und den aktuell vorliegenden Umständen anpasst, kann ebenfalls eingesetzt werden.
Die erfindungsgemäße Vorrichtung ist vorzugsweise vollständig in einem Kopfhörer integriert, da die Latenz aufgrund der Übertragung der eigenen Stimme durch den Körperschall sehr gering ist. Hierbei kann auch das Mundmikrofon Teil des Kopfhörers sein, beispielsweise bei einem sogenannten Kommunikations-Headset befestigt an einem vor dem Mund anzubringen Bügel oder als Mikrofon-Array mit Richtcharakteristik integriert in einer Kopfmuschel. Ebenso kann aber auch ein separates Mikrofon als Mundmikrofon dienen. Grundsätzlich können Teile der Vorrichtung aber auch Bestandteil eines externen Gerätes, wie z.B. eines Smartphones, sein.
Figur 5 zeigt schematisch die Verwendung eines Kommunikationsheadset, in dem das erfindungsgemäße Verfahren durchgeführt werden kann und welches hierfür die oben beschriebene Vorrichtung aufweist. Für die beiden Ohren des Nutzers ist hierbei jeweils ein Kopfhörer 10 vorgesehen, in den jeweils ein äußeres Mikrofon 11, ein inneres Mikrofon 12 und ein Lautsprecher 13 integriert sind. Weiterhin ist ein Mundmikrofon 17 vorgesehen, dass an einem schwenkbaren Bügel angebracht ist Weiterhin ist eine Prozessoreinheit 50 in einem der beiden Kopfhörer angeordnet, durch den die Schätzeinheiten sowie ggfs. die Steuerungseinheit 40 umgesetzt werden. Die einzelnen Komponenten sind hierbei mit der Prozessoreinheit 50 verbunden, dieses ist in der Figur zur Erhöhung der Übersichtlichkeit aber nicht dargestellt.
Die Erfindung kann für eine Unterdrückung des Okklusionseffektes bei der Wiedergabe von Audiosignalen mit beliebigen Kopfhörern oder Hörhilfen eingesetzt werden, wie beispielsweise der Telefonie bzw. Kommunikation mit Kommunikationsheadsets/Hearables, dem sogenannten In-Ear-Monitoring zur Überprüfung der eigenen Stimme bei einem Live-Auftritt, Augmented/Virtual Reality-Anwendungen oder dem Einsatz bei Hörgeräten.

Bezugszeichenliste

10: Einzelner Kopfhörer, Einzelnes Hörgerät
11: Äußeres Mikrofon
12: Inneres Mikrofon
13: Lautsprecher
14: Ohreinsatz
15: Gehörgang,
16: Trommelfell
17: Mundmikrofon
20 - 24: Verfahrensschritte
30: Erste Schätzeinheit
31: Zweite Schätzeinheit
32: digitales Vorwärtsfilter
40: Steuerungseinheit
41, 42: Gewichtungseinheit
50: Prozessoreinheit

Claims

Verfahren zur aktiven Unterdrückung des Okklusionseffektes bei der Wiedergabe von Audiosignalen mit einem Kopfhörer (10) oder Hörgerät, bei dem
- mit mindestens einem äußeren Mikrofon (11) des Kopfhörers oder Hörgeräts Außenschall in Form eines von außen auftretenden Schallsignals erfasst (20) wird;

- ein Stimmsignal mit mindestens einem zusätzlichen Mikrofon (12, 17) erfasst (21) wird;

- der trockene Anteil des erfassten Stimmsignals geschätzt (22) wird, wobei der trockene Anteil des erfassten Stimmsignals der Anteil des erfassten Stimmsignals ist, welcher weder einen durch den umgebenden Raum verursachten Nachhall noch Umgebungsgeräusche aufweist;

- aus dem mit dem mindestens einen äußeren Mikrofon erfassten Außenschall ein Stimmanteil durch ein Filter extrahiert wird, wobei Filterkoeffizienten des Filters basierend auf dem geschätzten trockenen Anteil des erfassten Stimmsignals ermittelt (23) werden, oder der akustische Einfluss des Raumes auf die eigene Stimme basierend auf dem trockenen Anteil des erfassten Stimmsignals und dem mit dem mindestens einen äußeren Mikrofon erfassten Außenschall analysiert wird und basierend darauf der geschätzte trockene Anteil des erfassten Stimmsignals so gefiltert wird, dass ein Stimmanteil erzeugt (23) wird, der eine vergleichbare Räumlichkeit zu dem Stimmanteil an dem mindestens einen äußeren Mikrofon aufweist; und

- der extrahierte oder erzeugte Stimmanteil über einen Lautsprecher des Kopfhörers oder Hörgeräts ausgegeben (24) wird.
Verfahren nach Anspruch 1, wobei das mindestens eine zusätzliche Mikrofon, mit dem das Stimmsignal erfasst (21) wird, mindestens ein auf den Mund des Nutzers gerichtetes Mikrofon oder Mikrofonarray (17) und/oder ein inneres Mikrofon des Kopfhörers oder Hörgeräts umfasst.
Verfahren nach Anspruch 2, wobei ein monauraler trockener Anteil aus dem erfassten Stimmsignal geschätzt wird und basierend darauf binaurale Stimmsignale aus den Signalen mindestens zweier äußerer Mikrofone eines linken und rechten Kopfhörers oder linken und rechten Hörgeräts extrahiert werden, oder der geschätzte monaurale trockene Stimmanteil so gefiltert wird, dass binaurale Stimmsignale mit einer vergleichbaren Räumlichkeit zu dem Stimmanteil an den äußeren Mikrofonen erzeugt werden.
Verfahren nach Anspruch 3, wobei die binauralen Stimmsignale vor der jeweiligen Ausgabe über einen Lautsprecher (13) für einen linken und rechten Kopfhörer oder ein linkes und rechtes Hörgerät gefiltert werden.
Verfahren nach einem der Ansprüche 2 bis 4, wobei der trockene Anteil des erfassten Stimmsignals geschätzt (22) wird, indem eine Filterung mit der jeweiligen relativen Impulsantwort zwischen dem mindestens einen Mundmikrofon oder Mikrofonarray (17) und dem äußeren Mikrofon (11) und einer anschließenden Durchschnittsbildung erfolgt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Filter zur Extraktion oder Erzeugung des Stimmanteils basierend auf dem erfassten Außenschall und der geschätzten trockenen Stimme ein Wiener-Filter, ein adaptives Filter oder ein Filter, welches eine Raumimpulsantwort nachbildet, ist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der geschätzte trockene Anteil des erfassten Stimmsignals und der extrahierte oder erzeugte Stimmanteil linear gewichtet und addiert und dann über einen Lautsprecher des Kopfhörers oder Hörgeräts ausgegeben werden.
Vorrichtung zur aktiven Unterdrückung des Okklusionseffektes bei der Wiedergabe von Audiosignalen über einen Lautsprecher (13) eines mit mindestens einem äußeren Mikrofon (11) versehenen Kopfhörers (10) oder Hörgeräts, mit
- mindestens einem zusätzlichen Mikrofon (17) zur Erfassung eines Stimmsignals eines Nutzers;

- einem digitalen Signalprozessor (50), der eingerichtet ist, um
- den trockenen Anteil eines mit dem mindestens einen zusätzlichen Mikrofon (17) erfassten Stimmsignals zu schätzen, wobei der trockene Anteil des erfassten Stimmsignals der Anteil des erfassten Stimmsignals ist, welcher weder einen durch den umgebenden Raum verursachten Nachhall noch Umgebungsgeräusche aufweist;

- aus dem mit dem mindestens einen äußeren Mikrofon (11) erfassten Außenschall den Stimmanteil mit einem Filter zu extrahieren, wobei Filterkoeffizienten des Filters basierend auf dem geschätzten trockenen Anteil des erfassten Stimmsignals ermittelt werden, oder den akustischen Einfluss des Raumes auf die eigene Stimme basierend auf dem trockenen Anteil des erfassten Stimmsignals und dem mit dem mindestens einen äußeren Mikrofon erfassten Außenschall zu analysieren und basierend darauf den geschätzten trockenen Anteil des erfassten Stimmsignals so zu filtern, dass ein Stimmanteil erzeugt wird, der eine vergleichbare Räumlichkeit zu dem Stimmanteil an dem mindestens einen äußeren Mikrofon aufweist; und

- den extrahierten oder erzeugten Stimmanteil über den Lautsprecher (13) auszugeben.
Vorrichtung nach Anspruch 8, wobei zusätzlich ein digitales Filter (32) vorgesehen ist, dem der extrahierte oder erzeugte Stimmanteil vor der Ausgabe über den Lautsprecher (13) zugeführt wird.
Kopfhörer (10), der eine Vorrichtung gemäß Anspruch 8 oder 9 aufweist.