DE102019135690B4

DE102019135690B4 - Verfahren und Vorrichtung zur Audiosignalverarbeitung für binaurale Virtualisierung

Info

Publication number: DE102019135690B4
Application number: DE102019135690.3A
Authority: DE
Inventors: Renato Pellegrini
Original assignee: Sennheiser Electronic GmbH and Co KG
Current assignee: Sennheiser Electronic GmbH and Co KG
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2022-11-17
Anticipated expiration: 2039-12-24
Also published as: US11388539B2; US20210195361A1; DE102019135690A1

Abstract

Verfahren (400) zur Verarbeitung eines einkanaligen Eingangs-Audiosignals (11), dem mindestens ein Verarbeitungsparameter (PFC) für einen Grad an binauraler Virtualisierung und eine Richtung (DIR) zugeordnet sind, mit den Schritten- Ermitteln einer ersten kopfbezogenen Übertragungsfunktion (HRTFL,ori) für ein Links-Ausgangssignal für ein linkes Ohr eines Zuhörers und einer zweiten kopfbezogenen Übertragungsfunktion (HRTFR,ori) für ein Rechts-Ausgangssignal für ein rechtes Ohr des Zuhörers, wobei die kopfbezogenen Übertragungsfunktionen (HRTFL,ori) der dem Eingangs-Audiosignal (11) zugeordneten Richtung (DIR) entsprechen;- Ermitteln eines ersten Verstärkungsfaktors (Gain_L) für links und eines zweiten Verstärkungsfaktors (Gain_R) für rechts, wobei der erste und der zweite Verstärkungsfaktor einem Amplitudenpanning für die dem Eingangs-Audiosignal (11) zugeordnete Richtung (DIR) entsprechen;- Annähern eines Betragsfrequenzgangs der ersten kopfbezogenen Übertragungsfunktion (HRTFL,ori) an den ersten Verstärkungsfaktor (Gain_L) gemäß dem Verarbeitungsparameter (PFC), wobei eine erste modifizierte kopfbezogene Übertragungsfunktion (HRTFL,mod1) entsteht;- Annähern eines Betragsfrequenzgangs der zweiten kopfbezogenen Übertragungsfunktion (HRTFR,ori) an den zweiten Verstärkungsfaktor (Gain_R) gemäß dem Verarbeitungsparameter (PFC), wobei eine zweite modifizierte kopfbezogene Übertragungsfunktion (HRTFR.mod1) entsteht, wobei mindestens in einem ersten Frequenzbereich die Annäherung der Betragsfrequenzgänge für einen geringeren Grad an binauraler Virtualisierung stärker ist als für einen höheren Grad an binauraler Virtualisierung;- Berechnung eines ersten Filters (613L) gemäß der ersten modifizierten kopfbezogenen Übertragungsfunktion (HRTFL,mod1) und eines zweiten Filters (613R) gemäß der zweiten modifizierten kopfbezogenen Übertragungsfunktion (HRTFR,mod1);- Filterung des Eingangs-Audiosignals (11) mit dem ersten und dem zweiten Filter (613L, 613R), wobei für das linke Ohr des Zuhörers und das rechte Ohr des Zuhörers je ein gefiltertes Audiosignal (11out,L,11out,R) entsteht, das entsprechend dem zugeordneten Grad teilweise binaural virtualisiert ist.

Description

Die Erfindung betrifft ein Verfahren zur Audiosignalverarbeitung für binaurale Virtualisierung. Die Erfindung betrifft ebenfalls eine Vorrichtung zur Audiosignalverarbeitung für binaurale Virtualisierung.
Hintergrund
Für Audiosignale und deren räumliche Wiedergabe sind verschiedene Möglichkeiten bekannt, die sich grundsätzlich voneinander unterschieden. Zwei wichtige Prinzipien sind objektbasiertes Audio, bei dem die Positionen der Audioquellen gegeben sind, und kanalbasiertes Audio, bei dem die Positionen der Lautsprecher bzw. Wiedergabewandler gegeben sind. Kanalbasiert sind z.B. die bekannten Stereo- und 5.1-Surroundformate. Hier ist eine Veränderung der räumlichen Wahrnehmung über das sogenannte Panning üblich, bei dem die Verstärkung bzw. Amplitude jedes Wiedergabekanals geregelt werden kann. Das Verfahren wird daher auch als Amplitudenpanning bezeichnet. Ein deutlich stärkerer räumlicher Effekt lässt sich jedoch mit binauraler Audiosignalverarbeitung erreichen, die je ein Signal für das linke und das rechte Ohr erzeugt. Dabei werden kopfbezogene Transferfunktionen (head-related transfer functions, HRTFs) genutzt, die auch als kopfbezogene Außenohrübertragungsfunktionen bekannt sind.
1 zeigt das Prinzip objektbasierter binauraler Signalverarbeitung. Dabei wird das (Mono-) Signal einer Audioquelle 11 zur binauralen Wiedergabe über je ein Binauralfilter 12a,12b für die linke und die rechte Seite gefiltert. Die binaurale Wiedergabe erfolgt durch einen Kopfhörer 13 mit zwei Schallwandlern. Zur binauralen Wiedergabe mehrerer Audioquellen 11₁,...,11_N werden deren Signale separat gefiltert 12a₁, 12b₁, 12a_N, 12b_N und fürjede Seite einander überlagert, wie in 2 dargestellt. Die Überlagerung kann durch Summation 14_a,14_b erfolgen. Für eine entsprechende räumliche Wiedergabe über Lautsprecher werden dagegen andere Filter benötigt, die eine ähnliche Struktur und Beschaffenheit wie Binauralfilter haben und als Transauralfilter bezeichnet werden. 3 zeigt Transauralfilter 12c,12d, die das (Mono-) Signal der Audioquelle 11 filtern, damit es über Lautsprecher 15a,15b räumlich wiedergegeben werden kann. Bei binauraler bzw. transauraler Wiedergabe tritt der räumliche Effekt deutlicher zutage als bei der üblichen Stereo- oder 5.1-Surroundwiedergabe. Oft liegen Audiosignale jedoch als Stereo- oder 5.1-Surroundsignale vor, und entsprechende Wiedergabeanlagen für diese Formate sind weit verbreitet. Dadurch, dass bei einer Stereo- bzw. 5.1-Surroundanlage Standard-Lautsprecherpositionen vorgegeben sind, lässt sich jedem Audiokanal eine Richtung zuweisen, aus der der Zuhörer das jeweilige Signal hört.
Um bei Nutzung eines Kopfhörers den gleichen Höreindruck zu erzeugen wie bei einer Stereowiedergabe über Lautsprecher, können die jeweiligen Signale der Kanäle gemäß dieser Richtung mit je einer zugehörigen HRTF für das linke und für das rechte Ohr verarbeitet werden. In 2 können z.B. die Audioquellen 11₁,...,11_N die beiden Kanäle eines Stereosignals sein.
Eine besonders einfache Alternative für eine räumliche Virtualisierung, um dem Zuhörer einen Richtungseindruck zu vermitteln, ist das Panning. Hierbei werden die Signale nicht über HRTFs verarbeitet, sondern die Richtungswirkung wird lediglich durch einen Lautstärkeunterschied zwischen dem linken und dem rechten Ohr simuliert. Obwohl der räumliche Eindruck hierbei weniger ausgeprägt ist, hat das Panning den Vorteil, dass die einzelne Schallquelle klarer wahrgenommen wird, was z.B. die Sprachverständlichkeit erhöht.
EP 3 063 955 B1 beschreibt ein Verfahren zur Verarbeitung eines einkanaligen Eingangs-Audiosignals, dem mindestens ein Verarbeitungsparameter für einen Grad an binauraler Virtualisierung und eine Richtung zugeordnet sind. Insbesondere wird ein Amplitudenpanning für binaurale Virtualisierung durchgeführt in Kombination mit den dazugehörigen head related transfer functions.
EP2258120 A2 zeigt die parallele Verwendung einer Entzerrung (equalization) und einer binauralen Filterung von Surround-Audiosignalen, um die Klangfarbe zu korrigieren. Dabei wird ein Kanal eines Surround-Audiosignals einerseits mit je einem Binauralfilter für jede Seite (links/rechts) gefiltert und andererseits verzögert und mit je einem Equalizer für jede Seite entzerrt. Die beiden zu einer jeweiligen Seite gehörigen Signale werden gewichtet und gemischt, wobei für eine Seite eine zusätzliche Verzögerung für das entzerrte Signal eingefügt wird, um Laufzeitdifferenzen (interaural time difference, ITD) zu erzeugen. Außerdem können kopfbezogene Transferfunktionen (head-related transfer function, HRTF) modifiziert werden, um Klangverfärbungen zu kompensieren. Dabei werden die kopfbezogene Transferfunktionen für die linke und die rechte Seite aneinander angeglichen so, dass die Klangverfärbung, aber auch der räumliche Effekt reduziert werden.
Binaural wiedergegebene Signale werden jedoch oft als unnatürlich oder unangenehm empfunden, z. B. ist Sprache manchmal schwer verständlich und Musik klingt ungewohnt und daher unangenehm, etwa weil bestimmte vom Musiker beabsichtigte Hervorhebungen verlorengehen.
Es wäre wünschenswert, die räumlichen Wiedergabemöglichkeiten von Audiosignalen weiter zu verbessern.
Zusammenfassung der Erfindung
Diese Aufgabe wird durch ein Verfahren gemäß Anspruch 1 gelöst. Der Anspruch 14 betrifft eine erfindungsgemäße Vorrichtung.
Eine weitere Verbesserung der räumlichen Wiedergabe von Audiosignalen kann erfindungsgemäß dadurch erreicht werden, dass ein Audiosignal durch Filterung nur teilweise binaural virtualisiert wird. Dabei kann ein Grad an binauraler Virtualisierung für das Audiosignal frei gewählt werden. Dazu wird in einer Ausführungsform ein Steuerungsverfahren vorgesehen, das einen gleichmäßigen Übergang zwischen einer vollständig binauralen und einer nicht-binauralen, dem Panning entsprechenden Virtualisierung ermöglicht. Dies kann beim Abmischen, d. h. im Authoring-Prozess, oder auch bei der Wiedergabe erfolgen. Dabei kann die binaurale Virtualisierung teilweise auch durch das zeitliche Verhalten bzw. den Phasengang der Filter für die beiden Seiten erfolgen.
Erfindungsgemäß können bei der Signalverarbeitung der Betragsfrequenzgang und der Phasengang der HRTFs, bzw. die Filterkurve und die Verzögerung der Filter, grundsätzlich unabhängig voneinander modifiziert werden. Beide Ansätze können einzeln oder gemeinsam verwendet werden.
Insbesondere werden, in einer Ausführungsform, für einen als gleichmäßig empfundenen Übergang von einer binauralen zu einer nicht-binauralen Virtualisierung mindestens zwei Abschnitte der Signalverarbeitung durchlaufen. In einem ersten Abschnitt, der mit vollständiger binauraler Virtualisierung und den dafür üblichen HRTFs beginnt, werden diese HRTFs mit geringer werdender binauraler Virtualisierung modifiziert, ohne zunächst deren Phasenverhalten zu ändern. Insbesondere wird der „Dynamikumfang“ jeder HRTF bis auf Null reduziert, d. h. bis der Wert der HRTF frequenzunabhängig ist. Dabei ist dieser frequenzunabhängige Wert derjenige Verstärkungsfaktor, der auch einem Stereo-Panning entspricht. Als Dynamikumfang wird hier die Differenz zwischen dem höchsten und dem tiefsten Wert der HRTF über der Frequenz verstanden. In einem zweiten Abschnitt, der sich in einer Ausführungsform an den ersten Abschnitt anschließt, wird das Phasenverhalten der HRTF bzw. die Verzögerung modifiziert. Dabei kann die Verzögerung von einem Wert, der sich aus den „dynamikreduzierten“ HRTFs ergibt, bis auf Null (oder einen anderen konstanten, auf beiden Seiten gleichen Wert) reduziert werden. An dieser Stelle entspricht die Signalverarbeitung dem bekannten Stereo-Panning.
Weitere vorteilhafte Ausführungsformen werden in den abhängigen Ansprüchen 2-12 und 15-16 beschrieben.
Ein Vorteil der Erfindung ist, dass sich Audioobjekte oder Audiokanäle stufenlos mehr oder weniger bzw. stärker oder schwächer virtualisieren lassen, indem sie eher binaural oder eher durch Panning dargestellt werden. Mit anderen Worten, der Grad der binauralen Verarbeitung eines Audioobjekts kann z. B. über einen Regler frei gewählt werden, wobei die Extremfälle z. B. eine vollständig binaurale Verarbeitung und ein klassisches Amplitudenpanning sind. Ein weiterer Vorteil ist, dass sich verschiedene Audioobjekte bzw. Audiokanäle verschieden stark virtualisieren und dann überlagern lassen.
Figurenliste
Weitere Einzelheiten und vorteilhafte Ausführungsformen sind in den Zeichnungen dargestellt. Darin zeigt

1 das bekannte Prinzip objektbasierter binauraler Signalverarbeitung für eine einzelne Audioquelle;
2 das bekannte Prinzip objektbasierter binauraler Signalverarbeitung für die Überlagerung mehrere Audioquellen;
3 das bekannte Prinzip objektbasierter transauraler Signalverarbeitung;
4 ein Flussdiagramm eines erfindungsgemäßen Verfahrens;
5 Impulsantworten und Frequenzgänge der Filter für verschiedene Parameterwerte;
6 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung;
7 ein Flussdiagramm zur Ermittlung des Phasengangs eines Filters;
8 ein Flussdiagramm eines erfindungsgemäßen Verfahrens mit Interpolation des Phasengangs;
9 ein Blockschaltbild einer Vorrichtung zur Überlagerung mehrerer Audioquellen, die erfindungsgemäß unterschiedlich binaural virtualisiert werden, für Kopfhörerwiedergabe;
10 ein Blockschaltbild einer Vorrichtung zur Überlagerung mehrerer Audioquellen, die erfindungsgemäß unterschiedlich binaural virtualisiert werden, für Lautsprecherwiedergabe; und
11 eine Darstellung verschiedener Parameterbereiche bei Nutzung von zwei Verarbeitungsparametern, in einer Ausführungsform.

Detaillierte Beschreibung der Erfindung
4 zeigt ein Flussdiagramm eines erfindungsgemäßen Verfahrens 400 zur Verarbeitung eines einkanaligen Eingangs-Audiosignals, dem ein Verarbeitungsparameter P_FC. für einen Grad an binauraler Virtualisierung und eine Richtung DIR zugeordnet sind. Das Eingangs-Audiosignal kann z. B. ein einzelnes Audioobjekt in einem objektorientierten Audioformat sein. Es könnte jedoch auch z. B. ein Kanal (links/rechts) eines Stereosignals sein. Aus dem Eingangs-Audiosignal sollen Ausgangssignale zur Wiedergabe jeweils an einem linken und einem rechten Ohr eines Zuhörers erzeugt werden, z. B. für Kopfhörer oder in der Nähe der Ohren befindliche Lautsprecher. In einem ersten Schritt 401 werden kopfbezogene Übertragungsfunktionen (HRTFs) für die gegebene Zielrichtung DIR ermittelt, und zwar eine erste kopfbezogene Übertragungsfunktion HRTF_L für ein Links-Ausgangssignal für ein linkes Ohr eines Zuhörers und eine zweite kopfbezogene Übertragungsfunktion HRTF_R für ein Rechts-Ausgangssignal für ein rechtes Ohr des Zuhörers. Die HRTFs können z. B. als Koeffizienten-Datensätze aus einer Datenbank gelesen werden, die HRTFs für verschiedene Richtungen vorhält. In einem zweiten Schritt 402 werden die ermittelten kopfbezogenen Übertragungsfunktionen mittels einer Fourier-Transformation (FT) in den Frequenzbereich transformiert, falls sie nicht bereits von der Datenbank als Fourier-Transformierte bereitgestellt werden.
Eine zweite, wesentlich einfachere Verarbeitungsform ist das Amplitudenpanning. Erfindungsgemäß wird ein konventionelles Amplitudenpanning entsprechend der vorgegebenen Zielrichtung DIR modelliert 406. Dazu wird das einkanalige Eingangs-Audiosignal mit einem ersten Verstärkungsfaktor Gain_L für einen linken Kanal und mit einem zweiten Verstärkungsfaktor Gain_R für einen rechten Kanal beaufschlagt. Beispielsweise kann für eine bestimmte gegebene Zielrichtung DIR der erste Verstärkungsfaktor Gain_L -1 OdB und der zweite Verstärkungsfaktor Gain_R -6dB sein, was zu einer einfachen räumlichen Virtualisierung des Audioobjekts mit einer Position eher auf der rechten Seite führt. Für eine Zielrichtung DIR, die genau vor oder hinter dem Zuhörer liegt, sind die Verstärkungsfaktoren normalerweise im Wesentlichen gleich.
Im nächsten Schritt werden nun die Betragsfrequenzgänge der transformierten kopfbezogenen Übertragungsfunktionen gemäß dem Verarbeitungsparameter P_FC für einen Grad an binauraler Virtualisierung an die jeweiligen Verstärkungsfaktoren angenähert 403,408, d.h. der Betragsfrequenzgang der ersten kopfbezogenen Übertragungsfunktion HRTF_L wird gemäß dem Verarbeitungsparameter P_FC. an den ersten Verstärkungsfaktor Gain_L angenähert und der Betragsfrequenzgang der zweiten kopfbezogenen Übertragungsfunktion HRTF_R wird, ebenfalls gemäß dem Verarbeitungsparameter P_FC, an den zweiten Verstärkungsfaktor Gain_R angenähert. Dabei entstehen eine erste modifizierte kopfbezogene Übertragungsfunktion HRTF_L,mod1 und eine zweite modifizierte kopfbezogene Übertragungsfunktion HRTF_R.mod1. Die Annäherung erfolgt umso stärker, je geringer der Grad an binauraler Virtualisierung sein soll. In einer Ausführungsform sind die modifizierten kopfbezogenen Übertragungsfunktionen für einen minimalen binauralen Virtualisierungsgrad identisch mit den Verstärkungsfaktoren Gain_L,Gain_R, während sie für einen maximalen binauralen Virtualisierungsgrad identisch mit den ursprünglichen kopfbezogenen Übertragungsfunktionen sind. In einer Ausführungsform werden die Betragsfrequenzgänge der ursprünglichen kopfbezogenen Übertragungsfunktionen zunächst in einem Schritt 403 entsprechend dem Verarbeitungsparameter P_FC skaliert bzw. reduziert und dann in einem weiteren Schritt 408 die skalierten kopfbezogenen Übertragungsfunktionen durch Verschiebung an die Verstärkungsfaktoren Gain_L,Gain_R angeglichen. In anderen Ausführungsformen können diese beiden Schritte 403,408 vertauscht oder in einem einzigen Schritt zusammengefasst werden.
Schließlich werden Filterfunktionen für die erste und zweite modifizierte kopfbezogene Übertragungsfunktion HRTF_L,mod1,HRTF_R,mod1 berechnet 411 und in das komplexe Spektrum zurücktransformiert, mit denen dann ein erstes Filter gemäß der ersten modifizierten kopfbezogenen Übertragungsfunktion HRTF_L,_mod1 und ein zweites Filter gemäß derzweiten modifizierten kopfbezogenen Übertragungsfunktion HRTF_R,_mod1 implementiert wird. Dazu werden die entsprechenden Filterkoeffizienten berechnet 413. Vorher können optional die modifizierten kopfbezogenen Übertragungsfunktionen HRTF_L,mod1, HRTF_R,_mod1 mittels inverser Fourier-Transformation in den Zeitbereich transformiert 412 werden.
In einer Ausführungsform ergibt sich der Phasengang des ersten bzw. des zweiten Filters direkt aus der ersten bzw. zweiten modifizierten kopfbezogenen Übertragungsfunktion HRTF_L,mod1,HRTF_R,mod1. In einer anderen Ausführungsform kann der Phasengang des ersten bzw. des zweiten Filters jedoch modifiziert werden. Dazu kann ebenfalls der genannte Verarbeitungsparameter P_FC oder ein separater Verarbeitungsparameter P_TC benutzt werden. Weitere Einzelheiten werden weiter unten erläutert.
5 zeigt Impulsantworten und Frequenzgänge der Filter für verschiedene Parameterwerte, in einer Ausführungsform. In diesem Beispiel setzt sich der Verarbeitungsparameter P_C für einen Grad an binauraler Virtualisierung aus dem oben genannten Verarbeitungsparameter P_FC („frequency clarity“) und einem zweiten Verarbeitungsparameter P_TC („time clarity“) zusammen, der den Phasengang der Filter modifiziert. Dabei gilt hier Tab.1

Wertebereich P_C (für Thr<1 00) B₁ (0 ≤ P_C ≤ Thr) B₂ (Thr ≤ P_C ≤ 100%)

P_FC 0% ... 100% 100%

P_TC 0% 0% ... 100%
Dieser Zusammenhang ist in 11 grafisch dargestellt. Über den gesamten Wertebereich des Verarbeitungsparameters P_C wird zuerst in einem ersten Bereich B₁, ausgehend von 0% und unterhalb eines Schwellwerts Thr (z. B. mit Thr = 0.7 oder Thr = 0.6, ...,0.8), der erste Verarbeitungsparameter P_FC und erst danach, also oberhalb des Schwellwerts Thr in einem zweiten Bereich B₂, der zweite Verarbeitungsparameter P_TC verändert. Im ersten Bereich B₁ ist der räumliche Effekt durch Binauralisierung stärker, im zweiten Bereich B₂ schwächer ausgeprägt. Insgesamt ergibt sich über den Steuerbereich des Verarbeitungsparameters Pc eine als gleichmäßig empfundene Änderung (bzw. Abnahme bei steigendem Parameter) des räumlichen Effekts.
In 5 ist dieser Zusammenhang sichtbar, indem exemplarisch für verschiedene Werte des Verarbeitungsparameters Pc Impulsantworten und Frequenzgänge der Filter für die erste bzw. zweite modifizierte kopfbezogene Übertragungsfunktion HRTF_L,mod1,HRTF_R,mod1 dargestellt sind. 5 a) stellt die Verhältnisse für P_C=0.0 dar, d. h. einen maximalen Grad an binauraler Virtualisierung. Dabei gilt P_TC = P_FC = 0.0 und die im unteren Teil dargestellten Betragsfrequenzgänge entsprechen vollständig den Betragsfrequenzgängen der ursprünglichen kopfbezogenen Übertragungsfunktionen HRTF_L,HRTF_R, und zwar für die der Schallquelle zugewandte Seite („ipsilateral“) 51i und die der Schallquelle abgewandte Seite („kontralateral“) 51c. Diesen entsprechen im Zeitbereich die im oberen Teil von 5 a) dargestellten Impulsantworten für die ipsilaterale 51i_t und die kontralaterale 51c_t Seite. Deutlich sichtbar sind die Pegeldifferenz (ILD, interaural level difference) und die Laufzeitdifferenz (ITD, interaural time difference) zwischen den beiden jeweils ersten Spitzenwerten 51i_t, 51c_t, die einem schwächeren und später eintreffenden Schallsignal am kontralateralen Ohr entsprechen. Ebenfalls gut zu erkennen ist eine anfängliche Verzögerung von ca. 80 ms vor dem ersten Spitzenwert 51i_t, während die Laufzeitdifferenz ca. 10-15 ms beträgt.
5 b) stellt die Verhältnisse für P_C=0.2 dar. Der Verarbeitungsparameter P_C liegt im ersten Bereich B₁ und der Effekt ist im unteren Frequenzgang besser zu erkennen, nämlich dass dessen Magnitude skaliert bzw. reduziert ist. Der Unterschied zwischen Minimal- und Maximalwerten ist sowohl für ipsilateral 52i als auch für kontralateral 52c geringer als in 5 a). Gleichzeitig wurden die Kurven (gegenüber den ursprünglichen Kurven 51i,51c) zu niedrigeren Werten hin verschoben, wie insbesondere im Bereich tiefer Frequenzen gut zu erkennen ist. Diese Verschiebung betrifft aber jeweils die gesamte Kurve 52i,52c. Wie dem oberen Teil von 5 b) zu entnehmen ist, ist der Effekt im Zeitbereich nur undeutlich zu erkennen.
In 5 c) für P_C=0.4 liegt der Verarbeitungsparameter P_C ebenfalls im ersten Bereich B₁ und der für 5 b) beschriebene Effekt ist stärker ausgeprägt, d. h. die Kurven der kopfbezogenen Übertragungsfunktionen 53i,53c für die ipsilaterale und die kontralaterale Seite sind stärker reduziert und verschoben. Mit dem Frequenzgang ändert sich auch der Phasengang. Auf Grund des veränderten Frequenz- und Phasengangs sind nun auch im Zeitbereich Signalanteile bereits vor dem ersten Spitzenwert 53it zu erkennen. In 5 d) für P_C=0.6 setzen sich die Veränderungen entsprechend fort, wobei die Frequenzgänge 54i,54c bereits eine deutlich reduzierte bzw. skalierte Magnitude aufweisen. Die Verzögerung im Zeitbereich zwischen den jeweils ersten Spitzenwerten 54i_t,54c_t ist jedoch für die Werte P_C = 0.0,...,0.6 entsprechend 5 a) - d) im Wesentlichen unverändert.
5 e) stellt die Verhältnisse für Pc=0.8 dar. Der Verarbeitungsparameter Pc liegt hier am Rande des ersten Bereichs B₁ oder bereits im zweiten Bereich B₂. Wie im Frequenzgang in der unteren Darstellung zu erkennen ist, haben die Kurven der kopfbezogenen Übertragungsfunktionen 55i,55c für die ipsilaterale und die kontralaterale Seite nun zumindest im Bereich bis 10kHz frequenzunabhängige konstante Werte angenommen, die den Verstärkungsfaktoren eines Stereo-Amplitudenpanning entsprechen und an die sich die Kurven aus 5 a) - d) allmählich angenähert haben. Zwischen Pc=0.6 und Pc=0.8 beginnt der zweite Bereich B₂. Zwar sind die Phasengänge nicht direkt dargestellt, aber im Zeitbereich in der oberen Darstellung in 5 e) für Pc=0.8 und 5 f) für Pc=1.0 ist zu erkennen, dass die Impulsantworten der beiden Seiten sich einander annähern (d. h. die Zeit zwischen dem ersten und dem zweiten Spitzenwert 55it,55ct wird reduziert), bis sie schließlich bei Pc=1.0 gleich sind. Dies ist der hauptsächliche Effekt im zweiten Bereich B₂, während die Frequenzgänge 55i,56i und 55c,56c im Wesentlichen unverändert bleiben, indem sie nämlich konstante Verstärkungsfaktoren darstellen. An dieser Stelle, die in 5 f) dargestellt ist, hat der Verarbeitungsparameter Pc den Wert 1.0 (100%) und die AudioSignalverarbeitung entspricht vollständig einem Stereo-Amplitudenpanning, während in 5 a) für einen Wert von 0.0 (0%) des Verarbeitungsparameters Pc die Audio-Signalverarbeitung vollständig einer binauralen Verarbeitung entspricht.
Wie oben erwähnt, setzt sich in diesem Beispiel der Verarbeitungsparameter Pc für einen Grad an binauraler Virtualisierung aus zwei getrennten Bereichen B₁ ,B₂ entsprechend den Verarbeitungsparametern PFC und PTC zusammen. Diese Ausführungsform ist besonders vorteilhaft, weil sie zu einer als gleichmäßig empfundene Änderung des räumlichen Effekts führt. Alternativ sind jedoch auch andere Varianten möglich, z. B. folgende: Tab.2

Wertebereich Pc (für Thr₁,Thr₂< 100, Thr₂ < Thr₁) 0 ≤ P_C ≤ Thr₁% Thr₂ ≤ P_C ≤ 100%

P_FC 0% ... 100% 100%

P_TC 0% 0% ... 100%
Hierbei überschneiden sich die Bereiche des ersten Verarbeitungsparameters P_FC und des zweiten Verarbeitungsparameters P_TC und es gibt einen mittleren Bereich von Thr₂ bis Thr₁, in dem beide Parameter verändert werden. Individuell kann auch diese Variante als vorteilhaft empfunden werden. In jedem Fall kann der jeweilige Verarbeitungsparameter Pc, P_TC,P_FC im Prinzip stufenlos von 0% bis 100% verstellt werden.
6 zeigt, in einer Ausführungsform, ein Blockschaltbild einer erfindungsgemäßen Vorrichtung 600 zur Verarbeitung eines einkanaligen Eingangs-Audiosignals 11, dem mindestens ein Verarbeitungsparameter P_C, P_TC, P_FC für einen Grad an binauraler Virtualisierung und eine Richtung DIR zugeordnet sind. Die Vorrichtung 600 enthält eine Datenbank 601, die zwei kopfbezogene Übertragungsfunktionen entsprechend der dem Eingangs-Audiosignal 11 zugeordneten Richtung DIR bereitstellt, nämlich eine erste kopfbezogene Übertragungsfunktion HRTF_L,ori für ein Links-Ausgangssignal für ein linkes Ohr eines Zuhörers und eine zweite kopfbezogene Übertragungsfunktion HRTF_R,ori für ein Rechts-Ausgangssignal für ein rechtes Ohr des Zuhörers.
Des Weiteren enthält die Vorrichtung 600 mindestens ein Modul 606L,606R zum Ermitteln eines ersten Verstärkungsfaktors Gain_L für links und eines zweiten Verstärkungsfaktors Gain_R für rechts, die einem Amplitudenpanning für die dem Eingangs-Audiosignal 11 zugeordnete Richtung DIR entsprechen. Eine Vorschrift für das Amplitudenpanning kann vorgegeben oder wählbar sein, z. B. Gain_L = 0.5 * (1+sin(φ_azimut,L)) und Gain_R = 0.5 * (1-sin((φ_azimut,R)), wobei φ_azimut E [-180°,...,180°] jeweils den Winkel zur „Vorne“-Richtung beschreibt. In anderen Ausführungsformen können andere Audio-Virtualisierungsvorschriften, insbesondere andere Panning-Vorschriften gewählt werden, z. B. in Anlehnung an eine A-B Mikrofonierung mit einer vorgegebenen Basisbreite. Für ein reines AmplitudenPanning ist Gain_L = Gain_R = 0 anzusetzen.
Außerdem enthält die Vorrichtung 600 jeweils ein Transformationsmodul 603L,603R zur Fourier-Transformation jeweils der ersten und der zweiten kopfbezogenen Übertragungsfunktion HRTF_L,ori,HRTF_R,ori in den Frequenzbereich, wobei je eine transformierte Übertragungsfunktion HRTF'_L,ori,HRTF'_R,ori entsteht. Nun können die Betragsfrequenzgänge (auch als Amplitudengänge bezeichnet) und die Phasengänge der transformierten Übertragungsfunktionen HRTF'_L,ori, HRTF'_R,ori im Prinzip unabhängig voneinander weiter verarbeitet werden.
In einer Ausführungsform enthält die Vorrichtung 600 pro Seite zwei Skalier- und Verschiebungsmodule 604L,604R,608L,608R. Ein erstes Skalier- und Verschiebungsmodul 604L, 608L für links nähert durch Skalieren und Verschieben den Betragsfrequenzgang der ersten kopfbezogenen Übertragungsfunktion HRTF'_L,ori an den ersten Verstärkungsfaktor Gain_L gemäß einem Verarbeitungsparameter P_FC. an, z. B Mag_out_L = (1-P_FC) * mag4L + P_FC * Gain_L. Dabei entsteht ein Betragsfrequenzgang Mag_out_L einer ersten modifizierten kopfbezogenen Übertragungsfunktion HRTF_L,mod1. Ein zweites Skalier- und Verschiebungsmodul 604R,608R für rechts nähert durch Skalieren und Verschieben den Betragsfrequenzgang der zweiten kopfbezogenen Übertragungsfunktion HRTF'_R,ori an den zweiten Verstärkungsfaktor Gain_R gemäß dem Verarbeitungsparameter P_FC an, beispielsweise Mag_out_R = (1-P_FC) * mag_4R + P_FC * Gain_R, wobei ein Betragsfrequenzgang Mag_out_R einer zweiten modifizierten kopfbezogenen Übertragungsfunktion HRTF_R,mod1 entsteht. Wie oben beschrieben, ist die binaurale Virtualisierung umso stärker, je näher die Betragsfrequenzgänge Mag_out_L,Mag_out_R der modifizierten kopfbezogenen Übertragungsfunktionen HRTF_L,mod1,HRTF_R,mod1 bei den Betragsfrequenzgängen der ursprünglichen kopfbezogenen Übertragungsfunktionen HRTF_L,ori,HRTF_R,ori liegen. Dies muss nicht zwangsläufig über den gesamten Frequenzbereich gelten, sondern gilt mindestens in einem begrenzten Frequenzbereich. Mit anderen Worten, die Annäherung der Betragsfrequenzgänge an die Verstärkungsfaktoren Gain_L,Gain_R ist für einen geringeren Grad an binauraler Virtualisierung stärker ausgeprägt als für einen höheren Grad an binauraler Virtualisierung.
Die Vorrichtung enthält ferner je ein konfigurierbares Filter 613L,613R, um das Eingangs-Audiosignal 11 jeweils für das Links-Ausgangssignal und für das Rechts-Ausgangssignal zu filtern, sowie für jedes der konfigurierbaren Filter ein Filterkonfigurationsmodul 611L, 611R. Das erste Filterkonfigurationsmodul 611L berechnet aus dem Betragsfrequenzgang Mag_out_L der ersten modifizierten kopfbezogenen Übertragungsfunktion HRTF_L,mod1 erste Filterkoeffizienten und konfiguriert damit das erste Filter 613L. Das zweite Filterkonfigurationsmodul 611R berechnet aus dem Betragsfrequenzgang Mag_out_R der zweiten modifizierten kopfbezogenen Übertragungsfunktion HRTF_R,mod1 zweite Filterkoeffizienten und konfiguriert damit das zweite Filter 613R. Bei einer Filterung des Eingangs-Audiosignals 11 mit dem ersten und dem zweiten konfigurierten Filter 613L,613R entstehen Audiosignale 11_out,L, 11_out,R, die entsprechend dem zugeordneten Grad teilweise binaural virtualisiert sind. Sie können z. B. über Kopfhörer abgehört werden.
Mit der Ausführungsform wie oben beschrieben lassen sich hauptsächlich die Betragsfrequenzgänge der kopfbezogenen Übertragungsfunktionen verändern. In einer anderen Ausführungsform lassen sich die Phasengänge bzw. Verzögerungen der der kopfbezogenen Übertragungsfunktionen verändern. Die beiden Ausführungsformen sind unabhängig voneinander und können miteinander kombiniert werden, so dass in 6 beide gemeinsam dargestellt sind. Im Folgenden wird ebenfalls auf 7 Bezug genommen, das ein Flussdiagramm eines Verfahrens 700 zur Ermittlung des Phasengangs eines konfigurierbaren Filters 613L,613R zeigt. Der erste Schritt 710 zur Ermittlung der kopfbezogenen Übertragungsfunktionen für die gegebene Zielrichtung DIR wurde bereits oben erwähnt.
Für eine Veränderung der Phasengänge bzw. Verzögerungen der kopfbezogenen Übertragungsfunktionen HRTF_L,ori, HRTF_R,ori kann die Vorrichtung 600 pro Seite ein Modul 602L, 602R enthalten, in dem jeweils die lineare Verzögerung bzw. Gruppenlaufzeit LPD_2L, LPD_2R der von der Datenbank erhaltenen kopfbezogenen Übertragungsfunktionen HRTF_L,ori, HRTF_R,ori für links und rechts berechnet wird 720. Alternativ können diese Werte ebenfalls von der Datenbank empfangen werden, damit sie nicht bei jedem Aufruf neu berechnet werden müssen. Die Vorrichtung 600 enthält ein MLV-Berechnungsmodul 609 zum Berechnen der mittleren linearen Verzögerung MLV aus den linearen Verzögerungen LPD_2L, LPD_2R der beiden Seiten, z. B. gemäß MLV = 0.5 * (LPD_2L + LPD_2R).
Ferner enthält die Vorrichtung 600 jeweils ein Subtraktionsmodul 605L,605R zum Abziehen 740 der Gruppenlaufzeit LPD_2L,LPD_2R vom Phasengang der transformierten kopfbezogenen Übertragungsfunktionen HRTF'_L,ori, wobei ein normierter erster Phasengang und ein normierter zweiter Phasengang entstehen. Da diese normierten Phasengänge alle 360° Sprünge aufweisen, werden diese Sprünge durch Addition oder Subtraktion eines Wertes von 360° oder Vielfache davon eliminiert 750, wobei sogenannte abgewickelte Phasengänge Ang_L,Ang_R entstehen, die keine Phasensprünge mehr enthalten. Die abgewickelten Phasengänge Ang_L,Ang_R werden nun skaliert 760, indem sie in Phaseninterpolationsmodulen 610L,61 0R interpoliert werden. Die Interpolation kann durch lineares Interpolieren jeweils zwischen dem abgewickelten Phasengang Ang_L, Ang_R und der mittleren linearen Verzögerung MLV gemäß dem Verarbeitungsparameter Pc, PTC für einen Grad an binauraler Virtualisierung erfolgen, z. B. für die linke Seite gemäß $LinearDelayL = (1 \cdot p_{TC}) * {LPD}_{2L} + p_{TC} * MLV$
$Ang_out_L = (1 - p_{TC}) * Abwicklung (ang5L - {LPD}_{2 L}) + p_{TC} * ({LP}_{L} + LinearDelayL)$
wobei ang5L der Phasengang der kopfbezogenen Übertragungsfunktion HRTF'_L,ori nach der Fourier-Transformation und vor dem Abwickeln und LP_L eine optionale zusätzliche Verzögerung ist. Dabei entstehen die modifizierten Phasengänge Ang_out_L, Ang_out_R, die dann den Filtern 613L,613R zugewiesen werden. Die Phasengänge können optional durch Addieren 770 einer (ggf. konstanten) Verzögerung LP_L,LP_R modifiziert werden. Diese kann von einem Panningmodul 607L,607R kommen, das ein Laufzeitpanning modelliert. Diese jeweilige zusätzliche Verzögerung für links und rechts kann abhängig von der Richtung DIR sein.
Aus den modifizierten Phasengängen Ang_out_L, Ang_out_R und/oder den interpolierten Betragsfrequenzgängen Mag_out_L,Mag_out_R können in den Filterkonfigurationsmodulen 611L,611R die modifizierten kopfbezogenen Übertragungsfunktionen HRTF_L,mod1, HRTF_R,mod1 bzw. deren Koeffizienten gebildet werden, mit denen dann die Filter 613L,613R konfiguriert werden können. Optional kann vorher eine Rücktransformation 780 der modifizierten Filterfunktion einschließlich der modifizierten Phasengänge Ang_out_L, Ang_out_R in den Zeitbereich durch inverse Fouriertransformation erfolgen, falls nötig.
8 zeigt ein Flussdiagramm eines erfindungsgemäßen Verfahrens 800 mit Interpolation des Phasengangs. Gegenüber dem Flussdiagramm in 4 wird hier zusätzlich der Phasengang der kopfbezogenen Übertragungsfunktionen normiert und abgewickelt 405, wie oben beschrieben, und die mittlere lineare Verzögerung (bzw. Gruppenlaufzeit) MLV ermittelt und auf die Phasengänge addiert 409. Dann erfolgt eine Interpolation 410 gemäß dem Verarbeitungsparameter P_TC wie oben beschrieben, entweder gegen die mittlere lineare Verzögerung MLV oder optional gegen ein davon abweichendes Laufzeitpanning, das separat modelliert werden kann 407. Die entsprechenden modellierten Laufzeitwerte können auch aus einem Speicher abrufbar sein.
Aus der Interpolation resultiert der gewünschte Phasengang Ang_out_L,Ang_out_R, der zusammen mit dem gewünschten Betragsfrequenzgang Mag_out_L,Mag_out_R kombiniert wird, um die Ziel-HRTFs HRTF_L,_mod1, HRTF_R,_mod1 zu erhalten. Dadurch wird die Filterfunktion geformt bzw. ermittelt 411, aus der dann, direkt oder optional nach einer inversen Fouriertransformation 412, die Filterkoeffizienten ermittelt werden 413.
9 zeigt ein Blockschaltbild einer Vorrichtung zur Überlagerung mehrerer Audioquellen, die erfindungsgemäß unterschiedlich binaural virtualisiert werden können, für Kopfhörerwiedergabe. Dabei kann jedem Audio-Eingangssignal 11₁,11₂,...,11_N nicht nur eine individuelle Richtung DIR₁,DIR₂,....,DIR_N gegeben werden, sondern auch ein individueller Grad an Virtualisierung mittels eines oder mehrerer individueller Verarbeitungsparameter P_FC,1, P_FC,2,...,P_FC,N, P_TC,1, P_TC,2,..., P_TC,N wie oben beschrieben. Die Richtung wie im Prinzip auch die Verarbeitungsparameter können sich im Lauf der Zeit ändern. Die jeweiligen gefilterten Audiosignale für jede Seite werden einander überlagert 14_a, 14_b und auf die beiden Seiten eines Kopfhörers 13 gegeben. So ist es z. B. möglich, für den Soundtrack eines Films bestimmte Audioobjekte anders zu virtualisieren als andere Audioobjekte. Beispielsweise kann Sprache, damit sie besser verständlich ist, mit einem geringeren Grad an binauraler Virtualisierung versehen werden als Musik oder Umgebungsgeräusche. Dementsprechend können Eingangs-Audiosignale z. B. auch Parameter P_Typ zu ihrer Klassifizierung enthalten, wobei für alle Audioobjekte einer Klasse dieselben Verarbeitungsparameter P_C, P_TC, P_FC gelten und verschiedene Klassen von Audiosignalen verschiedene Verarbeitungsparameter haben. So ist eine automatische graduelle binaurale Virtualisierung von Audiosignalen möglich (z.B. alle Sprachsignale schwach binaural virtualisiert, aber alle Umgebungsgeräusche stark binaural virtualisiert). Eine Klassifizierung kann auch anhand des Audiosignals automatisiert durchgeführt werden, z. B. durch künstliche Intelligenz, um Musik von Sprache, Umgebungsgeräuschen, Effekten und/oder anderen Audioklassen unterscheiden und ihnen die entsprechenden Parameter zuweisen zu können.
Die Vorrichtung zur Überlagerung mehrerer Audioquellen kann mehrere separate Vorrichtungen 600 zur Verarbeitung von einkanaligen Eingangs-Audiosignalen enthalten, wie oben beschrieben. Diese können jedoch auch in eine einzige Vorrichtung integriert sein, wodurch Synergieeffekte auftreten können (z. B. eine gemeinsam genutzte Datenbank).
Es ist zu beachten, dass die Erfindung nicht nur für graduelle binaurale Virtualisierung anwendbar ist, sondern ebenso auch für graduelle transaurale Virtualisierung. Ein Unterschied zwischen einer Vorrichtung 600 für binaurale Virtualisierung und einer Vorrichtung 900 für transaurale Virtualisierung liegt im Wesentlichen in der Art der von der Datenbank bereitgestellten Übertragungsfunktionen. 10 zeigt ein Blockschaltbild einer Vorrichtung zur Überlagerung mehrerer Audioquellen, die erfindungsgemäß in unterschiedlichem Maße binaural virtualisiert werden, für die Audiowiedergabe über Lautsprecher 15a,15b. Der Aufbau und die Funktion entsprechen im Prinzip dem in 9 gezeigten Beispiel.
Die Verarbeitungsparameter P_C, P_TC, P_FC bzw. Klassifizierungsparameter P_Typ können als Metadaten zur späteren Nutzung in den Eingangs-Audiosignalen gespeichert sein, z. B. für ein Echtzeit-Rendering in einem Wiedergabegerät während der Wiedergabe. So kann z.B. ein System realisiert werden, in dem ein Headtracker zusätzliche Informationen über die Position und Orientierung des Hörers liefert, während dieser zuhört. Neben der Verarbeitung in Echtzeit können die zu verwendenden Parameter aber schon vorab z. B. von einem Toningenieur festgelegt werden. Damit erhalten Toningenieure durch die Erfindung neue Werkzeuge, mit denen sich der Grad der klanglichen Veränderung des spektralen und Phasenverhaltens stufenlos kontrollieren lässt. Außerdem können die Parameterwerte mit Änderungen über die Zeit gespeichert werden. Statt nur einen Wert für das gesamte Audiosignal anzugeben, wird das Signal in Blöcke unterteilt (z.B. der Länge 1 ms), und jedem dieser Blöcke kann man nun eigene Parameterwerte zuweisen. Durch geeignete Fensterung und Überblendung werden hörbare Artefakte minimiert.
Die Erfindung kann, in einer Ausführungsform, mit einem konfigurierbaren Computer oder Prozessor implementiert werden. Die Konfiguration erfolgt durch einen computer-lesbaren Datenträger mit darauf gespeicherten Instruktionen, die geeignet sind, den Computer oder Prozessor derart zu programmieren, dass dieser die Schritte des oben beschriebenen Verfahrens ausführt.
Die Erfindung kann in verschiedenen Geräten zur Audiosignalverarbeitung verwendet werden.

Claims

Verfahren (400) zur Verarbeitung eines einkanaligen Eingangs-Audiosignals (11), dem mindestens ein Verarbeitungsparameter (P_FC) für einen Grad an binauraler Virtualisierung und eine Richtung (DIR) zugeordnet sind, mit den Schritten - Ermitteln einer ersten kopfbezogenen Übertragungsfunktion (HRTF_L,ori) für ein Links-Ausgangssignal für ein linkes Ohr eines Zuhörers und einer zweiten kopfbezogenen Übertragungsfunktion (HRTF_R,ori) für ein Rechts-Ausgangssignal für ein rechtes Ohr des Zuhörers, wobei die kopfbezogenen Übertragungsfunktionen (HRTF_L,ori) der dem Eingangs-Audiosignal (11) zugeordneten Richtung (DIR) entsprechen; - Ermitteln eines ersten Verstärkungsfaktors (Gain_L) für links und eines zweiten Verstärkungsfaktors (Gain_R) für rechts, wobei der erste und der zweite Verstärkungsfaktor einem Amplitudenpanning für die dem Eingangs-Audiosignal (11) zugeordnete Richtung (DIR) entsprechen; - Annähern eines Betragsfrequenzgangs der ersten kopfbezogenen Übertragungsfunktion (HRTF_L,ori) an den ersten Verstärkungsfaktor (Gain_L) gemäß dem Verarbeitungsparameter (P_FC), wobei eine erste modifizierte kopfbezogene Übertragungsfunktion (HRTF_L,_mod1) entsteht; - Annähern eines Betragsfrequenzgangs der zweiten kopfbezogenen Übertragungsfunktion (HRTF_R,ori) an den zweiten Verstärkungsfaktor (Gain_R) gemäß dem Verarbeitungsparameter (P_FC), wobei eine zweite modifizierte kopfbezogene Übertragungsfunktion (HRTF_R.mod1) entsteht, wobei mindestens in einem ersten Frequenzbereich die Annäherung der Betragsfrequenzgänge für einen geringeren Grad an binauraler Virtualisierung stärker ist als für einen höheren Grad an binauraler Virtualisierung; - Berechnung eines ersten Filters (613L) gemäß der ersten modifizierten kopfbezogenen Übertragungsfunktion (HRTF_L,mod1) und eines zweiten Filters (613R) gemäß der zweiten modifizierten kopfbezogenen Übertragungsfunktion (HRTF_R,mod1); - Filterung des Eingangs-Audiosignals (11) mit dem ersten und dem zweiten Filter (613L, 613R), wobei für das linke Ohr des Zuhörers und das rechte Ohr des Zuhörers je ein gefiltertes Audiosignal (11_out,L,11_out,R) entsteht, das entsprechend dem zugeordneten Grad teilweise binaural virtualisiert ist.
Verfahren nach Anspruch 1, wobei das einkanalige Eingangs-Audiosignal (11) ein Monosignal, ein Kanal eines kanalbasierten Audiosignals oder ein Audioobjekt eines objektbasieren Audiosignals ist.
Verfahren nach Anspruch 1 oder 2, wobei das Annähern des Betragsfrequenzgangs der ersten kopfbezogenen Übertragungsfunktion (HRTF_L,ori) an den ersten Verstärkungsfaktor (Gain_L) und das Annähern des Betragsfrequenzgangs der zweiten kopfbezogenen Übertragungsfunktion (HRTF_R,ori) an den zweiten Verstärkungsfaktor (Gain_R) gemäß dem Verarbeitungsparameter (P_FC) die folgenden Schritte enthält: - Transformieren (402;603L,603R) der ersten und zweiten kopfbezogenen Übertragungsfunktionen (HRTF_L,ori, HRTF_R,ori) in den Frequenzbereich mittels Fourier-Transformation; - Berechnen (604L,604R) eines halbseitigen Betragsfrequenzgangs jeweils der ersten und der zweiten kopfbezogenen Übertragungsfunktion (HRTF_L,ori, HRTF_R,ori) unterhalb einer Nyquist-Frequenz; - Interpolieren (403; 608L) zwischen dem halbseitigen Betragsfrequenzgang der transformierten ersten kopfbezogenen Übertragungsfunktion (HRTF'_L,ori) und dem ermittelten ersten Verstärkungsfaktor (Gain_L) gemäß dem Verarbeitungsparameter (P_FC), wobei eine transformierte erste modifizierte kopfbezogene Übertragungsfunktion (HRTF'_L,mod1) entsteht; - Interpolieren (403; 608R) zwischen dem halbseitigen Betragsfrequenzgang der transformierten zweiten kopfbezogenen Übertragungsfunktion (HRTF'_R,ori) und dem ermittelten zweiten Verstärkungsfaktor (Gain_R) gemäß dem Verarbeitungsparameter (P_FC), wobei eine transformierte zweite modifizierte kopfbezogene Übertragungsfunktion (HRTF'_R,mod1) entsteht; und - Rücktransformation (412; 612L,612R) der transformierten ersten und zweiten modifizierten kopfbezogenen Übertragungsfunktionen (HRTF'_L,mod1, HRTF'_R,_mod1) in den Zeitbereich, wobei die ersten und zweiten modifizierten kopfbezogenen Übertragungsfunktionen (HRTF_L,_mod1, HRTF_R,_mod1) entstehen.
Verfahren (400;700) nach Anspruch 3, mit den weiteren Schritten: - Ermitteln (720; 602L,602R) einer ersten Gruppenlaufzeit der ersten kopfbezogenen Übertragungsfunktionen (HRTF_L.ori) und einer zweiten Gruppenlaufzeit der zweiten kopfbezogenen Übertragungsfunktionen (HRTF_R.ori); - Abziehen (740; 605L) der ermittelten ersten Gruppenlaufzeit vom Phasengang der transformierten ersten kopfbezogenen Übertragungsfunktion (HRTF'_L,ori), wobei ein normierter erster Phasengang entsteht; - Berechnen (750) einer Abwicklung des normierten ersten Phasengangs, wobei Sprünge im normierten ersten Phasengang durch Addition oder Subtraktion eines Wertes von 360° oder Vielfachen davon eliminiert werden und wobei ein abgewickelter erster Phasengang (Ang_L) entsteht; - Abziehen (740; 605R) der ermittelten zweiten Gruppenlaufzeit vom Phasengang der transformierten zweiten kopfbezogenen Übertragungsfunktion (HRTF'_R,ori), wobei ein normierter zweiter Phasengang entsteht; - Berechnen (750) einer Abwicklung des normierten zweiten Phasengangs, wobei Sprünge im normierten zweiten Phasengang durch Addition oder Subtraktion eines Wertes von 360° oder Vielfachen davon eliminiert werden und wobei ein abgewickelter zweiter Phasengang (Ang_R) entsteht; - Berechnen (609) einer mittleren linearen Verzögerung (MLV) aus den ermittelten ersten und zweiten Gruppenlaufzeiten; - lineares Interpolieren (610L) zwischen dem abgewickelten ersten Phasengang (Ang_L) und der mittleren linearen Verzögerung (MLV) gemäß dem mindestens einen Verarbeitungsparameter (P_FC, P_TC), wobei ein modifizierter erster Phasengang (Ang_out_L) entsteht; - lineares Interpolieren (610R) zwischen dem abgewickelten zweiten Phasengang (Ang_R) und der mittleren linearen Verzögerung (MLV) gemäß dem mindestens einen Verarbeitungsparameter (PFC,PTC), wobei ein modifizierter zweiter Phasengang (Ang_out_R) entsteht; - Zuweisen des modifizierten ersten Phasengangs (Ang_out_L) zum ersten Filter (613L) mit der ersten modifizierten kopfbezogenen Übertragungsfunktion (HRTF_L,mod1); und - Zuweisen des modifizierten zweiten Phasengangs (Ang_out_R) zum zweiten Filter (613R) mit der zweiten modifizierten kopfbezogenen Übertragungsfunktion (HRTF_R,mod1).
Verfahren nach einem der Ansprüche 1-4, wobei der Grad an binauraler Virtualisierung durch einen einzelnen Verarbeitungsparameter (P_C) ausgewählt werden kann, und wobei bei Rückbezug auf Anspruch 4 in einem ersten Bereich (B₁) des Verarbeitungsparameters (P_C) das Interpolieren (403; 608L, 608R) zwischen den halbseitigen Betragsfrequenzgängen der transformierten kopfbezogenen Übertragungsfunktionen (HRTF'_L,ori, HRTF'_R,ori) und den ermittelten Verstärkungsfaktoren (Gain_L, Gain_R) erfolgt, und in einem zweiten Bereich (B₂) des Verarbeitungsparameters (P_C) das Interpolieren zwischen den abgewickelten Phasengängen (Ang_L, Ang_R) und der mittleren linearen Verzögerung (MLV) erfolgt.
Verfahren nach Anspruch 5 mit Rückbezug auf Anspruch 4, wobei sich der erste Bereich (B₁) und der zweite Bereich (B₂) nicht überschneiden.
Verfahren nach einem der Ansprüche 1-4, wobei der Grad an binauraler Virtualisierung durch mindestens zwei voneinander unabhängige Parameter ausgewählt (P_FC, P_TC) werden kann.
Verfahren nach einem der Ansprüche 1-4, wobei das Verfahren (400) auf mindestens zwei verschiedene einkanalige Eingangs-Audiosignale (11₁,... ,11_N) angewandt wird, und wobei den verschiedenen Eingangs-Audiosignalen (11₁,..., 11_N) individuelle, optional unterschiedliche Richtungen (DIR_1,...,DIR_N) und individuelle, optional unterschiedliche Verarbeitungsparameter (P_FC,1,...,P_FC,N) für einen jeweils individuellen Grad an binauraler Virtualisierung zugeordnet sind.
Verfahren nach Anspruch 8, wobei einem ersten Eingangs-Audiosignal (11₁) eine erste Richtung (DIR₁) und mindestens ein erster Verarbeitungsparameter (P_FC,1, P_TC,1) für einen ersten Grad an binauraler Virtualisierung zugeordnet wird und erste und zweite Filter für das erste Eingangs-Audiosignal (11₁) berechnet werden, und wobei einem zweiten Eingangs-Audiosignal (11₂) eine zweite Richtung (DIR₂) und mindestens ein zweiter Verarbeitungsparameter (P_FC,2,P_TC,2) für einen zweiten Grad an binauraler Virtualisierung zugeordnet wird und erste und zweite Filter für das zweite Eingangs-Audiosignal (11₂) berechnet werden, und wobei die von ihrem jeweiligen ersten Filter gefilterten ersten und zweiten Eingangs-Audiosignale einander überlagert werden, um ein erstes Links-Ausgangssignal zu erhalten, und wobei die von ihrem jeweiligen zweiten Filter gefilterten ersten und zweiten Eingangs-Audiosignale einander überlagert werden, um ein zweites Rechts-Ausgangssignal zu erhalten.
Verfahren nach Anspruch 8 oder 9, wobei die mindestens zwei einkanaligen Eingangs-Audiosignale (11₁,..., 11_N) gemeinsam in einem Empfangssignal empfangen werden, das auch jeweils Informationen über die Richtungen (DIR₁,..., DIR_N) und die Verarbeitungsparameter (P_FC,1,...,P_FC,N) für einen Grad an binauraler Virtualisierung enthält.
Verfahren nach Anspruch 4 oder nach einem der Ansprüche 5-10 mit Rückbezug auf Anspruch 4, wobei beim linearen Interpolieren (610L,610R) zwischen den abgewickelten Phasengängen (Ang_L, Ang_R) und der mittleren linearen Verzögerung (MLV) eine einstellbare zusätzliche Verzögerung addiert wird.
Verfahren nach einem der Ansprüche 1-11, wobei das Ermitteln (406) des ersten Verstärkungsfaktors (Gain_L) für links und des zweiten Verstärkungsfaktors (Gain_R) für rechts gemäß einer gegebenen oder wählbaren Panning-Vorschrift erfolgt.
Computer-lesbarer Datenträger mit darauf gespeicherten Instruktionen, die geeignet sind, einen Computer oder Prozessor derart zu programmieren, dass dieser die Schritte des Verfahrens nach einem der Ansprüche 1-12 ausführt.
Vorrichtung (600) zur Verarbeitung eines einkanaligen Eingangs-Audiosignals (11), dem mindestens ein Verarbeitungsparameter (P_C,P_TC,P_FC) für einen Grad an binauraler Virtualisierung und eine Richtung (DIR) zugeordnet sind, mit - einer Datenbank (601) zum Bereitstellen einer ersten kopfbezogenen Übertragungsfunktion (HRTF_L,ori) für ein Links-Ausgangssignal für ein linkes Ohr eines Zuhörers und einer zweiten kopfbezogenen Übertragungsfunktion (HRTF_R,ori) für ein Rechts-Ausgangssignal für ein rechtes Ohr des Zuhörers, wobei die kopfbezogenen Übertragungsfunktionen der dem Eingangs-Audiosignal (11) zugeordneten Richtung (DIR) entsprechen; - mindestens einem Modul (606L,606R) zum Ermitteln eines ersten Verstärkungsfaktors (Gain_L) für links und eines zweiten Verstärkungsfaktors (Gain_R) für rechts, wobei der erste und der zweite Verstärkungsfaktor einem Amplitudenpanning für die dem Eingangs-Audiosignal (11) zugeordnete Richtung (DIR) entsprechen; - mindestens einem ersten Skalier- und Verschiebungsmodul (604L,608L) für links, das durch Skalieren und Verschieben einen Betragsfrequenzgang der ersten kopfbezogenen Übertragungsfunktion (HRTF'_L,ori) an den ersten Verstärkungsfaktor (Gain_L) gemäß dem Verarbeitungsparameter (P_FC) annähert, wobei ein Betragsfrequenzgang (Mag_out_L) einer ersten modifizierten kopfbezogenen Übertragungsfunktion (HRTF_L,_mod1) entsteht; - mindestens einem zweiten Skalier- und Verschiebungsmodul (604R,608R) für rechts, das durch Skalieren und Verschieben einen Betragsfrequenzgang der zweiten kopfbezogenen Übertragungsfunktion (HRTF'_R,ori) an den zweiten Verstärkungsfaktor (Gain_R) gemäß dem Verarbeitungsparameter (P_FC) annähert, wobei ein Betragsfrequenzgang (Mag_out_R) einer zweiten modifizierten kopfbezogenen Übertragungsfunktion (HRTF_R,mod1) entsteht; wobei mindestens in einem ersten Frequenzbereich die Annäherung der Betragsfrequenzgänge für einen geringeren Grad an binauraler Virtualisierung stärker ist als für einen höheren Grad an binauraler Virtualisierung; - einem konfigurierbaren ersten Filter (613L) und einem konfigurierbaren zweiten Filter (613R) zur Filterung des Eingangs-Audiosignals (11); - einem ersten Filterkonfigurationsmodul (611L), das aus dem Betragsfrequenzgang (Mag_out_L) der ersten modifizierten kopfbezogenen Übertragungsfunktion (HRTF_L,mod1) erste Filterkoeffizienten berechnet und damit das erste Filter (613L) konfiguriert; - einem zweiten Filterkonfigurationsmodul (611R), das aus dem Betragsfrequenzgang (Mag_out_R) der zweiten modifizierten kopfbezogenen Übertragungsfunktion (HRTF_R,mod1) zweite Filterkoeffizienten berechnet und damit das zweite Filter (613R) konfiguriert; - wobei bei einer Filterung des Eingangs-Audiosignals (11) mit dem ersten und dem zweiten konfigurierbaren Filter (613L,613R) ein Audiosignal (11_out,L, 11_out,R) entsteht, das entsprechend dem zugeordneten Grad teilweise binaural virtualisiert ist.
Vorrichtung nach Anspruch 14, zusätzlich mit - jeweils einem Transformationsmodul (603L,603R) für links und rechts zur Transformation der ersten und der zweiten kopfbezogenen Übertragungsfunktion (HRTF_L,ori, HRTF_R,ori) in den Frequenzbereich, wobei je eine transformierte Übertragungsfunktion (HRTF'_L,ori, HRTF'_R,ori) entsteht; - wobei die Skalier- und Verschiebungsmodule (604L,608L,604R,608R) die Betragsfrequenzgänge der transformierten kopfbezogenen Übertragungsfunktionen (HRTF'_L,ori, HRTF'_R,ori) skalieren und verschieben, wobei transformierte Betragsfrequenzgänge (Mag_out_L, Mag_out_R) der modifizierten kopfbezogenen Übertragungsfunktionen entstehen; und - wobei die Filterkonfigurationsmodule (611L,611R) die Filterkoeffizienten aus den transformierten Betragsfrequenzgängen (Mag_out_L,Mag_out_R) berechnen.
Vorrichtung nach Anspruch 15, zusätzlich mit jeweils einem Rücktransformationsmodul (612L,612R) zum Durchführen einer inversen Fouriertransformation, wobei die Filterkonfigurationsmodule (611L,611R) die Filterkoeffizienten aus den rücktransformierten Betragsfrequenzgängen berechnen.