-
Die Erfindung betrifft ein Verfahren zur Audiosignalverarbeitung für binaurale Virtualisierung. Die Erfindung betrifft ebenfalls eine Vorrichtung zur Audiosignalverarbeitung für binaurale Virtualisierung.
-
Hintergrund
-
Für Audiosignale und deren räumliche Wiedergabe sind verschiedene Möglichkeiten bekannt, die sich grundsätzlich voneinander unterschieden. Zwei wichtige Prinzipien sind objektbasiertes Audio, bei dem die Positionen der Audioquellen gegeben sind, und kanalbasiertes Audio, bei dem die Positionen der Lautsprecher bzw. Wiedergabewandler gegeben sind. Kanalbasiert sind z.B. die bekannten Stereo- und 5.1-Surroundformate. Hier ist eine Veränderung der räumlichen Wahrnehmung über das sogenannte Panning üblich, bei dem die Verstärkung bzw. Amplitude jedes Wiedergabekanals geregelt werden kann. Das Verfahren wird daher auch als Amplitudenpanning bezeichnet. Ein deutlich stärkerer räumlicher Effekt lässt sich jedoch mit binauraler Audiosignalverarbeitung erreichen, die je ein Signal für das linke und das rechte Ohr erzeugt. Dabei werden kopfbezogene Transferfunktionen (head-related transfer functions, HRTFs) genutzt, die auch als kopfbezogene Außenohrübertragungsfunktionen bekannt sind.
-
1 zeigt das Prinzip objektbasierter binauraler Signalverarbeitung. Dabei wird das (Mono-) Signal einer Audioquelle 11 zur binauralen Wiedergabe über je ein Binauralfilter 12a,12b für die linke und die rechte Seite gefiltert. Die binaurale Wiedergabe erfolgt durch einen Kopfhörer 13 mit zwei Schallwandlern. Zur binauralen Wiedergabe mehrerer Audioquellen 111,...,11N werden deren Signale separat gefiltert 12a1, 12b1, 12aN, 12bN und fürjede Seite einander überlagert, wie in 2 dargestellt. Die Überlagerung kann durch Summation 14a,14b erfolgen. Für eine entsprechende räumliche Wiedergabe über Lautsprecher werden dagegen andere Filter benötigt, die eine ähnliche Struktur und Beschaffenheit wie Binauralfilter haben und als Transauralfilter bezeichnet werden. 3 zeigt Transauralfilter 12c,12d, die das (Mono-) Signal der Audioquelle 11 filtern, damit es über Lautsprecher 15a,15b räumlich wiedergegeben werden kann. Bei binauraler bzw. transauraler Wiedergabe tritt der räumliche Effekt deutlicher zutage als bei der üblichen Stereo- oder 5.1-Surroundwiedergabe. Oft liegen Audiosignale jedoch als Stereo- oder 5.1-Surroundsignale vor, und entsprechende Wiedergabeanlagen für diese Formate sind weit verbreitet. Dadurch, dass bei einer Stereo- bzw. 5.1-Surroundanlage Standard-Lautsprecherpositionen vorgegeben sind, lässt sich jedem Audiokanal eine Richtung zuweisen, aus der der Zuhörer das jeweilige Signal hört.
-
Um bei Nutzung eines Kopfhörers den gleichen Höreindruck zu erzeugen wie bei einer Stereowiedergabe über Lautsprecher, können die jeweiligen Signale der Kanäle gemäß dieser Richtung mit je einer zugehörigen HRTF für das linke und für das rechte Ohr verarbeitet werden. In 2 können z.B. die Audioquellen 111,...,11N die beiden Kanäle eines Stereosignals sein.
-
Eine besonders einfache Alternative für eine räumliche Virtualisierung, um dem Zuhörer einen Richtungseindruck zu vermitteln, ist das Panning. Hierbei werden die Signale nicht über HRTFs verarbeitet, sondern die Richtungswirkung wird lediglich durch einen Lautstärkeunterschied zwischen dem linken und dem rechten Ohr simuliert. Obwohl der räumliche Eindruck hierbei weniger ausgeprägt ist, hat das Panning den Vorteil, dass die einzelne Schallquelle klarer wahrgenommen wird, was z.B. die Sprachverständlichkeit erhöht.
-
EP 3 063 955 B1 beschreibt ein Verfahren zur Verarbeitung eines einkanaligen Eingangs-Audiosignals, dem mindestens ein Verarbeitungsparameter für einen Grad an binauraler Virtualisierung und eine Richtung zugeordnet sind. Insbesondere wird ein Amplitudenpanning für binaurale Virtualisierung durchgeführt in Kombination mit den dazugehörigen head related transfer functions.
-
EP2258120 A2 zeigt die parallele Verwendung einer Entzerrung (equalization) und einer binauralen Filterung von Surround-Audiosignalen, um die Klangfarbe zu korrigieren. Dabei wird ein Kanal eines Surround-Audiosignals einerseits mit je einem Binauralfilter für jede Seite (links/rechts) gefiltert und andererseits verzögert und mit je einem Equalizer für jede Seite entzerrt. Die beiden zu einer jeweiligen Seite gehörigen Signale werden gewichtet und gemischt, wobei für eine Seite eine zusätzliche Verzögerung für das entzerrte Signal eingefügt wird, um Laufzeitdifferenzen (interaural time difference, ITD) zu erzeugen. Außerdem können kopfbezogene Transferfunktionen (head-related transfer function, HRTF) modifiziert werden, um Klangverfärbungen zu kompensieren. Dabei werden die kopfbezogene Transferfunktionen für die linke und die rechte Seite aneinander angeglichen so, dass die Klangverfärbung, aber auch der räumliche Effekt reduziert werden.
-
Binaural wiedergegebene Signale werden jedoch oft als unnatürlich oder unangenehm empfunden, z. B. ist Sprache manchmal schwer verständlich und Musik klingt ungewohnt und daher unangenehm, etwa weil bestimmte vom Musiker beabsichtigte Hervorhebungen verlorengehen.
-
Es wäre wünschenswert, die räumlichen Wiedergabemöglichkeiten von Audiosignalen weiter zu verbessern.
-
Zusammenfassung der Erfindung
-
Diese Aufgabe wird durch ein Verfahren gemäß Anspruch 1 gelöst. Der Anspruch 14 betrifft eine erfindungsgemäße Vorrichtung.
-
Eine weitere Verbesserung der räumlichen Wiedergabe von Audiosignalen kann erfindungsgemäß dadurch erreicht werden, dass ein Audiosignal durch Filterung nur teilweise binaural virtualisiert wird. Dabei kann ein Grad an binauraler Virtualisierung für das Audiosignal frei gewählt werden. Dazu wird in einer Ausführungsform ein Steuerungsverfahren vorgesehen, das einen gleichmäßigen Übergang zwischen einer vollständig binauralen und einer nicht-binauralen, dem Panning entsprechenden Virtualisierung ermöglicht. Dies kann beim Abmischen, d. h. im Authoring-Prozess, oder auch bei der Wiedergabe erfolgen. Dabei kann die binaurale Virtualisierung teilweise auch durch das zeitliche Verhalten bzw. den Phasengang der Filter für die beiden Seiten erfolgen.
-
Erfindungsgemäß können bei der Signalverarbeitung der Betragsfrequenzgang und der Phasengang der HRTFs, bzw. die Filterkurve und die Verzögerung der Filter, grundsätzlich unabhängig voneinander modifiziert werden. Beide Ansätze können einzeln oder gemeinsam verwendet werden.
-
Insbesondere werden, in einer Ausführungsform, für einen als gleichmäßig empfundenen Übergang von einer binauralen zu einer nicht-binauralen Virtualisierung mindestens zwei Abschnitte der Signalverarbeitung durchlaufen. In einem ersten Abschnitt, der mit vollständiger binauraler Virtualisierung und den dafür üblichen HRTFs beginnt, werden diese HRTFs mit geringer werdender binauraler Virtualisierung modifiziert, ohne zunächst deren Phasenverhalten zu ändern. Insbesondere wird der „Dynamikumfang“ jeder HRTF bis auf Null reduziert, d. h. bis der Wert der HRTF frequenzunabhängig ist. Dabei ist dieser frequenzunabhängige Wert derjenige Verstärkungsfaktor, der auch einem Stereo-Panning entspricht. Als Dynamikumfang wird hier die Differenz zwischen dem höchsten und dem tiefsten Wert der HRTF über der Frequenz verstanden. In einem zweiten Abschnitt, der sich in einer Ausführungsform an den ersten Abschnitt anschließt, wird das Phasenverhalten der HRTF bzw. die Verzögerung modifiziert. Dabei kann die Verzögerung von einem Wert, der sich aus den „dynamikreduzierten“ HRTFs ergibt, bis auf Null (oder einen anderen konstanten, auf beiden Seiten gleichen Wert) reduziert werden. An dieser Stelle entspricht die Signalverarbeitung dem bekannten Stereo-Panning.
-
Weitere vorteilhafte Ausführungsformen werden in den abhängigen Ansprüchen 2-12 und 15-16 beschrieben.
-
Ein Vorteil der Erfindung ist, dass sich Audioobjekte oder Audiokanäle stufenlos mehr oder weniger bzw. stärker oder schwächer virtualisieren lassen, indem sie eher binaural oder eher durch Panning dargestellt werden. Mit anderen Worten, der Grad der binauralen Verarbeitung eines Audioobjekts kann z. B. über einen Regler frei gewählt werden, wobei die Extremfälle z. B. eine vollständig binaurale Verarbeitung und ein klassisches Amplitudenpanning sind. Ein weiterer Vorteil ist, dass sich verschiedene Audioobjekte bzw. Audiokanäle verschieden stark virtualisieren und dann überlagern lassen.
-
Figurenliste
-
Weitere Einzelheiten und vorteilhafte Ausführungsformen sind in den Zeichnungen dargestellt. Darin zeigt
- 1 das bekannte Prinzip objektbasierter binauraler Signalverarbeitung für eine einzelne Audioquelle;
- 2 das bekannte Prinzip objektbasierter binauraler Signalverarbeitung für die Überlagerung mehrere Audioquellen;
- 3 das bekannte Prinzip objektbasierter transauraler Signalverarbeitung;
- 4 ein Flussdiagramm eines erfindungsgemäßen Verfahrens;
- 5 Impulsantworten und Frequenzgänge der Filter für verschiedene Parameterwerte;
- 6 ein Blockschaltbild einer erfindungsgemäßen Vorrichtung;
- 7 ein Flussdiagramm zur Ermittlung des Phasengangs eines Filters;
- 8 ein Flussdiagramm eines erfindungsgemäßen Verfahrens mit Interpolation des Phasengangs;
- 9 ein Blockschaltbild einer Vorrichtung zur Überlagerung mehrerer Audioquellen, die erfindungsgemäß unterschiedlich binaural virtualisiert werden, für Kopfhörerwiedergabe;
- 10 ein Blockschaltbild einer Vorrichtung zur Überlagerung mehrerer Audioquellen, die erfindungsgemäß unterschiedlich binaural virtualisiert werden, für Lautsprecherwiedergabe; und
- 11 eine Darstellung verschiedener Parameterbereiche bei Nutzung von zwei Verarbeitungsparametern, in einer Ausführungsform.
-
Detaillierte Beschreibung der Erfindung
-
4 zeigt ein Flussdiagramm eines erfindungsgemäßen Verfahrens 400 zur Verarbeitung eines einkanaligen Eingangs-Audiosignals, dem ein Verarbeitungsparameter PFC. für einen Grad an binauraler Virtualisierung und eine Richtung DIR zugeordnet sind. Das Eingangs-Audiosignal kann z. B. ein einzelnes Audioobjekt in einem objektorientierten Audioformat sein. Es könnte jedoch auch z. B. ein Kanal (links/rechts) eines Stereosignals sein. Aus dem Eingangs-Audiosignal sollen Ausgangssignale zur Wiedergabe jeweils an einem linken und einem rechten Ohr eines Zuhörers erzeugt werden, z. B. für Kopfhörer oder in der Nähe der Ohren befindliche Lautsprecher. In einem ersten Schritt 401 werden kopfbezogene Übertragungsfunktionen (HRTFs) für die gegebene Zielrichtung DIR ermittelt, und zwar eine erste kopfbezogene Übertragungsfunktion HRTFL für ein Links-Ausgangssignal für ein linkes Ohr eines Zuhörers und eine zweite kopfbezogene Übertragungsfunktion HRTFR für ein Rechts-Ausgangssignal für ein rechtes Ohr des Zuhörers. Die HRTFs können z. B. als Koeffizienten-Datensätze aus einer Datenbank gelesen werden, die HRTFs für verschiedene Richtungen vorhält. In einem zweiten Schritt 402 werden die ermittelten kopfbezogenen Übertragungsfunktionen mittels einer Fourier-Transformation (FT) in den Frequenzbereich transformiert, falls sie nicht bereits von der Datenbank als Fourier-Transformierte bereitgestellt werden.
-
Eine zweite, wesentlich einfachere Verarbeitungsform ist das Amplitudenpanning. Erfindungsgemäß wird ein konventionelles Amplitudenpanning entsprechend der vorgegebenen Zielrichtung DIR modelliert 406. Dazu wird das einkanalige Eingangs-Audiosignal mit einem ersten Verstärkungsfaktor Gain_L für einen linken Kanal und mit einem zweiten Verstärkungsfaktor Gain_R für einen rechten Kanal beaufschlagt. Beispielsweise kann für eine bestimmte gegebene Zielrichtung DIR der erste Verstärkungsfaktor Gain_L -1 OdB und der zweite Verstärkungsfaktor Gain_R -6dB sein, was zu einer einfachen räumlichen Virtualisierung des Audioobjekts mit einer Position eher auf der rechten Seite führt. Für eine Zielrichtung DIR, die genau vor oder hinter dem Zuhörer liegt, sind die Verstärkungsfaktoren normalerweise im Wesentlichen gleich.
-
Im nächsten Schritt werden nun die Betragsfrequenzgänge der transformierten kopfbezogenen Übertragungsfunktionen gemäß dem Verarbeitungsparameter PFC für einen Grad an binauraler Virtualisierung an die jeweiligen Verstärkungsfaktoren angenähert 403,408, d.h. der Betragsfrequenzgang der ersten kopfbezogenen Übertragungsfunktion HRTFL wird gemäß dem Verarbeitungsparameter PFC. an den ersten Verstärkungsfaktor Gain_L angenähert und der Betragsfrequenzgang der zweiten kopfbezogenen Übertragungsfunktion HRTFR wird, ebenfalls gemäß dem Verarbeitungsparameter PFC, an den zweiten Verstärkungsfaktor Gain_R angenähert. Dabei entstehen eine erste modifizierte kopfbezogene Übertragungsfunktion HRTFL,mod1 und eine zweite modifizierte kopfbezogene Übertragungsfunktion HRTFR.mod1. Die Annäherung erfolgt umso stärker, je geringer der Grad an binauraler Virtualisierung sein soll. In einer Ausführungsform sind die modifizierten kopfbezogenen Übertragungsfunktionen für einen minimalen binauralen Virtualisierungsgrad identisch mit den Verstärkungsfaktoren Gain_L,Gain_R, während sie für einen maximalen binauralen Virtualisierungsgrad identisch mit den ursprünglichen kopfbezogenen Übertragungsfunktionen sind. In einer Ausführungsform werden die Betragsfrequenzgänge der ursprünglichen kopfbezogenen Übertragungsfunktionen zunächst in einem Schritt 403 entsprechend dem Verarbeitungsparameter PFC skaliert bzw. reduziert und dann in einem weiteren Schritt 408 die skalierten kopfbezogenen Übertragungsfunktionen durch Verschiebung an die Verstärkungsfaktoren Gain_L,Gain_R angeglichen. In anderen Ausführungsformen können diese beiden Schritte 403,408 vertauscht oder in einem einzigen Schritt zusammengefasst werden.
-
Schließlich werden Filterfunktionen für die erste und zweite modifizierte kopfbezogene Übertragungsfunktion HRTFL,mod1,HRTFR,mod1 berechnet 411 und in das komplexe Spektrum zurücktransformiert, mit denen dann ein erstes Filter gemäß der ersten modifizierten kopfbezogenen Übertragungsfunktion HRTFL,mod1 und ein zweites Filter gemäß derzweiten modifizierten kopfbezogenen Übertragungsfunktion HRTFR,mod1 implementiert wird. Dazu werden die entsprechenden Filterkoeffizienten berechnet 413. Vorher können optional die modifizierten kopfbezogenen Übertragungsfunktionen HRTFL,mod1, HRTFR,mod1 mittels inverser Fourier-Transformation in den Zeitbereich transformiert 412 werden.
-
In einer Ausführungsform ergibt sich der Phasengang des ersten bzw. des zweiten Filters direkt aus der ersten bzw. zweiten modifizierten kopfbezogenen Übertragungsfunktion HRTFL,mod1,HRTFR,mod1. In einer anderen Ausführungsform kann der Phasengang des ersten bzw. des zweiten Filters jedoch modifiziert werden. Dazu kann ebenfalls der genannte Verarbeitungsparameter PFC oder ein separater Verarbeitungsparameter PTC benutzt werden. Weitere Einzelheiten werden weiter unten erläutert.
-
5 zeigt Impulsantworten und Frequenzgänge der Filter für verschiedene Parameterwerte, in einer Ausführungsform. In diesem Beispiel setzt sich der Verarbeitungsparameter P
C für einen Grad an binauraler Virtualisierung aus dem oben genannten Verarbeitungsparameter P
FC („frequency clarity“) und einem zweiten Verarbeitungsparameter P
TC („time clarity“) zusammen, der den Phasengang der Filter modifiziert. Dabei gilt hier Tab.1
Wertebereich PC (für Thr<1 00) | B1 (0 ≤ PC ≤ Thr) | B2 (Thr ≤ PC ≤ 100%) |
PFC | 0% ... 100% | 100% |
PTC | 0% | 0% ... 100% |
-
Dieser Zusammenhang ist in 11 grafisch dargestellt. Über den gesamten Wertebereich des Verarbeitungsparameters PC wird zuerst in einem ersten Bereich B1, ausgehend von 0% und unterhalb eines Schwellwerts Thr (z. B. mit Thr = 0.7 oder Thr = 0.6, ...,0.8), der erste Verarbeitungsparameter PFC und erst danach, also oberhalb des Schwellwerts Thr in einem zweiten Bereich B2, der zweite Verarbeitungsparameter PTC verändert. Im ersten Bereich B1 ist der räumliche Effekt durch Binauralisierung stärker, im zweiten Bereich B2 schwächer ausgeprägt. Insgesamt ergibt sich über den Steuerbereich des Verarbeitungsparameters Pc eine als gleichmäßig empfundene Änderung (bzw. Abnahme bei steigendem Parameter) des räumlichen Effekts.
-
In 5 ist dieser Zusammenhang sichtbar, indem exemplarisch für verschiedene Werte des Verarbeitungsparameters Pc Impulsantworten und Frequenzgänge der Filter für die erste bzw. zweite modifizierte kopfbezogene Übertragungsfunktion HRTFL,mod1,HRTFR,mod1 dargestellt sind. 5 a) stellt die Verhältnisse für PC=0.0 dar, d. h. einen maximalen Grad an binauraler Virtualisierung. Dabei gilt PTC = PFC = 0.0 und die im unteren Teil dargestellten Betragsfrequenzgänge entsprechen vollständig den Betragsfrequenzgängen der ursprünglichen kopfbezogenen Übertragungsfunktionen HRTFL,HRTFR, und zwar für die der Schallquelle zugewandte Seite („ipsilateral“) 51i und die der Schallquelle abgewandte Seite („kontralateral“) 51c. Diesen entsprechen im Zeitbereich die im oberen Teil von 5 a) dargestellten Impulsantworten für die ipsilaterale 51it und die kontralaterale 51ct Seite. Deutlich sichtbar sind die Pegeldifferenz (ILD, interaural level difference) und die Laufzeitdifferenz (ITD, interaural time difference) zwischen den beiden jeweils ersten Spitzenwerten 51it, 51ct, die einem schwächeren und später eintreffenden Schallsignal am kontralateralen Ohr entsprechen. Ebenfalls gut zu erkennen ist eine anfängliche Verzögerung von ca. 80 ms vor dem ersten Spitzenwert 51it, während die Laufzeitdifferenz ca. 10-15 ms beträgt.
-
5 b) stellt die Verhältnisse für PC=0.2 dar. Der Verarbeitungsparameter PC liegt im ersten Bereich B1 und der Effekt ist im unteren Frequenzgang besser zu erkennen, nämlich dass dessen Magnitude skaliert bzw. reduziert ist. Der Unterschied zwischen Minimal- und Maximalwerten ist sowohl für ipsilateral 52i als auch für kontralateral 52c geringer als in 5 a). Gleichzeitig wurden die Kurven (gegenüber den ursprünglichen Kurven 51i,51c) zu niedrigeren Werten hin verschoben, wie insbesondere im Bereich tiefer Frequenzen gut zu erkennen ist. Diese Verschiebung betrifft aber jeweils die gesamte Kurve 52i,52c. Wie dem oberen Teil von 5 b) zu entnehmen ist, ist der Effekt im Zeitbereich nur undeutlich zu erkennen.
-
In 5 c) für PC=0.4 liegt der Verarbeitungsparameter PC ebenfalls im ersten Bereich B1 und der für 5 b) beschriebene Effekt ist stärker ausgeprägt, d. h. die Kurven der kopfbezogenen Übertragungsfunktionen 53i,53c für die ipsilaterale und die kontralaterale Seite sind stärker reduziert und verschoben. Mit dem Frequenzgang ändert sich auch der Phasengang. Auf Grund des veränderten Frequenz- und Phasengangs sind nun auch im Zeitbereich Signalanteile bereits vor dem ersten Spitzenwert 53it zu erkennen. In 5 d) für PC=0.6 setzen sich die Veränderungen entsprechend fort, wobei die Frequenzgänge 54i,54c bereits eine deutlich reduzierte bzw. skalierte Magnitude aufweisen. Die Verzögerung im Zeitbereich zwischen den jeweils ersten Spitzenwerten 54it,54ct ist jedoch für die Werte PC = 0.0,...,0.6 entsprechend 5 a) - d) im Wesentlichen unverändert.
-
5 e) stellt die Verhältnisse für Pc=0.8 dar. Der Verarbeitungsparameter Pc liegt hier am Rande des ersten Bereichs B1 oder bereits im zweiten Bereich B2. Wie im Frequenzgang in der unteren Darstellung zu erkennen ist, haben die Kurven der kopfbezogenen Übertragungsfunktionen 55i,55c für die ipsilaterale und die kontralaterale Seite nun zumindest im Bereich bis 10kHz frequenzunabhängige konstante Werte angenommen, die den Verstärkungsfaktoren eines Stereo-Amplitudenpanning entsprechen und an die sich die Kurven aus 5 a) - d) allmählich angenähert haben. Zwischen Pc=0.6 und Pc=0.8 beginnt der zweite Bereich B2. Zwar sind die Phasengänge nicht direkt dargestellt, aber im Zeitbereich in der oberen Darstellung in 5 e) für Pc=0.8 und 5 f) für Pc=1.0 ist zu erkennen, dass die Impulsantworten der beiden Seiten sich einander annähern (d. h. die Zeit zwischen dem ersten und dem zweiten Spitzenwert 55it,55ct wird reduziert), bis sie schließlich bei Pc=1.0 gleich sind. Dies ist der hauptsächliche Effekt im zweiten Bereich B2, während die Frequenzgänge 55i,56i und 55c,56c im Wesentlichen unverändert bleiben, indem sie nämlich konstante Verstärkungsfaktoren darstellen. An dieser Stelle, die in 5 f) dargestellt ist, hat der Verarbeitungsparameter Pc den Wert 1.0 (100%) und die AudioSignalverarbeitung entspricht vollständig einem Stereo-Amplitudenpanning, während in 5 a) für einen Wert von 0.0 (0%) des Verarbeitungsparameters Pc die Audio-Signalverarbeitung vollständig einer binauralen Verarbeitung entspricht.
-
Wie oben erwähnt, setzt sich in diesem Beispiel der Verarbeitungsparameter Pc für einen Grad an binauraler Virtualisierung aus zwei getrennten Bereichen B
1 ,B
2 entsprechend den Verarbeitungsparametern PFC und PTC zusammen. Diese Ausführungsform ist besonders vorteilhaft, weil sie zu einer als gleichmäßig empfundene Änderung des räumlichen Effekts führt. Alternativ sind jedoch auch andere Varianten möglich, z. B. folgende: Tab.2
Wertebereich Pc (für Thr1,Thr2< 100, Thr2 < Thr1) | 0 ≤ PC ≤ Thr1% | Thr2 ≤ PC ≤ 100% |
PFC | 0% ... 100% | 100% |
PTC | 0% | 0% ... 100% |
-
Hierbei überschneiden sich die Bereiche des ersten Verarbeitungsparameters PFC und des zweiten Verarbeitungsparameters PTC und es gibt einen mittleren Bereich von Thr2 bis Thr1, in dem beide Parameter verändert werden. Individuell kann auch diese Variante als vorteilhaft empfunden werden. In jedem Fall kann der jeweilige Verarbeitungsparameter Pc, PTC,PFC im Prinzip stufenlos von 0% bis 100% verstellt werden.
-
6 zeigt, in einer Ausführungsform, ein Blockschaltbild einer erfindungsgemäßen Vorrichtung 600 zur Verarbeitung eines einkanaligen Eingangs-Audiosignals 11, dem mindestens ein Verarbeitungsparameter PC, PTC, PFC für einen Grad an binauraler Virtualisierung und eine Richtung DIR zugeordnet sind. Die Vorrichtung 600 enthält eine Datenbank 601, die zwei kopfbezogene Übertragungsfunktionen entsprechend der dem Eingangs-Audiosignal 11 zugeordneten Richtung DIR bereitstellt, nämlich eine erste kopfbezogene Übertragungsfunktion HRTFL,ori für ein Links-Ausgangssignal für ein linkes Ohr eines Zuhörers und eine zweite kopfbezogene Übertragungsfunktion HRTFR,ori für ein Rechts-Ausgangssignal für ein rechtes Ohr des Zuhörers.
-
Des Weiteren enthält die Vorrichtung 600 mindestens ein Modul 606L,606R zum Ermitteln eines ersten Verstärkungsfaktors Gain_L für links und eines zweiten Verstärkungsfaktors Gain_R für rechts, die einem Amplitudenpanning für die dem Eingangs-Audiosignal 11 zugeordnete Richtung DIR entsprechen. Eine Vorschrift für das Amplitudenpanning kann vorgegeben oder wählbar sein, z. B. Gain_L = 0.5 * (1+sin(φazimut,L)) und Gain_R = 0.5 * (1-sin((φazimut,R)), wobei φazimut E [-180°,...,180°] jeweils den Winkel zur „Vorne“-Richtung beschreibt. In anderen Ausführungsformen können andere Audio-Virtualisierungsvorschriften, insbesondere andere Panning-Vorschriften gewählt werden, z. B. in Anlehnung an eine A-B Mikrofonierung mit einer vorgegebenen Basisbreite. Für ein reines AmplitudenPanning ist Gain_L = Gain_R = 0 anzusetzen.
-
Außerdem enthält die Vorrichtung 600 jeweils ein Transformationsmodul 603L,603R zur Fourier-Transformation jeweils der ersten und der zweiten kopfbezogenen Übertragungsfunktion HRTFL,ori,HRTFR,ori in den Frequenzbereich, wobei je eine transformierte Übertragungsfunktion HRTF'L,ori,HRTF'R,ori entsteht. Nun können die Betragsfrequenzgänge (auch als Amplitudengänge bezeichnet) und die Phasengänge der transformierten Übertragungsfunktionen HRTF'L,ori, HRTF'R,ori im Prinzip unabhängig voneinander weiter verarbeitet werden.
-
In einer Ausführungsform enthält die Vorrichtung 600 pro Seite zwei Skalier- und Verschiebungsmodule 604L,604R,608L,608R. Ein erstes Skalier- und Verschiebungsmodul 604L, 608L für links nähert durch Skalieren und Verschieben den Betragsfrequenzgang der ersten kopfbezogenen Übertragungsfunktion HRTF'L,ori an den ersten Verstärkungsfaktor Gain_L gemäß einem Verarbeitungsparameter PFC. an, z. B Mag_out_L = (1-PFC) * mag4L + PFC * Gain_L. Dabei entsteht ein Betragsfrequenzgang Mag_out_L einer ersten modifizierten kopfbezogenen Übertragungsfunktion HRTFL,mod1. Ein zweites Skalier- und Verschiebungsmodul 604R,608R für rechts nähert durch Skalieren und Verschieben den Betragsfrequenzgang der zweiten kopfbezogenen Übertragungsfunktion HRTF'R,ori an den zweiten Verstärkungsfaktor Gain_R gemäß dem Verarbeitungsparameter PFC an, beispielsweise Mag_out_R = (1-PFC) * mag4R + PFC * Gain_R, wobei ein Betragsfrequenzgang Mag_out_R einer zweiten modifizierten kopfbezogenen Übertragungsfunktion HRTFR,mod1 entsteht. Wie oben beschrieben, ist die binaurale Virtualisierung umso stärker, je näher die Betragsfrequenzgänge Mag_out_L,Mag_out_R der modifizierten kopfbezogenen Übertragungsfunktionen HRTFL,mod1,HRTFR,mod1 bei den Betragsfrequenzgängen der ursprünglichen kopfbezogenen Übertragungsfunktionen HRTFL,ori,HRTFR,ori liegen. Dies muss nicht zwangsläufig über den gesamten Frequenzbereich gelten, sondern gilt mindestens in einem begrenzten Frequenzbereich. Mit anderen Worten, die Annäherung der Betragsfrequenzgänge an die Verstärkungsfaktoren Gain_L,Gain_R ist für einen geringeren Grad an binauraler Virtualisierung stärker ausgeprägt als für einen höheren Grad an binauraler Virtualisierung.
-
Die Vorrichtung enthält ferner je ein konfigurierbares Filter 613L,613R, um das Eingangs-Audiosignal 11 jeweils für das Links-Ausgangssignal und für das Rechts-Ausgangssignal zu filtern, sowie für jedes der konfigurierbaren Filter ein Filterkonfigurationsmodul 611L, 611R. Das erste Filterkonfigurationsmodul 611L berechnet aus dem Betragsfrequenzgang Mag_out_L der ersten modifizierten kopfbezogenen Übertragungsfunktion HRTFL,mod1 erste Filterkoeffizienten und konfiguriert damit das erste Filter 613L. Das zweite Filterkonfigurationsmodul 611R berechnet aus dem Betragsfrequenzgang Mag_out_R der zweiten modifizierten kopfbezogenen Übertragungsfunktion HRTFR,mod1 zweite Filterkoeffizienten und konfiguriert damit das zweite Filter 613R. Bei einer Filterung des Eingangs-Audiosignals 11 mit dem ersten und dem zweiten konfigurierten Filter 613L,613R entstehen Audiosignale 11out,L, 11out,R, die entsprechend dem zugeordneten Grad teilweise binaural virtualisiert sind. Sie können z. B. über Kopfhörer abgehört werden.
-
Mit der Ausführungsform wie oben beschrieben lassen sich hauptsächlich die Betragsfrequenzgänge der kopfbezogenen Übertragungsfunktionen verändern. In einer anderen Ausführungsform lassen sich die Phasengänge bzw. Verzögerungen der der kopfbezogenen Übertragungsfunktionen verändern. Die beiden Ausführungsformen sind unabhängig voneinander und können miteinander kombiniert werden, so dass in 6 beide gemeinsam dargestellt sind. Im Folgenden wird ebenfalls auf 7 Bezug genommen, das ein Flussdiagramm eines Verfahrens 700 zur Ermittlung des Phasengangs eines konfigurierbaren Filters 613L,613R zeigt. Der erste Schritt 710 zur Ermittlung der kopfbezogenen Übertragungsfunktionen für die gegebene Zielrichtung DIR wurde bereits oben erwähnt.
-
Für eine Veränderung der Phasengänge bzw. Verzögerungen der kopfbezogenen Übertragungsfunktionen HRTFL,ori, HRTFR,ori kann die Vorrichtung 600 pro Seite ein Modul 602L, 602R enthalten, in dem jeweils die lineare Verzögerung bzw. Gruppenlaufzeit LPD2L, LPD2R der von der Datenbank erhaltenen kopfbezogenen Übertragungsfunktionen HRTFL,ori, HRTFR,ori für links und rechts berechnet wird 720. Alternativ können diese Werte ebenfalls von der Datenbank empfangen werden, damit sie nicht bei jedem Aufruf neu berechnet werden müssen. Die Vorrichtung 600 enthält ein MLV-Berechnungsmodul 609 zum Berechnen der mittleren linearen Verzögerung MLV aus den linearen Verzögerungen LPD2L, LPD2R der beiden Seiten, z. B. gemäß MLV = 0.5 * (LPD2L + LPD2R).
-
Ferner enthält die Vorrichtung 600 jeweils ein Subtraktionsmodul 605L,605R zum Abziehen 740 der Gruppenlaufzeit LPD
2L,LPD
2R vom Phasengang der transformierten kopfbezogenen Übertragungsfunktionen HRTF'
L,ori, wobei ein normierter erster Phasengang und ein normierter zweiter Phasengang entstehen. Da diese normierten Phasengänge alle 360° Sprünge aufweisen, werden diese Sprünge durch Addition oder Subtraktion eines Wertes von 360° oder Vielfache davon eliminiert 750, wobei sogenannte abgewickelte Phasengänge Ang_L,Ang_R entstehen, die keine Phasensprünge mehr enthalten. Die abgewickelten Phasengänge Ang_L,Ang_R werden nun skaliert 760, indem sie in Phaseninterpolationsmodulen 610L,61 0R interpoliert werden. Die Interpolation kann durch lineares Interpolieren jeweils zwischen dem abgewickelten Phasengang Ang_L, Ang_R und der mittleren linearen Verzögerung MLV gemäß dem Verarbeitungsparameter Pc, PTC für einen Grad an binauraler Virtualisierung erfolgen, z. B. für die linke Seite gemäß
wobei ang5L der Phasengang der kopfbezogenen Übertragungsfunktion HRTF'
L,ori nach der Fourier-Transformation und vor dem Abwickeln und LP
L eine optionale zusätzliche Verzögerung ist. Dabei entstehen die modifizierten Phasengänge Ang_out_L, Ang_out_R, die dann den Filtern 613L,613R zugewiesen werden. Die Phasengänge können optional durch Addieren 770 einer (ggf. konstanten) Verzögerung LP
L,LP
R modifiziert werden. Diese kann von einem Panningmodul 607L,607R kommen, das ein Laufzeitpanning modelliert. Diese jeweilige zusätzliche Verzögerung für links und rechts kann abhängig von der Richtung DIR sein.
-
Aus den modifizierten Phasengängen Ang_out_L, Ang_out_R und/oder den interpolierten Betragsfrequenzgängen Mag_out_L,Mag_out_R können in den Filterkonfigurationsmodulen 611L,611R die modifizierten kopfbezogenen Übertragungsfunktionen HRTFL,mod1, HRTFR,mod1 bzw. deren Koeffizienten gebildet werden, mit denen dann die Filter 613L,613R konfiguriert werden können. Optional kann vorher eine Rücktransformation 780 der modifizierten Filterfunktion einschließlich der modifizierten Phasengänge Ang_out_L, Ang_out_R in den Zeitbereich durch inverse Fouriertransformation erfolgen, falls nötig.
-
8 zeigt ein Flussdiagramm eines erfindungsgemäßen Verfahrens 800 mit Interpolation des Phasengangs. Gegenüber dem Flussdiagramm in 4 wird hier zusätzlich der Phasengang der kopfbezogenen Übertragungsfunktionen normiert und abgewickelt 405, wie oben beschrieben, und die mittlere lineare Verzögerung (bzw. Gruppenlaufzeit) MLV ermittelt und auf die Phasengänge addiert 409. Dann erfolgt eine Interpolation 410 gemäß dem Verarbeitungsparameter PTC wie oben beschrieben, entweder gegen die mittlere lineare Verzögerung MLV oder optional gegen ein davon abweichendes Laufzeitpanning, das separat modelliert werden kann 407. Die entsprechenden modellierten Laufzeitwerte können auch aus einem Speicher abrufbar sein.
-
Aus der Interpolation resultiert der gewünschte Phasengang Ang_out_L,Ang_out_R, der zusammen mit dem gewünschten Betragsfrequenzgang Mag_out_L,Mag_out_R kombiniert wird, um die Ziel-HRTFs HRTFL,mod1, HRTFR,mod1 zu erhalten. Dadurch wird die Filterfunktion geformt bzw. ermittelt 411, aus der dann, direkt oder optional nach einer inversen Fouriertransformation 412, die Filterkoeffizienten ermittelt werden 413.
-
9 zeigt ein Blockschaltbild einer Vorrichtung zur Überlagerung mehrerer Audioquellen, die erfindungsgemäß unterschiedlich binaural virtualisiert werden können, für Kopfhörerwiedergabe. Dabei kann jedem Audio-Eingangssignal 111,112,...,11N nicht nur eine individuelle Richtung DIR1,DIR2,....,DIRN gegeben werden, sondern auch ein individueller Grad an Virtualisierung mittels eines oder mehrerer individueller Verarbeitungsparameter PFC,1, PFC,2,...,PFC,N, PTC,1, PTC,2,..., PTC,N wie oben beschrieben. Die Richtung wie im Prinzip auch die Verarbeitungsparameter können sich im Lauf der Zeit ändern. Die jeweiligen gefilterten Audiosignale für jede Seite werden einander überlagert 14a, 14b und auf die beiden Seiten eines Kopfhörers 13 gegeben. So ist es z. B. möglich, für den Soundtrack eines Films bestimmte Audioobjekte anders zu virtualisieren als andere Audioobjekte. Beispielsweise kann Sprache, damit sie besser verständlich ist, mit einem geringeren Grad an binauraler Virtualisierung versehen werden als Musik oder Umgebungsgeräusche. Dementsprechend können Eingangs-Audiosignale z. B. auch Parameter PTyp zu ihrer Klassifizierung enthalten, wobei für alle Audioobjekte einer Klasse dieselben Verarbeitungsparameter PC, PTC, PFC gelten und verschiedene Klassen von Audiosignalen verschiedene Verarbeitungsparameter haben. So ist eine automatische graduelle binaurale Virtualisierung von Audiosignalen möglich (z.B. alle Sprachsignale schwach binaural virtualisiert, aber alle Umgebungsgeräusche stark binaural virtualisiert). Eine Klassifizierung kann auch anhand des Audiosignals automatisiert durchgeführt werden, z. B. durch künstliche Intelligenz, um Musik von Sprache, Umgebungsgeräuschen, Effekten und/oder anderen Audioklassen unterscheiden und ihnen die entsprechenden Parameter zuweisen zu können.
-
Die Vorrichtung zur Überlagerung mehrerer Audioquellen kann mehrere separate Vorrichtungen 600 zur Verarbeitung von einkanaligen Eingangs-Audiosignalen enthalten, wie oben beschrieben. Diese können jedoch auch in eine einzige Vorrichtung integriert sein, wodurch Synergieeffekte auftreten können (z. B. eine gemeinsam genutzte Datenbank).
-
Es ist zu beachten, dass die Erfindung nicht nur für graduelle binaurale Virtualisierung anwendbar ist, sondern ebenso auch für graduelle transaurale Virtualisierung. Ein Unterschied zwischen einer Vorrichtung 600 für binaurale Virtualisierung und einer Vorrichtung 900 für transaurale Virtualisierung liegt im Wesentlichen in der Art der von der Datenbank bereitgestellten Übertragungsfunktionen. 10 zeigt ein Blockschaltbild einer Vorrichtung zur Überlagerung mehrerer Audioquellen, die erfindungsgemäß in unterschiedlichem Maße binaural virtualisiert werden, für die Audiowiedergabe über Lautsprecher 15a,15b. Der Aufbau und die Funktion entsprechen im Prinzip dem in 9 gezeigten Beispiel.
-
Die Verarbeitungsparameter PC, PTC, PFC bzw. Klassifizierungsparameter PTyp können als Metadaten zur späteren Nutzung in den Eingangs-Audiosignalen gespeichert sein, z. B. für ein Echtzeit-Rendering in einem Wiedergabegerät während der Wiedergabe. So kann z.B. ein System realisiert werden, in dem ein Headtracker zusätzliche Informationen über die Position und Orientierung des Hörers liefert, während dieser zuhört. Neben der Verarbeitung in Echtzeit können die zu verwendenden Parameter aber schon vorab z. B. von einem Toningenieur festgelegt werden. Damit erhalten Toningenieure durch die Erfindung neue Werkzeuge, mit denen sich der Grad der klanglichen Veränderung des spektralen und Phasenverhaltens stufenlos kontrollieren lässt. Außerdem können die Parameterwerte mit Änderungen über die Zeit gespeichert werden. Statt nur einen Wert für das gesamte Audiosignal anzugeben, wird das Signal in Blöcke unterteilt (z.B. der Länge 1 ms), und jedem dieser Blöcke kann man nun eigene Parameterwerte zuweisen. Durch geeignete Fensterung und Überblendung werden hörbare Artefakte minimiert.
-
Die Erfindung kann, in einer Ausführungsform, mit einem konfigurierbaren Computer oder Prozessor implementiert werden. Die Konfiguration erfolgt durch einen computer-lesbaren Datenträger mit darauf gespeicherten Instruktionen, die geeignet sind, den Computer oder Prozessor derart zu programmieren, dass dieser die Schritte des oben beschriebenen Verfahrens ausführt.
-
Die Erfindung kann in verschiedenen Geräten zur Audiosignalverarbeitung verwendet werden.