-
Die
Erfindung bezieht sich auf eine Anordnung zum Wiedergeben von binauralen
Signalen (Kunstkopfsignalen) durch mehrere Lautsprecher gemäß dem Oberbegriff
des Patentanspruchs 1.
-
Stand der Technik
-
Der
für die
Erfindung maßgebliche
Stand der Technik ergibt sich aus folgenden Gebieten der Elektroakustik:
- – Binauraltechnik
- – dynamische
Binauraltechnik
- – Transauraltechnik
- – dynamische
Transauraltechnik
- – Schallfeldsynthesetechniken,
speziell: Wellenfeldsynthese
-
Mit
Hilfe der Binauraltechnik kann ein akustisches Ereignis durch Aufnahme
per Kunstkopf und Wiedergabe per Kopfhörer übertragen werden. Die räumliche
Qualität
der durch die Binauraltechnik erreichten Wiedergabe ist einer Lautsprecherwiedergabe überlegen.
Es können
beispielsweise Quellen in allen Raumrichtungen im dreidimensionalen
Raum wiedergegeben werden.
-
Dies
gelingt am einfachsten, wenn die Ohrübertragungsfunktionen bekannt
sind. Diese werden mit dem trockenen Eingangssignal gefaltet und
auf dem Kopfhörer
wiedergegeben. Befindet sich der Kopf bei der Aufnahme in einem
Raum, spricht man von binauralen Raumübertragungsfunktionen („BRIR" = Binaural Room
Impulse Response).
-
Dasselbe
Prinzip wird erfolgreich im Verfahren „BRS" (Binaural Room Scanning, vergl. Mackensen,
P., Felderhoff, U., Theile, G. „Binaural Room Scanning – A new
Tool for Acoustic and Psychoacoustic Research" in Proceedings of the DAGA 1999 und
Theile, G. Vortrag zur AES Convention Paris, 2000 auf www.hauptmikrofon.de/theile.htm)
des Instituts für
Rundfunktechnik eingesetzt. Hier wird zusätzlich ein dynamischer Austausch
der BRIR vorgenommen und damit ein wesentliches Merkmal des natürlichen
Hörens
implementiert. Schon kleine Kopfbewegungen vermeiden nachweisbar
die Artefakte der Binauraltechnik, nämlich Vorne-Hinten-Vertauschungen
und Im-Kopf-Lokalisation. Deshalb wird bei BRS oder allgemein bei
dynamischer Binauraltechnik die Kopfdrehung bzw. Kopfbewegung mit
einem sogenannten Headtracker gemessen und an einen Prozessor übermittelt.
Der Prozessor ermittelt die zu der jeweiligen Kopfdrehrichtung passende BRIR.
Das Prinzip ist in 1 erläutert. Die linke Seite zeigt
den Aufnahmeraum, in dem ein Kunstkopf die BRIR in der jeweiligen
Richtung misst. Die rechte Seite zeigt die Wiedergabe, bei der die
Kopfdrehrichtung mittels Headtracker gemessen wird. Die Kopfdrehrichtung
bestimmt den zugehörigen
BRIR-Satz, der im Prozessor für
die Faltung verwendet wird. Als Eingangssignale dienen die Signale
für fünf Studiolautsprecher
(3/2-Stereo-Mix), die in einem virtuellen Abhörraum auralisiert werden.
-
Mit
Hilfe der Transauraltechnik können
binaurale Signale (= Kunstkopfsignale) durch Lautsprecher wiedergegeben
werden. Für
einen Hörer
können
damit an einer bestimmten Hörposition
(mit Kenntnis der jeweiligen Ohrübertragungsfunktionen) dieselben
Ohrsignale erzeugt werden, die er auch mit einem Kopfhörer hätte. Dieser
Effekt beschreibt eine Täuschung
des Hörers:
Tritt er auf, werden nicht die eigentlichen Schallquellen (nämlich die
Lautsprecher) lokalisiert, sondern die virtuelle Quelle, zu der die
binauralen Signale gehören.
Dies wird mit dem so genannten „Crosstalk Cancelling" erreicht, wie 2 zeigt.
Mit Hilfe eines einfachen vorgeschalteten Prozessors (Ctc filter)
kann das Übersprechen
(Crosstalk) ausgelöscht
werden. Die Theorie dazu ist seit langem bekannt, beispielsweise
aus Bauck, 3., Cooper, D. H. „Generalized
Transaural Stereo and Applications" in Journal of the AES, Vol. 44/9, 1996
und Schroeder, M. R. and Atal, B. S., "Computer Simulation of Sound Transmission
in Rooms" in IEEE
Conv. Rec., pt. 7, pp. 150–155
(1963).
-
Die
Lautsprecher, auf denen die transauralen Signale (Signale nach dem
Crosstalk-Cancelling) wiedergegeben
werden, sollen im folgenden als „Transauralisierungs-Lautsprecher" bezeichnet werden.
Die Anzahl und Position der Transauralisierungs-Lautsprecher beeinflusst die Qualität der Transauralisierung.
Normalerweise wird aus Gründen
der Kompatibilität
ein gewöhnliches
2/0-Stereo-Setup verwendet. Durch das Hinzufügen von Lautsprechern im hinteren
Bereich lässt
sich die Qualität
und vor allem Stabilität
der Transauralisierung erhöhen, wie
aus Hokari, H., Furumi, Y., Shimada, S. „A Study an Loudspeaker Arrangement
in Multi-Channel Transaural System for Sound Image Localization" in Proceedings of
the AES 19th Int. Conference, Elmau, Germany, 2002 bekannt ist.
-
Es
ist weiterhin bekannt, dass sich auch ein transaurales System mit
dynamisch veränderbaren Filtern
verwirklichen lässt
(so genannte „dynamische Transauraltechnik", siehe Lentz, T.,
Renner, C. „A Four-Channel
Dynamic Cross-Talk Cancellation System" in Proceedings of the CFA/DAGA 2004,
Strasbourg, France; Gardner, B. "3-D
Audio using Loudspeakers",
Doktorarbeit am Massachusetts Institute of Technology, USA, 1997;
Georgiou, G., Mouchtaris, A., Roumeliotis, S., Kyriakakis, C. "Immersive Sound Rendering
Using Laser-Based Tracking" in
Proceedings of the 109th AES Convention, Los Angeles, 2000, Preprint
No. 5227; Algazi, V., Duda, R., Thompson, D. "Motion-Tracked Binaural Sound" in Proceedings of
the 116th AES Convention, Berlin, 2004, Preprint No. 6015).
-
Dabei
wird wiederum wie bei der dynamischen Binauraltechnik die Kopfbewegung
des Hörers ausgewertet.
Wiederum werden die jeweiligen Ohrübertragungsfunktionen dynamisch
ausgetauscht. Auch die Crosstalk-Cancelling-Filter sind vom Kopfwinkel
abhängig,
da sie auf Filtern basieren, die aus den Übersprech-Übertragungsfunktionen HLR und HRL
errechnet werden. In einer Datenbank müssen nun sowohl die Übersprech-Übertragungsfunktionen als auch
die Ohrübertragungsfunktionen
bzw. BRIR für
mehrere Kopfdrehwinkel vorliegen, so dass der gesamte Datensatz
dynamisch ausgetauscht werden kann.
-
Der
Bereich der möglichen
Kopfdrehrichtungen bzw. Kopfbewegungen, in dem eine dynamische Transauralisierung
gelingt, ist abhängig
von der Position der Transauralisierungs-Lautsprecher. Für die Transauralisierungs-Lautsprecher
sind jedoch nicht beliebige Positionen möglich, wie aus Lentz, T., Renner,
C. aaO und Algazi, V., Duda, R., Thompson, D. aaO bekannt ist. Wird
z. B. ein gewöhnliches
2/0-Stereo-Setup verwendet, ist eine Kopfdrehung aus dem Bereich
der Lautsprecher hinaus (d. h. +/–30°) nicht möglich. In dem Aufsatz von Lentz,
T., Renner, C. wird diesem Problem damit begegnet, dass für unterschiedliche
Kopfrichtungen auch unterschiedliche Transauralisierungs-Lautsprecher
verwendet werden, so dass einer gewissen Kopfrichtung auf ein anderes
Transauralisierungs-Lautsprecher-Paar umgeschaltet wird Wie hierzu
in 3 gezeigt ist, wird eine 360°-Drehung des Kopfes dadurch
ermöglicht,
dass jedem Sektor von möglichen
Kopfdrehrichtungen ein bestimmtes Transauralisierungs-Lautsprecher-Paar (gebildet
aus den vier statischen Lautsprechern „Speaker 1 bis 4") zugeordnet wird.
Es ergeben sich dadurch acht Sektoren I bis VIII. So soll für jede Kopfdrehrichtung
eine stabile Transauralisierung ermöglicht werden.
-
Problemstellung
-
Das
Problem bei der dynamischen Transauralisierung ist die sich bei
Kopfbewegungen verändernde
relative Position von Ohr und Transauralisierungs-Lautsprecher.
Von dieser relativen Position ist die Gestaltung der Crosstalk-Cancelling-Filter
abhängig.
Außerdem
ist die Qualität
der Transauralisierung davon stark abhängig. Da sich die relative
Position der Transauralisierungs-Lautsprecher bei statischer Anordnung
der Transauralisierungs-Lautsprecher
bei jeder Kopfdrehung/-bewegung verändert, verändern sich auch die Crosstalk-Cancelling-Filter in
gleichem Maße.
Ebenso ändert
sich ständig
die Qualität
der Transauralisierung.
-
Zum
Verständnis
dieser Probleme sei folgendes angemerkt:
Da jede Transauralisierung
in Bezug auf die physikalische Genauigkeit der Signale nur eine
Näherung darstellt,
weil weder die Aussenohr-Übertragungsfunktionen
noch die genaue Position der Ohren genau ermittelt werden können und
außerdem
der inversen Filterung beim Crosstalk-Cancelling Grenzen gesetzt
sind, treten bei jeder Kopfdrehrichtung gewisse spezifische Fehler
auf. Diese Fehler bestehen aus dem Unterschied zwischen tatsächlicher
und eigentlich notwendiger Filterung. Die Fehler machen sich als
Beeinträchtigung
der Klangfarbe bemerkbar, was im statischen Fall das nicht hörbar unbedingt
sein muss. Werden nun diese Fehler in ihrer Gestalt variiert, was
eine unvermeidbare Folge der beschriebenen Veränderung der relativen Position
ist, so treten spektrale Verschiebungen auf, die unweigerlich als Klangfarbenartefakte
hörbar
werden. Damit ist nun auch der Gesamterfolg der Transauralisierung
beeinträchtigt,
da sich die laufend verändernden
Spektren negativ auf die beabsichtigte akustische Täuschung auswirken.
-
Außerdem sind
die relativen Positionsänderungen
der Transauralisierungs-Lautsprecher deshalb schädlich für den Erfolg der Transauralisierung, weil
die unbeabsichtigte Lokalisierung der Transauralisierungs-Lautsprecher
dadurch unterstützt
wird. Dies erklärt
sich dadurch, dass in der menschlichen Wahrnehmung, nicht nur der
auditiven Wahrnehmung, im Allgemeinen immer die Veränderung
eines Zustands stark wahrnehmbar ist. Im Gegensatz dazu kann das
Gehör die
Gestalt eines statischen Zustands schlechter beschreiben.
-
Die
Aufgabe der Erfindung besteht darin, eine Anordnung zum Wiedergeben
von binauralen Signalen (Kunstkopfsignalen) anzugeben, bei welcher
für alle
Kopfrichtungen dasselbe Crosstalk-Cancelling-Filter benutzt werden
kann.
-
Diese
Aufgabe wird durch die kennzeichnenden Merkmale es Patentanspruchs
1 gelöst.
-
Vorteilhafte
Ausgestaltungen und Weiterbildung der erfindungsgemäßen Anordnung
ergeben sich aus den Unteransprüchen.
-
Bei
der erfindungsgemäßen Anordnung
wird die relative Position von Ohren und Transauralisierungs-Lautsprechern
für jede
Kopfdrehrichtung konstant gehalten. Damit treten die vorstehend
beschriebenen Nachteile nicht mehr auf. Für alle Kopfrichtungen kann
dasselbe Crosstalk-Cancelling-Filter benutzt werden. Um die relative
Position von Ohren und Transauralisierungs-Lautsprechern für jede Kopfdrehrichtung
konstant zu halten, werden nicht diskrete Transauralisierungs-Lautsprecher
sondern virtuelle Transauralisierungs-Quellen benutzt. Diese werden
mit Hilfe einer Wiedergabetechnik erzeugt, die eine Schallfeldsynthese
unter Verwendung mehrerer Sekundärquellen (=
Arraylautsprecher) durchführt. Da
die Quellen virtuelle Quellen sind, kann ihre Position dynamisch
verändert
werden. Die virtuellen Transauralisierungs-Quellen werden bei einer
Kopfdrehung mit dem Kopf „mitgeführt" und verändern somit
ihre absolute Position.
-
Es
sind eine Reihe von Techniken für
die Schallfeldsynthese bekannt, die eng miteinander verwandt sind,
z. B. Wellenfeldsynthese (WFS, siehe Berkhout, A. J., de Vries,
D. and Vogel, P. „Acoustic control
by wave field synthesis" in
Journal of the Acoustical Society of America, Vol. 93, 1993, pp 2764–2778) und
und Higher Order Ambisonics (HOA, siehe Daniel, J., Moreau, S.,
Nicol, R. "Further Investigations
of High Order Ambisoncis and Wave Field Synthesis for Holophonic
Sound Reproduction" in
Proceedings 114th AES Convention, Amsterdam, Preprint No. 5788,
1998.). Da diese Verfahren in der Lage sind, in Bezug auf viele
Schallfeldparameter dieselben Ergebnisse zu produzieren, ist keines
dieser Verfahren gegenüber
einem anderen für
die Zwecke der Erfindung schlechter. Entscheidend für die Erfindung
ist lediglich, dass eine virtuelle Quelle mit definierten physikalischen
Eigenschaften (stabiler Ort, Schallbündelung, Übertragungsfunktion) erzeugt wird.
Dies kann nur mit einer Technik geschehen, die ein Schallfeld quasi
realgetreu nachbilden kann, so wie dies WFS und HOA leisten. Im
Folgenden wird nur die Wellenfeldsynthese genannt, wenn von einer Schallfeldsynthese-Technik
die Rede ist. Es kann aber auch eine andere Schallfeldsynthese-Technik wie
z. B. HOA verwendet werden, wenn sie so implementiert wird, dass
damit die gleichen oder bessere Eigenschaften der virtuellen Quelle
im Sinne der Erfindung erzielt werden.
-
Die
Erfindung wird an Hand der Zeichnungen näher erläutert. Es zeigt:
-
4 einen
Signallaufplan der erfindungsgemäßen Anordnung,
wobei in den Klammern fehlt jeweils das nicht angezeigte Symbol ϕ für den Kopfdrehwinkel
(Azimuth) fehlt, und
-
5 drei
Ansichten eines WFS-Kreisarrays zur Erzeugung der bei der erfindungsgemäßen Anordnung
benutzten virtuellen Transaurisierungs-Quellen (im Beispiel 2 Quellen, es können auch
n Quellen sein), wobei 22 Lautsprecher in einem bestimmten Radius
angebracht sind und entscheidend für die Höhe der Alias-Frequenz unter
anderem der Lautsprecherabstand ist.
-
Bei
dem in 4 gezeigten Signallaufplan der erfindungsgemäßen Anordnung
werden die virtuellen Quellen von einem Lautsprecherarray nach den Prinzipien
der Wellenfeldsynthese erzeugt. Das Array befindet sich an einem
Ort, an dem es alle möglichen
virtuellen Quellen erzeugen kann. Das heißt, alle Positionen der virtuellen
Transauralisierungs-Quellen für
jede mögliche
Kopfdrehrichtung müssen
vom Array erzeugt werden können.
Erfindungswesentlich sind dabei die Einbeziehung der WFS und die
Richtungsunabhängigkeit
der Crosstalk-Cancelling-Filter. Die virtuellen Quellen werden derart
erzeugt, dass auch sie an den unterschiedlichen Orten, das heißt bei Bewegung
des Kopfes, möglichst
wenig Unterschiede, besonders im Frequenzspektrum am Ohr des Hörers, aufweisen.
Dies wird durch zwei Maßnahmen
erreicht:
- 1. Es werden sog. fokussierte WFS-Quellen
zwischen dem Array und den Ohren des Hörers erzeugt. Fokussierte Quellen
sind virtuelle WFS-Quellen, die vor dem Array reproduziert werden.
Dies hat zwei Vorteile:
- a) Im Fokuspunkt wird der Schall gebündelt. Dadurch haben störende und
schlecht zu kontrollierende Einflüsse wie Hintergrundgeräusche und Raumreflektionen
weniger Gewicht, weil der direkte Schallanteil, der von der fokussierten
Quelle ausgeht, durch seine Nähe
zum Ohr relativ laut ist.
- b) Eine fokussierte Quelle hat bei geringem Abstand zum Hörer eine
sehr hohe Alias-Frequenz (englisch „Spatial Aliasing Frequency"). Bei WFS kann aufgrund
des endlich kleinen Lautsprecherabstands das Wellenfeld nur bis
zu einer gewissen Höchstfrequenz,
der Alias-Frequenz, korrekt reproduziert werden. Alle Schallanteile über der Alias-Frequenz
werden unkorrekt und vor allem an jedem Punkt in der Hörzone unterschiedlich wiedergegeben.
Das bedeutet auch, dass virtuelle Quellen an verschiedenen Orten
an einem Hörort unterschiedliche
Frequenzspektren im Bereich über
der Alias-Frequenz
erzeugen. Demzufolge ändert
sich bei einer Bewegung des Kopfes und einer korrespondierenden
Bewegung der virtuellen Quelle auch das Frequenzspektrum über der Alias-Frequenz,
was dann hörbar
sein könnte. Eine
größtmögliche Verschiebung
der Alias-Frequenz nach oben verbessert dies und führt zu einer
wesentlichen Verringerung der sich ändernden Schallanteile.
- 2. Es wird ein kreisrundes Array benutzt, dessen Mittelsenkrechte
den Kopf des Hörers
schneidet. In der Draufsicht befindet sich dadurch der Kopf in der
Mitte des Kreises, wie aus der Ansicht 1 in 5 ersichtlich
ist. Die Höhe
von Array und Kopf kann unterschiedlich sein, wie dies in Ansicht
2 und 3 von 5 gezeigt ist. Dadurch wird
die Akzeptanz und Einsetzbarkeit eines solchen Systems deutlich
erhöht.
Durch das kreisrunde Design des Arrays wird der Unterschied zwischen den
virtuellen Quellen in den unterschiedlichen Richtungen minimiert.
Grund dafür
ist, dass bis auf die genaue Position der einzelnen Lautsprecher
das relative Arraydesign für
jede Quelle dieselbe ist. Es findet lediglich eine Verschiebung
der Einzellautsprecher statt.
-
Der
Abstand der virtuellen Transauralisierungs-Quellen sowie der Abstand
zwischen Ohr und Arrayebene hängen
von der gewünschten
Alias-Frequenz ab. Ebenso bestimmen der Radius des Kreisarrays sowie
die Lautsprecherabstände
die Alias-Frequenz. Der maximale Abstand zwischen Ohr und Arrayebene
wird durch die nötige
Signaltrennung zwischen den verschiedenen Transauralisierungs-Quellen
sowie die erreichbare Stabilität
der Transauralisierung begrenzt.
-
Die
Alias-Frequenz sollte so hoch sein, dass der für die Transauralisierung wichtige
Frequenzbereich möglichst
korrekt reproduziert wird und dass die wahrnehmbaren Klangfarbenänderungen
bei Kopfbewegungen minimal sind.
-
Die
Lautsprecherabstände
des Lautsprecherarrays können
dadurch klein gehalten werden, dass kleine Lautsprecher verwendet
werden. Diese müssen
nicht unbedingt den vollen hörbaren
Frequenzbereich wiedergeben. Die für die Richtungswahrnehmung
entscheidenden Anteile sind über
ca. 200 Hz angesiedelt. Die Frequenzanteile unter dieser Frequenz
können
von einem separaten monophonen Tieftöner wiedergegeben werden. Dieser
befindet sich im Optimalfall über
dem Kopf, da hier die Lokalisierbarkeit des Tieftöners minimal
ist.
-
Eine
optimale Lösung
zur Vermeidung von störenden
Deckenreflektionen sowie zur Optimierung der Lautsprecherabstrahlung
ist der Einbau des Kreisarrays in eine Schallwand, also eine akustisch dichte
Platte, die über
dem Kopf abgehängt
wird. Dies ist in 5 durch die graue Fläche angedeutet. Ein
akustischer Kurzschluss ist zu vermeiden. Der Tieftöner kann über dem
Kopf eingebaut werden.
-
Die
erfindungsgemäße Anordnung
kommt bevorzugt als virtueller Kopfhörer zur Anwendung, wenn eine
Kopfhörerwiedergabe
ohne das tatsächliche
Tragen eines Kopfhörers
erforderlich ist.
-
Im
Zusammenhang mit der Wiedergabe von binauralen Signalen kann die
erfindungsgemäße Anordnung
als Erweiterung des BRS-Systems angesehen werden. Das heißt, es kann
ein virtueller Raum auralisiert (zu Gehör gebracht) werden, ohne dass der
Hörer durch
Kopfhörer
beeinträchtigt
ist. Dies könnte
Anwendung finden als virtueller Abhörraum oder auch in beliebigen
anderen Situationen, in denen eine realistische Auralisierung gefragt
ist, z. B. Raumplanung, Computerspiele, 3D-Kino. Der Ort des Hörers ist
dabei allerdings statisch, was bedeutet, dass diejenigen Anwendungen
bevorzugt sind, bei der dies keine Rolle spielt, z. B. vor dem Computer,
im Auto, im Kino, usw.
-
Das
Fehlen eines Kopfhörers
bietet noch einen weiteren entscheidenden Vorteil: Nun kann ein virtuelles
Schallfeld über
das tatsächlich
vorhandene Schallfeld gestülpt
werden. Das heißt,
reales und virtuelles Schallfeld können zur selben Zeit wahrgenommen
werden. Beispielsweise kann eine virtuelle Audioumgebung die natürlichen
Geräusche
beim Autofahren komplettieren, begleiten und unterstützen. Spezielle
Klanginstallationen sind denkbar, die Gebrauch von echten und virtuellen
Schallobjekten machen, z. B. im Museum oder in einem Themenpark, bzw.
Geisterbahn. Eine weitere wichtige Anwendung ist die Überstülpung einer
virtuellen akustischen Umgebung, also eines Raums. Dabei wird das
Signal der echten Schallquelle mit einem Mikrofon abgenommen und
mit der gespeicherten BRIR (die in diesem Fall künstlich vom Direktsignal befreit
ist) verarbeitet. Der Hörer
nimmt den Direktschall der echten Schallquelle wahr, der optimale
Lokalisation garantiert. Die echte Schallquelle befindet sich durch
das virtuelle Raummuster im virtuellen Raum.