-
Die
vorliegende Erfindung bezieht sich auf das Gebiet der Wellenfeldsynthese
und insbesondere auf die Ansteuerung einer Wellenfeldsynthese-Rendering-Einrichtung
mit zu verarbeitenden Daten.
-
Die
vorliegende Erfindung bezieht sich auf Wellenfeldsynthese-Konzepte
und insbesondere auf effiziente Wellenfeldsynthese-Konzept in Verbindung mit
einem Multi-Renderer-System.
-
Es
besteht ein steigender Bedarf an neuen Technologien und innovativen
Produkten im Bereich der Unterhaltungselektronik. Dabei ist es eine
wichtige Voraussetzung für
den Erfolg neuer multimedialer Systeme, optimale Funktionalitäten bzw.
Fähigkeiten anzubieten.
Erreicht wird das durch den Einsatz digitaler Technologien und insbesondere
der Computertechnik. Beispiele hierfür sind die Applikationen, die einen
verbesserten realitätsnahen
audiovisuellen Eindruck bieten. Bei bisherigen Audiosystemen liegt ein
wesentlicher Schwachpunkt in der Qualität der räumlichen Schallwiedergabe von
natürlichen,
aber auch von virtuellen Umgebungen.
-
Verfahren
zur mehrkanaligen Lautsprecherwiedergabe von Audiosignalen sind
seit vielen Jahren bekannt und standardisiert. Alle üblichen
Techniken besitzen den Nachteil, dass sowohl der Aufstellungsort
der Lautsprecher als auch die Position des Hörers dem Übertragungsformat bereits eingeprägt sind.
Bei falscher Anordnung der Lautsprecher im Bezug auf den Hörer leidet
die Audioqualität
deutlich. Ein optimaler Klang ist nur in einem kleinen Bereich des
Wiedergaberaums, dem so genannten Sweet Spot, möglich.
-
Ein
besserer natürlicher
Raumeindruck sowie eine stärkere
Einhüllung
bei der Audiowiedergabe kann mit Hilfe einer neuen Technologie erreicht werden.
Die Grundlagen dieser Technologie, die so genannte Wellenfeldsynthese
(WFS; WFS = Wave-Field Synthesis), wurden an der TU Delft erforscht
und erstmals in den späten
80er-Jahren vorgestellt (Berkhout, A.J.; de Vries, D.; Vogel, P.: Acoustic
control by Wavefield Synthesis. JASA 93, 1993).
-
Infolge
der enormen Anforderungen dieser Methode an Rechnerleistung und Übertragungsraten wurde
die Wellenfeldsynthese bis jetzt nur selten in der Praxis angewendet.
Erst die Fortschritte in den Bereichen der Mikroprozessortechnik
und der Audiocodierung gestatten heute den Einsatz dieser Technologie
in konkreten Anwendungen. Erste Produkte im professionellen Bereich
werden nächstes
Jahr erwartet. In wenigen Jahren sollen auch erste Wellenfeldsynthese-Anwendungen für den Konsumerbereich
auf den Markt kommen.
-
Die
Grundidee von WFS basiert auf der Anwendung des Huygens'schen Prinzips der
Wellentheorie:
Jeder Punkt, der von einer Welle erfasst wird,
ist Ausgangspunkt einer Elementarwelle, die sich kugelförmig bzw.
kreisförmig
ausbreitet.
-
Angewandt
auf die Akustik kann durch eine große Anzahl von Lautsprechern,
die nebeneinander angeordnet sind (einem so genannten Lautsprecherarray),
jede beliebige Form einer einlaufenden Wellenfront nachgebildet
werden. Im einfachsten Fall, einer einzelnen wiederzugebenden Punktquelle
und einer linearen Anordnung der Lautsprecher, müssen die Audiosignale eines
jeden Lautsprechers mit einer Zeitverzögerung und Amplitudenskalierung
so gespeist werden, dass sich die abgestrahlten Klangfelder der
einzelnen Lautsprecher richtig überlagern. Bei
mehreren Schallquellen wird für
jede Quelle der Beitrag zu jedem Lautsprecher getrennt berechnet und
die resultierenden Signale addiert. Befinden sich die wiederzugebenden
Quellen in einem Raum mit reflektierenden Wänden, dann müssen auch
Reflexionen als zusätzliche
Quellen über
das Lautsprecherarray wiedergegeben werden. Der Aufwand bei der Berechnung
hängt daher
stark von der Anzahl der Schallquellen, den Reflexionseigenschaften
des Aufnahmeraums und der Anzahl der Lautsprecher ab.
-
Der
Vorteil dieser Technik liegt im Besonderen darin, dass ein natürlicher
räumlicher
Klangeindruck über
einen großen
Bereich des Wiedergaberaums möglich
ist. Im Gegensatz zu den bekannten Techniken werden Richtung und
Entfernung von Schallquellen sehr exakt wiedergegeben. In beschränktem Maße können virtuelle
Schallquellen sogar zwischen dem realen Lautsprecherarray und dem
Hörer positioniert
werden.
-
Obgleich
die Wellenfeldsynthese für
Umgebungen gut funktioniert, deren Beschaffenheiten bekannt sind,
treten doch Unregelmäßigkeiten
auf, wenn sich die Beschaffenheit ändert bzw. wenn die Wellenfeldsynthese
auf der Basis einer Umgebungsbeschaffenheit ausgeführt wird,
die nicht mit der tatsächlichen
Beschaffenheit der Umgebung übereinstimmt.
-
Eine
Umgebungsbeschaffenheit kann durch die Impulsantwort der Umgebung
beschrieben werden.
-
Dies
wird anhand des nachfolgenden Beispiels näher dargelegt. Es wird davon
ausgegangen, dass ein Lautsprecher ein Schallsignal gegen eine Wand
aussendet, deren Reflexion unerwünscht
ist. Für
dieses einfache Beispiel würde
die Raumkompensation unter Verwendung der Wellenfeldsynthese darin
bestehen, dass zunächst
die Reflexion dieser Wand bestimmt wird, um zu ermitteln, wann ein Schallsignal,
das von der Wand reflektiert worden ist, wieder beim Lautsprecher
ankommt, und welche Amplitude dieses reflektierte Schallsignal hat.
Wenn die Reflexion von dieser Wand unerwünscht ist, so besteht mit der
Wellenfeldsynthese die Möglichkeit,
die Reflexion von dieser Wand zu eliminieren, indem dem Lautsprecher
ein zu dem Reflexionssignal gegenphasiges Sig nal mit entsprechender
Amplitude zusätzlich
zum ursprünglichen
Audiosignal eingeprägt
wird, so dass die hinlaufende Kompensationswelle die Reflexionswelle
auslöscht,
derart, dass die Reflexion von dieser Wand in der Umgebung, die
betrachtet wird, eliminiert ist. Dies kann dadurch geschehen, dass
zunächst
die Impulsantwort der Umgebung berechnet wird und auf der Basis
der Impulsantwort dieser Umgebung die Beschaffenheit und Position
der Wand bestimmt wird, wobei die Wand als Spiegelquelle interpretiert
wird, also als Schallquelle, die einen einfallenden Schall reflektiert.
-
Wird
zunächst
die Impulsantwort dieser Umgebung gemessen und wird dann das Kompensationssignal
berechnet, das dem Audiosignal überlagert dem
Lautsprecher eingeprägt
werden muss, so wird eine Aufhebung der Reflexion von dieser Wand
stattfinden, derart, dass ein Hörer
in dieser Umgebung schallmäßig den
Eindruck hat, dass diese Wand überhaupt
nicht existiert.
-
Entscheidend
für eine
optimale Kompensation der reflektierten Welle ist jedoch, dass die
Impulsantwort des Raums genau bestimmt wird, damit keine Über- oder
Unterkompensation auftritt.
-
Die
Wellenfeldsynthese ermöglicht
somit eine korrekte Abbildung von virtuellen Schallquellen über einen
großen
Wiedergabebereich. Gleichzeitig bietet sie dem Tonmeister und Toningenieur
neues technisches und kreatives Potential bei der Erstellung auch
komplexer Klanglandschaften. Die Wellenfeldsynthese (WFS oder auch
Schallfeldsynthese), wie sie Ende der 80-er Jahre an der TU Delft
entwickelt wurde, stellt einen holographischen Ansatz der Schallwiedergabe
dar. Als Grundlage hierfür
dient das Kirchhoff-Helmholtz-Integral.
Dieses besagt, dass beliebige Schallfelder innerhalb eines geschlossenen
Volumens mittels einer Verteilung von Monopol- und Dipolschallquellen
(Lautsprecherarrays) auf der Oberfläche dieses Volumens erzeugt
werden können.
-
Bei
der Wellenfeldsynthese wird aus einem Audiosignal, das eine virtuelle
Quelle an einer virtuellen Position aussendet, eine Synthesesignal
für jeden
Lautsprecher des Lautsprecherarrays berechnet, wobei die Synthesesignale
derart hinsichtlich Amplitude und Phase gestaltet sind, dass eine
Welle, die sich aus der Überlagerung
der einzelnen durch die im Lautsprecherarray vorhandenen Lautsprecher ausgegebenen
Schallwelle ergibt, der Welle entspricht, die von der virtuellen
Quelle an der virtuellen Position herrühren würde, wenn diese virtuelle Quelle
an der virtuellen Position eine reale Quelle mit einer realen Position
wäre.
-
Typischerweise
sind mehrere virtuelle Quellen an verschiedenen virtuellen Positionen
vorhanden. Die Berechnung der Synthesesignale wird für jede virtuelle
Quelle an jeder virtuellen Position durchgeführt, so dass typischerweise
eine virtuelle Quelle in Synthesesignalen für mehrere Lautsprecher resultiert.
Von einem Lautsprecher aus betrachtet empfängt dieser Lautsprecher somit
mehrere Synthesesignale, die auf verschiedene virtuelle Quellen
zurückgehen.
Eine Überlagerung
dieser Quellen, die aufgrund des linearen Superpositionsprinzips möglich ist,
ergibt dann das von dem Lautsprecher tatsächlich ausgesendete Wiedergabesignal.
-
Die
Möglichkeiten
der Wellenfeldsynthese können
um so besser ausgeschöpft
werden, je größer die
Lautsprecherarrays sind, d. h. um so mehr einzelne Lautsprecher
bereitgestellt werden. Damit steigt jedoch auch die Rechenleistung,
die eine Wellenfeldsyntheseeinheit vollbringen muss, da typischerweise
auch Kanalinformationen berücksichtigt werden
müssen.
Dies bedeutet im einzelnen, dass von jeder virtuellen Quelle zu
jedem Lautsprecher prinzipiell ein eigener Übertragungskanal vorhanden ist,
und dass prinzipiell der Fall vorhanden sein kann, dass jede virtuelle
Quelle zu einem Synthesesignal für
jeden Lautsprecher führt,
bzw. dass jeder Lautsprecher eine Anzahl von Synthesesignalen erhält, die
gleich der Anzahl von virtuellen Quellen ist.
-
Wenn
insbesondere bei Kinoanwendungen die Möglichkeiten der Wellenfeldsynthese
dahingehend ausgeschöpft
werden sollen, dass die virtuellen Quellen auch beweglich sein können, so
ist zu erkennen, dass aufgrund der Berechnung der Synthesesignale,
der Berechnung der Kanalinformationen und der Erzeugung der Wiedergabesignale
durch Kombination der Kanalinformationen und der Synthesesignale
ganz erhebliche Rechenleistungen zu bewältigen sind.
-
Darüber hinaus
sei an dieser Stelle angemerkt, dass die Qualität der Audiowiedergabe mit der Anzahl
der zur Verfügung
gestellten Lautsprecher steigt. Dies bedeutet, dass die Audiowiedergabequalität um so
besser und realistischer wird, um so mehr Lautsprecher in dem bzw.
den Lautsprecherarrays vorhanden sind.
-
Im
obigen Szenario könnten
die fertig gerenderten und analog-digital-gewandelten Wiedergabesignale
für die
einzelnen Lautsprecher beispielsweise über Zweidrahtleitungen von
der Wellenfeldsynthese-Zentraleinheit zu den einzelnen Lautsprechern übertragen
werden. Dies hätte
zwar den Vorteil, dass nahezu sichergestellt ist, dass alle Lautsprecher
synchron arbeiten, so dass hier zu Synchronisationszwecken keine
weiteren Maßnahmen
erforderlich wären.
Andererseits könnte
die Wellenfeldsynthese-Zentraleinheit immer nur für einen
speziellen Wiedergaberaum bzw. für
eine Wiedergabe mit einer festgelegten Anzahl von Lautsprechern
hergestellt werden. Dies bedeutet, dass für jeden Wiedergaberaum eine
eigene Wellenfeldsynthese-Zentraleinheit gefertigt werden müsste, die
ein erhebliches Maß an
Rechenleistung zu vollbringen hat, da die Berechnung der Audiowiedergabesignale
insbesondere im Hinblick auf viele Lautsprecher bzw. viele virtuelle Quellen
zumindest teilweise parallel und in Echtzeit erfolgen muss.
-
Das
Deutsche Patent
DE
10254404 B4 offenbart ein System, wie es in
7 dargestellt ist. Ein Teil
ist das zentrale Wellenfeldsynthesemodul
10. Der andere
Teil setzt sich aus einzelnen Lautsprechermodulen
12a,
12b,
12c,
12d,
12e zusammen, die
mit tatsächlichen
physikalischen Lautsprechern
14a,
14b,
14c,
14d,
14e derart
verbunden sind, wie es in
1 gezeigt
ist. Es sei darauf hingewiesen, dass die Anzahl der Lautsprecher
14a–
14e bei
typischen Anwendungen im Bereich über 50 und typischerweise sogar
deutlich über
100 liegt. Wird jedem Lautsprecher ein eigenes Lautsprechermodul
zugeordnet, so wird auch die entsprechende Anzahl von Lautsprecher-Modulen
benötigt.
Je nach Anwendung wird es jedoch bevorzugt, von einem Lautsprecher-Modul
aus eine kleine Gruppe von nebeneinander liegenden Lautsprechern
anzusprechen. In diesem Zusammenhang ist es beliebig, ob ein Lautsprecher-Modul,
das mit vier Lautsprechern beispielsweise verbunden ist, die vier
Lautsprecher mit demselben Wiedergabesignal speist, oder ob für die vier Lautsprecher
entsprechende unterschiedliche Synthesesignale berechnet werden,
so dass ein solches Lautsprecher-Modul eigentlich aus mehreren einzelnen
Lautsprecher-Modulen besteht, die jedoch physikalisch in einer Einheit
zusammengefasst sind.
-
Zwischen
dem Wellenfeldsynthesemodul 10 und jedem einzelnen Lautsprecher-Modul 12a–12e befindet
sich eine eigene Übertragungsstrecke 16a–16e,
wobei jede Übertragungsstrecke
mit dem zentralen Wellenfeldsynthesemodul und einem eigenen Lautsprecher-Modul
gekoppelt ist.
-
Als
Datenübertragungsmodus
zum Übertragen
von Daten von dem Wellenfeldsynthesemodul zu einem Lautsprecher-Modul
wird ein serielles Übertragungsformat
bevorzugt, das eine hohe Datenrate liefert, wie beispielsweise ein
sogenanntes Firewire-Übertragungsformat
oder ein USB-Datenformat. Datenübertragungsraten
von über
100 Megabit pro Sekunde sind vorteilhaft.
-
Der
Datenstrom, der von dem Wellenfeldsynthesemodul 10 zu einem
Lautsprecher-Modul übertragen
wird, wird somit je nach gewähltem
Datenformat in dem Wellenfeldsynthesemodul entsprechend formatiert
und mit einer Synchronisationsin formation versehen, die in üblichen
seriellen Datenformaten vorgesehen ist. Diese Synchronisationsinformation wird
von den einzelnen Lautsprecher-Modulen aus dem Datenstrom extrahiert
und verwendet, um die einzelnen Lautsprecher-Module im Hinblick
auf ihre Wiedergabe, also letztendlich auf die Analog-Digital-Wandlung
zum Erhalten des analogen Lautsprechersignals und die dafür vorgesehene
Abtastung (resampling) zu synchronisieren. Das zentrale Wellenfeldsynthesemodul
arbeite als Master, und alle Lautsprecher-Module arbeiten als Clients,
wobei die einzelnen Datenströme über die
verschiedenen Übertragungsstrecken 16a–16e alle
dieselben Synchronisationsinformationen von dem Zentralmodul 10 erhalten.
Dies stellt sicher, dass alle Lautsprecher-Module synchron, und
zwar synchronisiert von dem Master 10, arbeiten, was für das Audiowiedergabesystem
wichtig ist, um keinen Verlust an Audioqualität zu erleiden, damit die vom
Wellenfeldsynthesemodul berechneten Synthesesignale nicht zeitversetzt
von den einzelnen Lautsprechern nach entsprechendem Audio-Rendering
abgestrahlt werden.
-
Das
beschriebene Konzept liefert zwar bereits eine deutliche Flexibilität im Hinblick
auf ein Wellenfeldsynthese-System,
das für
verschiedene Anwendungsmöglichkeiten
skalierbar ist. Es leidet jedoch nach wie vor an der Problematik,
dass das zentrale Wellenfeldsynthese-Modul, das das eigentliche Haupt-Rendering
durchführt,
das also abhängig
von den Positionen der virtuellen Quellen und abhängig von
den Lautsprecherpositionen die einzelnen Synthese-Signale für die Lautsprecher
berechnet, einen „Flaschenhals" für das gesamte
System darstellt. Obgleich bei diesem System das „Nach-Rendering", also die Beaufschlagung
der Synthesesignale mit Kanalübertragungsfunktionen,
etc. bereits dezentral ausgeführt
wird und somit bereits die notwendige Datenübertragungskapazität zwischen
dem zentralen Renderer-Modul
und den einzelnen Lautsprecher-Modulen durch Selektion von Synthesesignalen mit
einer kleineren Energie als einer bestimmten Schwellenenergie reduziert
worden ist, müssen
jedoch dennoch alle virtuellen Quellen gewissermaßen für alle Lautsprechermodule
gerendert werden, also in Synthesesignale umgerechnet werden, wobei
die Ausselektion erst nach dem Rendering stattfindet.
-
Dies
bedeutet, dass das Rendering nach wie vor die Gesamtkapazität des Systems
bestimmt. Ist die zentrale Rendering-Einheit daher z. B. in der Lage, 32
virtuelle Quellen gleichzeitig zu rendern, also für diese
32 virtuellen Quellen die Synthesesignale gleichzeitig zu berechnen,
so treten ernsthafte Kapazitätsengpässe auf,
wenn mehr als 32 Quellen zu einem Zeitpunkt in einer Audioszene
aktiv sind. Für einfache
Szenen ist dies ausreichend. Für
komplexere Szenen, insbesondere mit immersiven Klangeindrücken, also
wenn es beispielsweise regnet und viele Regentropfen einzelne Quellen
darstellen, ist es ummittelbar einsichtig, dass die Kapazität mit maximal
32 Quellen nicht mehr ausreicht. Eine entsprechende Situation findet
auch dann statt, wenn man ein großes Orchester hat und tatsächlich jeden
Orchesterspieler oder wenigstens jede Instrumentengruppe als eigene
Quelle an ihrer eigenen Position verarbeiten möchte. Hier können 32
virtuelle Quellen sehr schnell zu wenig werden.
-
Typischerweise
wird bei dem bekannten Wellenfeldsynthese-Konzept eine Szenenbeschreibung verwendet,
in der die einzelnen Audioobjekte derart zusammen definiert sind,
dass unter Verwendung der Daten in der Szenenbeschreibung und der Audiodaten
für die
einzelnen virtuellen Quellen die komplette Szene durch einen Renderer
bzw. eine Multi-Rendering-Anordnung
aufbereitet werden kann. Hierbei ist für jedes Audioobjekt exakt definiert, wo
das Audioobjekt zu beginnen hat und wo das Audioobjekt zu enden
hat. Ferner ist für
jedes Audioobjekt genau die Pasition der virtuellen Quelle angegeben,
an der die virtuelle Quelle sein soll, die also in die Wellenfeldsynthese-Rendering-Einrichtung
einzugeben ist, damit für
jeden Lautsprecher die entsprechenden Synthesesignale erzeugt werden.
Dies hat zur Folge, dass durch Überlagerung
der von den einzelnen Lautsprechern als Reaktion auf die Synthesesignale
ausgegebenen Schallwellen für
einen Hörer
ein Eindruck entsteht, als ob eine Schallquelle an einer Position
im Wiedergaberaum bzw. außerhalb
des Wiedergaberaums positioniert ist, die durch die Quellenposition
der virtuellen Quelle definiert ist.
-
Typischerweise
sind die Kapazitäten
des Wellenfeldsynthese-Systems
begrenzt. Dies führt dazu,
dass jeder Renderer eine begrenzte Rechenkapazität hat. Typischerweise ist ein
Renderer in der Lage, 32 Audioquellen gleichzeitig zu verarbeiten. Ferner
hat ein Übertragungsweg
von dem Audioserver zum Renderer eine begrenzte Übertragungsbandbreite, also
liefert eine maximale Übertragungsrate
in Bit pro Sekunde.
-
Für einfache
Szenen, in denen z. B. nur, wenn an einen Dialog gedacht wird, zwei
virtuelle Quellen existieren, wobei zusätzlich noch für ein Hintergrundgeräusch eine
weitere virtuelle Quelle vorhanden ist, ist die Verarbeitungskapazität des Renderers,
der ja z. B. 32 Quellen gleichzeitig verarbeiten kann, unproblematisch.
Ferner ist in diesem Fall das Übertragungsvolumen
zu einem Renderer so klein, dass die Kapazität der Übertragungsstrecke ausreichend
ist.
-
Probleme
werden jedoch dann auftreten, wenn komplexere Szenen wiederzugeben
sind, also Szenen, die mehr als 32 virtuelle Quellen haben. In einem
solchen Fall, der beispielsweise auftritt, um eine Szene im Regen
korrekt wiederzugeben, oder um eine Applausszene naturgetreu wiederzugeben, wird
die maximale Rechenkapazität
eines Renderers, der auf 32 virtuelle Quellen begrenzt ist, schnell nicht
mehr ausreichend sein. Dies liegt daran, dass sehr viele einzelne
virtuelle Quellen existieren, da z. B. in einer Zuhörerschaft
prinzipiell jeder Zuhörer,
der klatscht, als eigene virtuelle Quelle an einer eigenen virtuellen
Position aufgefasst werden kann. Um mit dieser Begrenzung umzugehen,
existieren mehrere Möglichkeiten.
So besteht eine Möglichkeit
darin, bereits beim Erstellen der Szenenbeschrei bung darauf zu achten,
dass niemals ein Renderer gleichzeitig 32 Audioobjekte verarbeiten
muss.
-
Eine
andere Möglichkeit
besteht darin, bei der Erstellung der Szenenbeschreibung keine Rücksicht
auf tatsächliche
Wellenfeldsynthese-Gegebenheiten zu nehmen, sondern die Szenenbeschreibung einfach
so zu erstellen, wie es sich der Szenenautor wünscht.
-
Diese
Möglichkeit
ist im Hinblick auf eine höhere
Flexibilität
und Portierbarkeit von Szenenbeschreibungen unter unterschiedlichen
Wellenfeldsynthesesystemen von Vorteil, da damit Szenenbeschreibungen
entstehen, die nicht auf ein spezifisches System ausgelegt sind,
sondern allgemeiner sind. In anderen Worten ausgedrückt führt dies
dann dazu, dass die gleiche Szenenbeschreibung, wenn sie auf einem
Wellenfeldsynthese-System läuft,
das Renderer mit hoher Kapazität
hat, zu einem besseren Hörereindruck
führt als
in einem System, das Renderer mit geringerer Rechenkapazität hat. Anders
ausgedrückt
ist die zweite Möglichkeit
dahingehend vorteilhaft, dass eine Szenenbeschreibung nicht aufgrund
der Tatsache, dass sie für
ein Wellenfeldsynthesesystem mit stark begrenzter Kapazität erzeugt worden
ist, auch in einem Wellenfeldsynthesesystem mit besserer Kapazität nicht
zu einem besseren Höreindruck
führt.
-
Nachteilig
an der zweiten Möglichkeit
ist jedoch, dass dann, wenn das Wellenfeldsynthesesystem über seine
Maximalkapazität
gebracht wird, Performance-Einbrüche
bzw. sonstige damit verbundene Problematiken auftreten werden, da
der Renderer aufgrund seiner Maximalkapazität dann, wenn er mehr Quellen
verarbeiten soll, eine Verarbeitung der darüber hinaus gehenden Quellen
einfach verweigern kann.
-
Die
Aufgabe der vorliegenden Erfindung besteht darin, ein flexibles
Konzept zum Steuern einer Wellenfeldsynthese-Rendering-Einrichtung zu schaffen, durch
das Qualitätsein brüche zumindest
reduziert werden und gleichzeitig eine hohe Flexibilität erhalten
wird.
-
Diese
Aufgabe wird durch eine Vorrichtung zum Steuern einer Wellenfeldsynthese-Rendering-Einrichtung
gemäß Anspruch
1, Verfahren zum Steuern der Wellenfeldsynthese-Rendering-Einrichtung gemäß Patentanspruch
13 oder ein Computer-Programm
gemäß Patentanspruch
14 gelöst.
-
Der
vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass faktische
Kapazitätsgrenzen
erweitert werden können,
indem bei der Wellenfeldsynthese auftretenden Verarbeitungslastspitzen
dadurch abgefangen werden, dass Anfang und/oder Ende eines Audioobjekts
oder die Position eines Audioobjekts innerhalb einer Zeitspanne
oder Ortsspanne variiert werden, um eine vielleicht nur kurz existierende Überlastspitze
abzufangen. Dies wird dadurch erreicht, dass für bestimmte Quellen, bei denen
der Anfang und/oder das Ende und sogar die Position in einer bestimmten
Spanne variabel sein können,
in der Szenenbeschreibung entsprechende Spannen anstatt fester Zeitpunkte
angegeben werden, und dass dann, abhängig von einer Auslastungssituation
in dem Wellenfeldsynthese-System der tatsächliche Beginn und die tatsächliche
virtuelle Position eines Audioobjekts innerhalb dieser Zeitspanne
bzw. Ortsspanne variiert werden.
-
So
wurde herausgefunden, dass aufgrund der hohen Dynamik von typischerweise
zu verarbeitenden Szenen die tatsächliche Anzahl der Audioquellen
zu einem Zeitpunkt sehr stark schwanken kann, dass jedoch Überlastsituationen,
also eine sehr große
Anzahl von virtuellen Quellen, die gleichzeitig aktiv sein sollen,
nur relativ kurz auftreten.
-
Erfindungsgemäß werden
solche Überlastsituationen
dadurch reduziert oder sogar komplett ausgeräumt, indem Audioobjekte innerhalb
ihrer Zeitspanne nach vorne bzw. nach hinten verschoben werden oder
bei Multi-Renderer-Systemen im Hinblick auf ihre Position verschoben
werden, damit einer der Renderer aufgrund der veränderten
Position keine Synthesesignale mehr für diese virtuelle Quelle erzeugen
muss.
-
Audioobjekte,
die sich besonders gut für
eine solche Zeitspannen/Ortsspannen-Definition eignen, sind Quellen,
die Geräusche
zum Inhalt haben, also z. B. Klatschgeräusche, Tropfengeräusche oder
beliebige andere Hintergrundgeräusche,
wie beispielsweise ein Windgeräusch
oder z. B. auch ein Fahrgeräusch
eines sich von weiter Ferne annähernden
Zuges. Hier wird es für
den Audioeindruck bzw. das Hörerlebnis
des Zuschauers keine Rolle spielen, ob ein Windgeräusch einige
Sekunden früher
oder später beginnt,
oder ob der Zug an einer veränderten
virtuellen Position in die Audioszene eintritt als sie eigentlich
vom ursprünglichen
Autor der Szenenbeschreibung gefordert wurde.
-
Die
Auswirkungen auf die beschriebene sehr dynamisch auftretende Überlastsituation
können
jedoch eminent sein. So kann bereits das Disponieren bzw. Scheduling
für Audioquellen
im Rahmen ihrer Ortsspannen und Zeitspannen dazu führen, dass eine
sehr kurz auftretende Überlastsituation
in eine entsprechend längere
gerade noch verarbeitbare Situation umgewandelt werden kann. Dies
kann selbstverständlich
auch durch ein z. B. innerhalb einer erlaubten Zeitspanne bedingtes
früheres
Beenden eines Audioobjekts sein, das ohnehin nicht mehr lange existiert
hätte,
das jedoch aufgrund eines neu zum Renderer übertragenen Audioobjekts zu
einer Überlastsituation
dieses Renderers geführt
hätte,
durch die das neue Audioobjekt abgelehnt worden wäre.
-
An
dieser Stelle sei ferner darauf hingewiesen, dass das Ablehnen eines
Audioobjekts bisher dazu geführt
hat, dass das gesamte Audioobjekt nicht aufbereitet worden ist,
was dann besonders unerwünscht
ist, wenn das alte Audioobjekt vielleicht nur noch eine Sekunde
gedauert hätte
und ein neues Audioobjekt mit einer Länge von vielleicht einigen
Minuten aufgrund einer kurzen Überlastsituation,
die vielleicht nur wegen einer Überschneidung
von einer Sekunde mit dem alten Audioobjekt vorhanden gewesen wäre, komplett
ausgefallen/abgelehnt worden wäre.
-
Erfindungsgemäß wird dieses
Problem dadurch behoben, dass z. B. das frühere Audioobjekt, sofern eine
entsprechende Spanne vorgegeben war, bereits eine Sekunde früher beendet
wird, oder dass das spätere
Audioobjekt innerhalb einer vorbestimmten Zeitspanne z. B. eine
Sekunde nach hinten geschoben wird, sodass sich die Audioobjekte
nicht mehr überschneiden
und damit keine unerfreuliche Ablehnung des gesamten späteren Audioobjekts, das
vielleicht eine Länge
von Minuten hat, erhalten wird.
-
Erfindungsgemäß wird für den Start
eines Audioobjekts oder für
das Ende eines Audioobjekts somit nicht ein konkreter Zeitpunkt
sondern ein Zeitraum definiert. Dadurch ist es möglich, Übertragungsratenspitzen und
darauf folgende Kapazitäts- bzw.
Performanceprobleme abzufangen, indem die Übertragung oder Verarbeitung
der jeweiligen Audiodaten nach vorne oder nach hinten verlagert
wird.
-
Bevorzugte
Ausführungsbeispiele
der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf
die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
-
1 ein
Blockschaltbild der erfindungsgemäßen Vorrichtung;
-
2 ein
beispielhaftes Audioobjekt;
-
3 eine
beispielhafte Szenenbeschreibung;
-
4 einen
Bitstrom, in dem jedem Audioobjekt ein Header mit den aktuellen
Zeitdaten und Positionsdaten zugeordnet ist;
-
5 eine
Einbettung des erfindungsgemäßen Konzepts
in ein Wellenfeldsynthese-Gesamtsystem;
-
6 eine
schematische Darstellung eines bekannten Wellenfeldsynthese-Konzepts;
und
-
7 eine
weitere Darstellung eines bekannten Wellenfeldsynthese-Konzepts.
-
1 zeigt
eine erfindungsgemäße Vorrichtung
zum Steuern einer in einem Wellenfeldsynthesesystem 0 angeordneten
Wellenfeldsynthese-Rendering-Einrichtung, wobei die Wellenfeldsynthese-Rendering-Einrichtung
ausgebildet ist, um aus Audioobjekten Synthesesignale für eine Vielzahl
von Lautsprechern innerhalb eines Lautsprecherarrays zu erzeugen.
Ein Audioobjekt umfasst insbesondere eine Audiodatei für eine virtuelle
Quelle sowie wenigstens eine Quellenposition, an der die virtuelle Quelle
innerhalb oder außerhalb
des Wiedergaberaums, also bezüglich
des Zuhörers
angeordnet werden soll.
-
Die
in 1 gezeigte erfindungsgemäße Vorrichtung umfasst eine
Einrichtung 1 zum Liefern einer Szenenbeschreibung, wobei
die Szenenbeschreibung eine zeitliche Abfolge von Audiodaten festlegt,
wobei ein Audioobjekt für
eine dem Audioobjekt zugeordnete virtuelle Quelle einen zeitlichen Start
oder ein zeitliches Ende definiert, wobei das Audioobjekt für die virtuelle
Quelle eine Zeitspanne aufweist, in der der Start oder das Ende
des Audioobjekts liegen muss. Alternativ oder zusätzlich ist
die Szenenbeschreibung derart beschaffen, dass das Audioobjekt eine
Ortsspanne aufweist, in der eine Position der virtuellen Quelle
liegen muss.
-
Die
erfindungsgemäße Vorrichtung
umfasst ferner einen Überwachungsmonitor 2,
der ausgebildet ist, um eine Auslastung des Wellenfeldsynthese-Systems 0 zu überwachen,
um also eine Auslastungssituation des Wellenfeldsynthese-Systems
zu ermitteln.
-
Ferner
ist eine Audioobjektmanipulationseinrichtung 3 vorgesehen,
die ausgebildet ist, um einen von der Wellenfeldsynthese-Rendering-Einrichtung zu
beachtenden tatsächlichen
Startpunkt oder Endpunkt des Audioobjekts innerhalb der Zeitspanne oder
eine tatsächliche
Position der virtuellen Quelle innerhalb der Ortsspanne zu variieren,
und zwar abhängig
von einer Auslastungssituation des Wellenfeldsynthese-Systems 0.
Vorzugsweise ist ferner ein Audiodateiserver 4 vorgesehen,
der zusammen mit der Audioobjekt-Manipulationseinrichtung 3 in
einer intelligenten Datenbank implementiert werden kann. Alternativ
ist er ein einfacher File-Server, der abhängig von einem Steuersignal
von der Audioobjekt-Manipulationseinrichtung 3 eine Audiodatei
entweder über
eine Datenverbindung 5a direkt dem Wellenfeldsynthese-System
und insbesondere der Wellenfeldsynthese-Rendering-Einrichtung zuführt. Ferner
wird es erfindungsgemäß bevorzugt, über eine
Datenverbindung 5b die Audiodatei der Audioobjekt-Manipulationseinrichtung 3 zuzuführen, die
dann über
ihre Steuerleitung 6a einen Datenstrom dem Wellenfeldsynthese-System 0 und
insbesondere den einzelnen Renderer-Modulen bzw. dem einzigen Renderer-Modul
zuführt,
der sowohl die durch die Manipulationseinrichtung bestimmten tatsächlichen
Startpunkte und/oder Endpunkte des Audioobjekts umfasst bzw. die
entsprechende Position umfasst als auch die Audiodaten selbst umfasst.
-
Über eine
Eingangsleitung 6b wird die Audioobjekt-Manipulationseinrichtung 3 mit
der Szenenbeschreibung von der Einrichtung 1 versorgt,
während über eine
weitere Eingangsleitung 6c die Auslastungssituation des
Wellenfeldsynthese-Systems 0 vom Überwachungsmonitor 2 geliefert
wird. Es sei darauf hingewiesen, dass die einzelnen Leitungen, die
in 1 beschrieben worden sind, nicht unbedingt als
getrennte Kabel etc. ausgeführt
sein können,
sondern lediglich symbolisieren sollen, dass entsprechende Daten
in dem System übertragen werden,
um das erfindungsgemäße Konzept
zu implementieren. Insofern ist der Überwachungsmonitor 2 auch über eine Überwachungsleitung 7 mit
dem Wellenfeldsyn these-System 0 verbunden, um je nach Situation
z. B. zu überprüfen, wie
viel Quellen gerade in einem Renderer-Modul verarbeitet werden,
und ob die Kapazitätsgrenze
erreicht worden ist, oder um zu überprüfen, wie
die aktuelle Datenrate ist, die gerade auf der Leitung 6a oder
der Datenleitung 5a oder auf einer anderen Leitung innerhalb
des Wellenfeldsynthese-Systems vorherrscht.
-
An
dieser Stelle sei darauf hingewiesen, dass die Auslastungssituation
jedoch nicht unbedingt die aktuelle Auslastungssituation sein muss,
sondern auch eine zukünftige
Auslastungssituation sein kann. Diese Implementierung wird dahingehend
bevorzugt, dass dann die Variabilität, wie also die einzelnen Audioobjekte
untereinander im Hinblick auf eine Vermeidung von Überlastspitzen
in der Zukunft disponiert bzw. manipuliert werden können, z.
B. durch eine aktuelle Variation innerhalb einer Zeitspanne erst
in einiger Zukunft eine Überlastspitze
vermeiden hilft. Die Effizienz des erfindungsgemäßen Konzepts wird immer größer, je
mehr Quellen existieren, die keine festen Startpunkte oder Endpunkte
haben, sondern die Startpunkte oder Endpunkte haben, die mit einer
Zeitspanne versehen sind, oder die keine festen Quellenpositionen
haben sondern Quellenpositionen, die mit einer Ortsspanne versehen
sind.
-
An
dieser Stelle sei darauf hingewiesen, dass es insbesondere auch
Quellen geben kann, z. B. Hintergrundgeräusche, bei denen die Quellenposition
unerheblich ist, die also irgendwo herkommen können. Während bisher auch für diese
Quellen eine Position angegeben werden musste, kann die Positionsangabe
nunmehr durch eine sehr große
explizite oder implizite Ortsspanne ersetzt bzw. ergänzt werden.
Dies ist insbesondere in Multi-Renderer-Systemen von Bedeutung.
Wenn z. B. ein Wiedergaberaum betrachtet wird, der vier Seiten hat,
und der an jeder Seite ein Lautsprecherarray hat, das von einem
eigenen Renderer versorgt wird, kann aufgrund der beliebigen Ortsspanne
besonders gut disponiert werden. So könnte beispielsweise die Situation
auftreten, dass der Front-Renderer gerade überlastet ist und eine Quelle
kommt, die an jeder beliebigen Position sein kann. Dann würde die
erfindungsgemäße Audioobjekt-Manipulationseinrichtung 3 die
Position dieser virtuellen Quelle, deren tatsächliche Position für den Höreindruck
bzw. für
die Audioszene unbedeutend ist, so positionieren, dass sie von einem
anderen Renderer als dem Front-Renderer aufbereitet wird, also damit
den Front-Renderer nicht belastet sondern nur einen anderer Renderer
belastet, der jedoch ohnehin nicht an seiner Kapazitätsgrenze
arbeitet.
-
Wie
bereits dargelegt worden ist, steigt die Flexibilität und Effizienz
des erfindungsgemäßen Konzepts
damit, je variabler die Szenenbeschreibung gehalten ist. Dies kommt
jedoch auch den Bedürfnissen
des Szenenautors zugute, da es für
ihn genügt,
dass er Zeitspannen und Ortsspannen angibt und sich somit nicht
für jede
Quelle an Punkten definitiv entscheiden muss, die eigentlich für den Höreindruck
unerheblich sind. Solche Entscheidungen würden für den Tonmeister eine lästige Pflicht
darstellen, die ihm durch das erfindungsgemäße Konzept abgenommen und sogar
noch dazu verwendet wird, die tatsächliche Kapazität durch
intelligentes Disponieren innerhalb eines vom Tonmeister vorgegebenen Rahmens
im Vergleich zur Kapazität
eines Wellenfeldsynthesesystems bei starrer Verarbeitung zu steigern.
-
Nachfolgend
wird Bezug nehmend auf 2 auf Informationen hingewiesen,
die ein Audioobjekt vorteilhaft haben sollte. So soll ein Audioobjekt
die Audiodatei spezifizieren, die gewissermaßen den Audioinhalt einer virtuellen
Quelle darstellt. So muss das Audioobjekt jedoch nicht die Audiodatei
umfassen, sondern kann einen Index haben, der auf eine definierte
Stelle in einer Datenbank verweist, an der die tatsächliche
Audiodatei gespeichert ist.
-
Ferner
umfasst ein Audioobjekt vorzugsweise eine Identifikation der virtuellen
Quelle, die beispielsweise eine Quellennummer oder ein aussagefähiger Dateiname
etc. sein kann.
-
Ferner
spezifiziert das Audioobjekt bei der vorliegenden Erfindung eine
Zeitspanne für
den Beginn und/oder das Ende der virtuellen Quelle, also der Audiodatei.
Wird nur eine Zeitspanne für
den Beginn spezifiziert, so bedeutet dies, dass der tatsächliche
Startpunkt der Aufbereitung dieser Datei durch den Renderer innerhalb
der Zeitspanne verändert werden
kann. Wird zusätzlich
eine Zeitspanne für
das Ende vorgegeben, so bedeutet dies, dass auch das Ende innerhalb
der Zeitspanne variiert werden kann, was insgesamt je nach Implementierung
zu einer Variation der Audiodatei auch hinsichtlich ihrer Länge führen wird.
Jegliche Implementierungen sind möglich, so z. B. auch eine Definition
der Start/Endzeit einer Audiodatei so, dass zwar der Startpunkt
verschoben werden darf, dass jedoch auf keinen Fall die Länge verändert werden
darf, sodass damit automatisch das Ende der Audiodatei ebenfalls
verschoben wird. Insbesondere für
Geräusche
wird es jedoch bevorzugt, auch das Ende variabel zu halten, da es
typischerweise nicht problematisch ist, ob z. B. ein Windgeräusch etwas
früher
oder später
anfängt,
oder ob es etwas früher
oder später
endet. Weitere Spezifizierungen sind je nach Implementierung möglich bzw.
erwünscht,
wie beispielsweise eine Spezifikation, dass zwar der Startpunkt
variiert werden darf, nicht jedoch der Endpunkt, etc.
-
Vorzugsweise
umfasst ein Audioobjekt ferner eine Ortsspanne für die Position. So wird es
für bestimmte
Audioobjekte keine Rolle spielen, ob sie z. B. von vorne links oder
vorne Mitte kommen, oder ob sie um einen (kleinen) Winkel bezüglich eines
Bezugspunkts im Wiedergaberaum verschoben werden. So existieren
jedoch auch, wie es ausgeführt worden
ist, Audioobjekte insbesondere wieder aus dem Geräuschbereich,
die an jeder beliebigen Stelle positioniert werden können und
damit eine maximale Ortsspanne haben, die beispielsweise durch einen Code
für „beliebig" oder durch keinen
Code (implizit) im Audioobjekt spezifiziert werden kann.
-
Ein
Audioobjekt kann weitere Informationen umfassen, wie beispielsweise
eine Angabe über
die Art der virtuellen Quelle, also ob es sich bei der virtuellen
Quelle um eine Punktquelle für
Schallwellen handeln muss, oder ob es sich um eine Quelle für ebene
Wellen handeln muss, oder ob es sich um eine Quelle handeln muss,
die Quellen beliebiger Wellenfront erzeugt, sofern die Renderer-Module
in der Lage sind, solche Informationen zu verarbeiten.
-
3 zeigt
beispielhaft eine schematische Darstellung einer Szenenbeschreibung,
in der die zeitliche Abfolge verschiedener Audioobjekte AO1, ....
AOn + 1 dargestellt ist. Insbesondere wird auf das Audioobjekt AO3
hingewiesen, für
das eine Zeitspanne, wie sie in 3 eingezeichnet
ist, definiert ist. So können
sowohl der Startpunkt als auch der Endpunkt des Audioobjekts AO3
in 3 um die Zeitspanne verschoben werden. Die Definition
des Audioobjekts AO3 lautet jedoch dahingehend, dass die Länge nicht verändert werden
darf, was jedoch von Audioobjekt zu Audioobjekt variabel einstellbar
ist.
-
So
ist zu sehen, dass durch Verschieben des Audioobjekts AO3 in positiver
zeitlicher Richtung eine Situation erreicht werden kann, bei der
das Audioobjekt AO3 erst nach dem Audioobjekt AO2 beginnt. Werden
beide Audioobjekte auf demselben Renderer abgespielt, so kann durch
diese Maßnahme
eine kurze Überschneidung 20,
die ansonsten vielleicht auftreten würde, vermieden werden. Wäre das Audioobjekt
AO3 im Stand der Technik bereits das Audioobjekt, das über der
Kapazität
eines Renderers liegen würde,
aufgrund bereits sämtlicher
weiterer zu verarbeitender Audioobjekte auf dem Renderer, wie beispielsweise
Audioobjekt AO2 und Audioobjekt AO1, so würde ohne die vorliegende Erfindung eine
komplette Unterdrückung
des Audioobjekts AO3 auftreten, obgleich die Zeitspanne 20 lediglich
sehr klein war. Erfindungsgemäß wird das
Audioobjekt AO3 durch die Audioobjektmanipulationseinrichtung 3 verschoben,
sodass keine Kapazi tätsüberschreitung
und damit auch keine Unterdrückung
des Audioobjekts AO3 mehr stattfindet.
-
Bei
dem bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung wird eine Szenenbeschreibung verwendet, die
relative Angaben hat. So wird die Flexibilität dadurch erhöht, dass
der Beginn des Audioobjekts AO2 nicht mehr in einem absoluten Zeitpunkt
gegeben wird, sondern in einem relativen Zeitraum zum Audioobjekt
AO1. Entsprechend wird auch eine relative Beschreibung der Ortsangaben bevorzugt,
also nicht, dass ein Audioobjekt an einer bestimmten Position xy
im Wiedergaberaum anzuordnen ist, sondern z. B. um einen Vektor
versetzt zu einem anderen Audioobjekt oder zu einem Referenzobjekt
ist.
-
Dadurch
kann die Zeitspanneninformation bzw. Ortsspanneninformation sehr
effizient aufgenommen werden, nämlich
einfach dadurch, dass die Zeitspanne so festgelegt ist, dass sie
zum Ausdruck bringt, dass das Audioobjekt AO3 z. B. in einem Zeitraum
zwischen zwei Minuten und zwei Minuten und 20 Sekunden nach dem
Start des Audioobjekts AO1 beginnen kann.
-
Eine
solche relative Definition der Raum- und Zeitbedingungen führt zu einer
datenbankmäßig effizienten
Darstellung in Form von Constraints, wie sie z. B. in „Modeling
Output Constraints in Multimedia Database Systems", T. Heimrich, 1.
internationale Multimedia Modelling Conference, IEEE, 2. Januar 2005
bis 14. Januar 2005, Melbourne, beschrieben ist. Hier wird die Verwendung
von Constraints in Datenbanksystemen dargestellt, um konsistente
Datenbankzustände
zu definieren. Insbesondere werden zeitliche Constraints unter Verwendung
von Allen-Beziehungen und räumliche
Constraints unter Verwendung von räumlichen Beziehungen beschrieben.
Hieraus können
günstige
Ausgabe-Constraints zu Synchronisationszwecken definiert werden.
Solche Ausgabe-Constraints umfassen eine zeitliche oder räumliche
Bedingung zwischen den Objekten, eine Reaktion im Falle einer Verletzung
eines Constraints und eine Überprüfungszeit,
also wann ein solcher Constraint überprüft werden muss.
-
Bei
dem bevorzugten Ausführungsbeispiel der
vorliegenden Erfindung werden die räumlichen/zeitlichen Ausgabe-Objekte
jeder Szene relativ zueinander modelliert. Die Audioobjektmanipulationseinrichtung
erreicht eine Überführung dieser
relativen und variablen Definitionen in eine absolute räumliche
und zeitliche Ordnung. Diese Ordnung stellt das Ausgabe-Schedule
dar, das am Ausgang 6a des in 1 gezeigten
Systems erhalten wird und definiert, wie insbesondere das Renderer-Modul
im Wellenfeldsynthesesystem angesprochen wird. Das Schedule ist
also ein Ausgabeplan, der die Audiodaten entsprechend der Ausgabebedingungen
anordnet.
-
Nachfolgend
wird anhand von 4 ein bevorzugtes Ausführungsbeispiel
eines solchen Ausgabe-Schedules dargelegt. Insbesondere zeigt 4 einen
Datenstrom, der gemäß 4 von
links nach rechts übertragen
wird, also von der Audioobjekt-Manipulationseinrichtung 3 von 1 zu
einem oder mehreren Wellenfeldsynthese-Renderern des Wellenfeldsystems 0 von 1.
Insbesondere umfasst der Datenstrom für jedes Audioobjekt bei dem
in 4 gezeigten Ausführungsbeispiel zunächst einen Header
H, in dem die Positionsinformationen und die Zeitinformationen stehen,
und nachgeordnet eine Audiodatei für das spezielle Audioobjekt,
die in 4 mit AO1 für
das erste Audioobjekt, AO2 für
das zweite Audioobjekt etc. bezeichnet ist.
-
Ein
Wellenfeldsynthese-Renderer erhält dann
den Datenstrom und erkennt z. B. an einer vorhandenen und fest vereinbarten
Synchronisationsinformation, dass nunmehr ein Header kommt. Anhand einer
weiteren Synchronisationsinformation erkennt der Renderer dann,
dass der Header nunmehr vorbei ist. Alternativ kann für jeden
Haeder auch eine feste Länge
in Bits vereinbart werden.
-
Nach
dem Empfang des Headers weiß der Audio-Renderer
bei dem in 4 gezeigten bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung automatisch, dass die nachfolgende Audiodatei,
also z. B. AO1, zu dem Audioobjekt, also zu der Quellenposition
gehört,
die in dem Header identifiziert ist.
-
4 zeigt
eine serielle Datenübertragung zu
einem Wellenfeldsynthese-Renderer. Allerdings werden natürlich mehrere
Audioobjekte gleichzeitig in einem Renderer abgespielt. Daher benötigt der Renderer
einen Eingangs-Puffer, dem eine Datenstrom-Leseeinrichtung vorausgeht,
um den Datenstrom zu parsen. Die Datenstromleseeinrichtung wird dann
den Header interpretieren und die zugehörigen Audiodaten entsprechend
speichern, damit der Renderer dann, wenn ein Audioobjekt zum Rendern
an der Reihe ist, die korrekte Audiodatei und die korrekte Quellenposition
aus dem Eingangspuffer ausliest. Andere Daten für den Datenstrom sind natürlich möglich. Auch
eine separate Übertragung
sowohl der Zeit/Orts-Informationen als auch der tatsächlichen Audiodaten
kann verwendet werden. Die in 4 dargestellte
kombinierte Übertragung
wird jedoch bevorzugt, da sie durch Verkettung der Positions/Zeit-Informationen
mit der Audiodatei Datenkonsistenzprobleme eliminiert, da immer
sichergestellt wird, dass der Renderer für Audiodaten auch die richtige
Quellenposition hat und nicht z. B. noch Audiodaten von einer früheren Quelle
rendert, jedoch bereits Positionsinformationen der neuen Quelle
zum Rendern verwendet.
-
Die
vorliegende Erfindung basiert somit auf einem objektorientierten
Ansatz, dass also die einzelnen virtuellen Quellen als Objekte aufgefasst
werden, die sich durch eine Audiodatei und eine virtuelle Position
im Raum und möglicherweise
durch die Art und Weise der Quelle auszeichnen, also ob sie eine Punktquelle
für Schallwellen
oder eine Quelle für ebene
Wellen oder eine Quelle für
anders geformte Quellen sein soll.
-
Wie
es ausgeführt
worden ist, ist die Berechnung der Wellenfelder sehr rechenzeitintensiv
und an die Kapazitäten
der verwendeten Hardware, wie beispielsweise Soundkarten und Rechner,
im Zusammenspiel mit der Effizienz der Berechnungsalgorithmen gebunden.
Auch die beste ausgestattete PC-basierte
Lösung
stößt somit
bei der Berechnung der Wellenfeldsynthese schnell an ihre Grenzen,
wenn viele anspruchsvolle Klangereignisse gleichzeitig dargestellt
werden sollen. So gibt die Kapazitätsgrenze der verwendeten Soft-
und Hardware die Beschränkung
hinsichtlich der Anzahl der virtuellen Quellen bei der Abmischung
und Wiedergabe vor.
-
6 zeigt
ein solches in seiner Kapazität begrenztes
bekanntes Wellenfeldsynthese-Konzept, das ein Authoring-Werkzeug 60,
ein Steuer-Renderer-Modul 62 und einen Audioserver 64 umfasst,
wobei das Steuer-Renderer-Modul ausgebildet ist, um ein Lautsprecherarray 66 mit
Daten zu versorgen, damit das Lautsprecher-Array 66 eine
gewünschte
Wellenfront 68 durch Überlagerung
der Einzelwellen der einzelnen Lautsprecher 70 erzeugt.
Das Authoring-Werkzeug 60 erlaubt es dem Nutzer, Szenen
zu erstellen, zu editieren und das Wellenfeldsynthese-basierte System
zu steuern. Eine Szene besteht sowohl aus Informationen zu den einzelnen
virtuellen Audioquellen als auch aus den Audiodaten. Die Eigenschaften
der Audioquellen und der Referenzen auf die Audiodaten werden in
einer XML-Szenendatei gespeichert. Die Audiodaten selbst werden
auf dem Audioserver 64 abgelegt und von dort aus an das
Renderer-Modul übertragen.
Gleichzeitig erhält das
Renderer-Modul die Steuerdaten vom Authoring-Werkzeug, damit das
Steuer-Renderer-Modul 62, das zentral ausgeführt ist,
die Synthesesignale für
die einzelnen Lautsprecher erzeugen kann. Das in 6 gezeigte
Konzept ist in „Authoring
System for Wave Field Synthesis",
F. Melchior, T. Röder,
S. Brix, S. Wabnik und C. Riegel, AES Convention Paper, 115. AES-Versammlung,
10. Oktober 2003, New York, beschrieben.
-
Wird
dieses Wellenfeldsynthese-System mit mehreren Renderer-Modulen betrieben,
so wird dabei jeder Renderer mit denselben Audiodaten versorgt,
egal, ob der Renderer aufgrund der ihm zugeordneten begrenzten Zahl
von Lautsprechern diese Daten für
die Wiedergabe benötigt
oder nicht. Da jeder der aktuellen Rechner in der Lage ist, 32 Audioquellen
zu berechnen, stellt dies die Grenze für das System dar. Andererseits
soll die Anzahl der im Gesamtsystem renderbaren Quellen effizient
deutlich erhöht
werden. Dies ist eine der wesentlichen Voraussetzungen für komplexe
Anwendungen, wie beispielsweise Kinofilme, Szenen mit immersiven
Atmosphären,
wie beispielsweise Regen oder Applaus oder andere komplexe Audioszenen.
-
Erfindungsgemäß wird eine
Reduktion redundanter Datenübertragungsvorgänge und
Datenverarbeitungsvorgänge
in einem Wellenfeldsynthese-Mehr-Renderer-System erreicht, was zu
einer Erhöhung
der Rechenkapazität
bzw. der Anzahl von gleichzeitig berechenbaren Audioquellen erreicht.
-
Zur
Reduktion der redundanten Übertragung und
Verarbeitung von Audio- und Metadaten zum einzelnen Renderer des
Mehr-Renderer-Systems
wird der Audioserver um die Datenausgabeeinrichtung erweitert, welche
in der Lage ist, zu ermitteln, welcher Renderer welche Audio- und
Metadaten benötigt.
Die Datenausgabeeinrichtung, gegebenenfalls unterstützt durch
den Datenmanager benötigt
bei einem bevorzugten Ausführungsbeispiel
mehrere Informationen. Diese Informationen sind zunächst die
Audiodaten, dann Zeit- und Positionsdaten der Quellen und schließlich die
Konfiguration der Renderer, also Informationen über die verbundenen Lautsprecher
und ihre Positionen sowie deren Kapazität. Mit Hilfe von Datenmanagementtechniken
und der Definition von Ausgabebedingungen wird ein Ausgabe-Schedule durch
die Datenausgabeeinrichtung mit einer zeitlichen und räumlichen
Anordnung der Audioobjekte erzeugt. Aus der räumlichen Anordnung, dem zeitlichen
Schedule und der Rendererkonfiguration berechnet das Datenmanagementmodul
dann, welche Quelle für
welche Renderer zu einem bestimmten Zeitpunkt von Relevanz sind.
-
Ein
bevorzugtes Gesamtkonzept ist in 5 dargestellt.
Die Datenbank 22 ist ausgangsseitig um die Datenausgabeeinrichtung 24 ergänzt, wobei
die Datenausgabeeinrichtung auch als Scheduler bezeichnet wird.
Dieser Scheduler erzeugt dann an seinen Ausgängen 20a, 20b, 24c für die verschiedenen Renderer 50 die
Renderer-Eingangssignale, damit die entsprechenden Lautsprecher
der Lautsprecherarrays versorgt werden.
-
Vorzugsweise
wird der Scheduler 24 noch durch einen Storage-Manager 52 unterstützt, um
mittels eines RAID-Systems und entsprechender Datenorganisationsvorgaben
die Datenbank 42 zu konfigurieren.
-
Auf
der Eingangsseite steht ein Daten-Erzeuger 54, welcher
beispielsweise ein Tonmeister oder ein Audioingenieur sein kann,
der eine Audioszene objektorientiert modellieren bzw. beschreiben soll.
Hierbei gibt er eine Szenenbeschreibung vor, die entsprechende Ausgabebedingungen 56 umfasst, die
dann gegebenenfalls nach einer Transformation 58 zusammen
mit Audiodaten in der Datenbank 22 gespeichert werden.
Die Audiodaten können
mittels eines Insert/Update-Werkzeugs 59 manipuliert und aktualisiert
werden.
-
Abhängig von
den Gegebenheiten kann das erfindungsgemäße Verfahren in Hardware oder
in Software implementiert werden. Die Implementierung kann auf einem
digitalen Speichermedium, insbesondere einer Diskette oder CD, mit
elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem
programmierbaren Computersystem zusammenwirken können, dass das Verfahren ausgeführt wird.
Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt
mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode
zur Durchführung
des Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner
abläuft.
In anderen Worten ausgedrückt kann
die Erfindung somit als ein Computer-Programm mit einem Programmcode
zur Durchführung des
Verfahrens realisiert werden, wenn das Computer-Programm auf einem
Computer abläuft.