-
Die Erfindung bezieht sich auf eine Vorrichtung und ein Verfahren zur Dekorrelation von Lautsprechersignalen durch eine Änderung der wiedergegebenen akustischen Szene.
-
Für ein dreidimensionales Hörerlebnis kann beabsichtigt sein, dem jeweiligen Hörer eines Audiostückes oder Zuseher eines Filmes durch eine dreidimensionale akustische Wiedergabe ein realistischeres Hörerlebnis zu vermitteln, indem beispielsweise akustisch Eindrücke vermittelt werden, der Hörer oder Zuschauer befände sich innerhalb der wiedergegebenen akustischen Szene. Hierfür können auch psychoakustische Effekte genutzt werden. Wellenfeldsynthese- oder Higher-Order-Ambisonics-Algorithmen werden eingesetzt, um mit einer Anzahl oder Vielzahl von Lautsprechern innerhalb eines Wiedergaberaumes ein bestimmtes Klangfeld zu erzeugen. Dafür können die Lautsprecher so angesteuert werden, dass die Lautsprecher Wellenfelder erzeugen, die akustischen Quellen ganz oder teilweise entsprechen, die an einem nahezu beliebigen Ort einer wiedergegebenen akustischen Szene angeordnet sind.
-
Wellenfeldsynthese (WFS) oder Higher Order Ambisonics (HOA) ermöglicht dem Hörer einen hochqualitativen räumlichen Höreindruck, indem eine große Anzahl an Ausbreitungskanälen genutzt wird, um virtuelle akustische Quellenobjekte räumlich darzustellen. Um eine umfassendere Nutzererfahrung zu erhalten, können diese Wiedergabesysteme durch räumliche Aufnahmesysteme ergänzt werden, um weitere Anwendungen, wie etwa interaktive Anwendungen, zu ermöglichen oder um die Wiedergabequalität zu verbessern. Die Kombination aus dem Lautsprecher-Array, dem einhausenden Raum bzw. Volumen wie etwa ein Wiedergaberaum und dem Mikrophon-Array wird als Lautsprecher-Einhausung-Mikrophon System (LEMS) bezeichnet und in vielen Anwendungen durch simultane Beobachtung der Lautsprechersignale und der Mikrophonsignale identifiziert. Jedoch ist bereits durch Stereophone Kompensation akustischer Echos (Stereophonic Acoustic Echo Cancellation – AEC) bekannt, dass die typischerweise starken Kreuzkorrelationen der Lautsprechersignale eine hinreichende Systemidentifikation verhindern können, wie es beispielsweise in [BMS98] beschrieben ist. Dies wird als das Mehrdeutigkeitsproblem bezeichnet. In diesem Fall ist das Ergebnis der Systemidentifikation lediglich eines von unendlich vielen Lösungen, die durch die Korrelationseigenschaften der Lautsprechersignale bestimmt sind. Das Ergebnis dieser unvollständigen Systemidentifikation beschreibt dennoch das Verhalten des echten/realen LEMS für die momentanen Lautsprechersignale und kann deshalb für verschiedene adaptive Filteranwendungen, beispielsweise AEC oder Hörraumentzerrung (Listening Room Equalization – IRE) verwendet werden. Jedoch ist dieses Ergebnis nicht mehr korrekt, wenn sich die Kreuzkorrelationseigenschaften der Lautsprechersignale ändern, wodurch das auf diesen adaptiven Filtern beruhende Verhalten des Systems instabil werden kann. Diese mangelnde Robustheit stellt eine wesentliche Hürde für die Anwendbarkeit vieler Technologien, wie etwa AEC oder adaptive IRE, dar.
-
Für viele Anwendungen im Bereich der akustischen Wiedergabe kann eine Identifikation eines Lautsprecher-Einhausungs-Mikrofon Systems (Loudspeaker-Enclosure-Microphone System), bzw. LEMS notwendig sein. Bei einer großen Anzahl von Ausbreitungspfaden zwischen Lautsprechern und Mikrophonen, wie es beispielsweise für eine Wellenfeldsynthese (WFS) der Fall sein kann, kann diese Aufgabe aufgrund des Mehrdeutigkeitsproblems (im Englischen als nonuniqueness problem bezeichnet), d. h. aufgrund eines unterbestimmten Systems, besonders herausfordernd sein. Werden in einer akustischen Wiedergabeszene weniger virtuelle Quellen dargestellt, als das Wiedergabesystem Lautsprecher umfasst, so kann das Mehrdeutigkeitsproblem auftreten. In einem solchen Fall kann das System nicht eindeutig identifiziert werden und Methoden oder Verfahren, die eine Systemidentifikation umfassen, leiden an einer schwachen oder geringen Robustheit bzw. Stabilität gegenüber variierenden Korrelationseigenschaften der Lautsprechersignale. Ein gegenwärtiger Behelf gegen das Mehrdeutigkeitsproblem beinhaltet eine Modifizierung der Lautsprechersignale (d. h. eine Dekorrelation), so dass das System bzw. LEMS eindeutig identifiziert werden kann und/oder die Robustheit unter gegebenen Bedingungen zu erhöhen. Jedoch können die meisten bekannten Ansätze die Audioqualität reduzieren oder würden das synthetisierte Wellenfeld möglicherweise stören, wenn sie bei einer Wellenfeldsynthese angewendet würden.
-
Für den Zweck der Dekorrelation von Lautsprechersignalen sind drei Möglichkeiten bekannt, um die Robustheit der Systemidentifikation, also der Identifikation oder Schätzung des realen LEMS, zu erhöhen:
Aus [SMH95], [GT98] und [GE98] ist ein Hinzufügen von bezüglich verschiedener Lautsprechersignale unabhängigem Rauschen zu den Lautsprechersignalen vorgeschlagen. In [MHBOI], [BMS98] werden verschiedene nichtlineare Vorverarbeitungen für jeden Wiedergabekanal vorgeschlagen. In [Ali98], [HBK07] werden verschiedene zeitvariante Filterungen für jeden Lautsprecherkanal vorgeschlagen. Obwohl die genannten Techniken die wahrgenommene Klang- oder Schallqualität im Idealfall nicht beeinträchtigen sollten, sind sie im Allgemeinen nicht gut geeignet für WFS: da die Lautsprechersignale für WFS analytisch bestimmt werden, kann eine zeitvariante Filterung das reproduzierte Wellenfeld signifikant stören. Wenn eine hohe Qualität der Audiowiedergabe angestrebt ist, wird ein Hörer möglicherweise eine Hinzufügung von Rauschsignalen oder eine nichtlineare Vorverarbeitung, die beide die Audioqualität reduzieren können, nicht akzeptieren. In [SHK13] wird ein für WFS geeigneter Ansatz vorgeschlagen, bei dem die Lautsprechersignale vorgefiltert werden, so dass eine Veränderung der Lautsprechersignale im Sinne einer zeitvarianten Rotation des wiedergegebenen Wellenfeldes erreicht wird.
-
Die Aufgabe der vorliegenden Erfindung besteht deshalb darin, eine Vorrichtung und ein Verfahren zur Erzeugung einer Mehrzahl von Lautsprechersignalen zu schaffen, das eine verbesserte Systemidentifikation ermöglicht.
-
Diese Aufgabe wird durch den Gegenstand der unabhängigen Patentansprüche gelöst.
-
Der Kerngedanke der vorliegenden Erfindung besteht darin, erkannt zu haben, dass obige Aufgabe dadurch gelöst werden kann, dass durch zeitvariante Modifizierung von Metainformationen eines virtuellen Quellenobjektes, wie etwa die Position oder Art des virtuellen Quellenobjektes dekorrelierte Lautsprechersignale erzeugbar sind.
-
Gemäß einem Ausführungsbeispiel umfasst eine Vorrichtung zur Erzeugung einer Mehrzahl von Lautsprechersignalen einen Modifizierer, der ausgebildet ist, um Metainformationen eines virtuellen Quellenobjektes zeitvariant zu modifizieren. Das virtuelle Quellenobjekt weist die Metainformationen und ein Quellensignal auf.
-
Die Metainformationen bestimmen bspw. Eigenschaften wie etwa eine Position oder eine Art des virtuellen Quellenobjektes. Durch Modifizierung der Metainformationen kann beispielsweise die Position oder die Art, wie etwa eine Abstrahlcharakteristik, des virtuellen Quellenobjektes modifiziert werden. Die Vorrichtung umfasst ferner einen Renderer, der ausgebildet ist, um das virtuelle Quellenobjekt und die modifizierten Metainformationen in eine Vielzahl von Lautsprechersignalen zu überführen. Durch die zeitvariante Modifizierung der Metainformationen kann eine Dekorrelation der Lautsprechersignale erreicht werden, so dass eine stabile, d. h. robuste, Systemidentifikation bereitstellbar ist, um basierend auf der verbesserten Systemidentifikation eine robustere IRE oder eine robustere AEC zu ermöglichen, da die Robustheit der IRE und/oder AEC von der Robustheit der Systemidentifikation abhängig ist. Eine robustere IRE oder eine robustere AEC kann für eine verbesserte Wiedergabequalität der Lautsprechersignale genutzt werden.
-
Vorteilhaft an dieser Ausführungsform ist, dass mittels des Renderer basierend auf den zeitvariant modifizierten Metainformationen dekorrelierte Lautsprechersignale erzeugbar sind, so dass auf eine zusätzliche Dekorrelation durch eine zusätzliche Filterung oder eine Addition von Rauschsignalen verzichtet werden kann.
-
Ein alternatives Ausführungsbeispiel schafft ein Verfahren zur Erzeugung einer Mehrzahl von Lautsprechersignalen basierend auf einem virtuellen Quellenobjekt mit einem Quellensignal und Metainformationen, die die Position oder die Art des virtuellen Quellenobjektes bestimmen. Das Verfahren umfasst ein zeitvariantes Modifizieren der Metainformationen und ein Überführen des virtuellen Quellenobjektes und der modifizierten Metainformationen in eine Vielzahl von Lautsprechersignalen.
-
Vorteilhaft an diesem Ausführungsbeispiel ist, dass durch die Modifikation der Metainformationen bereits dekorrelierte Lautsprechersignale erzeugbar sind, so dass gegenüber einer nachträglichen Dekorrelation von korrelierten Lautsprechersignalen eine erhöhte Wiedergabequalität der akustischen Wiedergabeszene erzielbar ist, da eine Addition nachträglicher Rauschsignale oder eine Anwendung nichtlinearer Operationen vermieden werden kann.
-
Weitere vorteilhafte Ausführungsformen sind der Gegenstand der abhängigen Patentansprüche. Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen erläutert. Es zeigen:
-
1 eine Vorrichtung zur Erzeugung einer Mehrzahl von dekorrelierten Lautsprechersignalen basierend auf virtuellen Quellenobjekten;
-
2 eine schematische Aufsicht auf einen Wiedergaberaum, an dem Lautsprecher angeordnet sind;
-
3 eine schematische Übersicht zur Modifikation von Metainformationen verschiedener virtuellen Quellenobjekten;
-
4 eine schematische Anordnung von Lautsprechern und Mikrophonen in einem experimentellen Prototypen;
-
5a die Ergebnisse erzielbarer Echo Return Loss Enhancement (ERLE) für die Kompensation akustischer Echos (AEC) in vier Plots für vier Quellen mit unterschiedlicher Amplitudenoszillation des Prototypen;
-
5b den normierten Systemabstand für die Systemidentifikation für die Amplitudenoszillationen;
-
5c einen Plot an welchem an der Abszisse die Zeit und an der Ordinate die Werte der Amplitudenoszillation angegeben sind;
-
6a ein Signalmodell zu Identifizierung eines Loudspeaker Enclosure Microphone System (LEMS);
-
6b ein Signalmodell eines Verfahrens zur Systemschätzung gemäß 6a und zur Dekorrelation von Lautsprechersignalen;
-
6c ein Signalmodell einer MIMO Systemidentifikation mit einer Lautsprecherdekorrelation, wie sie in den 1 und 2 beschrieben ist.
-
Bevor nachfolgend Ausführungsbeispiele der vorliegenden Erfindung im Detail anhand der Zeichnungen näher erläutert werden, wird darauf hingewiesen, dass identische, funktionsgleiche oder gleichwirkende Elemente, Objekte und/oder Strukturen in den unterschiedlichen Figuren mit den gleichen Bezugszeichen versehen sind, so dass die in unterschiedlichen Ausführungsbeispielen dargestellte Beschreibung dieser Elemente untereinander austauschbar ist bzw. aufeinander angewendet werden kann.
-
1 zeigt eine Vorrichtung 10 zur Erzeugung einer Mehrzahl von dekorrelierten Lautsprechersignalen basierend auf virtuellen Quellenobjekten 12a, 12b und/oder 12c. Bei einem virtuellen Quellenobjekt kann es sich um jedwede Art von geräuschemittierenden Objekten, Körpern oder Personen handeln, wie etwa ein oder mehrere Menschen, Musikinstrumente, Tiere, Pflanzen, Geräte oder Maschinen. Die virtuellen Quellenobjekte 12a–c können Elemente einer akustischen Wiedergabeszene sein, wie etwa eines Orchesters, welches ein Stück aufführt. Bei einem Orchester kann ein virtuelles Quellenobjekt beispielsweise ein Instrument oder eine Gruppe von Instrumenten sein. Zusätzlich zu einem Quellensignal wie etwa ein Monosignal eines wiedergegebenen Tones oder Geräusches bzw. einer Ton- oder Geräuschfolge des virtuellen Quellenobjektes 12a–c, können einem virtuellen Quellenobjekt auch Metainformationen zugeordnet sein. Die Metainformationen können beispielsweise einen Ort des virtuellen Quellenobjektes innerhalb der von einem Wiedergabesystem reproduzierten akustischen Wiedergabeszene umfassen. Beispielsweise kann dies eine Position eines jeweiligen Instrumentes innerhalb des wiedergegebenen bzw. reproduzierten Orchesters bedeuten. Die Metainformationen können alternativ oder zusätzlich auch eine Richt- oder Abstrahlcharakteristik des jeweiligen virtuellen Quellenobjektes umfassen, wie etwa Informationen darüber, in welche Richtung das jeweilige Quellensignal des Instrumentes abgespielt wird. Ist ein Instrument eines Orchesters beispielsweise eine Trompete, so wird der Trompetenschall bevorzugt in eine bestimmte Richtung (die Richtung, in welche der Schallbecher weist), abgestrahlt. Ist das Instrument alternativ hierzu beispielsweise eine Gitarre, so strahlt die Gitarre verglichen mit der Trompete in einem größeren Abstrahlwinkel ab. Die Metainformationen eines virtuellen Quellenobjektes können die Abstrahlcharakteristik und die Orientierung der Abstrahlcharakteristik in der reproduzierten Wiedergabeszene umfassen. Die Metainformationen können alternativ oder zusätzlich auch eine räumliche Ausdehnung des virtuellen Quellenobjektes in der reproduzierten Wiedergabeszene umfassen. Basierend auf den Metainformationen und dem Quellensignal kann ein virtuelles Quellenobjekt zwei- oder dreidimensional im Raum beschrieben werden.
-
Eine reproduzierte Wiedergabeszene kann beispielsweise auch ein Audioteil eines Filmes sein, also die Geräuschkulisse zum Film. Eine reproduzierte Wiedergabeszene kann beispielsweise mit einer Filmszene ganz oder teilweise übereinstimmen, so dass das virtuelles Quellenobjekt beispielsweise eine im Wiedergaberaum positionierte und richtungsabhängig sprechende Person oder ein sich unter Abgabe von Geräuschen im Raum der reproduzierten Wiedergabeszene bewegendes Objekt, wie etwa ein Zug oder ein Auto, sein kann.
-
Vorrichtung 10 ist ausgebildet, um Lautsprechersignale zur Ansteuerung von Lautsprechern 14a–e zu erzeugen. Die Lautsprecher 14a–e können an oder in einem Wiedergaberaum 16 angeordnet. Der Wiedergaberaum 16 kann beispielsweise ein Konzert- oder Kinosaal sein, in welchem sich ein Hörer oder Zuschauer 17 befinden kann. Durch Erzeugen und Wiedergabe der Lautsprechersignale an den Lautsprechern 14a–e kann in dem Wiedergaberaum 16 eine Wiedergabeszene reproduziert werden, die auf den virtuellen Quellenobjekten 12a–c basiert. Vorrichtung 10 umfasst einen Modifizierer 18, der ausgebildet ist, um die Metainformationen eines oder mehrerer der virtuellen Quellenobjektes 12a–c zeitvariant zu modifizieren. Der Modifizierer 18 ist ferner ausgebildet, um die Metainformationen mehrerer virtueller Quellenobjekte einzeln, d. h. für jedes virtuelle Quellenobjekt 12a–c, oder für mehrere virtuellen Quellenobjekte zu modifizieren. Modifikation Beispielsweise ist der Modifizierer 18 ausgebildet, um die Position des virtuellen Quellenobjektes 12a–c in der reproduzierten Wiedergabeszene oder die Abstrahlcharakteristik des virtuellen Quellenobjektes 12a–c zu modifizieren.
-
In anderen Worten kann eine Anwendung von Dekorrelationsfiltern eine unkontrollierte Änderung der wiedergegebenen Szene bewirken, wenn Lautsprechersignale dekorreliert werden, ohne die resultierenden akustischen Effekte in dem Wiedergaberaum zu betrachten, wohingegen Vorrichtung 10 eine natürliche, d. h. kontrollierte Änderung der virtuellen Quellenobjekte ermöglicht. Durch eine zeitvariante Veränderung der gerenderten, d. h. reproduzierten, akustischen Szene durch eine Modifikation der Metainformationen derart, dass die Position oder die Abstrahlcharakteristik, d. h. die Quellenart, eines oder mehrerer virtueller Quellenobjekte 12a–c. Dies kann durch einen Zugang zum Wiedergabesystem, d. h. durch eine Anordnung des Modifizierers 18, ermöglicht werden. Modifikationen der Metainformationen der virtuellen Quellenobjekte 12a–c und mithin der reproduzierten akustischen Wiedergabeszene können intrinsisch, d. h. systemintern, kontrolliert werden, sodass eine Begrenzung der durch die Modifikation eintretenden Effekte möglich ist, beispielsweise indem die eintretenden Effekte von dem Hörer 17 nicht wahrgenommen oder als nicht störend empfunden werden.
-
Vorrichtung 10 umfasst einen Renderer 22, der ausgebildet ist, um die Quellensignale der virtuellen Quellenobjekte 12a–c und die modifizierten Metainformationen in eine Vielzahl von Lautsprechersignalen zu überführen. Der Renderer 22 weist Komponentenerzeuger 23a–c und Signalkomponentenaufbereiter 24a–e auf. Der Renderer 22 ist ausgebildet, um mittels der Komponentenerzeuger 23a–c das Quellensignal des virtuellen Quellenobjektes 12a–c und die modifizierten Metainformationen so in Signalkomponenten zu überführen, dass ein Wellenfeld durch die Lautsprecher 14a–e erzeugbar ist und durch das Wellenfeld das virtuelle Quellenobjekt 12a–c an einer Position 25 innerhalb der reproduzierten akustischen Wiedergabeszene darstellbar ist. Die reproduzierte akustische Wiedergabeszene kann zumindest teilweise innerhalb oder außerhalb des Wiedergaberaumes 16 angeordnet sein. Die Signalkomponentenaufbereiter 24a–e sind ausgebildet, um die Signalkomponenten einer oder mehrerer virtueller Quellenobjekte zu Lautsprechersignalen zur Ansteuerung der Lautsprecher 14a–e aufzubereiten. An oder in einem Wiedergaberaum 16 kann, bspw. abhängig von der reproduzierten Wiedergabeszene und/oder einer Größe des Wiedergaberaumes 16 eine Vielzahl von Lautsprechern, von bspw. mehr als 10, 20, 30, 50, 300 oder 500 angeordnet oder anbringbar sein. In anderen Worten kann der Renderer als Multiple Input (virtuelle Quellenobjekte) Multiple Output (Lautsprechersignale) – MIMO – System beschrieben werden, der Eingangssignale einer oder mehrerer virtueller Quellenobjekte in Lautsprechersignale zu überführen. Die Komponentenerzeuger und/oder die Signalkomponentenaufbereiter können alternativ auch in zwei oder mehreren separaten Komponenten angeordnet sein.
-
Der Renderer 22 kann alternativ oder zusätzlich eine Vorentzerrung derart umsetzen, dass in dem Wiedergaberaum 16 die reproduzierte Wiedergabeszene so wiedergegeben wird, als würde sie in einer Freifeldumgebung oder einer anders gearteten Umgebung, wie etwa ein Konzertsaal, wiedergegeben, d. h. der Renderer 22 kann Verzerrungen akustischer Signale, die von dem Wiedergaberaum 16 verursacht werden, ganz oder teilweise kompensieren, wie etwa durch eine Vorentzerrung. In anderen Worten ist der Renderer 22 ausgebildet, um für das darzustellende virtuelle Quellenobjekt 12a–c Lautsprechersignale zu erstellen.
-
Werden mehrere virtuelle Quellenobjekte 12a–c in Lautsprechersignale überführt, so kann ein Lautsprecher 14a–e zu einem Zeitpunkt Ansteuersignale, die auf mehreren virtuellen Quellenobjekten 12a–c basieren, wiedergeben.
-
Vorrichtung 10 umfasst Mikrophone 26a–d, die so an oder in dem Wiedergaberaum 16 anbringbar sind, so dass die von den Lautsprechern 14a–e erzeugten Wellenfelder von den Mikrophonen 26a–d erfasst werden können. Ein Systemberechner 28 der Vorrichtung 10 ist ausgebildet, um basierend auf den Mikrophonsignalen der Mehrzahl von Mikrophonen 26a–d und den Lautsprechersignalen eine Übertragungscharakteristik des Wiedergaberaumes 16 zu schätzen. Eine Übertragungscharakteristik des Wiedergaberaumes 16, d. h. eine Charakteristik, wie der Wiedergaberaum 16 die von den Lautsprechern 14a–e erzeugten Wellenfelder beeinflusst, kann beispielsweise durch eine variierende Anzahl von Personen, welche sich in dem Wiedergaberaum 16 aufhalten, durch Veränderungen von Mobiliar wie etwa eine veränderliche Kulisse des Wiedergaberaumes 16 oder durch eine veränderliche Position von Personen oder Gegenständen innerhalb des Wiedergaberaumes 16 verursacht sein. Beispielsweise können durch eine zunehmende Anzahl von Personen oder Objekten in dem Wiedergaberaum 16 Reflexionspfade zwischen Lautsprechern 14a–e und Mikrophonen 26a–d blockiert oder erzeugt werden. Die Schätzung der Übertragungscharakteristik kann auch als Systemidentifikation dargestellt werden. Sind die Lautsprechersignale korreliert, kann bei der Systemidentifikation das Mehrdeutigkeitsproblem auftreten.
-
Der Renderer 22 kann ausgebildet sein, um ein zeitvariantes Rendering-System, basierend auf der zeitveränderlichen Übertragungscharakteristik des Wiedergaberaumes 16 zu implementieren, so dass eine veränderte Übertragungscharakteristik kompensierbar und eine Verringerung einer Audioqualität vermeidbar ist. In anderen Worten kann der Renderer 22 eine adaptive Entzerrung des Wiedergaberaumes 16 ermöglichen. Alternativ oder zusätzlich kann der Renderer 22 ausgebildet sein, um die erzeugten Lautsprechersignale mit Rauschsignalen zu überlagern eine Dämpfung zu den Lautsprechersignalen hinzuzufügen und/oder die Lautsprechersignale zu verzögern, indem die Lautsprechersignale bspw. unter Verwendung eines Dekorrelationsfilters gefiltert werden. Ein Dekorrelationsfilter kann bspw. für eine zeitvariante Phasenverschiebung der Lautsprechersignale genutzt werden. Durch einen Dekorrelationsfilter und/oder die Addition von Rauschsignalen kann eine zusätzliche Dekorrelation der Lautsprechersignale erreicht werden, beispielsweise, wenn Metainformationen bei einem virtuellen Quellenobjekt 12a–c nur in geringfügigem Umfang vom Modifizierer 18 modifiziert werden, sodass die vom Renderer 22 erzeugten Lautsprechersignale in einem Maß korreliert sind, welches für eine Wiedergabeszene reduziert werden soll.
-
Durch Modifikation der Metainformationen der virtuellen Quellenobjekte 12a–c mittels des Modifizierers 18 kann eine Dekorrelation der Lautsprechersignale und mithin eine Verringerung oder Vermeidung von Systeminstabilitäten erreicht werden kann. Eine Systemidentifikation kann verbessert werden, indem beispielsweise eine Veränderung, d. h. Modifikation der räumlichen Eigenschaften der virtuellen Quellenobjekte 12a–c ausgenutzt wird.
-
Gegenüber einer Veränderung der Lautsprechersignale kann die Modifikation der Metainformationen zielgerichtet erfolgen und, beispielsweise nach psychoakustischen Kriterien, so erfolgen, dass der Hörer 17 der reproduzierten Wiedergabeszene die Modifikation nicht wahrnimmt oder sie als nicht störend empfindet. So kann beispielsweise eine Verschiebung der Position 25 eines virtuellen Quellenobjektes 12a–c in der reproduzierten Wiedergabeszene zu veränderten Lautsprechersignalen und mithin zu einer ganz oder teilweisen Dekorrelation der Lautsprechersignale führen, so dass auf ein Hinzufügen von Rauschsignalen oder eine Anwendung von nichtlinearen Filteroperationen, wie etwa in Dekorrelationsfiltern, vermieden werden kann. Wird beispielsweise ein Zug in der reproduzierten Wiedergabeszene dargestellt, so kann es beispielsweise für den Hörer 17 unbemerkt bleiben, wenn der entsprechende Zug mit einer großen Entfernung zu dem Hörer 17, wie etwa 200, 500 oder 1.000 m, um bspw. 1, 2 oder 5 m im Raum verschoben wird.
-
Mehrkanalreproduktionssysteme, wie WFS, wie sie beispielsweise in [BDV93] vorgeschlagen ist, Higher-Order-Ambisonics (HOA), wie sie beispielsweise in [Dan03] vorgeschlagen ist, oder ähnliche Verfahren können Wellenfelder mit mehreren virtuellen Quellen oder Quellenobjekten unter anderem durch Darstellen der virtuellen Quellenobjekte in Form von Punktquellen, Dipolquellen, Quellen mit nierenförmiger Abstrahlcharakteristik oder ebene Wellen abstrahlende Quellen reproduzieren. Wenn diese Quellen stationäre räumliche Eigenschaften, wie etwa ortsfeste Positionen der virtuellen Quellenobjekte oder unveränderliche Abstrahl- oder Richtcharakteristiken, kann eine konstante akustische Wiedergabeszene identifiziert werden, wenn eine entsprechende Korrelationsmatrix vollen Rang aufweist, wie es in 6 detailliert erläutert ist.
-
Vorrichtung 10 ist ausgebildet, um eine Dekorrelation der Lautsprechersignale durch eine Modifikation der Metainformationen der virtuellen Quellenobjekte 12a–c zu erzeugen und/oder eine zeitveränderliche Übertragungscharakteristik des Wiedergaberaumes 16 zu berücksichtigen.
-
Die Vorrichtung stellt eine zeitvariante Veränderung der reproduzierten akustischen Wiedergabeszene für WFS, HOA oder ähnliche Wiedergabemodelle dar, um die Lautsprechersignale zu dekorrelieren. Solch eine Dekorrelation kann eine Abhilfe sein, wenn das Problem der Systemidentifikation unterbestimmt ist. Im Gegensatz zu Lösungen aus dem Stand der Technik erlaubt Vorrichtung 10 eine kontrollierte Änderung der reproduzierten Wiedergabeszene, um eine hohe Qualität der WFS oder HOA Wiedergabe zu erhalten.
-
2 zeigt eine schematische Aufsicht auf einen Wiedergaberaum 16, an dem Lautsprecher 14a–h angeordnet sind. Vorrichtung 10 ist ausgebildet, um Lautsprechersignale basierend auf einem oder mehreren virtuellen Quellenobjekten 12a und/oder 12b zu erstellen. Eine wahrnehmbare Modifikation der Metainformationen der virtuellen Quellenobjekte 12a und/oder 12b kann von dem Hörer störend empfunden werden. Wird beispielsweise ein Ort oder eine Position des virtuellen Quellenobjektes 12a und/oder 12b zu stark verändert, so kann für den Hörer beispielweise der Eindruck entstehen, dass sich ein Instrument eines Orchesters im Raum bewegt. Alternativ, wenn die reproduzierte Wiedergabeszene zu einem Film gehört, kann der akustische Eindruck entstehen, dass sich das virtuelle Quellenobjekt 12a und/oder 12b mit einer akustischen Geschwindigkeit, die sich von einer durch die Bildfolge implizierten optischen Geschwindigkeit eines Objekts unterscheidet, so dass sich das virtuelle Quellenobjekt bspw. unterschiedlich schnell oder in eine unterschiedliche Richtung bewegt. Durch Veränderung der Metainformationen eines virtuellen Quellenobjektes 12a und/oder 12b innerhalb gewisser Intervalle oder Toleranzen kann ein wahrnehmbarer oder als störend empfundener Eindruck verringert oder verhindert werden.
-
Für eine Perzeption akustischer Szenen kann ein räumliches Hören in einer Median-Ebene, das bedeutet in einer Horizontalebene des Hörers 17, bedeutend sein, wohingegen ein räumliches Hören in der Sagittal-Ebene, d. h. eine linke und rechte Körperhälfte des Hörers 17 mittig trennende Ebene, eine untergeordnete Rolle spielen kann. Für Wiedergabesysteme, die ausgebildet sind, um dreidimensionale Szenen wiederzugeben, kann die Wiedergabeszene zusätzlich in der dritten Dimension geändert werden. Eine Lokalisierung von akustischen Quellen durch den Hörer 17 kann in der Sagittal-Ebene ungenauer sein als in der Median-Ebene. Es ist vorstellbar, die nachfolgend für zwei Dimensionen (Horizontalebene) definierten Grenzwerte für die dritte Dimension beizubehalten oder zu erweitern, da Grenzwerte, die aus einem zweidimensionalen Wellenfeld abgeleitet sind, sehr konservative Untergrenzen für mögliche Änderungen der gerenderten Szene in der dritten Dimension darstellen. Obwohl die folgenden Erläuterungen auf Wahrnehmungseffekte in zweidimensionalen Wiedergabeszenen in der Median-Ebene konzentriert sind, welche ein Optimierungskriterium für viele Wiedergabesysteme sind, gelten die Erläuterungen auch für dreidimensionale Systeme.
-
Prinzipiell können verschiedene Arten von Wellenfeldern reproduziert werden, wie beispielsweise Wellenfelder von Punktquellen, ebene Wellen oder Wellenfelder von allgemeinen Mehrpolquellen, wie etwa Dipole. In einer zweidimensionalen Ebene, d. h. unter Berücksichtigung lediglich zweier Dimensionen, ist die wahrgenommene Position einer Punktquelle oder einer Mehrpolquelle durch eine Richtung und eine Entfernung beschreibbar, wohingegen ebene Wellen durch eine Einfallsrichtung beschreibbar sind. Der Hörer 17 kann die Richtung einer Schallquelle durch zwei räumliche Auslösereize lokalisieren, interaurale Pegelunterschiede (interaural level differences – ILDs) und interaurale Zeitunterschiede (interaural time differences – ITDs). Die Modifikation der Metainformationen eines jeweiligen virtuellen Quellenobjektes kann zu einer Veränderung der jeweiligen ILDs und/oder zu einer Veränderung der jeweiligen ITDs für den Hörer 17 führen.
-
Die Entfernung einer Schallquelle kann bereits durch den absoluten monauralen Pegel wahrgenommen werden, wie es in [Bla97] beschrieben ist. In anderen Worten kann die Entfernung durch eine Lautstärke und/oder eine Entfernungsänderung durch eine Lautstärkenänderung wahrgenommen werden.
-
Der interaurale Pegelunterschied beschreibt einen Pegelunterschied zwischen beiden Ohren des Hörers 17. Ein einer Schallquelle zugewandtes Ohr kann einem höheren Schalldruckpegel als ein der Schallquelle abgewandtes Ohr ausgesetzt sein. Dreht der Hörer 17 den Kopf, bis beide Ohren in etwa dem gleichen Schalldruckpegel ausgesetzt sind und der interaurale Pegelunterschied nur noch gering ist, so kann der Hörer der Schallquelle zugewandt sein oder alternativ mit dem Rücken zur Schallquelle positioniert sein. Eine Modifizierung der Metainformationen des virtuellen Quellenobjektes 12a oder 12b bspw. so dass das virtuelle Quellenobjekt an einem anderen Ort dargestellt wird oder eine veränderte Richtcharakteristik aufweist, kann an den Ohren des Hörers 17 zu einer unterschiedlichen Veränderung der jeweiligen Schalldruckpegel und mithin zu einer Veränderung des interauralen Pegelunterschiedes führen, wobei diese Änderung für den Hörer 17 wahrnehmbar sein kann.
-
Interaurale Zeitunterschiede können aus unterschiedlichen Laufzeiten zwischen einer Schallquelle und einem mit einer geringeren Entfernung bzw. mit einer größeren Entfernung angeordneten Ohr eines Hörers 17 resultieren, so dass eine von der Schallquelle emittierte Schallwelle eine größere Zeit zu dem weiter entfernt angeordneten Ohr benötigt. Eine Modifizierung der Metainformationen des virtuellen Quellenobjektes 12a oder 12b bspw. so dass das virtuelle Quellenobjekt an einem anderen Ort dargestellt wird, kann zu einer unterschiedlichen Veränderung der Abstände zwischen dem virtuellen Quellenobjekt und beiden Ohren des Hörers 17 und mithin zu einer Veränderung des interauralen Zeitunterschiedes führen, wobei diese Änderung für den Hörer 17 wahrnehmbar sein kann.
-
Eine nicht wahrnehmbare oder nicht störende Änderung des ILD, kann je nach reproduziertem Szenario zwischen 0,6 dB und 2 dB legen. Eine Variation eines ILD um 0,6 dB entspricht einer Abnahme des ILD von ca. 6,6% oder einer Zunahme um ca. 7,2%. Eine Änderung des ILD um 1 dB entspricht einer prozentualen Zunahme des ILD um ca. 12% bzw. einer prozentualen Abnahme um 11%. Eine Zunahme des ILD um 2 dB entspricht einer prozentualen Zunahme des ILD um ca. 26%, wohingegen eine Abnahme um 2 dB einer prozentualen Abnahme von 21% entspricht. Ein Wahrnehmungsgrenzwert für einen ITD kann von einem jeweiligen Szenario der akustischen Wiedergabeszene abhängig sein und bspw. 10, 20, 30 oder 40 μs betragen. Durch bei einer Modifikation der Metainformationen des virtuellen Quellenobjektes 12a oder 12b möglicherweise nur gering, d. h. im Bereich von einigen 0,1 dB, veränderten ILDs, kann eine Veränderung der ITDs möglicherweise von dem Hörer 17 möglicherweise früher wahrgenommen oder als störend empfunden werden als eine Veränderung des ILD.
-
Die Modifikation der Metainformationen beeinflusst die ILDs möglicherweise nur geringfügig, wenn der Abstand einer Schallquelle zum Hörer 17 gering verschoben wird. ITDs können aufgrund der früheren Wahrnehmbarkeit und der linearen Veränderung bei einem Positionswechsel eine strengere Einschränkung für eine nicht hörbare oder nicht störende Veränderung der reproduzierten Wiedergabeszene darstellen. Werden beispielsweise ITDs von 30 μs zugelassen, kann dies zu einer maximalen Änderung einer Quellenrichtung zwischen der Schallquelle und dem Hörer 17 von bis zu α1 = 3° für frontal, d. h. in einer Betrachtungsrichtung 32 oder einem Frontalbereich 34a, 34b des Hörers 17, angeordnete Schallquellen und/oder eine Veränderung von bis zu α2 = 10° für lateral, d. h. seitlich, angeordnete Schallquellen. Eine seitlich angeordnete Schallquelle kann sich in einem der Seitenbereiche 36a oder 36b befinden, die sich zwischen den Frontalbereichen 34a und 34b erstrecken. Die Frontalbereiche 34a und 34b können beispielsweise derart definiert sein, dass sich in einem Winkel von ±45° bezüglich der Blickrichtung 32 der Frontalbereich 34a des Hörers 17 und ±45° entgegen der Blickrichtung der Frontalbereich 34b erstreckt, sodass der Frontalbereich 34b im Rücken des Hörers angeordnet sein kann. Alternativ oder zusätzlich können die Frontalbereiche 34a und 34b auch einen kleinere oder größeren Winkel umfassen bzw. voneinander verschiedene Winkelbereiche umfassen, so dass beispielsweise der Frontalbereich 34a einen größeren Winkelbereich als der Frontalbereich 34b umfasst. Prinzipiell können Frontalbereiche 34a und 34b und/oder Seitenbereiche 36a und 36b unabhängig von einander zusammenhängend oder beabstandet zueinander angeordnet sein. Die Blickrichtung 32 kann bspw. durch einen Stuhl oder Sessel auf oder in welchem der Hörer 14 sitzt oder durch eine Richtung, in welcher der Hörer 17 auf eine Leinwand blickt beeinflusst sein.
-
In anderen Worten kann Vorrichtung 10 ausgebildet sein, um die Blickrichtung 32 des Hörers 17 zu berücksichtigen, so dass frontal angeordnete Schallquellen wie das virtuelle Quellenobjekt 12a um bis zu α1 = 3° und lateral angeordnete Schallquellen wie das virtuelle Quellenobjekt 12b um bis zu α2 = 10° bezüglich ihrer Richtung modifiziert werden. Gegenüber einem System, wie es in [SHK13] vorgeschlagen ist, kann Vorrichtung 10 eine bezüglich der virtuellen Quellenobjekte 12a und 12b individuelle Verschiebung eines Quellenobjektes ermöglichen, wohingegen in [SHK13] lediglich die reproduzierte Wiedergabeszene als ein Ganzes rotiert werden kann. In anderen Worten hat ein System, wie es bspw. [SHK13] beschrieben ist, keine Informationen über die gerenderte Szene sondern berücksichtigt Informationen über die erzeugten Lautsprechersignale. Vorrichtung 10 ändert die der Vorrichtung 10 bekannte gerenderte Szene.
-
Während Änderungen der reproduzierten Wiedergabeszene durch Änderung der Quellenrichtung um 3° bzw. 10° möglicherweise für den Hörer 17 nicht wahrnehmbar sind, ist es ebenfalls vorstellbar, wahrnehmbare Wechsel der reproduzierten Wiedergabeszene zu akzeptieren, die als nicht störend empfunden werden können. So kann bspw. eine Änderung des ITD um bis zu 40 μs oder 45 μs zugelassen werden. Zusätzlich kann bspw. eine Rotation der gesamten akustischen Szene um bis zu 23° von vielen oder den meisten Hörern als nicht störend empfunden werden [SHK13]. Dieser Grenzwert kann durch eine unabhängige Modifikation der individuellen Quellen oder Richtungen aus denen die Quellen wahrgenommen werden, um wenige bis einige Grad erhöht werden, so das seine Verschiebung der akustischen Wiedergabeszene um bis zu 28°, 30° oder 32° möglich sein kann.
-
Der Abstand 38 einer akustischen Quelle, wie etwa einem virtuellen Quellenobjekt, kann möglicherweise von einem Hörer nur ungenau wahrgenommen werden. Experimente zeigen, dass eine Variation des Abstandes 38 von bis zu 25% für Hörer in der Regel nicht wahrgenommen oder als störend empfunden wird, was eine eher starke Variation des Quellenabstandes erlaubt, wie es beispielsweise in [Bla97] beschrieben ist.
-
Eine Periode bzw. ein Zeitabstand zwischen Änderungen in der reproduzierten Wiedergabeszene kann einen konstanten oder variablen Zeitabstand zwischen einzelnen Änderungen aufweisen, wie etwa 5 Sekunden, 10 Sekunden oder 15 Sekunden, um eine hohe Audioqualität zu gewährleisten. Die hohe Audioqualität kann beispielsweise dadurch erreicht werden, dass ein Intervall von beispielsweise ca. 10 Sekunden zwischen Szenenänderungen bzw. Änderungen von Metainformationen einer oder mehrerer virtueller Quellenobjekte eine genügend hohe Dekorrelation der Lautsprechersignale ermöglicht und die Seltenheit der Änderungen bzw. Modifikationen dazu beiträgt, dass Änderungen der Wiedergabeszene nicht wahrnehmbar oder nicht störend sind.
-
Eine Variation oder Modifikation der Abstrahlcharakteristiken einer allgemeinen Mehrpolquelle kann die ITDs unbeeinflusst lassen, wohingegen die ILDs beeinflusst werden können. Dies kann beliebige Modifizierungen der Abstrahlcharakteristiken ermöglichen, die solange als von einem Hörer 17 unbemerkt oder als nicht störend wahrgenommen werden, solange die ILDs am Ort des Hörers kleiner gleich dem jeweiligen Schwellwert (0,6 dB bis 2 dB) sind.
-
Dieselben Grenzwerte können für eine monaurale Pegeländerung, d. h. bezüglich eines Ohres des Hörers 17, bestimmt werden.
-
Vorrichtung 10 ist ausgebildet, um ein ursprüngliches virtuelles Quellenobjekt 12a, mit einer zusätzlichen, abgebildeten virtuellen Quelle 12'a zu überlagern, die das gleiche oder ein ähnliches Quellensignal emittiert. In anderen Worten ist der Modifizierer 18 ausgebildet, um ein Abbild des virtuellen Quellenobjektes (12a) zu erstellen. Die abgebildete virtuelle Quelle 12'a kann in etwa an einer virtuellen Position P1 angeordnet sein, an welcher das virtuelle Quellenobjekt 12a ursprünglich angeordnet ist. Die virtuelle Position P1 weist einen Abstand 38 zu dem Hörer 17 auf. In anderen Worten kann die zusätzliche abgebildete virtuelle Quelle 12'a eine vom Modifizierer 18 erstellte abgebildete Version des virtuellen Quellenobjektes 12a sein, so dass die abgebildete virtuelle Quelle 12'a das virtuelle Quellenobjekt 12 ist. In anderen Worten kann das virtuelle Quellenobjekt 12a durch den Modifizierer 18 in das abgebildete virtuelle Quellenobjekt 12'a abgebildet worden sein. Das virtuelle Quellenobjekt 12a kann durch die Modifikation der Metainformationen bspw. an eine virtuelle Position P2 mit einem Abstand 42 zu dem abgebildeten virtuellen Quellenobjekt 12'a und einem Abstand 38' zu dem Hörer 17 bewegt werden. Alternativ oder zusätzlich ist vorstellbar, dass der Modifizierer 18 die Metainformationen des Abbildes 12'a modifiziert.
-
Ein Bereich 43 kann dargestellt werden, als eine Teilfläche eines Kreises mit einem Abstand 41 um das abgebildete virtuelle Quellenobjekt 12'a, der einen Abstand von zumindest dem Abstand 38 zu dem Hörer 17 aufweist. Ist der Abstand 38' zwischen dem modifizierten virtuellen Quellenobjekt 12a größer, als der Abstand 38 zwischen der abgebildeten virtuellen Quelle 12'a, sodass das modifizierte Quellenobjekt 12a innerhalb des Bereiches 43 angeordnet ist, kann das virtuelle Quellenobjekt 12a in dem Bereich 43 um das abgebildete virtuelle Quellenobjekt 12'a bewegt werden, ohne, dass das abgebildete virtuelle Quellenobjekt 12'a und das virtuelle Quellenobjekt 12 als separate akustische Objekte wahrgenommen werden. Der Bereich 43 kann bis zu 5, 10 oder 15 m um das abgebildete virtuelle Quellenobjekt 12'a herum reichen und von einem Kreis mit dem Radius R1, der dem Abstand 38 entspricht, begrenzt sein.
-
Alternativ oder zusätzlich kann Vorrichtung 10 ausgebildet sein, um den Präzedenz-Effekt, auch bekannt als Haas-Effekt auszunutzen, wie er in [Bla97] beschrieben ist. Gemäß einer Beobachtung von Haas kann eine akustische Reflexion einer Schallquelle, die bis zu 50 ms nach dem direkten, beispielweise unreflektierten, Anteil des Schalls bei dem Hörer 17 ankommt, nahezu perfekt in die räumliche Wahrnehmung der ursprünglichen Quelle aufgenommen werden. Das heißt, dass zwei voneinander getrennte akustische Quellen als eine wahrnehmbar sind.
-
3 zeigt eine schematische Übersicht zur Modifikation von Metainformationen verschiedener virtuellen Quellenobjekten 121–125 in einer Vorrichtung 30 zur Erzeugung einer Mehrzahl von dekorrelierten Lautsprechersignalen. Obwohl 3 und die zugehörigen Erläuterungen für eine klare Darstellung zweidimensional gehalten sind, gelten alle Beispiele auch für den dreidimensionalen Fall.
-
Das virtuelle Quellenobjekt 121 ist eine räumlich begrenzte Quelle, wie etwa eine Punktquelle. Die Metainformationen des virtuellen Quellenobjektes 121 können beispielsweise so modifiziert werden, dass das virtuelle Quellenobjekt 121 über mehrere Intervallschritte auf einer Kreisbahn bewegt wird.
-
Das virtuelle Quellenobjekt 122 ist ebenfalls eine räumlich begrenzte Quelle wie etwa eine Punktquelle. Eine Änderung der Metainformationen des virtuellen Quellenobjektes 122 kann beispielsweise derart erfolgen, dass die Punktquelle über mehrere Intervallschritte unregelmäßig in einem begrenzten Bereich oder Volumen bewegt wird. Das Wellenfeld der virtuellen Quellenobjekte 121 und 122 kann allgemein modifiziert werden, indem die Metainformationen modifiziert werden, so dass die Position des jeweiligen virtuellen Quellenobjektes 121 oder 122 modifiziert wird. Prinzipiell ist dies für ein beliebiges virtuelles Quellenobjekt mit einer begrenzten räumlichen Ausdehnung, wie etwa ein Dipol oder eine Quelle mit einer nierenförmigen Abstrahlcharakteristik, möglich.
-
Das virtuelle Quellenobjekt 123, repräsentiert eine ebene Schallquelle repräsentiert, und kann bezüglich der angeregten ebenen Welle variiert werden. Durch Modifikation der Metainformationen kann ein Abstrahlwinkel des virtuellen Quellenobjektes 123 und/oder ein Einfallswinkel auf den Hörer 17 beeinflusst werden.
-
Das virtuelle Quellenobjekt 124 ist ein virtuelles Quellenobjekt mit einer begrenzten räumlichen Ausdehnung, wie etwa eine Dipolquelle mit einer richtungsabhängigen Abstrahlcharakteristik, wie es durch die Kreislinien angedeutet ist. Zur Veränderung bzw. Modifikation der Metainformationen des virtuellen Quellenobjektes 124 kann die richtungsabhängige Abstrahlcharakteristik rotiert werden.
-
Für richtungsabhängige virtuelle Quellenobjekte, wie beispielsweise das virtuelle Quellenobjekt 125 mit einer nierenförmigen Abstrahlcharakteristik, können die Metainformationen so modifiziert werden, dass das Abstrahlmuster abhängig vom jeweiligen Zeitpunkt modifiziert ist. Für das virtuelle Quellenobjekt 125 ist dies beispielshaft durch einen Wechsel von einer nierenförmigen Abstrahlcharakteristik (durchgezogene Linie) zu einem hypernierenförmigen Richtcharakteristik (gestrichelte Linie) dargestellt. Für omnidirektionale virtuelle Quellenobjekte bzw. Schallquellen kann eine zusätzliche, zeitvariante richtungsabhängige Richtcharakteristik addiert bzw. erzeugt werden.
-
Die verschiedenen Möglichkeiten, wie etwa eine Änderung der Position eines virtuellen Quellenobjektes wie eine Punktquelle oder Quelle mit begrenzter räumlicher Ausdehnung, eine Änderung des Einfallswinkels einer ebenen Welle, eine Änderung der Abstrahlcharakteristik, eine Rotation der Abstrahlcharakteristik oder ein Hinzufügen einer richtungsabhängigen Richtcharakteristik zu einem omnidirektional abstrahlenden Quellenobjekt, können miteinander kombiniert werden. Hierbei können die Parameter, welche für das jeweilige Quellenobjekt als zu modifizieren gewählt oder bestimmt werden, beliebig und voneinander verschieden sein. Ferner kann die Art der Änderung der räumlichen Eigenschaften sowie eine Geschwindigkeit der Änderung derart gewählt werden, dass die Änderung der reproduzierten Wiedergabeszene entweder von einem Hörer unbemerkt bleibt oder bezüglich der Wahrnehmung durch den Hörer akzeptabel ist. Darüber hinaus können die räumlichen Eigenschaften für zeitlich individuelle Frequenzbereiche unterschiedlich variiert werden.
-
Im Nachfolgenden wird anhand von 4 unter Verweis auf 5c und 6c ein aus einer Vielzahl von möglichen Aufbauten zur Verifikation der erfindungsgemäßen Erkenntnisse beschrieben. 5c zeigt einen beispielhaften Verlauf einer Amplitudenoszillation eines virtuellen Quellenobjektes über die Zeit. In der 6c wird ein Signalmodell einer Erzeugung dekorrelierter Lautsprechersignale durch eine Veränderung bzw. Modifikation der akustischen Wiedergabeszene erläutert. Dabei handelt es sich um einen Prototypen zur Darstellung der Effekte. Der Prototyp ist bspw. bezüglich der verwendeten Lautsprecher und/oder Mikrophone, der Abmessungen und/oder Abstände zwischen Bauteilen experimentell aufgebaut.
-
4 zeigt eine schematische Anordnung von Lautsprechern und Mikrophonen in einem experimentellen Prototypen. Eine beispielhafte Anzahl von NL = 48 Lautsprechern ist in einem Lautsprechersystem 14S angeordnet. Die Lautsprecher sind äquidistant auf einer Kreislinie mit einem Radius von bspw. 1,5 m angeordnet, so dass sich ein beispielhafter Winkelabstand von 2π/48 = 7,5° ergibt. Eine exemplarische Anzahl von NM = 10 Mikrophonen ist in einem Mikrophonsystem 26S auf einer Kreislinie mit einem Radius RM von bspw. 0,05 m äquidistant angeordnet, so dass die Mikrophone einen Winkel von 36° zueinander aufweisen können. Für Testzwecke ist das Setup in einem Raum (Einhausung des LEMS) mit einer Nachhallzeit T60 von ca. 0,3 Sekunden angeordnet. Die Impulsantworten können mit einer Abtastfrequenz von 44,1 kHz gemessen, auf eine Abtastrate von 11025 Hz konvertiert und auf eine Länge von 1024 Messpunkten geschnitten werden, was der Länge der adaptiven Filter für das AEC entspricht. Das LEMS wird durch eine Faltung erhaltener Impulsantworten ohne Rauschen auf dem Mikrophonsignal (Near-End-Rauschen) oder lokalen Schallquellen innerhalb des LEMS simuliert. Diese idealen Laborbedingungen werden ausgewählt, um den Einfluss der vorgeschlagenen Methode auf die Konvergenz des Adaptionsalgorithmus von anderen Einflüssen zu trennen. Weitere Experimente, bspw. mit modelliertem Near-End-Rauschen können zu äquivalenten Ergebnissen führen.
-
Das Signalmodell wird in 6c erläutert. Dort werden die dekorrelierten Lautsprechersignale x'(k) in das LEMS H eingegeben, welches dann durch eine Übertragungsfunktion Hest(n) basierend auf den Beobachtungen der dekorrelierten Lautsprechersignale x'(k) und den resultierenden Mikrophonsignalen d(k) identifiziert werden können. Die Fehlersignale e(k) können Reflektionen von Lautsprechersignalen an der Einhausung, wie etwa das verbleibende Echo erfassen. Für das AEC kann ein generalisierter adaptive Filteralgorithmus im Frequenzbereich mit einem exponentiellen Gedächtnisfaktor λ = 0,95, einer Schrittweite μ = 0,5 (mit 0 ≤ μ ≤ 1) und einer Rahmenverschiebung von LF = 512 genutzt, wie es in [SHK13], [BBK03] vorgeschlagen wird, angewendet werden.
-
Ein Maß für die erreichte Systemidentifikation ist als normierter Systemabstand (Normalized Misalignment – NMA) bezeichnet und kann durch die Berechnungsvorschrift
berechnet werden, wobei ||·||
F die Frobenius-Norm bezeichnet und N der Blockzeitindex ist. Ein geringer Wert des Systemabstandes bezeichnet eine Systemidentifikation (Schätzung) mit einer geringen Abweichung zum realen System.
-
Die Relation zwischen n und k kann durch n = floor(k/LF) angegeben werden, wobei floor(·) der „floor”-Operator bzw. die Gaußklammer ist, also der Quotient abgerundet wird. Zusätzlich kann ein erreichte Echounterdrückung betrachtet werden, die bspw. mittels des Echo Return Loss Enhancement (ERLE) beschrieben werden kann, um eine bessere Vergleichbarkeit zu [SHK13] zu ermöglichen.
-
Die ERLE ist definiert als
wobei ||·||
2 die Euklidische Norm beschreibt.
-
In einem ersten Experiment werden die Lautsprechersignale gemäß der Theorie zur Wellenfeldsynthese, wie sie bspw. in [BDV93] vorgeschlagen ist, bestimmt, um vier ebene Wellen gleichzeitig mit um α
q variierenden Einfallswinkeln zu synthetisieren. α
q ist durch 0, π/2, π und 3π/2 für die Quellen q = 1, 2, ..., N
S = 4 gegeben. Die resultierenden zeitvarianten Einfallswinkel können durch
beschrieben werden, wobei φ
a die Amplitude der Einfallswinkeloszillation und L
P die Periodendauer der Einfallswinkeloszillation ist, wie sie exemplarisch in
5c veranschaulicht wird. Für die Quellensignale wurden untereinander unkorrelierte Signale weißen Rauschens verwendet, so dass alle 48 Lautsprecher mit einer gleichen durchschnittlichen Leistung betrieben werden können.
-
Obwohl Rauschsignale zur Ansteuerung von Lautsprechern möglicherweise in der Praxis kaum relevant sind, kann dieses Szenario eine klare und prägnante Bewertung des Einflusses von φa erlauben. In Anbetracht, dass beispielhaft lediglich vier unabhängige Signalquellen (NS = 4) und 48 Lautsprecher (NL = 48) angeordnet sind, bzw. verwendet werden, ist die Aufgabe und das Gleichungssystem der Systemidentifikation massiv unterbestimmt, so dass ein hoher normierter Systemabstand (NMA) erwartet werden kann.
-
Der Prototyp kann Ergebnisse der NMA erzielen, die den Stand der Technik übertreffen können und kann so zu einer besseren akustischen Wiedergabe von WFS oder HOA führen.
-
In nachfolgender 5 werden die Ergebnisse des Experiments graphisch dargestellt.
-
5a zeigt die ERLE für die vier Quellen des Prototypen. Dabei zeigt Plot 1: φa = π/48, Plot 2: πa = 4π/48, Plot 3: φa = 8π/48 und Plot 4: φa = 0. Für Plot 4 und mithin für φa = 0 kann die ERLE bis zu ca. 58 dB erreicht werden.
-
5b zeigt den erreichten normierten Systemabstand mit den identischen Werten für φa in den Plots 1 bis 4. Der Systemabstand kann Werte von bis zu ca. –16 dB erreichen, was gegenüber Werten von –6 dB, die in [SHK13] erreicht werden, zu einer deutlichen Verbesserung der Systembeschreibung des LEMS führen kann.
-
5c zeigt einen Plot an welchem an der Abszisse die Zeit und an der Ordinate die Werte der Amplitudenoszillation φa angegeben sind, so dass die Periodendauer LP ablesbar ist.
-
Die Verbesserung gegenüber [SHK13] von bis zu 10 dB bezüglich des normierten Systemabstandes kann zumindest teilweise dadurch erklärt werden, dass der Ansatz, wie er in [SHK13] vorgeschlagen ist, mit räumlich bandbegrenzten Lautsprechersignalen arbeitet. Die räumliche Bandbreite einer natürlichen akustischen Szene ist im Allgemeinen zu groß, als dass die Szene von den (in begrenztem Umfang) bereitgestellten Lautsprechersignalen und Lautsprechern perfekt, d. h. ohne Abweichungen, wiedergegeben werden kann. Durch eine künstliche, d. h. gesteuerte, Bandbegrenzung, wie etwa bei HOA, kann eine räumlich bandbegrenzte Szene erhalten werden. In alternativen Verfahren, wie etwa bei WFS, kann ein Auftreten von Aliasing-Effekten in Kauf genommen werden, um eine bandbegrenzte Szene zu erhalten. Vorrichtungen, wie sie in den 1 und 2 vorgeschlagen sind, können mit einer räumlich nicht oder kaum bandbegrenzten virtuellen Wiedergabeszene arbeiten. In [SHK13] werden Aliasing-Artefakte der WFS, die bereits in den Lautsprechersignalen erzeugt oder eingefangen sind, schlicht mit der reproduzierten Wiedergabeszene rotiert, so dass Aliasing-Effekte zwischen den virtuellen Quellenobjekten bestehen bleiben können. In den 5 und 6 können die Anteile der individuellen WFS Aliasing-Therme in den Lautsprechersignalen mit einer Rotation der virtuellen Wiedergabeszene durch eine individuelle Modifikation der Metainformationen einzelner Quellenobjekte variieren. Dies kann zu einer stärkeren Dekorrelation führen. Die 5a–c zeigen, dass die Systemidentifikation mit einer größeren Rotationsamplitude φa eines virtuellen Quellenobjektes der akustischen Szene verbessert werden kann, wie es in Plot 3 der 5b gezeigt ist, wobei eine Reduktion des NMA möglicherweise auf Kosten einer reduzierten Echounterdrückung erzielt werden kann, wie es die Plots 1–3 in 5a gegenüber dem Plot 4 (ohne Rotationsamplitude) zeigen. Jedoch verbessert sich die Echounterdrückung für dekorrelierte Lautsprechersignale (φa > 0) über die Zeit, wohingegen die Systemidentifikation für unveränderte Lautsprechersignale (φa = 0) dies nicht tut.
-
Nachfolgend werden in den 6a–c verschiedene Arten der Systemidentifikation beschrieben. In 6a wird ein Signalmodell einer Systemidentifikation eines Multiple Input Multiple Output (MIMO) Systems beschrieben, bei der das Mehrdeutigkeitsproblem auftreten kann. In 6b wird ein Signalmodell einer MIMO Systemidentifikation mit einer Dekorrelation der Lautsprechersignale gemäß dem Stand der Technik beschrieben. 6c zeigt ein Signalmodell einer MIMO Systemidentifikation mit einer Dekorrelation von Lautsprechersignalen, wie sie beispielsweise mit einer Vorrichtung der 1 oder der 2 erzielbar ist.
-
In
6a wird das LEMS H durch H
est(n) bestimmt bzw. geschätzt, wobei H
est(n) durch Beobachtung der Lautsprechersignale x(k) und der Mikrophonsignale d(k) bestimmt bzw. geschätzt wird. H
est(n) kann bspw. eine mögliche Lösung eines unterbestimmten Gleichungssystems sein. Die Vektoren, die die Lautsprechersignale erfassen, sind definiert durch
xl(k) = (xl(k – LX + 1), xl(k – LX + 2), ..., xl(k))T, (2) wobei L
X die Länge der individuellen Komponentenvektoren x
l(k) beschreibt, welche die Abtastungen x
l(k) des Lautsprechersignals l zum Zeitpunkt k erfassen. Gleichermaßen können die Vektoren, die die erfassten Mikrophonsignale L
D beschreiben, als Aufnahmen zu bestimmten Zeitpunkten für jeden Kanal und definiert sein als
dm(k) = (dm(k – LD + 1), dm(k – LD + 2), ..., dm(k))T. (4)
-
Das LEMS kann dann durch eine lineare MIMO Filterung beschrieben werden, die ausgedrückt werden kann als:
d(k) = Hx(k), (5) wobei die individuellen Aufnahmen der Mikrophonsignale durch
erhalten werden können. Die Impulsantworten h
m,l(k) des LEMS mit der Länge L
H können das zu identifizierende LEMS beschreiben. Um die individuellen Aufnahmen der Mikrophonsignale durch die lineare MIMO Filterung auszudrücken, kann die Beziehung von L
X und L
D mit L
X = L
D + L
H – 1 definiert werden. Die Lautsprechersignale x(k) können durch ein Wiedergabesystem basierend auf WFS, Higher-Order Ambisonics oder einem ähnlichen Verfahren erhalten werden. Das Wiedergabesystem kann eine bspw. lineare MIMO Filterung einer Anzahl von N
S virtuellen Quellensignalen
s °(k). Die virtuellen Quellensignale
s °(k) können durch den Vektor
s °q(k) = (s °q(k – LS + 1), s °q(k – LS + 2), ..., s °q(k))T. (8)
-
Dargestellt werden, wobei L
S bspw. eine Länge des Signalsegments der individuellen Komponente
s °q(k) ist und
s °q(k) das Ergebnis einer Abtastung der Quelle q zum Zeitpunkt k ist. Eine Matrix G kann das Rendering System darstellen und so strukturiert sein, dass
x(k) = Gs °(k), (9) die Faltung der Quellensignale
s °q(k) mit der Impulsantwort g
l,q(k) beschreibt. Dies kann genutzt werden, um die Lautsprechersignale x
l(k) aus den Quellensignalen
s °q(k) gemäß der Berechnungsvorschrift
zu beschreiben. Die Impulsantworten g
l,q(k) haben bspw. eine Länge von L
R Abtastungen und repräsentieren R(l, q, ω) im diskreten Zeitbereich.
-
Das LEMS kann derart identifiziert werden, dass ein Fehler e(k) der Systemschätzung Hest(n) durch e(k) = d(k) – Hest(n) × (k) (11) bestimmbar sein kann und bezüglich einer entsprechenden Norm, wie etwa der Euklidischen oder einer geometrischen Norm, minimiert wird. Wird die Euklidische Norm ausgewählt, können die bekannten Wiener-Hopf Gleichungen resultieren. Werden lediglich Finite Impulse Response(FIR)-Filter für die Systemantworten betrachtet, können die Wiener-Hopf Gleichungen in Matrixnotation in der Form RxxH H / est(n) = Rxd (12) mit Rxd = ε{x(k)dH(k)} (13) geschrieben bzw. dargestellt werden, wobei Rxd bspw. die Korrelationsmatrix der Lautsprecher- und Mikrophonsignale ist. Hest(n) kann nur eindeutig sein, wenn die Korrelationsmatrix Rxx der Lautsprechersignale vollen Rang hat. Für Rxx kann die folgende Relation erhalten werden: Rxx = ε{x(k)xH(k) = GRssGH, (14) wobei Rss bspw. die Korrelationsmatrix der Quellensignale gemäß Rss = ε{s °(k)s °H(k)}. (1) ist. Daraus kann LS = LX + LR – 1 folgen, so dass Rss die Dimension NS(LX + LR – 1) × NS(LX + LR – 1) hat, während Rxx die Dimension NLLX × NLLX hat. Eine notwendige Bedingung dafür, dass Rxx vollen Rang hat, ist NLLX ≤ NS(LX + LR – 1), (16) wobei die virtuellen Quellen zumindest unkorrelierte Signale tragen und an verschiedenen Positionen positioniert sind.
-
Wenn die Anzahl der Lautsprecher NL die Anzahl an virtuellen Quellen NS überschreitet, kann das Mehrdeutigkeitsproblem auftreten. In der nachfolgenden Betrachtung wird der Einfluss der Impulsantwortlängen LX und LR vernachlässigt.
-
Das Mehrdeutigkeitsproblem kann zumindest teilweise aus der starken gegenseitigen Kreuzkorrelation der Lautsprechersignale resultieren, die unter anderem in der geringeren Anzahl der virtuellen Quellen begründet sein kann. Ein Auftreten des Mehrdeutigkeitsproblems kann wahrscheinlicher sein, je mehr Kanäle für das Wiedergabesystem genutzt werden, unter anderem wenn die Anzahl der virtuellen Quellenobjekte kleiner ist als die Anzahl der in dem LEMS verwendeten Lautsprecher. Behelfslösungen nach dem Stand der Technik zielen auf eine Änderung der Lautsprechersignale, so dass der Rang von Rxx erhöht ist oder die Konditionszahl von Rxx verbessert ist.
-
6b zeigt ein Signalmodell eines Verfahrens zur Systemschätzung und zur Dekorrelation von Lautsprechersignalen. Korrelierte Lautsprechersignale x(k) können bspw. durch Dekorrelationsfilter und/oder rauschbasierte Ansätze in dekorrelierte Lautsprechersignale x'(k) überführt werden. Die beiden Ansätze können gemeinsam oder getrennt voneinander angewendet werden. Ein Block 44 (Decorr. filter) der 6b beschreibt eine Filterung der Lautsprechersignale xl(k), die für jeden Lautsprecher mit Index l differiert und nichtlinear sein kann, wie es bspw. in [MHB01, BMS98] beschrieben ist. Alternativ kann die Filterung linear, jedoch zeitvariant sein, wie es bspw. in [SHK13, Ali98, HBK07, WWJ12] vorgeschlagen ist. Die rauschbasierten Ansätze, wie sie in [SMH95, GT98, GE98] vorgeschlagen sind, können durch eine Addition von unkorreliertem Rauschen, angedeutet durch n(k) repräsentiert werden. Diese Ansätze haben gemeinsam, dass sie die virtuellen Quellensignale s °(k) und das Rendering System G vernachlässigen bzw. unverändert lassen. Sie bearbeiten lediglich die Lautsprechersignale x(k).
-
6c zeigt ein Signalmodell einer MIMO Systemidentifikation mit einer Lautsprecherdekorrelation, wie sie in den 1 und 2 beschrieben ist. Eine notwendige Voraussetzung für eine eindeutige Systemidentifikation ist mit NLLX ≤ NS(LX + LR – 1), (16) gegeben. Diese Bedingung gilt unabhängig von den tatsächlichen räumlichen Eigenschaften, wie physikalische Abmessungen oder Abstrahlcharakteristik der virtuellen Quellenobjekte. Die jeweiligen virtuellen Quellenobjekte sind dabei an von einander verschieden Positionen in dem jeweiligen Wiedergaberaum positioniert. Jedoch können verschiedene räumliche Eigenschaften der virtuellen Quellenobjekte verschiedene Impulsantworten benötigen, die in G darstellbar sind. Gemäß Rxx = ε{x(k)xH(k)} = GRssGH, (14) bestimmt G die Korrelationseigenschaften der Lautsprechersignale x(k), beschrieben durch Rxx. Dadurch können wegen der Mehrdeutigkeit verschiedene Mengen von Lösungen für Hest(n) gemäß RxxH H / est(n) = Rxd (12) existieren, abhängig von den räumlichen Eigenschaften der virtuellen Quellenobjekte. Da alle Lösungen aus dieser Menge von Lösungen die perfekte Identifikation Hest(n) = H beinhalten, unabhängig von Rxx, kann ein variierendes Rxx für eine Systemidentifikation, wie sie in [SHK13] beschrieben ist, vorteilhaft sein.
-
Eine Änderung der räumlichen Eigenschaften von virtuellen Quellenobjekten kann ausgenutzt werden, um die Systemidentifikation zu verbessern. Dies wird ermöglicht, indem ein zeitvariantes Rendering System, darstellbar durch G'(k), umgesetzt wird. Das zeitvariante Rendering System G'(k) umfasst den Modifizierer 18, wie er bspw. in 1 erläutert ist, um die Metainformationen der virtuellen Quellenobjekte und mithin die räumlichen Eigenschaften der virtuellen Quellenobjekte zu modifizieren. Das Rendering System der Renderer 22 stellen Lautsprechersignale basierend auf den vom Modifizierer 18 modifizierten Metainformationen bereit, um die Wellenfelder von verschiedenen virtuellen Quellenobjekten, wie beispielsweise Punktquellen, Dipolquellen, ebenen Quellen oder Quellen mit nierenförmiger Abstrahlcharakteristik wiederzugeben.
-
Im Unterschied zu den Beschreibungen bezüglich des Renderingsystems G in den 6a und 6b ist G'(k) der 6c von dem Zeitschritt k abhängig und kann für verschiedene Zeitschritte k variabel sein. Der Renderer 22 produziert die dekorrelierten Lautsprechersignale x'(k) direkt, so dass auf ein Hinzufügen von Rauschen oder einen Dekorrelationsfilter verzichtet werden kann. Die Matrix G'(k) kann für jeden Zeitschritt k gemäß dem gewählten Wiedergabeschema bestimmt werden, wobei die Zeitpunkte k eine zeitliche Differenz zueinander aufweisen.
-
Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar.
-
Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein. Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
-
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft. Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.
-
Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert ist.
-
Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft. Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist.
-
Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahin gehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden.
-
Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.
-
Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
-
Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
-
Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei.
-
Literatur
-
- [Ali98] ALI, M.: Stereophonie Acoustic Echo Cancellation System Using Time Varying All-Pass filtering for signal decorrelation. In: IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) Bd. 6. Seattle, WA, May 1998, S. 3689–3692
- [BBK03] BUCHNER, H.; BENESTY, J.; KELLERMANN, W.: Multichannel Frequency Domain Adaptive Algorithms with Application to Acoustic Echo Cancellation. In: BENESTY, J. (Hrsg.); HUANG, Y. (Hrsg.): Adaptive Signal Processing: Application to Real-World Problems. Berlin : Springer, 2003
- [BDV93] BERKHOUT, A. J.; DE VRIES, D.; VOGEL, P.: Acoustic control by wave field synthecsis. In: J. Acoust. Soc. Am. 93 (1993), Mai, S. 2764–2778
- [BLA97] Blauert, Jens: Spatial Hearing: the Psychophysics of Human Sound Localization. MIT press, 1997
- [BMS98] BENESTY, J.; MORGAN, D. R.; SoNDHI, M. M.: A better understanding and an improved solution to the specific problems of stereophonic acoustic echo cancellation. In: IEEE Trans. Speech Audio Process. 6 (1998), March, Nr. 2, S. 156–165
- [Dan03] DANIEL, J.: Spatial sound encoding including near field effect: Introducing distance coding filters and a variable, new ambisonic format. In: 23rd International Conference of the Audio Eng. Soc„ 2003
- [GE98] GÄNSLER, T.; ENEROTH, P.: Influence of audio coding on stereophonic acoustic echo cancellation. In: IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP) Bd. 6. Seattle, WA, May 1998, S. 3649–3652
- [GT98] GILLOIRE, A.; TURBIN, V.: Using auditory properties to improve the behaviour of stereophonic acoustic echo cancellers. In: IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP) Bd. 6. Seattle, WA, May 1998, S. 3681–3684
- [HBK07] HERRE, J.; BUCHNER, H.; KELLERMANN, W.: Acoustic Echo Cancellation for Surround Sound using Perceptually Motivated Convergence Enhancement. In: IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP) Bd. 1. Honolulu, Hawaii, April 2007, S. I-17–I-20
- [MHBOI] MORGAN, D. R.; HALL, J. L.; BENESTY, J.: Investigation of several types of nonlinearities for use in stereo acoustic echo cancellation. In: IEEE Trans. Speech Audio Process. 9 (2001), September, Nr. 6, S. 686–696
- [SHK13] SCHNEIDER, M.; HUEMMER, C.; KELLERMANN, W.: Wave-Domain Loudspeaker Signal Decorrelation for System Identification in Multichannel Audio Reproduction Scenarios. In: IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP). Vancouver, Canada, May 2013
- [SMH95] SoNDHI, M. M.; MORGAN, D. R.; HALL, J. L.: Stereophonie acoustic echo cancellation – An overview of the fundamental problem. In: IEEE Signal Process. Lett. 2 (1995), August, Nr. 8, S. 148–151
- [WWJ12] WUNG, J.; WADA, T. S.; JUANG, B. H.: Inter-channel decorrelation by sub-band resampling in frequency domain. In: International Workshop on Acoustic Signal Enhancement {IWAENC). Kyoto, Japan, March 2012, S. 29–32
- [Bla97] Blauert, Jens: Spatial Hearing: the Psychophysics of Human Sound Localization. MIT press, 1997]
-
Verwendete Abkürzungen
-
-
- AEC
- Akustische Echounterdrückung (acoustic echo cancellation)
- FIR
- finite impulse response
- HOA
- Higher-Order Ambisonics
- ILD
- interauraler Pegelunterschied (interaural level difference)
- ITD
- interauraler Zeitunterschied (interaural time difference)
- LEMS
- Lautsprecher-Einhausungs-Mikrophon-System
(loudspeaker-enclosure-microphone system)
- IRE
- Hörraumentzerrung (listening room equalization)
- MIMO
- multi-input multi-Output
- WFS
- Wellenfeldsynthese (wave field synthesis)