DE102017121876A1

DE102017121876A1 - Verfahren und vorrichtung zur formatumwandlung eines mehrkanaligen audiosignals

Info

Publication number: DE102017121876A1
Application number: DE102017121876.9A
Authority: DE
Inventors: Johannes Boehm; Dirk Olszewski
Original assignee: Paragon AG
Current assignee: Paragon AG
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2019-03-21

Abstract

Bei dem erfindungsgemäßen Verfahren zur Formatumwandlung eines mehrkanaligen Audiosignals, wird ein Eingangsaudiosignal (x̂(t)) mit mehreren Audiokanälen empfangen, wobei die einzelnen Audiokanäle für eine Lautsprecherwiedergabe jeweils unterschiedlichen Lautsprechern zugeordnet sind. Das Eingangsaudiosignal (x̂(t)) wird in ein transformiertes Signal (x(t̂, k)) im Zeit/Frequenzbandbereich transformiert. Aus dem transformierten Signal werden (x(t̂, k)) eine direktionale Signalkomponente (s(t, k)) mit zugehörigem Richtungswert (φ(t̂, k)) und zugehörigem Vertrauenswert für die Direktivität (d_d(t̂, k)) sowie mehrere diffuse Signalkomponenten (n(t̂, k), n_TF(t̂, k) , n_TB(t̂, k)) extrahiert. Aus den extrahierten Signalkomponenten (s(t, k), n(t̂, k), n_TF(t̂, k), n_TB(t̂, k)) wird unter Verwendung des Richtungswerts (φ(t̂, k)) und des Vertrauenswerts für die Direktivität (d_d(t̂, k)) ein Signal (b_M(t̂, k)) erzeugt, das mindestens einen neuen Audiokanal aufweist, der für eine Lautsprecherwiedergabe einem zusätzlichen Lautsprecher zugeordnet ist. Das erzeugte Signal (b_M(t̂, k)) wird in ein Ausgangsaudiosignal (b_M(t)) im Zeitbereich transformatiert und das Ausgangsaudiosignal (b_M(t)) ausgegeben.

Description

Die vorliegende Erfindung betrifft ein Verfahren Formatumwandlung eines mehrkanaligen Audiosignals. Die vorliegende Erfindung betrifft weiterhin eine Vorrichtung zur Durchführung des Verfahrens und ein Audiosignal, das nach einem erfindungsgemäßen Verfahren oder mit einer erfindungsgemäßen Vorrichtung erzeugt worden ist.
Mehrkanalige Audiosignale werden neben einer Übertragung und Wiedergabe von verschiedenen Sprachfassungen Fernsehen-und Kinofilme vor allem verwendet, um mithilfe von mehreren Schallquellen einen räumlichen Höreindruck zu erzeugen. Im einfachsten Fall können hierbei die beiden Kanäle eines Stereosignals auf zwei Lautsprechern ausgegeben werden. Hierbei wird auch von 1D-Audio gesprochen, da ein Hörer die durch das Stereosignal wiedergegebenen Schallquellen so wahrnimmt, als wenn diese an dem Ort des linken oder rechten Lautsprechers eines Stereolautsprecherpaars oder auf einer Gerade, die durch das Stereolautsprecherpaar verläuft, angeordnet wären.
Ein besserer räumlicher Höreindruck kann durch die Ausgabe zusätzliche Audiokanäle über weitere Lautsprecher generiert werden, die in einer Horizontalebene um den Hörer herum positioniert werden und üblicherweise als Surround-Lautsprecher bezeichnet werden. Für solche 2D-Audiosignale ist das Surround-Format 5.1 weitverbreitet. Fünf Hauptkanäle und ein separater Tieftoneffektkanal werden separat gespeichert, übertragen und wiedergegeben. Hierbei werden Hauptlautsprecher, die links (L), in der Mitte (C) und rechts (R) angeordnet sind, durch Surroundlautsprecher links hinten (Ls) und rechts hinten (Rs) und einen Tieftonlautsprecher (LFE, „Low Frequency Effects“ oder auch „Low Frequency Enhancement“) ergänzt. Der LFE-Kanal wird hierbei dazu verwendet, niederfrequente Töne, die vom menschlichen Ohr nicht lokalisiert werden können, zu übertragen und wird wegen der begrenzten Bandbreite bei der Bezeichnung des Mehrkanalsystems nicht als vollwertiger Kanal aufgeführt und durch ein angehängtes „.1" gekennzeichnet.
Durch weitere Audiokanäle, die nicht in einer gemeinsamen Horizontalebene sondern in unterschiedlichen Höhen bezogen auf den Hörer liegen und durch entsprechend angeordnete zusätzliche Lautsprecher wiedergegeben werden, kann der räumliche Höreindruck gegenüber zweidimensionalen Audio-Formaten weiter optimiert werden und ein naturgetreues dreidimensionales Klangbild erzeugt werden. Auch für dieses sogenannte 3D-Audio sind verschiedene Formate bekannt. Bei dem 3D-Audioformat 9.1 beispielsweise wird das Surround-Format 5.1 durch vier Höhenlautsprecher ergänzt. Hierbei wird über den vier Ecklautsprechern L, R, Ls und Rs des Surround-Formats jeweils ein Höhenlautsprecher Ltf, Rtf, Ltb und Rtb angeordnet.
Da 3D-Audio-Formate erst seit wenigen Jahren eingesetzt werden und sich erst jetzt im Kino, im Heimbereich und im Auto vermehrt etablieren, sind Audioinhalte in diesem Format noch nicht in großem Umfang verfügbar. Dagegen sind Audioinhalte in 1D- und 2D-Formaten weit verbreitet. Um zusätzliche 3D-Audio Inhalte zur Verfügung zu stellen und dem Hörer ein 3D-Erlebnis zu ermöglichen, kann aus existierenden Audioinhalten durch Aufwärtsmischung (einen sogenannten Upmix) ein 3D-Audiosignal erzeugt werden.
Eine Mitte-Seite-Analyse eines Stereos-Signals wird bei Matrix-Surround und Prologic-Ansätzen zum Upmix auf ein Surround-Signal genutzt. Mit Prologic IIz wurde dieser Ansatz erweitert für einen Upmix auf 5.1 Surround-Kanäle und zwei zusätzliche Höhenkanäle. Dieses ist beschrieben in N. Tsingos, C. Chabanne, C. Robinson, M. McCallus, „Surround sound with height in games using Dolby Pro Logic IIz", AES 41ST INTERNATIONAL CONFERENCE, London, UK, 2011 February 2-4.
Lösungen für einen Stereo- auf Surround-Upmix, die auf einem Stereo-Signalmodel mit eingemischten direktionalen und diffusen bzw. ambienten Signalen beruhen und eine Verarbeitung im Zeit/Frequenzbereich benötigen, sind unter anderem offenbart in:

M. M. Goodwin and J. M. Jot, „Spatial audio scene coding," in Proc.125th Audio Eng. Soc. Conv., San Francisco, Ca, USA, 2008;
J. Thompson, B. Smith, A. Warner, and J. M. Jot, „Direct-diffuse decomposition of multichannel signals using a system of pair-wise correlations," in Proc. 133rd Audio Eng. Soc. Conv., San Francisco, CA, 2012;
C. Faller, „Multiple-loudspeaker playback of stereo signals," J. Audio Eng. Soc., vol. 54, no. 11, pp. 1051-1064, Nov. 2006; und
Ville Pulkki „Spatial Sound Reproduction with Directional Audio Coding", Journal of the AES, 55(6):503-516, June 2007. Erweiterungen für den Upmix auf 3D-Audiosignale, die Signaldekorrelatoren für die Höhenkanäle nutzen, werden vorgestellt in:
A. Walther and C. Faller, „Direct-ambient decomposition and upmix of surround signals," in Proc. IWASPAA, New Paltz, NY, USA, Oct.2011, pp. 277-280;
Vinton, Mark; McGrath, David; Robinson, Charles; Brown, Phillip, „Next Generation Surround Decoding and Upmixing for Consumer and Professional Applications", AES 57th International Conference: The Future of Audio Entertainment Technology - Cinema, Television and the Internet (March 2015);
Choi, Sunwoong; Hyun, Dong-il; Park, Young-cheol; Lee, Seokpil; Youn, Dae Hee, „Blind Upmixing for Height and Wide Channels Based on Image Source Method", AES 133rd Convention, San Francisco, CA, USA, 2012 October 26-29;
Sebastian Kraft, Udo Zölzer, „Low-complexity stereo signal decomposition and source separation for application in stereo to 3D upmixing", AES 140th Convention, Paris, France, 2016 June 4-7.

Eine Frequenzbewertung bzw. -filterung der Höhenkanäle, die diese als solche besser wahrnehmbar machen soll, wird beschrieben in dem letztgenannten Tagungsbeitrag von Sebastian Kraft und Udo Zölzer sowie in:

Hyunkook Lee, „2D to 3D Upmixing based on Perceptual Band Allocation (PBA)", AES 136th Convention, Berlin, Germany, 2014 April 26-29.

Es ist eine Aufgabe der Erfindung, ein verbessertes Verfahren und eine verbesserte Vorrichtung zur Formatumwandlung eines mehrkanaligen Audiosignals, insbesondere zur Umwandlung eines 1D-oder 2D-Audioformats in ein 3D-Audioformat, zur Verfügung zu stellen.
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 sowie durch eine entsprechende Vorrichtung gemäß Anspruch 10 gelöst. Bevorzugte Ausgestaltungen der Erfindung sind Gegenstand der abhängigen Ansprüche.
Bei dem erfindungsgemäßen Verfahren zur Formatumwandlung eines mehrkanaligen Audiosignals wird ein Eingangsaudiosignal mit mehreren Audiokanälen empfangen, wobei die einzelnen Audiokanäle für eine Lautsprecherwiedergabe jeweils unterschiedlichen Lautsprechern zugeordnet sind. Das Eingangsaudiosignal wird in ein transformiertes Signal im Zeit/Frequenzbandbereich transformiert. Aus dem transformierten Signal werden eine direktionale Signalkomponente mit zugehörigem Richtungswert und zugehörigem Vertrauenswert für die Direktivität sowie mehrere diffuse Signalkomponenten extrahiert. Aus den extrahierten Signalkomponenten wird unter Verwendung des Richtungswerts und des Vertrauenswerts für die Direktivität ein Signal erzeugt, das mindestens einen neuen Audiokanal aufweist, der für eine Lautsprecherwiedergabe einem zusätzlichen Lautsprecher zugeordnet ist. Das erzeugte Signal wird in ein Ausgangsaudiosignal im Zeitbereich transformatiert und das Ausgangsaudiosignal ausgegeben.
Das erfindungsgemäße Verfahren ermöglicht durch die Extraktion von diffusen und direktionalen Signalkomponenten eine direkte Verarbeitung in einer flexiblen Renderereinheit, die Signale für unterschiedliche Lautsprecheranordnungen aufbereiten kann. Ferner benötigt das erfindungsgemäße Verfahren wenig Rechenleistung und hat einen geringen Speicherbedarf, da keine Signaldekorrelatoren benötigt werden, und ist damit auf Signalprozessoren oder anderen Prozessoren einfach realisierbar. Weiterhin können mit dem erfindungsgemäßen Verfahren auch direktionale Signale extrahiert und gerendert werden, deren virtuelle Quelle hinter der Hörposition liegt.
Vorzugsweise werden aus dem transformierten Signal drei diffuse Zweikanal-Signalkomponenten extrahiert.
Gemäß einer Ausführungsform der Erfindung ist das Eingangsaudiosignal ein digitales Zweikanal-Stereosignal, das in ein Ausgangsaudiosignal mit mehr als zwei Kanälen hochgemischt wird.
Gemäß einer weiteren Ausführungsform der Erfindung wurde das digitale Zweikanal-Stereosignal aus dem Heruntermischen von mehr als zwei Audiokanälen eines Surroundsignals gewonnen.
Gemäß einer nochmals weiteren Ausführungsform der Erfindung sind die Audiokanäle des Eingangsaudiosignals Lautsprechern zugeordnet, die in einer horizontalen ersten Lautsprecherebene angeordnet sind, wobei der mindestens eine neue Audiokanal des Ausgangsaudiosignals einem zusätzlichen Lautsprecher zugeordnet ist; der in einer über der ersten Lautsprecherebene liegenden zweiten Lautsprecherebene angeordnet ist.
Vorteilhafterweise ist das Eingangsaudiosignal hierbei ein digitales Zweikanal-Stereosignal oder ein 5-Kanal-Surroundsignal, das in ein Ausgangsaudiosignal mit neun Audiokanälen hochgemischt wird, das vier Audiokanäle in der zweiten Lautsprecherebene aufweist.
Weiterhin ist es von Vorteil, wenn zum Erzeugen des Signals aus den ermittelten Signalkomponenten einstellbare Mischkoeffizienten verwendet werden. Dieses erlaubt eine Optimierung der Lautsprecherwiedergabe um insbesondere eine Anpassung an den geplanten Wiedergaberaum vornehmen zu können.
Entsprechend umfasst eine erfindungsgemäße Vorrichtung zur Formatumwandlung eines mehrkanaligen Audiosignals einen Eingang, über den ein Eingangsaudiosignal mit mehreren Audiokanälen empfangen wird, wobei die einzelnen Audiokanäle für eine Lautsprecherwiedergabe jeweils unterschiedlichen Lautsprechern zugeordnet sind. In einer ersten Filterbank wird das Eingangsaudiosignal in ein transformiertes Signal im Zeit/Frequenzbandbereich transformiert. Eine Extraktionseinheit extrahiert aus dem transformierten Signal eine direktionale Signalkomponente mit zugehörigem Richtungswert und zugehörigem Vertrauenswert für die Direktivität sowie mehrere diffuse Signalkomponenten. Eine Renderingeinheit erzeugt aus den extrahierten Signalkomponenten unter Verwendung des Richtungswerts und des Vertrauenswerts für die Direktivität ein Signal, das mindestens einen neuen Audiokanal aufweist, der für eine Lautsprecherwiedergabe einem zusätzlichen Lautsprecher zugeordnet ist. In einer zweiten Filterbank wird das erzeugte Signal in ein Ausgangsaudiosignal im Zeitbereich transformatiert. Über einen Ausgang wird das Ausgangsaudiosignal ausgegeben.
Gemäß einer Ausführungsform der Erfindung weist die Vorrichtung eine oder mehrere der folgenden Einheiten auf:

- eine Speichereinheit, aus der ein Audiostück zur Formatumwandlung ausgewählt werden kann;
- eine Auswahleinheit zur Auswahl eines Audiostücks;
- eine Dekodiereinheit zum Umwandeln eines Audiosignals, falls das ausgewählte Audiostück in kodierter Form vorliegt;
- eine Auswerteeinheit zur Bestimmung der Audiokanalzahl eines ausgewählten Audiostücks aus dem Audiostück zugeordneten Metadaten;
- eine Zuordnungseinheit zum Zuordnen der generierten Audioausgangssignale an Lautsprecher;
- eine Nachverarbeitungseinheit;
- eine Speichereinheit zur Speicherung der generierten Audioausgangssignale;
- eine Ausgabeeinheit zur Wiedergabe der generierten Audioausgangssignale über Lautsprecher oder zur Verteilung der generierten Audioausgangssignale über Netzwerke oder andere Übertragungskanäle;
- einer Einstelleinheit zum Einstellen von Mischkoeffizienten.

Die Erfindung betrifft auch ein Audiosignal, das nach einem erfindungsgemäßen Verfahren oder mit einer erfindungsgemäßen Vorrichtung erzeugt worden ist.
Weitere Merkmale der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung und den Ansprüchen in Verbindung mit den Figuren ersichtlich.

1 zeigt schematisch ein Audio-Wiedergabesystem für ein hochgemischtes 3D-Audiosignal, das durch Formatumwandlung eines 1D- oder 2D-Audiosignals generiert wurde;
2 zeigt ein Blockdiagramm eines erfindungsgemäßen Audio-Upmix-Systems mit vor- und nachgelagerten Bearbeitungseinheiten;
3 zeigt eine Komponente des Audio-Upmix-Systems zum Hochmischen eines Zweikanal-Stereosignals in ein Ausgangssignal mit M Kanälen;
4 zeigt eine Komponente des Audio-Upmix-Systems zum Hochmischen eines Fünfkanal-Surroundsignals in ein 3D-Audio Ausgangssignal mit 9 Kanälen;
5 zeigt eine Analyse-Filterbank und eine Synthese-Filterbank für einen Audiokanal;
6 zeigt Eingangs- und Ausgangssignale sowie interne Bausteine eines UpMix Kernbauelements;
7 zeigt das Blockdiagramm einer Renderingeinheit;
8 zeigt eine Komponente des Audio-Upmix-Systems zum Hochmischen eines Zweikanal-Stereosignals in ein 3D-Audio Ausgangssignal mit 7 Kanälen;
9 zeigt eine Komponente des Audio-Upmix-Systems zum Hochmischen eines Fünfkanal-Surroundsignals in ein 3D-Audio Ausgangssignal mit 7 Kanälen; und 10 zeigt eine Erweiterung der Komponente aus .

Zum besseren Verständnis der Prinzipien der vorliegenden Erfindung werden nachfolgend Ausführungsformen der Erfindung anhand der Figuren detaillierter erläutert. Es versteht sich, dass sich die Erfindung nicht auf diese Ausführungsformen beschränkt und dass die beschriebenen Merkmale auch kombiniert oder modifiziert werden können, ohne den Schutzbereich der Erfindung, wie er in den Ansprüchen definiert ist, zu verlassen.
1 zeigt schematisch ein Audio-Wiedergabesystem, bei dem eine erfindungsgemäße Formatumwandlung durchgeführt wird. Eine Audioquelle 1 liefert ein Audiosignal. Hierbei kann es sich insbesondere um einen Speicher bzw. Zwischenspeicher handeln, aus dem ein Audiostück ausgewählt werden kann. Der Speicher kann hierbei beispielsweise als digitaler Speicherbausteinen oder Festplatte ausgestattet sein und in einem mobilen Audiowiedergabegerät, wie einen MP3 Player, ein mobiles Telefon oder ein Tablet-Gerät, oder auch in einem Wiedergabegerät für einen Wohnraum oder öffentlichen Raum oder ein Kraftfahrzeug integriert sein. Ebenso können die Audiosignale aber auch über ein Netzwerk von einem an anderer Stelle befindlichen Audiospeicher zugeführt und dann gegebenenfalls zwischengespeichert werden. Hierbei kann es sich um ein kabelgebundenes Netzwerk wie beispielsweise Ethernet, A2B bei einer Verwendung im Fahrzeug oder auch ein lokales Funknetz wie WLAN oder ein Mobilfunknetz handeln. Die Audiostücke können hierbei auch von hierauf spezialisierten Betreibern in einer Sammlung zusammengestellt werden und dann über das Internet von dem Endbenutzer ausgewählt und in das Wiedergabegerät geladen werden. Schließlich ist es auch denkbar, die mit einem Mikrofon erfassten Audiosignale unmittelbar der erfindungsgemäßen Verarbeitung zuzuführen.
Die Audiostücke liegen in der Audioquelle 1 als Mehrkanalstücke mit gleicher Lautheit (z.B. nach EBU R128 oder SMPTE RP200) im unkomprimierten PCM-Format oder einem komprimierten Format vor. Dabei sind beispielsweise folgende Mehrkanalformate möglich: 2-Kanal Stereo (L, R), und 5.1 Surround (L, R, C, LFE, Ls, Rs) oder 7.1 Surround ((L, R, C, LFE, Ls, Rs, Lb, Rb) oder ein 3D-Format mit M+1 Kanälen wie z.B. 5.1+2 (L, R, C, LFE, Ls, Rs, Ltf, Rtf) oder 5.1+4 (L, R, C, LFE, Ls, Rs, Ltf, Rtf, Ltb, Rrtb).
Ein für die Wiedergabe aus dem Speichermedium oder Empfangspuffer ausgewähltes Audiostücks wird dann dem im Folgenden im Detail beschriebenen erfindungsgemäßen Audio-Upmix-System 2 zugeführt. In dem Audio-Upmix-System 2 wird dann eine Formatumwandlung in Form einer Aufwärtsmischung der Audiosignale des ausgewählten Autostücks durchgeführt. In einer nachgeordneten Nachbearbeitungseinheit 3 erfolgt dann eine Weiterverarbeitung des Audiosignals wie zum Beispiel ein Bassmanagement bei dem der LFE mit den tiefpassgefilterten Signalen der übrigen Kanäle summiert wird, eine Equalizer-Filterung und eine Sättigungsüberwachung um eine Übersteuerung des PCM Signal zu verhindern. Die nachbearbeiteten Signale werden dann schließlich einer Ausgabeeinheit 4 zur Ausgabe der generierten Audioausgangssignale zugeführt. Dies kann beispielsweise nach Digital-Analog-Wandlung und geeigneter Verstärkung durch eine Wiedergabe über Lautsprecher, beispielsweise durch eine 5.1+4 Lautsprecheranordnung, bei der fünf Lautsprecher in Ohrhöhe entsperrend einer Surroundanordnung mit vier Höhenlautsprechern ergänzt werden, erfolgen. Ebenso können die generierten Audioausgangssignale aber auch über Netzwerke oder andere Übertragungskanäle versendet bzw. verteilt werden.
2 zeigt ein Blockdiagramm eines erfindungsgemäßen Audio-Upmix-Systems 2. Eine Auswahleinheit 21 wählt hierbei aus der vorgelagerten Audioquelle 1 ein Audiostück für die Wiedergabe aus, dass als Zweikanal-Stereosignal im 1D-Format, als 5.1 Surroundsignal im 2D-Format oder in einem 3D-Format mit M+1 Kanälen vorliegen kann. Dies kann in Abhängigkeit von einer Eingabe eines Nutzers über eine Grafische Benutzeroberfläche (abgekürzt GUI von englisch „graphical user interface“) eines Wiedergabegerätes oder automatisch über das Abarbeiten einer Wiedergabeliste oder Playlist (von englisch: „playlist“), die von dem Nutzer erstellt und in dem Wiedergabegerät abgespeichert worden sein kann, erfolgen. Hierfür wird der Auswahleinheit 21 ein Steuersignal s_cs zugeführt. Die Auswahleinheit 21 wandelt gegebenenfalls das Audiostück in das PCM-Format um, beispielsweise durch die Kodierung eines ursprünglich gemäß dem MP3-Format vorliegenden Audiostücks. Weiterhin werden Metadaten des Audiostückes analysiert um die Audiokanalanzahl zu erkennen und die Audio-Kanäle entsprechend für das 3D-Audio-Upmixsystem anzuordnen.
Entsprechend der erkannten Audiokanalanzahl selektiert die Auswahleinheit 21 mittels eines Steuersignals s_xD einen Auswahl-Schalter 29 des 3D-Audio-Upmixsystems und routet das Audiosignal des ausgewählten Audiostücks als Eingangssignal für das 3D-Audio-Upmixsystem.
Die Auswahleinheit 21 kann hierbei als ein Baustein des 3D-Audio-Upmixsystems realisiert werden oder auch Bestandteil einer vorgelagerten Einheit sein, z.B. Bestandteil einer Haupteinheit, die über ein Bussystem die Audiodaten zum 3D Audio Upmix System sendet.
In Abhängigkeit von dem Format bzw. Audiokanalanzahl des Eingangssignals und der entsprechenden Schalterstellung des Auswahl-Schalters 29 sowie dem Aktivieren bzw. Deaktivieren eines Bypassmodus wird das Eingangssignal verschiedenen Komponenten des Audio-Upmix-Systems zugeführt. Hierbei werden, je nachdem, ob der Nutzer den Bypassmodus aktiviert hat oder nicht, über ein Steuersignal s_BP weitere Schalter 210, 211 so angesteuert, dass ein Eingangssignal im 1D- bzw. 2D-Format entweder einer jeweils zugeordneten Komponente 22, 24 zum Hochmischen in ein Ausgangssignal mit M Kanälen oder einer jeweils zugeordneten Bypasskomponente 23, 25 zugeführt wird, in der das Eingangssignal mit einem Verstärkungsfaktor g_1D oder g_2D multipliziert und verzögert wird. Ist das Eingangssignal bereits ein 3D-Audiosignal mit M.1 Kanälen, so erfolgt kein Hochmischen des Signals, sondern nur eine Verstärkung und Verzögerung der M Kanäle in einer Bypasskomponente 26 mit einem Verstärkungsfaktor g_3D. Für den LFE-Kanal wird entsprechend der Schalterstellung des Auswahl-Schalters 29 ein LFE-Verstärkungswert bestimmt mit dem die LFE-Kanal-Daten in einer Bypasskomponente 27 multipliziert werden.
Im Anschluss werden die einzelnen Audiokanäle für die Weiterverarbeitung in einer Kanal-Zuordnungseinheit 28 in die gewünschte Reihenfolge gebracht und Transportkanälen zugeordnet und danach der Nachbearbeitungseinheit 3 zugeführt.
Das in 2 gezeigte Upmix-System ermöglicht damit sowohl, 2-Kanal-Stereo- und 5.1 Surround-Inhalte in ein 3D-Format zu wandeln, als auch auf die Reproduktion des ursprünglichen Formats umzuschalten, wobei eine gleichlaute Darbietung in allen Formaten erfolgen kann. Die Möglichkeit, auf das ursprüngliche Format zurückschalten zu können ermöglicht dem Hörer Unterschiede im Höreindruck bei den verschiedenen Formaten zu erkennen und den besten Reproduktionsmodus für einen speziellen Audioinhalt finden zu können.
3 zeigt die Komponente 22 des Audio-Upmix-Systems zum Hochmischen eines Zweikanal-Stereosignals x̂_1D(t) in ein Ausgangssignal b̂_M(t) mit M Kanälen. Das Eingangsaudiosignal x̂_1D(t) wird zunächst durch eine Analyse-Filterbank 31 in ein transformiertes Signal x_1D(t̂, k) im Zeit/Frequenzbandbereich mit t für den jeweils verarbeiteten Block und k für das Frequenzband transformiert. Das transformierte Signal x_1D(̂t, k) wird dann dem Kernbauelement des Audio-Upmix-Systems in Form einer Extraktionseinheit 32 zugeführt. Die Extraktionseinheit 32 generiert ein direktionales Signal s(t̂, k), die zugehörige Richtung φ(t̂, k) einen Direktionalitätsindex d_d(t̂, k) sowie drei diffuse Zweikanalsignale n(t̂, k), n_TF(t̂, k) , n_TB(t̂, k). Die von der Extraktionseinheit 32 generierten Signale werden einer Renderingeinheit 33 zugeführt, die in Abhängigkeit der Anzahl und der Zielpositionen der gewünschten Ausgangskanäle, signalisiert über Steuerparameter rmp, hieraus ein Signal b_M(t̂, k) erzeugt. Nach einer Rücktransformation in den Zeitbereich durch eine Synthese-Filterbank 34 wird dann ein Ausgangssignal b̂_M(t) mit M Kanälen ausgegeben. Bei einer bevorzugten Ausführungsform ist hierbei M = 9, wobei ein Zweikanal-Stereosignal auf ein 3D-Signal mit den folgenden 5+4 Kanälen hochgemischt wird: L, R, C, Ls, Rs, Ltf, Rtf, Ltb, Rtb. Bei einer weiteren bevorzugten Ausführungsform ist M = 5, wobei ein Zweikanal-Stereosignal auf ein 2D-Surroundsignal mit 5 Kanälen hochgemischt wird.
Die entsprechende Komponente 24 des Audio-Upmix-Systems zum Hochmischen eines Fünfkanal-Surroundsignals x̂_2D(t) in ein Ausgangssignal b̂_M(t) mit M Kanälen wird in 4 für das Beispiel eines 3D-Audio Ausgangssignals b̂₉(t) mit 9 Kanälen gezeigt.
Aus dem Fünfkanal-Surroundsignal x̂_2D(t) werden vordere und hintere Stereosignale generiert, die separaten Bearbeitungspfaden zum Hochmischen der Signale zugeführt werden. Hierbei werden die vorderen Seitenkanäle L,R und der Mittenkanal C einem ersten Bearbeitungspfad, und die beiden Soundkanäle Ls und Rs einem zweiten Bearbeitungspfad zugeführt.
In dem ersten Bearbeitungspfad werden die Eingangskanäle L, R, C durch eine Einheit 41 zunächst auf zwei Kanäle für vordere Stereosignale x̂_2DF(t) heruntergemischt. Im Anschluss erfolgt eine Verarbeitung der vorderen Stereosignale wie bereits für 3 gezeigt. Das erzeugte Signal x̂_2DF(t) wird zunächst einer ersten Analyse-Filterbank 31 zugeführt, die ein transformiertes Signal x̂_2DF(t̂, k) im Zeit/Frequenzbandbereich erzeugt. Das transformierte Signal wird dann einer ersten Extraktionseinheit 32 zugeführt, die direktionale und diffuse Signale für die vorderen Stereosignale erzeugt. Hierbei kann es ausreichen, lediglich ein Zweikanalsignal zu berechnen und in nachfolgenden Einheiten weiter zu bearbeiten und auf die anderen diffusen Signalkomponenten zu verzichten. Die von der Extraktionseinheit 32 generierten Signale werden einer ersten Renderingeinheit 33 zugeführt, die in Abhängigkeit von der Anzahl und der Zielpositionen der gewünschten Ausgangskanäle, signalisiert über Steuerparameter rmp, hieraus ein Signal b_F(t̂, k) erzeugt. Nach einer Rücktransformation in den Zeitbereich durch eine erste Synthese-Filterbank 34 wird ein Ausgangssignal b̂_F(t) mit den vorderen Höhensignalen Ltf und Rtf der Kanal-Zuordnungseinheit 28 zugeführt.
Eine entsprechende Verarbeitung erfolgt in dem zweiten Bearbeitungspfad für die Soundkanäle Ls und Rs. Das Signal x̂_2DB(t) wird durch eine zweite Analyse-Filterbank 31 in den Zeit/Frequenzbandbereich transformiert und das transformierte Signal x̂_zDB(t̂, k) einer zweiten Extraktionseinheit 32 zugeführt, die direktionale und diffuse Signale für die hinteren Stereosignale erzeugt, wobei auch hier gegebenenfalls nur ein diffuses Zweikanalsignal berechnet wird. Eine zweite Renderingeinheit 33 erzeugt in Abhängigkeit der Steuerparameter rmp ein Signal b_B(t̂, k), das wiederum nach einer Rücktransformation in den Zeitbereich durch eine zweite Synthese-Filterbank 34 ein Ausgangssignal b̂_B(t) mit den hinteren Höhensignalen Ltb und Rtb der Kanal-Zuordnungseinheit 28 zugeführt.
Zusätzlich wird das Fünfkanal-Surroundsignal x̂_2D(t) noch einer Verstärkungs- und Verzögerungseinheit 42 und von dort nach entsprechender Bearbeitung der Signale der Kanalzuordnungseinheit 28 zugeführt. Das verstärkte und verzögerte Eingangssignal wird dann in der Kanalzuordnungseinheit 28 mit den generierten vorderen und hinteren Höhensignalen kombiniert und schließlich ein 3D-Audio-Ausgangssignal b̂_{9_}(t) mit 9 Kanälen ausgegeben.
Ein Beispiel für eine Analyse-Filterbank und eine Synthese-Filterbank ist in 5 dargestellt. In der Analyse-Filterbank werden die Abtastwerte des Eingangssignals zunächst in einer ersten Bearbeitungseinheit 51 zur Blockbildung und Fensterung in zu 50% überlappende Blöcke von 1024 Abtastwerten gefenstert. Hierbei können unterschiedliche Fensterfunktionen, wie beispielsweise ein Sinusfenster, eingesetzt werden. Das gefensterte Signal wird dann in einer Transformationseinheit 52 einer 1024-FFT unterzogen und in k separate Frequenzbänder zerlegt. Nach der Transformation von reell wertigen Signalen existiert hierbei eine Symmetrie des komplexen Signals, so das von den 1024 komplexen Werten lediglich die ersten 513 Werte als x₁(t̂, k) weiterverarbeitet werden müssen (k = 1..513 , DC bis Nyquist-Komponente).
In der Synthese-Filterbank werden die Signale b₁(t̂, k) expandiert (k = 1..513- > k̈ = 1 ... 1024) so das die Symmetrieeigenschaften reell wertiger Signale wiederhergestellt wird. In einer Transformationseinheit 53 werden diese dann einer inversen FFT zur Rücktransformation in den Zeitbereich unterzogen. Die Blöcke t werden dann in einer Fenstereinheit 54 mit der gleichen Fensterfunktion wie in der Analysefilterbank gefenstert. Schließlich wird in einer folgenden Einheit 55 die linke Hälfte eines Blocks mit der rechten Hälfte des vorhergehenden Blocks t̂ - 1 additiv überlagert um das Ausganssignal b̂₁(t) zu erzeugen.
Die Eingangs- und Ausgangssignale sowie interne Bausteine einer Extraktionseinheit 32 sind in 6 gezeigt. Von einer Analyse-Filterbank wird der Extraktionseinheit 32 ein in den Zeit/Frequenzbandbereich transformiertes Signal x(t̂, k) zugeführt und einer Einheit 61 zur Kovarianzanalyse und einer Einheit 62 zur Extraktion von direktionalen und diffusen Komponenten weitergeleitet. Die Verarbeitung- bzw. Berechnungsschritte in diesen Einheiten werden im Folgenden erläutert.
In der Einheit 61 zur Kovarianzanalyse werden die 513 Bänder der Analyse-Filterbank (Index k) in 43 Verarbeitungsbänder (Index k̂) unterschiedlicher Bandbreite zusammengefasst. Dabei sind die tieffrequenten Bänder schmalbandig und die Bandbreite wächst mit der Mittenfrequenz der Bänder. Das Zusammenfassen erfolgt hierbei um den Verarbeitungsaufwand zu reduzieren. Die Bandbreiten der Bänder sind proportional zu denen des menschlichen Gehörs gewählt, so dass davon ausgegangen wird das der durch diese Vereinfachung erzeugte Fehler nicht hörbar wird.
Für jedes der 43 Bänder wird eine Korrelationsmatrix bestimmt: $C (\hat{t}, \hat{k}) = E (X (\hat{t}) X {(\hat{t})}^{H}),$
wobei X(t̂)=[x(t̂,k_b1),x(t̂,k_b2)..x(t̂,k_bM)] eine Matrix ist, die bM Bins (k_b1 bis k_bM) in einem Band k̂ zusammenfasst und E( ) für den Erwartungswertoperator steht. Dieser kann durch einen einfachen IIR Glättungsfilter angenähert werden, wobei die unterschiedliche Bandbreite der Verarbeitungsbänder zu berücksichtigen ist.
Für alle k_b in einem Verarbeitungsband ist dann C(t̂, k_b) = (t̂,k̂) und im Grenzfall hat das Verarbeitungsband nur einen Koeffizienten deshalb kann im Folgenden auf eine Unterscheidung von k̂, k verzichtet werden - k wird als allgemeiner Bandindex betrachtet.
Die Eigenwerte der Matrix werden mit folgender Formel berechnet: $λ_{1} (\hat{t}, k) = \frac{1}{2} (c_{22} + c_{11} + \sqrt{{(c_{11} - c_{22})}^{2} + 4 {| c_{r12} |}^{2}}),$
$λ_{2} (\hat{t}, k) = \frac{1}{2} (c_{22} + c_{11} + \sqrt{{(c_{11} - c_{22})}^{2} + 4 {| c_{r12} |}^{2}})$
mit c_r12 = real(c₁₂) hier und c_ii als Matrixelemente von C.
Daraus werden die folgenden Größen berechnet, die für alle Bandbestandteile (bins, Index k in den Bändern) gleichgesetzt werden:

• Geschätzte Signalleistungen der diffusen Komponenten P_N(t̂, k): $P_{n} (\hat{t}, k) = λ_{2} (\hat{t}, k)$
• Geschätzte Signalleistung der direktionalen Komponente P_s(t̂, k): $P_{s} (\hat{t}, k) = λ_{1} (\hat{t}, k) - P_{n} (\hat{t}, k)$
• Die Elemente des Mischvektors a(t̂, k) = [a₁(t̂, k), a₂(t̂,k)] mit dem die direktionale Komponente in das Signal X(t̂, k̂) gemischt wurde: $a_{1} (\hat{t}, k) = \frac{1}{\sqrt{1 + A {(\hat{t}, k)}^{2}}},$
$a_{2} (\hat{t}, k) = \frac{A_{2} (\hat{t}, k)}{\sqrt{1 + A {(\hat{t}, k)}^{2}}},$
$mit A (\hat{t}, k) = \frac{λ_{1} (\hat{t}, k) - c_{11}}{c_{r12}} .$
• Hieraus lässt sich die Richtung φ_s(t̂, k) der virtuellen Quelle der Richtungskomponente wie folgt bestimmen:
- o Berechnung von $\tilde{φ_{s}} (\hat{t}, k) = 2 (atan (\frac{1}{A (\hat{t}, k)}) - \frac{p i}{4}),$
  mit $\tilde{φ_{s}} (\hat{t}, k) \in [- \frac{π}{2}, \frac{π}{2}] .$
- ◯ Ist c_r12 ≥ 0: $φ_{s} (\hat{t}, k) = \tilde{φ_{s}} (\hat{t}, k) .$
  Bei Mit-Korrelation wird angenommen, dass das direktionale Signal von vorne oder von den Seiten kommt.
- o Ist c_r12 < 0 (gegenkorreliert):
  - ■ |a₁| ≥ |a₂| : $φ_{s} (\hat{t}, k) = π - \tilde{φ_{s}} (\hat{t}, k),$
  - ■ |a₁| < |a₂| : $φ_{s} (\hat{t}, k) = - π - \tilde{φ_{s}} (\hat{t}, k) .$
Bei Gegenkorrelation wird angenommen, dass das direktive Signal von hinten eingestrahlt wird. Im 2-Kanal-Mix macht sich dies durch einen negativen Mischkoeffizienten a₂ bemerkbar. Diese Annahme ermöglicht es matrizierte 2 Kanalaufnahmen wie Dolby Prologic Aufnahmen zu dekodieren.
• Die Direktivität d_d(t̂, k) des Signalgemisches wird mit $d_{d} = \frac{P_{s}}{P_{s} + P_{N}}$
bestimmt. Diese kann Werte zwischen Null und Eins annehmen. Diese Extremfälle könne als voll diffus d_d = 0 und voll direktional gedeutet werden d_d = 1. d_d(t̂, k) wird zum Glätten beim Rendern genutzt.

Während die Werte für die Direktivität d_d(t̂, k) und die Richtung φ_s(t̂, k) der virtuellen Quelle der Richtungskomponente direkt für die folgende Renderingeinheit ausgegeben werden, werden die Werte für die geschätzten Signalleistungen der diffusen Komponenten P_N(t̂, k) und die direktionalen Komponente P_S(t̂, k) sowie der Mischvektor an eine Einheit 62 zur Extraktion von direktionalen und diffusen Komponenten innerhalb der Extraktionseinheit 32 weitergeleitet.
Die Extraktion von direktionalen und diffusen Komponenten in Einheit 62 wird wie im Folgenden beschrieben durchgeführt. Aus Gründen der übersichtlicheren Darstellung wird hierbei auf die Indizierung mit (t̂, k) verzichtet. Die Verarbeitung erfolgt für jede Zeit/Frequenzband Kachel (t̂, k).
Die direktionale Komponente wird wie folgt berechnet: $s = \sqrt{\frac{P_{s}}{{(g_{1} a_{1} + g_{2} a_{2})}^{2} P_{s} + (g_{1}^{2} + g_{2}^{2}) R_{n}}} g^{T} x,$
mit $g = [\begin{matrix} \frac{a_{1} P_{s}}{P_{s} + P_{n}} \\ \frac{a_{2} P_{s}}{P_{s} + P_{n}} \end{matrix}] = [\begin{matrix} g_{1} \\ g_{2} \end{matrix}]$
und dem Einganssignal $x = [\begin{matrix} x_{1} \\ x_{2} \end{matrix}] .$
Die diffusen Signalkomponenten n = [n₁, n₂]^T werden wie folgt berechnet: $n_{1} = 1 i \sqrt{\frac{P_{n}}{{(h_{1} a_{1} + h_{2} a_{2})}^{2} P_{s} + (h_{1}^{2} + h_{2}^{2}) R_{n}}} h^{T} x,$
mit $1 i = \sqrt{- 1} .$

mit $h = [\begin{matrix} \frac{- a_{1} a_{2} P_{s}}{P_{s} + P_{n}} \\ \frac{- a_{1} a_{2} P_{s}}{P_{s} + P_{n}} \end{matrix}] = [\begin{matrix} h_{1} \\ h_{2} \end{matrix}] .$
$n_{1} = 1 i \sqrt{\frac{P_{n}}{{(w_{1} a_{1} + w_{2} a_{2})}^{2} P_{s} + (w_{1}^{2} + w_{2}^{2}) R_{n}}} w^{T} x,$
mit $w = [\begin{matrix} \frac{- a_{1} a_{2} P_{s}}{P_{s} + P_{n}} \\ \frac{a_{1}^{2} P_{s} + P_{n}}{P_{s} + P_{n}} \end{matrix}] = [\begin{matrix} w_{1} \\ w_{2} \end{matrix}] .$
Die diffusen Signalkomponenten für die vorderen Höhenkanäle n_TF = [n_TF
1,n_TF
2]^T werden wie folgt berechnet: $n_{T F} = \frac{1 i}{2} [\begin{matrix} 1 + a_{2}^{2} & - a_{1} a_{2} \\ - a_{1} a_{2} & 1 + a_{1}^{2} \end{matrix}] x$
Die diffusen Signalkomponenten für die hinteren Höhenkanäle n_TB = [n_TB
1,n_TB
2]^T werden wie folgt berechnet: $n_{T B_{1}} = 1.2 e^{- i \frac{π}{8}} (x_{1} - a_{1} s),$
$n_{T B_{2}} = 1.2 e^{- i \frac{π}{8}} (x_{2} - a_{2} s) .$
Ein Blockdiagramm einer Renderingeinheit 33 ist in 7 dargestellt. Der Renderingeinheit werden von der Extraktionseinheit die direktionale Signalkomponente s(t̂,k) mit zugehörigem Richtungswert φ(t̂, k) und zugehörigem Vertrauenswert für die Direktivität d_d(t̂, k) sowie mehrere diffuse Signalkomponenten n(t̂, k), n_TF(t̂, k) , n_TB(t̂, k) zugeführt. Weiterhin werden der Renderingeinheit 33 die folgenden Steuerparameter zur Initialisierung des Rendermodus zugeführt:

• Basisbreite, &_W: Ein Faktor zwischen 0.5 und 3 um Stereobreite zu verändern. Werte >1 vergrößern die virtuelle Bühnenbreite. Voreinstellungswert ist 1.5.
• Diff Gain, die Diffus Signalverstärkung g_MD , ein Faktor zur Verstärkung/Abschwächung der diffusen Signalanteile. Voreinstellungswert ist 1.
• Front/back Mix, front/back Mischfaktorf_b: Faktor um die diffusen Signalanteile auf die vorderen bzw. hinteren Kanäle zu mischen. Werte zwischen 0 (voll hinten) und 1 (voll vorne). Voreinstellungswert 0.5.
• Top Diff. Gain g_TD dient zur Skalierung der Diffussen Höhensignale
• Elev. Gain g_s
t Mischfaktor für die direktiven Signale in die Höhenkanäle

mode	Funktion
0	Upmix auf L,R, Ls, Rs (5ch, 2D)
1	Upmix auf L,R, Ls, Rs, Ltf, Rtf, Ltb, Rtb (9 ch, 3D)
2	Upmix auf Ltf, Rtf (2 vordere Höhenkanäle)
3	Upmix auf Ltb, Rtb (2 Hintere Höhenkanäle)

• Der Faktor cR_{f ct} ∈ [0,.. ,1] steuert wieviel Signalanteile aus den Center Signal auf die linken und rechten Kanäle zurück gemischt werden.

In einer Einheit 71 werden in Abhängigkeit von dem gewählten Mode und der gewählten Basisbreite die Azimut-Winkel der Zielpositionen L, R, C, Ls, Rs der mittleren Ebene Lautsprecher verzerrt um die Basisbreite zu verändern. Für die Modi 0-3 werden die Winkel wie folgt berechnet:

sw L(30°) Ls(110°)

1 90 140

2 70 130

3 50 120
Die berechneten Winkel werden einer Einheit 72 zugeführt, in der mithilfe von φ_s(t̂, k) Mischkoeffizienten bestimmt werden um die extrahierte direktionale Komponente s(t̂, k) auf die Surroundkanäle b_{s_midLayer}(t̂, k) zu mischen. Die Mischkoeffizienten werden hierbei wie folgt ermittelt:

• Bestimme zwei benachbarte Kanäle indiziert durch l₁ l₂ aus L, R, C, Ls, Rs, z.B L-Ls (l₁ = 1, l₂ = 4), oder Ls-Rs, Rs-R, R-C, C-L) bei denen die zugeordneten Azimut Positionen φ_l1, φ_l2 (s.o) die virtuelle Quellenrichtung φ_s(t̂, k) einschließen:φ_l1<φ_s(t̂, k) < φ_l2 und ermittle die zugehörige kartesische Positionsmatrix $L_{12} = [\begin{matrix} X_{l 1} & X_{l 2} \\ Y_{l 1} & Y_{l 2} \end{matrix}] = [\begin{matrix} c o s φ_{L 1} & c o s φ_{L 2} \\ s i n φ_{L 1} & s i n φ_{L 2} \end{matrix}] .$
• Bestimme die Mischkoeffizienten $\hat{a} = [\begin{matrix} {\hat{a}}_{l_{1}} \\ {\hat{a}}_{l_{2}} \end{matrix}]$
über
- ◯ $\ddot{a} = \frac{1}{X_{l 2} Y_{l 2} - X_{l 2} Y_{l 1}} [\begin{matrix} Y_{l 2} & X_{l 2} \\ - Y_{l 1} & X_{l 1} \end{matrix}] [\begin{matrix} c o s (φ_{s} (\hat{t}, k)) \\ s i n (φ_{s} (t \hat{t}, k)) \end{matrix}]$
- ◯ $\bar{\bar{a}} = \frac{\ddot{a}}{{| \ddot{a} |}_{2}}$

Die ermittelten Mischkoeffizienten werden einer Einheit 73 zugeführt, in der hieraus neue Mischkoeffizienten berechnet werden können um einen Teil des Center-Signals auf die linken und rechten Kanäle zurückzumischen. Dieses kann durchgeführt werden um einen oft als störend empfundenen Effekt zu eliminieren, der beim Upmix lauter Zweikanalstereosignale auftreten kann und das hochgemischte Signale fast nur noch aus dem Centerkanal zu kommen erscheinen lässt.
Die Steuergröße cRe_{f ct} ∈ [0,..,1] steuert wieviel Signalanteile aus den Center Signal auf die linken und rechten Kanäle zurückgemischt werden. Ein Wert von 0 bedeutet keine Rückmischung, ein Wert von 1 das vollständige Einmischen des Center Signals in die linken und rechten Kanäle.
Zuerst wird der Vektor mit den Mischkoeffizienten kopiert: $\hat{a} = \bar{\bar{a}}$
Die Vektorelemente 1 bis 3 sind dabei dem linken, dem rechten und dem Center-Kanal zugeordnet. Als neuer Mischkoeffizient für den linken Kanal wird berechnet:
Als neuer Mischkoeffizient für den rechten Kanal wird berechnet:
Als neuer Mischkoeffizient für den Center-Kanal wird berechnet:
Die neuen Mischkoeffizienten werden einer Einheit 74 zugeführt und dort entsprechend ihrer Indices im Mischvektor γ̌, der zuvor mit Null initialisiert wurde, angeordnet (z.B. [0, â_l
1, â_l
2, 0,0]^T für l₁ = 2, l₂ = 3 (R,C)). Dieser Vektor wird mit Hilfe der Direktivität d_d (t̂, k) geglättet: $γ (\hat{t}, k) = (1 - d_{d} {(\hat{t}, k)}^{2}) γ (\hat{t} - 1, k) + d_{d} {(\hat{t}, k)}^{4} \overset{⌣}{γ}$
Bei hoher Direktivität wird der neue Mischwert quasi übernommen. Bei fallender Direktivität ist die Schätzung der Quellrichtung in der Regel nicht vertrauenswürdig und es werden Vergangenheitswerte entsprechend berücksichtigt.
In einer Einheit 75 werden die direktionalen Komponenten dann mit γ(t̂, k) gemischt: $b_{s_m i d L a y e r} (\hat{t}, k) = γ (\hat{t}, k) s (\hat{t}, k)$
In einer Einheit 77 werden dann die direktionalen Kanäle der Höhenebene (Ltf, Rtf, Ltb, Rtb) wie folgt generiert: $b_{s_t o p l a y e r} (\hat{t}, k) = g_{s_{t}} M b_{s_m i d l a y e r} (\hat{t}, k),$
mit dem Mischfaktor g_s
el (Elev. Gain) und der Mischmatrix $[\begin{array}{l} 1 & 0 & 0.5 & 0 & 0 \\ 0 & 1 & 0.5 & 0 & 0 \\ 0 & 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 & 1 \end{array}]$
In einer Einheit 76 werden die den verschiedenen Lautsprechern zugeordneten diffusen Signale wie folgt gewonnen.
Für die Modi mode=0, mode=1 und die Lautsprecher der mittleren Ebene (L,R,C,Ls, Rs): $b_{d_{m i d L a y e r}} (\hat{t}, k) = g_{M D} [\begin{matrix} 0.8 \sqrt f_{b} & 0 \\ 0 & 0.8 \sqrt f_{b} \\ 0.8 \sqrt f_{b} & 0.8 \sqrt f_{b} \\ \sqrt (1 - f_{b}) & 0 \\ 0 & \sqrt (1 - f_{b}) \end{matrix}] n (\hat{t}, k)$
Für den Mode mode=1 und die Höhenlautsprecher (Ltf, Rtf, Ltb, Rtb): $b_{d_{t o p L a y e r}} (\hat{t}, k) = g_{T D} [\begin{matrix} 1.2 & 0 & 0 & 0 \\ 0 & 1.2 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \end{matrix}] [\begin{matrix} n_{T F} (\hat{t}, k) \\ n_{T B} (\hat{t}, k) \end{matrix}]$
Für den Mode mode=2 und die vorderen Höhenlautsprecher (Ltf, Rtf): $b_{d_{t o p L a y e r}} (\hat{t}, k) = g_{T D} [\begin{matrix} 1.2 & 0 \\ 0 & 1.2 \\ 0 & 0 \\ 0 & 0 \end{matrix}] n (\hat{t}, k)$
Für den Modi mode=3 und die hinteren Höhenlautsprecher (Ltb, Rtb): $b_{d_{t o p L a y e r}} (\hat{t}, k) = g_{T D} [\begin{matrix} 0 & 0 \\ 0 & 0 \\ 1.2 & 0 \\ 0 & 1.2 \end{matrix}] n (\hat{t}, k)$
In einer Einheit 78 werden die diffusen Signale, die den Höhenlautsprechern (Ltf, Rtf, Ltb, Rtb) zugeordnet sind, im Frequenzbereich gewichtet. Dies geschieht in der vollen Frequenzauflösung (k): $b_{d_{t o p L a y e r}} (\hat{t}, k) = [\begin{matrix} F_{t f} (k) \\ F_{t f} (k) \\ F_{t b} (k) \\ F_{t b} (k) \end{matrix}] \circ b_{d_{T o p L a y e r}} (\hat{t}, k) .$
mit den reell wertigen Filterkoeffizienten F_{tf b}(k) und ̊◦ als Operator für die elementweise Multiplikation.
Die Bewertungsfilter verstärken das Signal in Frequenzbändern, die für die Richtungswahrnehmung der zugeordneten Lautsprecherpositionen wichtig sind, d.h. insbesondere im Bereich der Blauertschen Bänder.

Die Ausgangsignale der Einheiten 75, 76,77 und 78 werden dann durch additiv Überlagerung je nach Upmixmode wie folgt erzeugt und in einer Einheit 79 den Ausgangskanälen zugeordnet:

mode	Funktion
0	Upmix auf L,R, Ls, Rs (5ch, 2D)	$b_{5} (k) = b_{s_{m i d L a y e r}} (k) + b_{d_{m i d L a y e r}} (k)$
1	Upmix auf L,R, Ls, Rs, Ltf, Rtf, Ltb, Rtb (9 ch, 3D)	$b_{9} (k) = [\begin{matrix} b_{s_{m i d L a y e r}} (k) + b_{d_{m i d}_{L a y e r}} (k) \\ b_{s_{t o p L a y e r}} (k) + b_{d_{t o p L a y e r}} (k) \end{matrix}]$
2	Upmix auf Ltf, Rtf (2 vordere Höhenkanäle)	$b_{F} (k) = b_{s_{t o p L a y e r}} (1 : 2, k) + b_{d_{t o p L a y e r}} (1 : 2, k)$
3	Upmix auf Ltb, Rtb (2 Hintere Höhenkanäle)	$b_{B} (k) = b_{s_{t o p L a y e r}} (3 : 4, k) + b_{d_{t o p L a y e r}} (3 : 4, k)$

Hierbei wird die direktionale Signalkomponente s(t̂, k) auf die Lautsprecherkanäle der mittleren Ebene b_{s_midLayer}(t̂, k̂)) und dann auf die Kanäle der Höhenlautsprecher b_{s_toplayer} (t̂, k) gemischt. Diesen Signalen additiv überlagert werden die diffusen Signale b_d
midLayer (t̂, k)bzw. b_d
topLayer(t̂, k) die aus n(t̂, k), n_TF(t̂, k) , n_TB(t̂, k), matriziert wurden, wobei die diffusen Höhenlautsprechersignale, soweit vorhanden, zuvor gefiltert werden.
Eine weitere Ausführungsform für eine Komponente des Audio-Upmix-Systems zum Hochmischen eines Zweikanal-Stereosignals in ein 3D-Audio Ausgangssignal mit 7 Kanälen ist in 8 gezeigt. Diese Ausführungsform entspricht im Wesentlichen der Ausführungsformen aus 3 und weist ebenso eine Analyse-Filterbank 31, eine Extraktionseinheit 32, eine Renderingeinheit 33 und eine Synthese-Filterbank 34 auf. Das Zweikanal-Stereosignal wird hier jedoch zuerst auf ein 9-Kanal-Signal (5+4: L, R, C, Ls, Rs, Ltf, Rtf, Ltb, Rtb) hochgemischt. Das 9-Kanal-Signal wird dann aber in einer Filter-und Downmixeinheit 81 gefiltert und heruntergemischt um ein 7-Kanal-Signal 5+2: L, R, C, Ls, Rs, Ltf, Rtf zu erhalten bei dem die hinteren Höhensignale in die Surroundkanäle gemischt wurden.
Eine wiederum weitere Ausführungsform für eine Komponente des Audio-Upmix-Systems zum Hochmischen eines Fünfkanal-Surroundsignals in ein 3D-Audio Ausgangssignal mit 7 Kanälen ist in 9 gezeigt. Diese Ausführungsform entspricht im Wesentlichen der Ausführungsform aus 4. Wie in der Ausführungsform aus 4 werden zunächst vier Höhenkanäle generiert. Die rückwärtigen Höhenkanäle werden dann jedoch in einer Filtereinheit 92 gefiltert und durch eine Mischmatrix in der Kanal-Zuordnungseinheit 28 in die Surroundkanäle eingemischt. Das 7-Kanalausgangssignal setzt sich dann aus L, R, C, Ls, Rs, Ltf, Rtf zusammen.
Eine Erweiterung der Ausführungsform aus 9, bei der die Surroundkanäle gefiltert und miteingemischt werden, ist in 10 dargestellt.
In dem zweiten Bearbeitungspfad für die Soundkanäle Ls und Rs wird hierbei das durch die Analyse-Filterbank 31 in den Zeit/Frequenzbandbereich transformierte Signal x_2DB(t̂, k) zusätzlich zu der Extraktionseinheit 32 auch einer Filterung in einer Filtereinheit 101 zugeführt. Das gefütterte Signal wird dann nach einer Rücktransformation in den Zeitbereich durch eine dritte Synthese-Filterbank 34 der Kanal-Zuordnungseinheit 28 zugeführt.
Weitere Erläuterungen und Herleitungen zu dem beschriebenen Verfahren werden im Folgenden gegeben. Alle Betrachtungen finden im Zeit/Frequenzbereich statt, deshalb wird übersichtlichkeitshalber auf die Indizierung mit (t̂, k) an vielen Stellen verzichtet.
Ein Zweikanal-Stereosignal kann durch eine Überlagerung von M direktionalen Signalen und ambienten, diffusen Signalen beschrieben werden. Dies lässt sich im Zeit/Frequenzbereich wie folgt formulieren: $x_{1} (\hat{t}, k) = \sum_{m = 1}^{M} a_{1_{m}} s_{m} (\hat{t}, k) + n_{1} (\hat{t}, k),$
$x_{1} (\hat{t}, k) = \sum_{m = 1}^{M} a_{2_{m}} s_{m} (\hat{t}, k) + n_{2} (\hat{t}, k) .$
Die direktionalen Signale s_m werden mit den Koeffizienten a_1
m und a_2
m auf den linken und rechten Kanal gemischt, die diffuisen Signale n₁, n₂ sind in der Regel zueinander und zu s_m unkorreliert. Das Model basiert auf der Vorstellung von Musik die in einem Raum aufgezeichnet bzw für einen Raum gemischt wurde. Die direktionalen Signale repräsentieren dabei das Direktsignal der Quelle und die ersten Reflexionen an den Wänden und die diffusen Signale die späten Reflexionen. Die Koeffizienten spiegeln die relative Position zum (virtuellen) Mikrofon wieder. Ist die (virtuelle) Quelle m näher zum linken Kanal so ist a_1
m > a_2
m. Überlagern sich in der Aufnahme viele Signale aus vielen Richtungen so äußert sich das in einer Verschmierung der Phase zwischen dem linken und rechten Kanal und der Grad der Unkorreliertheit dieser Signale wächst.
Ist die Zeit/Frequenzauflösung Auflösung hinreichend groß, so kann man davon ausgehen das es pro Band k und Block t nur ein dominates Richtungssignal gibt, die Unterscheidung in mehrere Richtungen ist für das menschliche Gehör nicht weiter möglich. Hieraus ergeben sich Anforderungen für die Analyse- und Synthese-Filterbank: Gefensterte 50% überlappende Blöcke um Änderungen und Sprünge zu Verschmieren und eine Verarbeitung in Frequenzbändern mit gehörangepassten Bandbreiten.
Es ergibt sich somit ein vereinfachtes Signalmodel mit einer direktionalen Komponente: $x = a s + N$
$x_{1} = a_{1} s + n_{1}$
$x_{2} = a_{2} s + n_{2}$
Das linke und rechte Signal in x setzt sich aus diffusen, nicht korrelierten Bestandteilen n₁, n₂ und einer eingemischten direktionalen (korrelierten) Komponente s zusammen.
Für die Mischkoeffizienten wird der folgende Zusammenhang definiert: $\sqrt{{| a_{1} |}^{2} + {| a_{2} |}^{2}} = 1$
Damit kann man davon ausgehen, dass die Signale energieerhaltend auf den linken und rechten Kanal gemischt wurden.
Die Kovarianz-Matrix dieses Signalmodels wird zu einer Korrelations-Matrix, wenn man Signale mit dem Mittelwert Null annimmt. Dies ist eine verbreitete Annahme in Bezug auf Audiosignale. $C = E (x x^{H}) = [\begin{matrix} c_{11} & c_{12} \\ c_{12}^{*} & c_{22} \end{matrix}]$
E( ) ist dabei der Erwartungswertoperator. Dieser kann über eine gleitende Mittelwertbildung oder einen Glättungs- IIR Filter (rekursiv) realisiert werden.
Die Eigenwerte dieser 2x2 Matrix werden durch λ_1,2(C) = {x:det(C-xI) = 0 } berechnet. Mit $det ([\begin{matrix} c_{11} - x & c_{12} \\ c_{12}^{*} & c_{22} \end{matrix}]) = (c_{11} - x) (c_{22} - x) - {| c_{12} |}^{2} = 0 und c_{12}^{*} c_{12} = {| c_{12} |}^{2}$
und folgt: $λ_{1,2} = \frac{1}{2} (c_{22} + c_{11} \pm \sqrt{{(c_{11} - c_{22})}^{2} + 4 | c_{12} | 2})$
Es gelten weitere Modelannahmen und Definitionen:

- Direktionale und diffuse Komponenten sind nicht korreliert: $E (s n_{1,2}^{*}) = 0$
- Die geschätzte Signalleistung der direktionalen Komponente: P_s = E(s s*)
- Die (geschätzten) Signalleistungen der diffusen Komponenten sind gleich: P_n = P_n
1 = P_n
2 = E(n₁n₁) (Dies trifft in der Regel für 2 Kanalsignale zu, selten ist auf einer Seite offenes Gelände auf der anderen ein Halbraum; die diffusen Signale n₁n₂ selbst müssen nicht gleich sein).
- Die diffusen Komponenten sind untereinander nicht korreliert: $E (n_{1} n_{2}^{*}) = 0$
- Die Mischkoeffizienten a_1, a₂ in a sind reell wertig und es gilt: $\sqrt{a_{1}^{2} + a_{2}^{2}} = 1$
und damit c_r12 = real(c₁₂). Bei Gegenkorrelation wird der Wert negativ. Negative Korrelationen zwischen dem linken und rechten Kanal lassen sich unterschiedlich interpretieren:
- o Das Signal ist wird ambient/diffus, da es keine Zuordnung einer Position für die virtuelle Quelle vorne zwischen dem linken und rechten Lautsprecher gefunden werden kann.
- o Es wird angenommen, dass eine rückwärtige direktionale Komponente eingemischt wurde. Damit können Quellen hinter dem Sweet-Spot (virtuellem Mikrofon) zugeordnet werden. Die Annahme macht Sinn, wenn der Upmix-Algorithmus kompatibel zu matrizierten Surroundsignalen arbeiten soll.

Damit wird die Kovarianz Matrix zu $C = [\begin{matrix} {| a_{1} |}^{2} P_{s} + P_{n} & a_{1} a_{2}^{*} P_{s} \\ a_{1}^{*} a_{2} P_{s} & {| a_{2} |}^{2} P_{s} + P_{n} \end{matrix}] = C_{S} + C_{n} = [\begin{matrix} {| a_{1} |}^{2} P_{s} & a_{1} a_{2}^{*} P_{s} \\ a_{1}^{*} a_{2} P_{s} & {| a_{2} |}^{2} P_{s} \end{matrix}] + [\begin{matrix} P_{n} & 0 \\ 0 & P_{n} \end{matrix}],$
Sie setzt sich aus der Kovarianz des gemischten direktionalen Anteils C_s und der Kovarianz der diffusen Anteile C_n zusammen.
Die Eigenwerte der Matrix werden zu: $\begin{array}{l} λ_{1,2} = \frac{1}{2} [c_{22} + c_{11} \pm \sqrt{{(c_{11} - c_{22})}^{2} + 4 {| c_{r12} |}^{2}}] \\ = 0,5 (P_{s} + 2 P_{n} \pm \sqrt{({Ps}^{2} {(a_{1}^{2} - a_{2}^{2})}^{2}) + 4 a_{1}^{2} a_{2}^{2} P_{s}}) \\ = 0.5 (P_{s} + 2 P_{n} \pm \sqrt{({Ps}^{2} {(a_{1}^{2} - a_{2}^{2})}^{2})}) \\ = 0.5 (P_{s} + 2 P_{n} \pm P_{s}) \end{array}$
Damit berechnet sich geschätzten Signalleistung der diffusen Komponenten mit: $P_{n} = λ_{2} = \frac{1}{2} (c_{22} + c_{11} - \sqrt{{(c_{11} - c_{22})}^{2} + 4 {| c_{r12} |}^{2}}) .$
Die geschätzte Signalleistung der direktionalen Komponente berechnet sich mit: $P_{s} = λ_{1} - P_{n} = \sqrt{{(c_{11} - c_{22})}^{2} + 4 {| c_{r12} |}^{2}}$
Das Verhältnis der Mischkoeffizienten lässt sich wie folgt ermitteln: $A = \frac{a_{2}}{a_{1}} = \frac{λ_{1} - c_{11}}{c_{r12}} = \frac{P_{n} + P_{s} - c_{11}}{c_{r12}} = \frac{c_{22} - P_{n}}{c_{r12}} = \frac{(c_{22} - c_{11} + \sqrt{{(c_{11} - c_{22})}^{2} + 4 {| c_{r12} |}^{2}})}{2 c_{r12}}$
mit $a_{1}^{2} = 1 - a_{2}^{2} und a_{2}^{2} = 1 - a_{1}^{2}$
s.o. und damit folgt: $a_{1} = \frac{1}{\sqrt{1 + A^{2}}}$
$a_{2} = \frac{A}{\sqrt{1 + A^{2}}}$
Um extrahierte direktionale Signal-Komponenten später auf das Surroundsignal mischen zu können ist es sinnvoll eine virtuelle Quellenrichtung aus den Mischkoeffizienten zu bestimmen.
Die den Eigenwerten λ_1,λ₂ zugeordneten Eigenvektoren v₁, v₂ werden mit
angegeben. Das bedeutet, dass das Signal x₁ der kartesischen X-Achse und das Signal x₂ der Y-Achse zugeordnet wird. Dem folgend würden beide Signale im extrem Fall mit einem Winkel von 90° angeordnet: Ist das rechte Signal Null und (voll direktiv) so ist a₁ = 1 und x₁ wird voll der X-Achse zugeordnet, ist nur der rechte Kanal aktiv wird x₂ voll der Y-Achse zugeordnet. Es gilt:
Über das Verhältnis der Mischkoeffizienten $A = \frac{a_{2}}{a_{1}}$
kann man also einen Abbildungswinkel φ̂ bestimmen:
Im Referenzkoordinatensystem liegt die X-Achse direkt zwischen den Lautsprechern. Um das PCA Koordinatensystem in das Referenzsystem umzurechnen muss dieses also um 45 Grad gedreht/ gespiegelt werden. Die Drehung wird mit der Addition von $\frac{p i}{4},$
die Spiegelung mit der Multiplikation mit -1 bewirkt. $φ = - \hat{φ} + \frac{p i}{4} = - atan (| A |) + \frac{p i}{4} = atan (\frac{1}{| A |}) - \frac{p i}{4} .$
Mit $φ = 2 (atan (\frac{1}{| A |}) - \frac{p i}{4})$
wird der Abbildungswinkel zwischen $[- \frac{π}{2}, \frac{π}{2}]$
skaliert. Bei Gegenkorrelation kann man über:

• |a₁|≥|a₂|: φ_st̂, k)=π-φ,
• |a₁|<|a₁|: φ_s(t̂, k)=-π-φ

Winkel für rückwärtige virtuelle Quellenrichtungen gewinnen.
Die direktionale Signal Komponente soll als lineare Kombination des Eingangssignals x ermittelt werden: $\hat{s} : = g^{T} x = g^{T} (a s + N),$
mit g^T = [g₁, g₂].
Der Fehler lässt sich mit $e r r = \hat{s} - g^{T} (a s + N)$
ermitteln. Dieser wird minimal, wenn dieser orthogonal zum Eingangssignal wird: $\begin{matrix} (x e r r *) = 0 \\ a P_{\hat{s}} - a g^{T} a P_{s} + g^{T} I P_{n} = 0 \end{matrix}$
Mit g^T a = a g^T folgt: $(a a^{T} P_{s} + I P_{n}) g = a P_{s}$
und $\begin{array}{l} g = {(a a^{T} P_{\hat{s}} + I P_{n})}^{- 1} a P_{\hat{s}} = C^{- 1} a P_{\hat{s}} \\ (a a^{T} P_{\hat{s}} + I P_{n}) = [\begin{matrix} a_{1}^{2} P_{\hat{s}} + P_{n} & a_{1} a_{2} P_{\hat{s}} \\ a_{1} a_{2} P_{\hat{s}} & a_{2}^{2} P_{\hat{s}} + P_{n} \end{matrix}] \end{array}$
Eine Lösung existiert wenn die 2x2 Matrix C invertierbar ist und numerisch ergibt sich: $\begin{array}{l} g = [\begin{matrix} \frac{a_{1} P_{s}}{P_{s} + P_{n}} \\ \frac{a_{2} P_{s}}{P_{s} + P_{n}} \end{matrix}] \\ \hat{s} = g^{T} x \end{array}$
Mischt man jetzt das Signal zurück aŝ = ag^Tx und bestimmt C_ŝ so gilt in der Regel C_ŝ ≠ C_s. Erst durch eine Skalierung lässt sich erreichen, dass C_ŝ = C_s wird, bzw. die Leistung des extrahierten Signals P_s erreicht. Mit $P_{\hat{s}} = \hat{s} * {\hat{s}}^{*} = g^{T} (a a^{T} P_{s} + I P_{n}) g$
folgt: $s = \sqrt{\frac{P_{s}}{g^{T} (a a^{T} P_{s} + I P_{n}) g}} \hat{s} = \sqrt{\frac{P_{s}}{g^{T} (C) g}} \hat{s}$
$s = \sqrt{\frac{P_{s}}{{(g_{1} a_{1} + g_{2} a_{2})}^{2} P_{s} + (g_{1}^{2} + g_{2}^{2}) P_{n}}} \hat{s}$
Die direkte Anwendung des Signalmodels liefert eine Beschreibungsform einer einzelnen diffusen Zweikanal-Komponente. Um einen Upmix auf eine 3D-Repräsentation zu ermöglichen sind jedoch mehr diffuse Komponenten notwendig. Eine Möglichkeit diese zu generieren besteht durch die Anwendung von Dekorrelatoren. Dies bringt jedoch häufig hörbare Artefakte mit sich so, dass hier ein anderer Ansatz angewendet wird bei dem mehrere diffuse Zweikanal-Komponenten aus dem Ursprungsignal extrahiert werden. Das vektorielle Diffussignal des Signalmodels wird damit als gewichtete additive Überlagerung der hier extrahierten Signale betrachtet: $N = g_{n} n + g_{T F} n_{T F} + g_{T B} n_{T B} .$
Das erste eskalierte diffuse Signal kann wie folgt berechnet werden: ${\hat{n}}_{1} = x_{1} - a_{1} \hat{s} = x_{1} - a_{1} g^{T} x : = h^{T} x$
Damit wird $h = {(a a^{T} P_{\hat{s}} + I P_{n})}^{- 1} [\begin{matrix} P_{n} \\ 0 \end{matrix}],$
$h = [\begin{matrix} \frac{a_{2}^{2} P_{s} + P_{n}}{P_{s} + P_{n}} \\ \frac{- a_{1} a_{2} P_{s}}{P_{s} + P_{n}} \end{matrix}]$
Auch hier ist eine folgende Skalierung notwendig damit die Leistung des extrahierten Signals P_n erreicht wird (Signalmodel: g_n = 1, g_TF = 0 + g_TB = 0).
Mit $P_{\hat{n}} = {\hat{n}}_{1} {\hat{n}}_{1}^{*} = h^{T} x x^{H} h = h^{T} (a a^{T} P_{s} + I P_{n}) h$
folgt: $n_{1} = \sqrt{\frac{P_{n}}{{(h_{1} a_{1} + h_{2} a_{2})}^{2} P_{s} + (h_{1}^{2} + h_{2}^{2}) P_{n}}} {\hat{n}}_{1} .$
Die zweite diffuse Signalkomponente lässt sich wie folgt bestimmen: ${\hat{n}}_{2} = x_{2} - a_{2} \hat{s} = x_{2} - a_{2} g^{T} x : = w^{T} x$
Dies führt auf Extraktions- Koeffizienten: $w = {(a a^{T} P_{\hat{s}} + I P_{n})}^{- 1} [\begin{matrix} 0 \\ P_{n} \end{matrix}],$
$w = [\begin{matrix} \frac{- a_{1} a_{2} P_{s}}{P_{s} + P_{n}} \\ \frac{a_{1}^{2} P_{s} + P_{n}}{P_{s} + P_{n}} \end{matrix}] .$
Ebenfalls ist eine Skalierung notwendig um die Signalleistung von P_n zu erzielen.
Mit $P_{\hat{n}} = {\hat{n}}_{2} {\hat{n}}_{2}^{*} = w^{T} x x^{H} w = w^{T} (a a^{T} P_{s} + I P_{n}) w$
wird $n_{2} = \sqrt{\frac{P_{n}}{{(w_{1} a_{1} + w_{2} a_{2})}^{2} P_{s} + (w_{1}^{2} + w_{2}^{2}) P_{n}}} {\hat{n}}_{2}$
Zur weiteren Dekorrelation in Bezug auf das direktive Signal s erfolgt zusätlich die Gewichtung mit $i = \sqrt{- 1} :$
$n = i [\begin{array}{l} n_{1} \\ n_{2} \end{array}]$
Für den 3D Upmix werden weitere diffuse Signale benötigt. Diese können durch Dekorrelation gewonnen werden, was aber meistens mit hörbaren Artefakten einhergeht. Deshalb werden diese Signale ebenfalls aus x extrahiert.
Die diffusen Signalkomponenten für die vorderen Höhenkanäle n_TF = [n_TF
1, n_TF
2]^T werden wie folgt berechnet: $n_{T F} = \frac{1 i}{2} [\begin{matrix} 1 + a_{2}^{2} & - a_{1} a_{2} \\ - a_{1} a_{2} & 1 + a_{1}^{2} \end{matrix}] x$
Das wird wie folgt aus dem Signalmodel hergeleitet: x = a s + N lässt sich umformen in: $x = A [\begin{matrix} s \\ n_{t f 1} \\ n_{t f 2} \end{matrix}],$
mit $A = [\begin{matrix} a_{1} & 1 & 0 \\ a_{2} & 0 & 1 \end{matrix}] .$
Löst man dieses Gleichungssystem über die Pseudoinverse von A mit $a_{1}^{2} + a_{2}^{2} = 1 : A^{+} = \frac{1}{2} [\begin{matrix} a_{1} & a_{2} \\ a_{2}^{2} + 1 & - a_{1} a_{2} \\ a_{1} a_{2} & 1 + a_{1}^{2} \end{matrix}] .$
Zur weiteren Dekorrelation in Bezug auf das direktive Signal s erfolgt zusätzlich die Gewichtung mit $i = \sqrt{- 1}$
Die diffusen Signalkomponenten für die hinteren Höhenkanäle n_TB = [n_TB
1, n_TB
2]^T werden wie folgt berechnet: $n_{T B_{1}} = 1.2 e^{- i \frac{π}{8}} (x_{1} - a_{1} s),$
$n_{T B_{2}} = 1.2 e^{i \frac{π}{8}} (x_{2} - a_{2} s),$
Dies entspricht den Restsignalen nach Abzug der direktionalen Komponente, die dann zur weiteren Dekorrelation (zu sich selbst) gegeneinander verdreht werden.
Die Erfindung kann für eine Formatumwandlung in beliebigen Bereichen der Audiowiedergabetechnik eingesetzt werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

N. Tsingos, C. Chabanne, C. Robinson, M. McCallus, „Surround sound with height in games using Dolby Pro Logic IIz“, AES 41ST INTERNATIONAL CONFERENCE, London, UK, 2011 February 2-4 [0006]
M. M. Goodwin and J. M. Jot, „Spatial audio scene coding,“ in Proc.125th Audio Eng. Soc. Conv., San Francisco, Ca, USA, 2008 [0007]
J. Thompson, B. Smith, A. Warner, and J. M. Jot, „Direct-diffuse decomposition of multichannel signals using a system of pair-wise correlations,“ in Proc. 133rd Audio Eng. Soc. Conv., San Francisco, CA, 2012 [0007]
C. Faller, „Multiple-loudspeaker playback of stereo signals,“ J. Audio Eng. Soc., vol. 54, no. 11, pp. 1051-1064, Nov. 2006 [0007]
Ville Pulkki „Spatial Sound Reproduction with Directional Audio Coding“, Journal of the AES, 55(6):503-516, June 2007 [0007]
A. Walther and C. Faller, „Direct-ambient decomposition and upmix of surround signals,“ in Proc. IWASPAA, New Paltz, NY, USA, Oct.2011, pp. 277-280 [0007]
Vinton, Mark; McGrath, David; Robinson, Charles; Brown, Phillip, „Next Generation Surround Decoding and Upmixing for Consumer and Professional Applications“, AES 57th International Conference: The Future of Audio Entertainment Technology - Cinema, Television and the Internet (March 2015) [0007]
Choi, Sunwoong; Hyun, Dong-il; Park, Young-cheol; Lee, Seokpil; Youn, Dae Hee, „Blind Upmixing for Height and Wide Channels Based on Image Source Method“, AES 133rd Convention, San Francisco, CA, USA, 2012 October 26-29 [0007]
Sebastian Kraft, Udo Zölzer, „Low-complexity stereo signal decomposition and source separation for application in stereo to 3D upmixing“, AES 140th Convention, Paris, France, 2016 June 4-7 [0007]
Hyunkook Lee, „2D to 3D Upmixing based on Perceptual Band Allocation (PBA)“, AES 136th Convention, Berlin, Germany, 2014 April 26-29 [0008]

Claims

Verfahren zur Formatumwandlung eines mehrkanaligen Audiosignals, bei dem - ein Eingangsaudiosignal (x̂(t)) mit mehreren Audiokanälen empfangen wird, wobei die einzelnen Audiokanäle für eine Lautsprecherwiedergabe jeweils unterschiedlichen Lautsprechern zugeordnet sind; - das Eingangsaudiosignal (x̂(t)) in ein transformiertes Signal (x(t̂, k)) im Zeit/Frequenzbandbereich transformiert wird; - aus dem transformierten Signal (x(t̂, k)) eine direktionale Signalkomponente (s(t, k)) mit zugehörigem Richtungswert φ(t̂, k)) und zugehörigem Vertrauenswert für die Direktivität (d_d (t̂, k)) sowie mehrere diffuse Signalkomponenten (n(t̂, k), n_TF(t̂, k) , n_TB(t̂, k)) extrahiert werden; - aus den extrahierten Signalkomponenten (s(t, k), n(t̂, k), n_TF(t̂, k) , n_TB(t̂, k)) unter Verwendung des Richtungswerts φ(t̂, k)) und des Vertrauenswerts für die Direktivität (d_d(t̂, k)) ein Signal (b_M(t̂, k)) erzeugt wird, das mindestens einen neuen Audiokanal aufweist, der für eine Lautsprecherwiedergabe einem zusätzlichen Lautsprecher zugeordnet ist; - das erzeugte Signal (b_M(t̂, k)) in ein Ausgangsaudiosignal (b_M(t)) im Zeitbereich transformatiert wird; und - das Ausgangsaudiosignal (b_M(t)) ausgegeben wird.
Verfahren nach Anspruch 1, wobei aus dem transformierten Signal (x(t̂, k)) drei diffuse Zweikanal-Signalkomponenten (n(t̂, k), n_TF(t̂, k) , n_TB(t̂, k)) extrahiert werden.
Verfahren nach Anspruch 2, wobei das Eingangsaudiosignal x̂(t) ein digitales Zweikanal-Stereosignal ist, das in ein Ausgangsaudiosignal b_M(t) mit mehr als zwei Kanälen hochgemischt wird.
Verfahren nach Anspruch 3, wobei das digitale Zweikanal-Stereosignal x̂(t) aus dem Heruntermischen von mehr als zwei Audiokanälen eines Surroundsignals gewonnen wurde.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die Audiokanäle des Eingangsaudiosignals (x ̂(t)) Lautsprechern zugeordnet sind, die in einer horizontalen ersten Lautsprecherebene angeordnet sind und der mindestens eine neue Audiokanal des Ausgangsaudiosignals (b_M(t)) einem zusätzlichen Lautsprecher zugeordnet ist; der in einer über der ersten Lautsprecherebene liegenden zweiten Lautsprecherebene angeordnet ist.
Verfahren nach Anspruch 5, wobei das Eingangsaudiosignal x̂(t) ein digitales Zweikanal-Stereosignal oder ein 5-Kanal-Surroundsignal ist und in ein Ausgangsaudiosignal b_M(t) mit neun Audiokanälen hochgemischt wird, das vier Audiokanäle in der zweiten Lautsprecherebene aufweist.
Verfahren nach Anspruch 5, wobei das Eingangsaudiosignal x̂(t) ein digitales Zweikanal-Stereosignal oder ein 5-Kanal-Surroundsignal ist, welches zunächst auf ein Audiosignal mit neun Audiokanälen hochgemischt wird, das vier Audiokanäle in der zweiten Lautsprecherebene aufweist, und wobei ein Teil der zugeordneten Lautsprechern vor und der andere Teil der zugeordneten Lautsprechern hinter einer Hörposition eines Zuhörers angeordnet ist und dann in ein Ausgangsaudiosignal b_M(t) mit sieben Audiokanälen runtergemischt wird, das zwei Audiokanäle in der zweiten Lautsprecherebene aufweist, wobei die zugeordneten Lautsprecher vor der Hörposition des Zuhörers angeordnet ist.
Verfahren nach einem der Ansprüche 5 bis 7, wobei Teile der direktionalen Signalkomponente (s(t, k)) eines Mitten-Audiokanals des Eingangsaudiosignals (x ̂(t)) in einen linken und einen rechten Audiokanal zurückgemischt werden.
Verfahren nach einem der vorhergehenden Ansprüche, wobei zum Erzeugen des Signals (b_M(t̂, k)) aus den ermittelten Signalkomponenten (s(t, k), n(t̂, k), n_TF(t̂, k) , n_TB(t̂, k)) einstellbare Mischkoeffizienten verwendet werden.
Vorrichtung zur Formatumwandlung eines mehrkanaligen Audiosignals, mit - einem Eingang, über den ein Eingangsaudiosignal (x̂(t)) mit mehreren Audiokanälen empfangen wird, wobei die einzelnen Audiokanäle für eine Lautsprecherwiedergabe jeweils unterschiedlichen Lautsprechern zugeordnet sind; - einer ersten Filterbank (31), in der das Eingangsaudiosignal (x̂(t)) in ein transformiertes Signal (x(t̂, k)) im Zeit/Frequenzbandbereich transformiert wird; - einer Extraktionseinheit (32), die aus dem transformierten Signal (x(t̂, k)) eine direktionale Signalkomponente (s(t, k)) mit zugehörigem Richtungswert φ(t̂, k)) und zugehörigem Vertrauenswert für die Direktivität (d_d(t̂, k)) sowie mehrere diffuse Signalkomponenten (n(t̂, k), n_TF(t̂, k) , n_TB(t̂, k)) extrahiert; - einer Renderingeinheit (33), die aus den extrahierten Signalkomponenten (s(t, k), n(t̂, k), n_TF(t̂, k) , n_TB(t̂, k)) unter Verwendung des Richtungswerts (φ(t̂, k)) und des Vertrauenswerts für die Direktivität (d_d(t̂, k)) ein Signal (b_M(t̂, k)) erzeugt, das mindestens einen neuen Audiokanal aufweist, der für eine Lautsprecherwiedergabe einem zusätzlichen Lautsprecher zugeordnet ist; - einer zweiten Filterbank (34), in der das erzeugte Signal (b_M(t̂, k)) in ein Ausgangsaudiosignal (b_M(t)) im Zeitbereich transformatiert wird; und - einem Ausgang, über den das Ausgangsaudiosignal (b_M(t)) ausgegeben wird.
Vorrichtung nach Anspruch 10, mit einem oder mehreren der folgenden Einheiten: - einer Speichereinheit, aus der ein Audiostück zur Formatumwandlung ausgewählt werden kann; - einer Auswahleinheit (21) zur Auswahl eines Audiostücks; - einer Dekodiereinheit zum Umwandeln eines Audiosignals, falls das ausgewählte Audiostück in kodierter Form vorliegt; - einer Auswerteeeinheit zur Bestimmung der Audiokanalzahl eines ausgewählten Audiostücks aus dem Audiostück zugeordneten Metadaten; - einer Zuordnungseinheit (28) zum Zuordnen der generierten Audioausgangssignale an Lautsprecher; - einer Nachbearbeitungseinheit (3); - einer Speichereinheit zur Speicherung der generierten Audioausgangssignale; - einer Ausgabeeinheit (4) zur Wiedergabe der generierten Audioausgangssignale über Lautsprecher oder zur Verteilung der generierten Audioausgangssignale über Netzwerke oder andere Übertragungskanäle; - einer Einstelleinheit zum Einstellen von Mischkoeffizienten.
Audiosignal, das nach dem Verfahren gemäß einem der Ansprüche 1 bis 9 oder mit einer Vorrichtung gemäß einem der Ansprüche 10 oder 11 erzeugt worden ist.