DE102017121876A1 - Verfahren und vorrichtung zur formatumwandlung eines mehrkanaligen audiosignals - Google Patents

Verfahren und vorrichtung zur formatumwandlung eines mehrkanaligen audiosignals Download PDF

Info

Publication number
DE102017121876A1
DE102017121876A1 DE102017121876.9A DE102017121876A DE102017121876A1 DE 102017121876 A1 DE102017121876 A1 DE 102017121876A1 DE 102017121876 A DE102017121876 A DE 102017121876A DE 102017121876 A1 DE102017121876 A1 DE 102017121876A1
Authority
DE
Germany
Prior art keywords
signal
audio
channels
channel
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102017121876.9A
Other languages
English (en)
Inventor
Johannes Boehm
Dirk Olszewski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Paragon AG
Original Assignee
Paragon AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Paragon AG filed Critical Paragon AG
Priority to DE102017121876.9A priority Critical patent/DE102017121876A1/de
Publication of DE102017121876A1 publication Critical patent/DE102017121876A1/de
Ceased legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/07Generation or adaptation of the Low Frequency Effect [LFE] channel, e.g. distribution or signal processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

Bei dem erfindungsgemäßen Verfahren zur Formatumwandlung eines mehrkanaligen Audiosignals, wird ein Eingangsaudiosignal (x̂(t)) mit mehreren Audiokanälen empfangen, wobei die einzelnen Audiokanäle für eine Lautsprecherwiedergabe jeweils unterschiedlichen Lautsprechern zugeordnet sind. Das Eingangsaudiosignal (x̂(t)) wird in ein transformiertes Signal (x(t̂, k)) im Zeit/Frequenzbandbereich transformiert. Aus dem transformierten Signal werden (x(t̂, k)) eine direktionale Signalkomponente (s(t, k)) mit zugehörigem Richtungswert (φ(t̂, k)) und zugehörigem Vertrauenswert für die Direktivität (dd(t̂, k)) sowie mehrere diffuse Signalkomponenten (n(t̂, k), nTF(t̂, k) , nTB(t̂, k)) extrahiert. Aus den extrahierten Signalkomponenten (s(t, k), n(t̂, k), nTF(t̂, k), nTB(t̂, k)) wird unter Verwendung des Richtungswerts (φ(t̂, k)) und des Vertrauenswerts für die Direktivität (dd(t̂, k)) ein Signal (bM(t̂, k)) erzeugt, das mindestens einen neuen Audiokanal aufweist, der für eine Lautsprecherwiedergabe einem zusätzlichen Lautsprecher zugeordnet ist. Das erzeugte Signal (bM(t̂, k)) wird in ein Ausgangsaudiosignal (bM(t)) im Zeitbereich transformatiert und das Ausgangsaudiosignal (bM(t)) ausgegeben.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren Formatumwandlung eines mehrkanaligen Audiosignals. Die vorliegende Erfindung betrifft weiterhin eine Vorrichtung zur Durchführung des Verfahrens und ein Audiosignal, das nach einem erfindungsgemäßen Verfahren oder mit einer erfindungsgemäßen Vorrichtung erzeugt worden ist.
  • Mehrkanalige Audiosignale werden neben einer Übertragung und Wiedergabe von verschiedenen Sprachfassungen Fernsehen-und Kinofilme vor allem verwendet, um mithilfe von mehreren Schallquellen einen räumlichen Höreindruck zu erzeugen. Im einfachsten Fall können hierbei die beiden Kanäle eines Stereosignals auf zwei Lautsprechern ausgegeben werden. Hierbei wird auch von 1D-Audio gesprochen, da ein Hörer die durch das Stereosignal wiedergegebenen Schallquellen so wahrnimmt, als wenn diese an dem Ort des linken oder rechten Lautsprechers eines Stereolautsprecherpaars oder auf einer Gerade, die durch das Stereolautsprecherpaar verläuft, angeordnet wären.
  • Ein besserer räumlicher Höreindruck kann durch die Ausgabe zusätzliche Audiokanäle über weitere Lautsprecher generiert werden, die in einer Horizontalebene um den Hörer herum positioniert werden und üblicherweise als Surround-Lautsprecher bezeichnet werden. Für solche 2D-Audiosignale ist das Surround-Format 5.1 weitverbreitet. Fünf Hauptkanäle und ein separater Tieftoneffektkanal werden separat gespeichert, übertragen und wiedergegeben. Hierbei werden Hauptlautsprecher, die links (L), in der Mitte (C) und rechts (R) angeordnet sind, durch Surroundlautsprecher links hinten (Ls) und rechts hinten (Rs) und einen Tieftonlautsprecher (LFE, „Low Frequency Effects“ oder auch „Low Frequency Enhancement“) ergänzt. Der LFE-Kanal wird hierbei dazu verwendet, niederfrequente Töne, die vom menschlichen Ohr nicht lokalisiert werden können, zu übertragen und wird wegen der begrenzten Bandbreite bei der Bezeichnung des Mehrkanalsystems nicht als vollwertiger Kanal aufgeführt und durch ein angehängtes „.1" gekennzeichnet.
  • Durch weitere Audiokanäle, die nicht in einer gemeinsamen Horizontalebene sondern in unterschiedlichen Höhen bezogen auf den Hörer liegen und durch entsprechend angeordnete zusätzliche Lautsprecher wiedergegeben werden, kann der räumliche Höreindruck gegenüber zweidimensionalen Audio-Formaten weiter optimiert werden und ein naturgetreues dreidimensionales Klangbild erzeugt werden. Auch für dieses sogenannte 3D-Audio sind verschiedene Formate bekannt. Bei dem 3D-Audioformat 9.1 beispielsweise wird das Surround-Format 5.1 durch vier Höhenlautsprecher ergänzt. Hierbei wird über den vier Ecklautsprechern L, R, Ls und Rs des Surround-Formats jeweils ein Höhenlautsprecher Ltf, Rtf, Ltb und Rtb angeordnet.
  • Da 3D-Audio-Formate erst seit wenigen Jahren eingesetzt werden und sich erst jetzt im Kino, im Heimbereich und im Auto vermehrt etablieren, sind Audioinhalte in diesem Format noch nicht in großem Umfang verfügbar. Dagegen sind Audioinhalte in 1D- und 2D-Formaten weit verbreitet. Um zusätzliche 3D-Audio Inhalte zur Verfügung zu stellen und dem Hörer ein 3D-Erlebnis zu ermöglichen, kann aus existierenden Audioinhalten durch Aufwärtsmischung (einen sogenannten Upmix) ein 3D-Audiosignal erzeugt werden.
  • Eine Mitte-Seite-Analyse eines Stereos-Signals wird bei Matrix-Surround und Prologic-Ansätzen zum Upmix auf ein Surround-Signal genutzt. Mit Prologic IIz wurde dieser Ansatz erweitert für einen Upmix auf 5.1 Surround-Kanäle und zwei zusätzliche Höhenkanäle. Dieses ist beschrieben in N. Tsingos, C. Chabanne, C. Robinson, M. McCallus, „Surround sound with height in games using Dolby Pro Logic IIz", AES 41ST INTERNATIONAL CONFERENCE, London, UK, 2011 February 2-4.
  • Lösungen für einen Stereo- auf Surround-Upmix, die auf einem Stereo-Signalmodel mit eingemischten direktionalen und diffusen bzw. ambienten Signalen beruhen und eine Verarbeitung im Zeit/Frequenzbereich benötigen, sind unter anderem offenbart in:
    • M. M. Goodwin and J. M. Jot, „Spatial audio scene coding," in Proc.125th Audio Eng. Soc. Conv., San Francisco, Ca, USA, 2008;
    • J. Thompson, B. Smith, A. Warner, and J. M. Jot, „Direct-diffuse decomposition of multichannel signals using a system of pair-wise correlations," in Proc. 133rd Audio Eng. Soc. Conv., San Francisco, CA, 2012;
    • C. Faller, „Multiple-loudspeaker playback of stereo signals," J. Audio Eng. Soc., vol. 54, no. 11, pp. 1051-1064, Nov. 2006; und
    • Ville Pulkki „Spatial Sound Reproduction with Directional Audio Coding", Journal of the AES, 55(6):503-516, June 2007. Erweiterungen für den Upmix auf 3D-Audiosignale, die Signaldekorrelatoren für die Höhenkanäle nutzen, werden vorgestellt in:
    • A. Walther and C. Faller, „Direct-ambient decomposition and upmix of surround signals," in Proc. IWASPAA, New Paltz, NY, USA, Oct.2011, pp. 277-280;
    • Vinton, Mark; McGrath, David; Robinson, Charles; Brown, Phillip, „Next Generation Surround Decoding and Upmixing for Consumer and Professional Applications", AES 57th International Conference: The Future of Audio Entertainment Technology - Cinema, Television and the Internet (March 2015);
    • Choi, Sunwoong; Hyun, Dong-il; Park, Young-cheol; Lee, Seokpil; Youn, Dae Hee, „Blind Upmixing for Height and Wide Channels Based on Image Source Method", AES 133rd Convention, San Francisco, CA, USA, 2012 October 26-29;
    • Sebastian Kraft, Udo Zölzer, „Low-complexity stereo signal decomposition and source separation for application in stereo to 3D upmixing", AES 140th Convention, Paris, France, 2016 June 4-7.
  • Eine Frequenzbewertung bzw. -filterung der Höhenkanäle, die diese als solche besser wahrnehmbar machen soll, wird beschrieben in dem letztgenannten Tagungsbeitrag von Sebastian Kraft und Udo Zölzer sowie in:
    • Hyunkook Lee, „2D to 3D Upmixing based on Perceptual Band Allocation (PBA)", AES 136th Convention, Berlin, Germany, 2014 April 26-29.
  • Es ist eine Aufgabe der Erfindung, ein verbessertes Verfahren und eine verbesserte Vorrichtung zur Formatumwandlung eines mehrkanaligen Audiosignals, insbesondere zur Umwandlung eines 1D-oder 2D-Audioformats in ein 3D-Audioformat, zur Verfügung zu stellen.
  • Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 sowie durch eine entsprechende Vorrichtung gemäß Anspruch 10 gelöst. Bevorzugte Ausgestaltungen der Erfindung sind Gegenstand der abhängigen Ansprüche.
  • Bei dem erfindungsgemäßen Verfahren zur Formatumwandlung eines mehrkanaligen Audiosignals wird ein Eingangsaudiosignal mit mehreren Audiokanälen empfangen, wobei die einzelnen Audiokanäle für eine Lautsprecherwiedergabe jeweils unterschiedlichen Lautsprechern zugeordnet sind. Das Eingangsaudiosignal wird in ein transformiertes Signal im Zeit/Frequenzbandbereich transformiert. Aus dem transformierten Signal werden eine direktionale Signalkomponente mit zugehörigem Richtungswert und zugehörigem Vertrauenswert für die Direktivität sowie mehrere diffuse Signalkomponenten extrahiert. Aus den extrahierten Signalkomponenten wird unter Verwendung des Richtungswerts und des Vertrauenswerts für die Direktivität ein Signal erzeugt, das mindestens einen neuen Audiokanal aufweist, der für eine Lautsprecherwiedergabe einem zusätzlichen Lautsprecher zugeordnet ist. Das erzeugte Signal wird in ein Ausgangsaudiosignal im Zeitbereich transformatiert und das Ausgangsaudiosignal ausgegeben.
  • Das erfindungsgemäße Verfahren ermöglicht durch die Extraktion von diffusen und direktionalen Signalkomponenten eine direkte Verarbeitung in einer flexiblen Renderereinheit, die Signale für unterschiedliche Lautsprecheranordnungen aufbereiten kann. Ferner benötigt das erfindungsgemäße Verfahren wenig Rechenleistung und hat einen geringen Speicherbedarf, da keine Signaldekorrelatoren benötigt werden, und ist damit auf Signalprozessoren oder anderen Prozessoren einfach realisierbar. Weiterhin können mit dem erfindungsgemäßen Verfahren auch direktionale Signale extrahiert und gerendert werden, deren virtuelle Quelle hinter der Hörposition liegt.
  • Vorzugsweise werden aus dem transformierten Signal drei diffuse Zweikanal-Signalkomponenten extrahiert.
  • Gemäß einer Ausführungsform der Erfindung ist das Eingangsaudiosignal ein digitales Zweikanal-Stereosignal, das in ein Ausgangsaudiosignal mit mehr als zwei Kanälen hochgemischt wird.
  • Gemäß einer weiteren Ausführungsform der Erfindung wurde das digitale Zweikanal-Stereosignal aus dem Heruntermischen von mehr als zwei Audiokanälen eines Surroundsignals gewonnen.
  • Gemäß einer nochmals weiteren Ausführungsform der Erfindung sind die Audiokanäle des Eingangsaudiosignals Lautsprechern zugeordnet, die in einer horizontalen ersten Lautsprecherebene angeordnet sind, wobei der mindestens eine neue Audiokanal des Ausgangsaudiosignals einem zusätzlichen Lautsprecher zugeordnet ist; der in einer über der ersten Lautsprecherebene liegenden zweiten Lautsprecherebene angeordnet ist.
  • Vorteilhafterweise ist das Eingangsaudiosignal hierbei ein digitales Zweikanal-Stereosignal oder ein 5-Kanal-Surroundsignal, das in ein Ausgangsaudiosignal mit neun Audiokanälen hochgemischt wird, das vier Audiokanäle in der zweiten Lautsprecherebene aufweist.
  • Weiterhin ist es von Vorteil, wenn zum Erzeugen des Signals aus den ermittelten Signalkomponenten einstellbare Mischkoeffizienten verwendet werden. Dieses erlaubt eine Optimierung der Lautsprecherwiedergabe um insbesondere eine Anpassung an den geplanten Wiedergaberaum vornehmen zu können.
  • Entsprechend umfasst eine erfindungsgemäße Vorrichtung zur Formatumwandlung eines mehrkanaligen Audiosignals einen Eingang, über den ein Eingangsaudiosignal mit mehreren Audiokanälen empfangen wird, wobei die einzelnen Audiokanäle für eine Lautsprecherwiedergabe jeweils unterschiedlichen Lautsprechern zugeordnet sind. In einer ersten Filterbank wird das Eingangsaudiosignal in ein transformiertes Signal im Zeit/Frequenzbandbereich transformiert. Eine Extraktionseinheit extrahiert aus dem transformierten Signal eine direktionale Signalkomponente mit zugehörigem Richtungswert und zugehörigem Vertrauenswert für die Direktivität sowie mehrere diffuse Signalkomponenten. Eine Renderingeinheit erzeugt aus den extrahierten Signalkomponenten unter Verwendung des Richtungswerts und des Vertrauenswerts für die Direktivität ein Signal, das mindestens einen neuen Audiokanal aufweist, der für eine Lautsprecherwiedergabe einem zusätzlichen Lautsprecher zugeordnet ist. In einer zweiten Filterbank wird das erzeugte Signal in ein Ausgangsaudiosignal im Zeitbereich transformatiert. Über einen Ausgang wird das Ausgangsaudiosignal ausgegeben.
  • Gemäß einer Ausführungsform der Erfindung weist die Vorrichtung eine oder mehrere der folgenden Einheiten auf:
    • - eine Speichereinheit, aus der ein Audiostück zur Formatumwandlung ausgewählt werden kann;
    • - eine Auswahleinheit zur Auswahl eines Audiostücks;
    • - eine Dekodiereinheit zum Umwandeln eines Audiosignals, falls das ausgewählte Audiostück in kodierter Form vorliegt;
    • - eine Auswerteeinheit zur Bestimmung der Audiokanalzahl eines ausgewählten Audiostücks aus dem Audiostück zugeordneten Metadaten;
    • - eine Zuordnungseinheit zum Zuordnen der generierten Audioausgangssignale an Lautsprecher;
    • - eine Nachverarbeitungseinheit;
    • - eine Speichereinheit zur Speicherung der generierten Audioausgangssignale;
    • - eine Ausgabeeinheit zur Wiedergabe der generierten Audioausgangssignale über Lautsprecher oder zur Verteilung der generierten Audioausgangssignale über Netzwerke oder andere Übertragungskanäle;
    • - einer Einstelleinheit zum Einstellen von Mischkoeffizienten.
  • Die Erfindung betrifft auch ein Audiosignal, das nach einem erfindungsgemäßen Verfahren oder mit einer erfindungsgemäßen Vorrichtung erzeugt worden ist.
  • Weitere Merkmale der vorliegenden Erfindung werden aus der nachfolgenden Beschreibung und den Ansprüchen in Verbindung mit den Figuren ersichtlich.
    • 1 zeigt schematisch ein Audio-Wiedergabesystem für ein hochgemischtes 3D-Audiosignal, das durch Formatumwandlung eines 1D- oder 2D-Audiosignals generiert wurde;
    • 2 zeigt ein Blockdiagramm eines erfindungsgemäßen Audio-Upmix-Systems mit vor- und nachgelagerten Bearbeitungseinheiten;
    • 3 zeigt eine Komponente des Audio-Upmix-Systems zum Hochmischen eines Zweikanal-Stereosignals in ein Ausgangssignal mit M Kanälen;
    • 4 zeigt eine Komponente des Audio-Upmix-Systems zum Hochmischen eines Fünfkanal-Surroundsignals in ein 3D-Audio Ausgangssignal mit 9 Kanälen;
    • 5 zeigt eine Analyse-Filterbank und eine Synthese-Filterbank für einen Audiokanal;
    • 6 zeigt Eingangs- und Ausgangssignale sowie interne Bausteine eines UpMix Kernbauelements;
    • 7 zeigt das Blockdiagramm einer Renderingeinheit;
    • 8 zeigt eine Komponente des Audio-Upmix-Systems zum Hochmischen eines Zweikanal-Stereosignals in ein 3D-Audio Ausgangssignal mit 7 Kanälen;
    • 9 zeigt eine Komponente des Audio-Upmix-Systems zum Hochmischen eines Fünfkanal-Surroundsignals in ein 3D-Audio Ausgangssignal mit 7 Kanälen; und 10 zeigt eine Erweiterung der Komponente aus .
  • Zum besseren Verständnis der Prinzipien der vorliegenden Erfindung werden nachfolgend Ausführungsformen der Erfindung anhand der Figuren detaillierter erläutert. Es versteht sich, dass sich die Erfindung nicht auf diese Ausführungsformen beschränkt und dass die beschriebenen Merkmale auch kombiniert oder modifiziert werden können, ohne den Schutzbereich der Erfindung, wie er in den Ansprüchen definiert ist, zu verlassen.
  • 1 zeigt schematisch ein Audio-Wiedergabesystem, bei dem eine erfindungsgemäße Formatumwandlung durchgeführt wird. Eine Audioquelle 1 liefert ein Audiosignal. Hierbei kann es sich insbesondere um einen Speicher bzw. Zwischenspeicher handeln, aus dem ein Audiostück ausgewählt werden kann. Der Speicher kann hierbei beispielsweise als digitaler Speicherbausteinen oder Festplatte ausgestattet sein und in einem mobilen Audiowiedergabegerät, wie einen MP3 Player, ein mobiles Telefon oder ein Tablet-Gerät, oder auch in einem Wiedergabegerät für einen Wohnraum oder öffentlichen Raum oder ein Kraftfahrzeug integriert sein. Ebenso können die Audiosignale aber auch über ein Netzwerk von einem an anderer Stelle befindlichen Audiospeicher zugeführt und dann gegebenenfalls zwischengespeichert werden. Hierbei kann es sich um ein kabelgebundenes Netzwerk wie beispielsweise Ethernet, A2B bei einer Verwendung im Fahrzeug oder auch ein lokales Funknetz wie WLAN oder ein Mobilfunknetz handeln. Die Audiostücke können hierbei auch von hierauf spezialisierten Betreibern in einer Sammlung zusammengestellt werden und dann über das Internet von dem Endbenutzer ausgewählt und in das Wiedergabegerät geladen werden. Schließlich ist es auch denkbar, die mit einem Mikrofon erfassten Audiosignale unmittelbar der erfindungsgemäßen Verarbeitung zuzuführen.
  • Die Audiostücke liegen in der Audioquelle 1 als Mehrkanalstücke mit gleicher Lautheit (z.B. nach EBU R128 oder SMPTE RP200) im unkomprimierten PCM-Format oder einem komprimierten Format vor. Dabei sind beispielsweise folgende Mehrkanalformate möglich: 2-Kanal Stereo (L, R), und 5.1 Surround (L, R, C, LFE, Ls, Rs) oder 7.1 Surround ((L, R, C, LFE, Ls, Rs, Lb, Rb) oder ein 3D-Format mit M+1 Kanälen wie z.B. 5.1+2 (L, R, C, LFE, Ls, Rs, Ltf, Rtf) oder 5.1+4 (L, R, C, LFE, Ls, Rs, Ltf, Rtf, Ltb, Rrtb).
  • Ein für die Wiedergabe aus dem Speichermedium oder Empfangspuffer ausgewähltes Audiostücks wird dann dem im Folgenden im Detail beschriebenen erfindungsgemäßen Audio-Upmix-System 2 zugeführt. In dem Audio-Upmix-System 2 wird dann eine Formatumwandlung in Form einer Aufwärtsmischung der Audiosignale des ausgewählten Autostücks durchgeführt. In einer nachgeordneten Nachbearbeitungseinheit 3 erfolgt dann eine Weiterverarbeitung des Audiosignals wie zum Beispiel ein Bassmanagement bei dem der LFE mit den tiefpassgefilterten Signalen der übrigen Kanäle summiert wird, eine Equalizer-Filterung und eine Sättigungsüberwachung um eine Übersteuerung des PCM Signal zu verhindern. Die nachbearbeiteten Signale werden dann schließlich einer Ausgabeeinheit 4 zur Ausgabe der generierten Audioausgangssignale zugeführt. Dies kann beispielsweise nach Digital-Analog-Wandlung und geeigneter Verstärkung durch eine Wiedergabe über Lautsprecher, beispielsweise durch eine 5.1+4 Lautsprecheranordnung, bei der fünf Lautsprecher in Ohrhöhe entsperrend einer Surroundanordnung mit vier Höhenlautsprechern ergänzt werden, erfolgen. Ebenso können die generierten Audioausgangssignale aber auch über Netzwerke oder andere Übertragungskanäle versendet bzw. verteilt werden.
  • 2 zeigt ein Blockdiagramm eines erfindungsgemäßen Audio-Upmix-Systems 2. Eine Auswahleinheit 21 wählt hierbei aus der vorgelagerten Audioquelle 1 ein Audiostück für die Wiedergabe aus, dass als Zweikanal-Stereosignal im 1D-Format, als 5.1 Surroundsignal im 2D-Format oder in einem 3D-Format mit M+1 Kanälen vorliegen kann. Dies kann in Abhängigkeit von einer Eingabe eines Nutzers über eine Grafische Benutzeroberfläche (abgekürzt GUI von englisch „graphical user interface“) eines Wiedergabegerätes oder automatisch über das Abarbeiten einer Wiedergabeliste oder Playlist (von englisch: „playlist“), die von dem Nutzer erstellt und in dem Wiedergabegerät abgespeichert worden sein kann, erfolgen. Hierfür wird der Auswahleinheit 21 ein Steuersignal scs zugeführt. Die Auswahleinheit 21 wandelt gegebenenfalls das Audiostück in das PCM-Format um, beispielsweise durch die Kodierung eines ursprünglich gemäß dem MP3-Format vorliegenden Audiostücks. Weiterhin werden Metadaten des Audiostückes analysiert um die Audiokanalanzahl zu erkennen und die Audio-Kanäle entsprechend für das 3D-Audio-Upmixsystem anzuordnen.
  • Entsprechend der erkannten Audiokanalanzahl selektiert die Auswahleinheit 21 mittels eines Steuersignals sxD einen Auswahl-Schalter 29 des 3D-Audio-Upmixsystems und routet das Audiosignal des ausgewählten Audiostücks als Eingangssignal für das 3D-Audio-Upmixsystem.
  • Die Auswahleinheit 21 kann hierbei als ein Baustein des 3D-Audio-Upmixsystems realisiert werden oder auch Bestandteil einer vorgelagerten Einheit sein, z.B. Bestandteil einer Haupteinheit, die über ein Bussystem die Audiodaten zum 3D Audio Upmix System sendet.
  • In Abhängigkeit von dem Format bzw. Audiokanalanzahl des Eingangssignals und der entsprechenden Schalterstellung des Auswahl-Schalters 29 sowie dem Aktivieren bzw. Deaktivieren eines Bypassmodus wird das Eingangssignal verschiedenen Komponenten des Audio-Upmix-Systems zugeführt. Hierbei werden, je nachdem, ob der Nutzer den Bypassmodus aktiviert hat oder nicht, über ein Steuersignal sBP weitere Schalter 210, 211 so angesteuert, dass ein Eingangssignal im 1D- bzw. 2D-Format entweder einer jeweils zugeordneten Komponente 22, 24 zum Hochmischen in ein Ausgangssignal mit M Kanälen oder einer jeweils zugeordneten Bypasskomponente 23, 25 zugeführt wird, in der das Eingangssignal mit einem Verstärkungsfaktor g1D oder g2D multipliziert und verzögert wird. Ist das Eingangssignal bereits ein 3D-Audiosignal mit M.1 Kanälen, so erfolgt kein Hochmischen des Signals, sondern nur eine Verstärkung und Verzögerung der M Kanäle in einer Bypasskomponente 26 mit einem Verstärkungsfaktor g3D. Für den LFE-Kanal wird entsprechend der Schalterstellung des Auswahl-Schalters 29 ein LFE-Verstärkungswert bestimmt mit dem die LFE-Kanal-Daten in einer Bypasskomponente 27 multipliziert werden.
  • Im Anschluss werden die einzelnen Audiokanäle für die Weiterverarbeitung in einer Kanal-Zuordnungseinheit 28 in die gewünschte Reihenfolge gebracht und Transportkanälen zugeordnet und danach der Nachbearbeitungseinheit 3 zugeführt.
  • Das in 2 gezeigte Upmix-System ermöglicht damit sowohl, 2-Kanal-Stereo- und 5.1 Surround-Inhalte in ein 3D-Format zu wandeln, als auch auf die Reproduktion des ursprünglichen Formats umzuschalten, wobei eine gleichlaute Darbietung in allen Formaten erfolgen kann. Die Möglichkeit, auf das ursprüngliche Format zurückschalten zu können ermöglicht dem Hörer Unterschiede im Höreindruck bei den verschiedenen Formaten zu erkennen und den besten Reproduktionsmodus für einen speziellen Audioinhalt finden zu können.
  • 3 zeigt die Komponente 22 des Audio-Upmix-Systems zum Hochmischen eines Zweikanal-Stereosignals x̂1D(t) in ein Ausgangssignal b̂M(t) mit M Kanälen. Das Eingangsaudiosignal x̂1D(t) wird zunächst durch eine Analyse-Filterbank 31 in ein transformiertes Signal x1D(t̂, k) im Zeit/Frequenzbandbereich mit t für den jeweils verarbeiteten Block und k für das Frequenzband transformiert. Das transformierte Signal x1D(̂t, k) wird dann dem Kernbauelement des Audio-Upmix-Systems in Form einer Extraktionseinheit 32 zugeführt. Die Extraktionseinheit 32 generiert ein direktionales Signal s(t̂, k), die zugehörige Richtung φ(t̂, k) einen Direktionalitätsindex dd(t̂, k) sowie drei diffuse Zweikanalsignale n(t̂, k), nTF(t̂, k) , nTB(t̂, k). Die von der Extraktionseinheit 32 generierten Signale werden einer Renderingeinheit 33 zugeführt, die in Abhängigkeit der Anzahl und der Zielpositionen der gewünschten Ausgangskanäle, signalisiert über Steuerparameter rmp, hieraus ein Signal bM(t̂, k) erzeugt. Nach einer Rücktransformation in den Zeitbereich durch eine Synthese-Filterbank 34 wird dann ein Ausgangssignal b̂M(t) mit M Kanälen ausgegeben. Bei einer bevorzugten Ausführungsform ist hierbei M = 9, wobei ein Zweikanal-Stereosignal auf ein 3D-Signal mit den folgenden 5+4 Kanälen hochgemischt wird: L, R, C, Ls, Rs, Ltf, Rtf, Ltb, Rtb. Bei einer weiteren bevorzugten Ausführungsform ist M = 5, wobei ein Zweikanal-Stereosignal auf ein 2D-Surroundsignal mit 5 Kanälen hochgemischt wird.
  • Die entsprechende Komponente 24 des Audio-Upmix-Systems zum Hochmischen eines Fünfkanal-Surroundsignals x̂2D(t) in ein Ausgangssignal b̂M(t) mit M Kanälen wird in 4 für das Beispiel eines 3D-Audio Ausgangssignals b̂9(t) mit 9 Kanälen gezeigt.
  • Aus dem Fünfkanal-Surroundsignal x̂2D(t) werden vordere und hintere Stereosignale generiert, die separaten Bearbeitungspfaden zum Hochmischen der Signale zugeführt werden. Hierbei werden die vorderen Seitenkanäle L,R und der Mittenkanal C einem ersten Bearbeitungspfad, und die beiden Soundkanäle Ls und Rs einem zweiten Bearbeitungspfad zugeführt.
  • In dem ersten Bearbeitungspfad werden die Eingangskanäle L, R, C durch eine Einheit 41 zunächst auf zwei Kanäle für vordere Stereosignale x̂2DF(t) heruntergemischt. Im Anschluss erfolgt eine Verarbeitung der vorderen Stereosignale wie bereits für 3 gezeigt. Das erzeugte Signal x̂2DF(t) wird zunächst einer ersten Analyse-Filterbank 31 zugeführt, die ein transformiertes Signal x̂2DF(t̂, k) im Zeit/Frequenzbandbereich erzeugt. Das transformierte Signal wird dann einer ersten Extraktionseinheit 32 zugeführt, die direktionale und diffuse Signale für die vorderen Stereosignale erzeugt. Hierbei kann es ausreichen, lediglich ein Zweikanalsignal zu berechnen und in nachfolgenden Einheiten weiter zu bearbeiten und auf die anderen diffusen Signalkomponenten zu verzichten. Die von der Extraktionseinheit 32 generierten Signale werden einer ersten Renderingeinheit 33 zugeführt, die in Abhängigkeit von der Anzahl und der Zielpositionen der gewünschten Ausgangskanäle, signalisiert über Steuerparameter rmp, hieraus ein Signal bF(t̂, k) erzeugt. Nach einer Rücktransformation in den Zeitbereich durch eine erste Synthese-Filterbank 34 wird ein Ausgangssignal b̂F(t) mit den vorderen Höhensignalen Ltf und Rtf der Kanal-Zuordnungseinheit 28 zugeführt.
  • Eine entsprechende Verarbeitung erfolgt in dem zweiten Bearbeitungspfad für die Soundkanäle Ls und Rs. Das Signal x̂2DB(t) wird durch eine zweite Analyse-Filterbank 31 in den Zeit/Frequenzbandbereich transformiert und das transformierte Signal x̂zDB(t̂, k) einer zweiten Extraktionseinheit 32 zugeführt, die direktionale und diffuse Signale für die hinteren Stereosignale erzeugt, wobei auch hier gegebenenfalls nur ein diffuses Zweikanalsignal berechnet wird. Eine zweite Renderingeinheit 33 erzeugt in Abhängigkeit der Steuerparameter rmp ein Signal bB(t̂, k), das wiederum nach einer Rücktransformation in den Zeitbereich durch eine zweite Synthese-Filterbank 34 ein Ausgangssignal b̂B(t) mit den hinteren Höhensignalen Ltb und Rtb der Kanal-Zuordnungseinheit 28 zugeführt.
  • Zusätzlich wird das Fünfkanal-Surroundsignal x̂2D(t) noch einer Verstärkungs- und Verzögerungseinheit 42 und von dort nach entsprechender Bearbeitung der Signale der Kanalzuordnungseinheit 28 zugeführt. Das verstärkte und verzögerte Eingangssignal wird dann in der Kanalzuordnungseinheit 28 mit den generierten vorderen und hinteren Höhensignalen kombiniert und schließlich ein 3D-Audio-Ausgangssignal b̂9_(t) mit 9 Kanälen ausgegeben.
  • Ein Beispiel für eine Analyse-Filterbank und eine Synthese-Filterbank ist in 5 dargestellt. In der Analyse-Filterbank werden die Abtastwerte des Eingangssignals zunächst in einer ersten Bearbeitungseinheit 51 zur Blockbildung und Fensterung in zu 50% überlappende Blöcke von 1024 Abtastwerten gefenstert. Hierbei können unterschiedliche Fensterfunktionen, wie beispielsweise ein Sinusfenster, eingesetzt werden. Das gefensterte Signal wird dann in einer Transformationseinheit 52 einer 1024-FFT unterzogen und in k separate Frequenzbänder zerlegt. Nach der Transformation von reell wertigen Signalen existiert hierbei eine Symmetrie des komplexen Signals, so das von den 1024 komplexen Werten lediglich die ersten 513 Werte als x1(t̂, k) weiterverarbeitet werden müssen (k = 1..513 , DC bis Nyquist-Komponente).
  • In der Synthese-Filterbank werden die Signale b1(t̂, k) expandiert (k = 1..513- > k̈ = 1 ... 1024) so das die Symmetrieeigenschaften reell wertiger Signale wiederhergestellt wird. In einer Transformationseinheit 53 werden diese dann einer inversen FFT zur Rücktransformation in den Zeitbereich unterzogen. Die Blöcke t werden dann in einer Fenstereinheit 54 mit der gleichen Fensterfunktion wie in der Analysefilterbank gefenstert. Schließlich wird in einer folgenden Einheit 55 die linke Hälfte eines Blocks mit der rechten Hälfte des vorhergehenden Blocks t̂ - 1 additiv überlagert um das Ausganssignal b̂1(t) zu erzeugen.
  • Die Eingangs- und Ausgangssignale sowie interne Bausteine einer Extraktionseinheit 32 sind in 6 gezeigt. Von einer Analyse-Filterbank wird der Extraktionseinheit 32 ein in den Zeit/Frequenzbandbereich transformiertes Signal x(t̂, k) zugeführt und einer Einheit 61 zur Kovarianzanalyse und einer Einheit 62 zur Extraktion von direktionalen und diffusen Komponenten weitergeleitet. Die Verarbeitung- bzw. Berechnungsschritte in diesen Einheiten werden im Folgenden erläutert.
  • In der Einheit 61 zur Kovarianzanalyse werden die 513 Bänder der Analyse-Filterbank (Index k) in 43 Verarbeitungsbänder (Index k̂) unterschiedlicher Bandbreite zusammengefasst. Dabei sind die tieffrequenten Bänder schmalbandig und die Bandbreite wächst mit der Mittenfrequenz der Bänder. Das Zusammenfassen erfolgt hierbei um den Verarbeitungsaufwand zu reduzieren. Die Bandbreiten der Bänder sind proportional zu denen des menschlichen Gehörs gewählt, so dass davon ausgegangen wird das der durch diese Vereinfachung erzeugte Fehler nicht hörbar wird.
  • Für jedes der 43 Bänder wird eine Korrelationsmatrix bestimmt: C ( t ^ , k ^ ) = E ( X ( t ^ ) X ( t ^ ) H ) ,
    Figure DE102017121876A1_0001
    wobei X(t̂)=[x(t̂,kb1),x(t̂,kb2)..x(t̂,kbM)] eine Matrix ist, die bM Bins (kb1 bis kbM) in einem Band k̂ zusammenfasst und E( ) für den Erwartungswertoperator steht. Dieser kann durch einen einfachen IIR Glättungsfilter angenähert werden, wobei die unterschiedliche Bandbreite der Verarbeitungsbänder zu berücksichtigen ist.
  • Für alle kb in einem Verarbeitungsband ist dann C(t̂, kb) = (t̂,k̂) und im Grenzfall hat das Verarbeitungsband nur einen Koeffizienten deshalb kann im Folgenden auf eine Unterscheidung von k̂, k verzichtet werden - k wird als allgemeiner Bandindex betrachtet.
  • Die Eigenwerte der Matrix werden mit folgender Formel berechnet: λ 1 ( t ^ , k ) = 1 2 ( c 22 + c 11 + ( c 11 c 22 ) 2 + 4 | c r12 | 2 ) ,
    Figure DE102017121876A1_0002
    λ 2 ( t ^ , k ) = 1 2 ( c 22 + c 11 + ( c 11 c 22 ) 2 + 4 | c r12 | 2 )
    Figure DE102017121876A1_0003
    mit cr12 = real(c12) hier und cii als Matrixelemente von C.
  • Daraus werden die folgenden Größen berechnet, die für alle Bandbestandteile (bins, Index k in den Bändern) gleichgesetzt werden:
    • • Geschätzte Signalleistungen der diffusen Komponenten PN(t̂, k): P n ( t ^ , k ) = λ 2 ( t ^ , k )
      Figure DE102017121876A1_0004
    • • Geschätzte Signalleistung der direktionalen Komponente Ps(t̂, k): P s ( t ^ , k ) = λ 1 ( t ^ , k ) P n ( t ^ , k )
      Figure DE102017121876A1_0005
    • • Die Elemente des Mischvektors a(t̂, k) = [a1(t̂, k), a2(t̂,k)] mit dem die direktionale Komponente in das Signal X(t̂, k̂) gemischt wurde: a 1 ( t ^ , k ) = 1 1 + A ( t ^ , k ) 2 ,
      Figure DE102017121876A1_0006
      a 2 ( t ^ , k ) = A 2 ( t ^ , k ) 1 + A ( t ^ , k ) 2 ,
      Figure DE102017121876A1_0007
      mit  A ( t ^ , k ) = λ 1 ( t ^ , k ) c 11 c r12 .
      Figure DE102017121876A1_0008
    • • Hieraus lässt sich die Richtung φs(t̂, k) der virtuellen Quelle der Richtungskomponente wie folgt bestimmen:
      • o Berechnung von φ s ˜ ( t ^ , k ) = 2 ( atan ( 1 A ( t ^ , k ) ) p i 4 ) ,
        Figure DE102017121876A1_0009
        mit φ s ˜ ( t ^ , k ) [ π 2 , π 2 ] .
        Figure DE102017121876A1_0010
      • ◯ Ist cr12 ≥ 0: φ s ( t ^ , k ) = φ s ˜ ( t ^ , k ) .
        Figure DE102017121876A1_0011
        Bei Mit-Korrelation wird angenommen, dass das direktionale Signal von vorne oder von den Seiten kommt.
      • o Ist cr12 < 0 (gegenkorreliert):
        • ■ |a1| ≥ |a2| : φ s ( t ^ , k ) = π φ s ˜ ( t ^ , k ) ,
          Figure DE102017121876A1_0012
        • ■ |a1| < |a2| : φ s ( t ^ , k ) = π φ s ˜ ( t ^ , k ) .
          Figure DE102017121876A1_0013
      Bei Gegenkorrelation wird angenommen, dass das direktive Signal von hinten eingestrahlt wird. Im 2-Kanal-Mix macht sich dies durch einen negativen Mischkoeffizienten a2 bemerkbar. Diese Annahme ermöglicht es matrizierte 2 Kanalaufnahmen wie Dolby Prologic Aufnahmen zu dekodieren.
    • • Die Direktivität dd(t̂, k) des Signalgemisches wird mit d d = P s P s + P N
      Figure DE102017121876A1_0014
      bestimmt. Diese kann Werte zwischen Null und Eins annehmen. Diese Extremfälle könne als voll diffus dd = 0 und voll direktional gedeutet werden dd = 1. dd(t̂, k) wird zum Glätten beim Rendern genutzt.
  • Während die Werte für die Direktivität dd(t̂, k) und die Richtung φs(t̂, k) der virtuellen Quelle der Richtungskomponente direkt für die folgende Renderingeinheit ausgegeben werden, werden die Werte für die geschätzten Signalleistungen der diffusen Komponenten PN(t̂, k) und die direktionalen Komponente PS(t̂, k) sowie der Mischvektor an eine Einheit 62 zur Extraktion von direktionalen und diffusen Komponenten innerhalb der Extraktionseinheit 32 weitergeleitet.
  • Die Extraktion von direktionalen und diffusen Komponenten in Einheit 62 wird wie im Folgenden beschrieben durchgeführt. Aus Gründen der übersichtlicheren Darstellung wird hierbei auf die Indizierung mit (t̂, k) verzichtet. Die Verarbeitung erfolgt für jede Zeit/Frequenzband Kachel (t̂, k).
  • Die direktionale Komponente wird wie folgt berechnet: s = P s ( g 1 a 1 + g 2 a 2 ) 2 P s + ( g 1 2 + g 2 2 ) R n g T x ,
    Figure DE102017121876A1_0015
    mit g = [ a 1 P s P s + P n a 2 P s P s + P n ] = [ g 1 g 2 ]
    Figure DE102017121876A1_0016
    und dem Einganssignal x = [ x 1 x 2 ] .
    Figure DE102017121876A1_0017
  • Die diffusen Signalkomponenten n = [n1, n2]T werden wie folgt berechnet: n 1 = 1 i P n ( h 1 a 1 + h 2 a 2 ) 2 P s + ( h 1 2 + h 2 2 ) R n h T x ,
    Figure DE102017121876A1_0018
    mit 1 i = 1 .
    Figure DE102017121876A1_0019

    mit h = [ a 1 a 2 P s P s + P n a 1 a 2 P s P s + P n ] = [ h 1 h 2 ] .
    Figure DE102017121876A1_0020
    n 1 = 1 i P n ( w 1 a 1 + w 2 a 2 ) 2 P s + ( w 1 2 + w 2 2 ) R n w T x ,
    Figure DE102017121876A1_0021
    mit w = [ a 1 a 2 P s P s + P n a 1 2 P s + P n P s + P n ] = [ w 1 w 2 ] .
    Figure DE102017121876A1_0022
  • Die diffusen Signalkomponenten für die vorderen Höhenkanäle nTF = [nTF 1 ,nTF 2 ]T werden wie folgt berechnet: n T F = 1 i 2 [ 1 + a 2 2 a 1 a 2 a 1 a 2 1 + a 1 2 ] x
    Figure DE102017121876A1_0023
  • Die diffusen Signalkomponenten für die hinteren Höhenkanäle nTB = [nTB 1 ,nTB 2 ]T werden wie folgt berechnet: n T B 1 = 1.2 e i π 8 ( x 1 a 1 s ) ,
    Figure DE102017121876A1_0024
    n T B 2 = 1.2 e i π 8 ( x 2 a 2 s ) .
    Figure DE102017121876A1_0025
  • Ein Blockdiagramm einer Renderingeinheit 33 ist in 7 dargestellt. Der Renderingeinheit werden von der Extraktionseinheit die direktionale Signalkomponente s(t̂,k) mit zugehörigem Richtungswert φ(t̂, k) und zugehörigem Vertrauenswert für die Direktivität dd(t̂, k) sowie mehrere diffuse Signalkomponenten n(t̂, k), nTF(t̂, k) , nTB(t̂, k) zugeführt. Weiterhin werden der Renderingeinheit 33 die folgenden Steuerparameter zur Initialisierung des Rendermodus zugeführt:
    • • Basisbreite, &W: Ein Faktor zwischen 0.5 und 3 um Stereobreite zu verändern. Werte >1 vergrößern die virtuelle Bühnenbreite. Voreinstellungswert ist 1.5.
    • • Diff Gain, die Diffus Signalverstärkung gMD , ein Faktor zur Verstärkung/Abschwächung der diffusen Signalanteile. Voreinstellungswert ist 1.
    • • Front/back Mix, front/back Mischfaktorfb: Faktor um die diffusen Signalanteile auf die vorderen bzw. hinteren Kanäle zu mischen. Werte zwischen 0 (voll hinten) und 1 (voll vorne). Voreinstellungswert 0.5.
    • • Top Diff. Gain gTD dient zur Skalierung der Diffussen Höhensignale
    • • Elev. Gain gs t Mischfaktor für die direktiven Signale in die Höhenkanäle
    • Mode, zur Auswahl der Funktionalität, Modi hier beschrieben sind
    mode Funktion
    0 Upmix auf L,R, Ls, Rs (5ch, 2D)
    1 Upmix auf L,R, Ls, Rs, Ltf, Rtf, Ltb, Rtb (9 ch, 3D)
    2 Upmix auf Ltf, Rtf (2 vordere Höhenkanäle)
    3 Upmix auf Ltb, Rtb (2 Hintere Höhenkanäle)
    • • Der Faktor cRf ct ∈ [0,.. ,1] steuert wieviel Signalanteile aus den Center Signal auf die linken und rechten Kanäle zurück gemischt werden.
  • In einer Einheit 71 werden in Abhängigkeit von dem gewählten Mode und der gewählten Basisbreite die Azimut-Winkel der Zielpositionen L, R, C, Ls, Rs der mittleren Ebene Lautsprecher verzerrt um die Basisbreite zu verändern. Für die Modi 0-3 werden die Winkel wie folgt berechnet:
    Figure DE102017121876A1_0026
    sw L(30°) Ls(110°)
    1 90 140
    2 70 130
    3 50 120
  • Die berechneten Winkel werden einer Einheit 72 zugeführt, in der mithilfe von φs(t̂, k) Mischkoeffizienten bestimmt werden um die extrahierte direktionale Komponente s(t̂, k) auf die Surroundkanäle bs_midLayer(t̂, k) zu mischen. Die Mischkoeffizienten werden hierbei wie folgt ermittelt:
    • • Bestimme zwei benachbarte Kanäle indiziert durch l1 l2 aus L, R, C, Ls, Rs, z.B L-Ls (l1 = 1, l2 = 4), oder Ls-Rs, Rs-R, R-C, C-L) bei denen die zugeordneten Azimut Positionen φl1, φl2 (s.o) die virtuelle Quellenrichtung φs(t̂, k) einschließen:φl1s(t̂, k) < φl2 und ermittle die zugehörige kartesische Positionsmatrix L 12 = [ X l 1 X l 2 Y l 1 Y l 2 ] = [ c o s φ L 1 c o s φ L 2 s i n φ L 1 s i n φ L 2 ] .
      Figure DE102017121876A1_0027
    • • Bestimme die Mischkoeffizienten a ^ = [ a ^ l 1 a ^ l 2 ]
      Figure DE102017121876A1_0028
      über
      • a ¨ = 1 X l 2 Y l 2 X l 2 Y l 1 [ Y l 2 X l 2 Y l 1 X l 1 ] [ c o s ( φ s ( t ^ , k ) ) s i n ( φ s ( t t ^ , k ) ) ]
        Figure DE102017121876A1_0029
      • a ¯ ¯ = a ¨ | a ¨ | 2
        Figure DE102017121876A1_0030
  • Die ermittelten Mischkoeffizienten werden einer Einheit 73 zugeführt, in der hieraus neue Mischkoeffizienten berechnet werden können um einen Teil des Center-Signals auf die linken und rechten Kanäle zurückzumischen. Dieses kann durchgeführt werden um einen oft als störend empfundenen Effekt zu eliminieren, der beim Upmix lauter Zweikanalstereosignale auftreten kann und das hochgemischte Signale fast nur noch aus dem Centerkanal zu kommen erscheinen lässt.
  • Die Steuergröße cRef ct ∈ [0,..,1] steuert wieviel Signalanteile aus den Center Signal auf die linken und rechten Kanäle zurückgemischt werden. Ein Wert von 0 bedeutet keine Rückmischung, ein Wert von 1 das vollständige Einmischen des Center Signals in die linken und rechten Kanäle.
  • Zuerst wird der Vektor mit den Mischkoeffizienten kopiert: a ^ = a ¯ ¯
    Figure DE102017121876A1_0031
  • Die Vektorelemente 1 bis 3 sind dabei dem linken, dem rechten und dem Center-Kanal zugeordnet. Als neuer Mischkoeffizient für den linken Kanal wird berechnet:
    Figure DE102017121876A1_0032
  • Als neuer Mischkoeffizient für den rechten Kanal wird berechnet:
    Figure DE102017121876A1_0033
  • Als neuer Mischkoeffizient für den Center-Kanal wird berechnet:
    Figure DE102017121876A1_0034
  • Die neuen Mischkoeffizienten werden einer Einheit 74 zugeführt und dort entsprechend ihrer Indices im Mischvektor γ̌, der zuvor mit Null initialisiert wurde, angeordnet (z.B. [0, âl 1 , âl 2 , 0,0]T für l1 = 2, l2 = 3 (R,C)). Dieser Vektor wird mit Hilfe der Direktivität dd (t̂, k) geglättet: γ ( t ^ , k ) = ( 1 d d ( t ^ , k ) 2 ) γ ( t ^ 1, k ) + d d ( t ^ , k ) 4 γ
    Figure DE102017121876A1_0035
  • Bei hoher Direktivität wird der neue Mischwert quasi übernommen. Bei fallender Direktivität ist die Schätzung der Quellrichtung in der Regel nicht vertrauenswürdig und es werden Vergangenheitswerte entsprechend berücksichtigt.
  • In einer Einheit 75 werden die direktionalen Komponenten dann mit γ(t̂, k) gemischt: b s _ m i d L a y e r ( t ^ , k ) = γ ( t ^ , k ) s ( t ^ , k )
    Figure DE102017121876A1_0036
  • In einer Einheit 77 werden dann die direktionalen Kanäle der Höhenebene (Ltf, Rtf, Ltb, Rtb) wie folgt generiert: b s _ t o p l a y e r ( t ^ , k ) = g s t M   b s _ m i d l a y e r ( t ^ , k ) ,
    Figure DE102017121876A1_0037
    mit dem Mischfaktor gs el (Elev. Gain) und der Mischmatrix [ 1 0 0.5 0 0 0 1 0.5 0 0 0 0 0 1 0 0 0 0 0 1 ]
    Figure DE102017121876A1_0038
  • In einer Einheit 76 werden die den verschiedenen Lautsprechern zugeordneten diffusen Signale wie folgt gewonnen.
  • Für die Modi mode=0, mode=1 und die Lautsprecher der mittleren Ebene (L,R,C,Ls, Rs): b d m i d L a y e r ( t ^ , k ) = g M D [ 0.8 f b 0 0 0.8 f b 0.8 f b 0.8 f b ( 1 f b ) 0 0 ( 1 f b ) ] n ( t ^ , k )
    Figure DE102017121876A1_0039
  • Für den Mode mode=1 und die Höhenlautsprecher (Ltf, Rtf, Ltb, Rtb): b d t o p L a y e r ( t ^ , k ) = g T D [ 1.2 0 0 0 0 1.2 0 0 0 0 1 0 0 0 0 1 ] [ n T F ( t ^ , k ) n T B ( t ^ , k ) ]
    Figure DE102017121876A1_0040
  • Für den Mode mode=2 und die vorderen Höhenlautsprecher (Ltf, Rtf): b d t o p L a y e r ( t ^ , k ) = g T D [ 1.2 0 0 1.2 0 0 0 0 ] n ( t ^ , k )
    Figure DE102017121876A1_0041
  • Für den Modi mode=3 und die hinteren Höhenlautsprecher (Ltb, Rtb): b d t o p L a y e r ( t ^ , k ) = g T D [ 0 0 0 0 1.2 0 0 1.2 ] n ( t ^ , k )
    Figure DE102017121876A1_0042
  • In einer Einheit 78 werden die diffusen Signale, die den Höhenlautsprechern (Ltf, Rtf, Ltb, Rtb) zugeordnet sind, im Frequenzbereich gewichtet. Dies geschieht in der vollen Frequenzauflösung (k): b d t o p L a y e r ( t ^ , k ) = [ F t f ( k ) F t f ( k ) F t b ( k ) F t b ( k ) ] b d T o p L a y e r ( t ^ , k ) .
    Figure DE102017121876A1_0043
    mit den reell wertigen Filterkoeffizienten Ftf b(k) und ̊◦ als Operator für die elementweise Multiplikation.
  • Die Bewertungsfilter verstärken das Signal in Frequenzbändern, die für die Richtungswahrnehmung der zugeordneten Lautsprecherpositionen wichtig sind, d.h. insbesondere im Bereich der Blauertschen Bänder.
  • Die Ausgangsignale der Einheiten 75, 76,77 und 78 werden dann durch additiv Überlagerung je nach Upmixmode wie folgt erzeugt und in einer Einheit 79 den Ausgangskanälen zugeordnet:
    mode Funktion
    0 Upmix auf L,R, Ls, Rs (5ch, 2D) b 5 ( k ) = b s m i d L a y e r ( k ) + b d m i d L a y e r ( k )
    Figure DE102017121876A1_0044
    1 Upmix auf L,R, Ls, Rs, Ltf, Rtf, Ltb, Rtb (9 ch, 3D) b 9 ( k ) = [ b s m i d L a y e r ( k ) + b d m i d L a y e r ( k ) b s t o p L a y e r ( k ) + b d t o p L a y e r ( k ) ]
    Figure DE102017121876A1_0045
    2 Upmix auf Ltf, Rtf (2 vordere Höhenkanäle) b F ( k ) = b s t o p L a y e r ( 1 : 2, k ) + b d t o p L a y e r ( 1 : 2, k )
    Figure DE102017121876A1_0046
    3 Upmix auf Ltb, Rtb (2 Hintere Höhenkanäle) b B ( k ) = b s t o p L a y e r ( 3 : 4, k ) + b d t o p L a y e r ( 3 : 4, k )
    Figure DE102017121876A1_0047
  • Hierbei wird die direktionale Signalkomponente s(t̂, k) auf die Lautsprecherkanäle der mittleren Ebene bs_midLayer(t̂, k̂)) und dann auf die Kanäle der Höhenlautsprecher bs_toplayer (t̂, k) gemischt. Diesen Signalen additiv überlagert werden die diffusen Signale bd midLayer (t̂, k)bzw. bd topLayer (t̂, k) die aus n(t̂, k), nTF(t̂, k) , nTB(t̂, k), matriziert wurden, wobei die diffusen Höhenlautsprechersignale, soweit vorhanden, zuvor gefiltert werden.
  • Eine weitere Ausführungsform für eine Komponente des Audio-Upmix-Systems zum Hochmischen eines Zweikanal-Stereosignals in ein 3D-Audio Ausgangssignal mit 7 Kanälen ist in 8 gezeigt. Diese Ausführungsform entspricht im Wesentlichen der Ausführungsformen aus 3 und weist ebenso eine Analyse-Filterbank 31, eine Extraktionseinheit 32, eine Renderingeinheit 33 und eine Synthese-Filterbank 34 auf. Das Zweikanal-Stereosignal wird hier jedoch zuerst auf ein 9-Kanal-Signal (5+4: L, R, C, Ls, Rs, Ltf, Rtf, Ltb, Rtb) hochgemischt. Das 9-Kanal-Signal wird dann aber in einer Filter-und Downmixeinheit 81 gefiltert und heruntergemischt um ein 7-Kanal-Signal 5+2: L, R, C, Ls, Rs, Ltf, Rtf zu erhalten bei dem die hinteren Höhensignale in die Surroundkanäle gemischt wurden.
  • Eine wiederum weitere Ausführungsform für eine Komponente des Audio-Upmix-Systems zum Hochmischen eines Fünfkanal-Surroundsignals in ein 3D-Audio Ausgangssignal mit 7 Kanälen ist in 9 gezeigt. Diese Ausführungsform entspricht im Wesentlichen der Ausführungsform aus 4. Wie in der Ausführungsform aus 4 werden zunächst vier Höhenkanäle generiert. Die rückwärtigen Höhenkanäle werden dann jedoch in einer Filtereinheit 92 gefiltert und durch eine Mischmatrix in der Kanal-Zuordnungseinheit 28 in die Surroundkanäle eingemischt. Das 7-Kanalausgangssignal setzt sich dann aus L, R, C, Ls, Rs, Ltf, Rtf zusammen.
  • Eine Erweiterung der Ausführungsform aus 9, bei der die Surroundkanäle gefiltert und miteingemischt werden, ist in 10 dargestellt.
  • In dem zweiten Bearbeitungspfad für die Soundkanäle Ls und Rs wird hierbei das durch die Analyse-Filterbank 31 in den Zeit/Frequenzbandbereich transformierte Signal x2DB(t̂, k) zusätzlich zu der Extraktionseinheit 32 auch einer Filterung in einer Filtereinheit 101 zugeführt. Das gefütterte Signal wird dann nach einer Rücktransformation in den Zeitbereich durch eine dritte Synthese-Filterbank 34 der Kanal-Zuordnungseinheit 28 zugeführt.
  • Weitere Erläuterungen und Herleitungen zu dem beschriebenen Verfahren werden im Folgenden gegeben. Alle Betrachtungen finden im Zeit/Frequenzbereich statt, deshalb wird übersichtlichkeitshalber auf die Indizierung mit (t̂, k) an vielen Stellen verzichtet.
  • Ein Zweikanal-Stereosignal kann durch eine Überlagerung von M direktionalen Signalen und ambienten, diffusen Signalen beschrieben werden. Dies lässt sich im Zeit/Frequenzbereich wie folgt formulieren: x 1 ( t ^ , k ) = m = 1 M a 1 m s m ( t ^ , k ) + n 1 ( t ^ , k ) ,
    Figure DE102017121876A1_0048
    x 1 ( t ^ , k ) = m = 1 M a 2 m s m ( t ^ , k ) + n 2 ( t ^ , k ) .
    Figure DE102017121876A1_0049
  • Die direktionalen Signale sm werden mit den Koeffizienten a1 m und a2 m auf den linken und rechten Kanal gemischt, die diffuisen Signale n1, n2 sind in der Regel zueinander und zu sm unkorreliert. Das Model basiert auf der Vorstellung von Musik die in einem Raum aufgezeichnet bzw für einen Raum gemischt wurde. Die direktionalen Signale repräsentieren dabei das Direktsignal der Quelle und die ersten Reflexionen an den Wänden und die diffusen Signale die späten Reflexionen. Die Koeffizienten spiegeln die relative Position zum (virtuellen) Mikrofon wieder. Ist die (virtuelle) Quelle m näher zum linken Kanal so ist a1 m > a2 m . Überlagern sich in der Aufnahme viele Signale aus vielen Richtungen so äußert sich das in einer Verschmierung der Phase zwischen dem linken und rechten Kanal und der Grad der Unkorreliertheit dieser Signale wächst.
  • Ist die Zeit/Frequenzauflösung Auflösung hinreichend groß, so kann man davon ausgehen das es pro Band k und Block t nur ein dominates Richtungssignal gibt, die Unterscheidung in mehrere Richtungen ist für das menschliche Gehör nicht weiter möglich. Hieraus ergeben sich Anforderungen für die Analyse- und Synthese-Filterbank: Gefensterte 50% überlappende Blöcke um Änderungen und Sprünge zu Verschmieren und eine Verarbeitung in Frequenzbändern mit gehörangepassten Bandbreiten.
  • Es ergibt sich somit ein vereinfachtes Signalmodel mit einer direktionalen Komponente: x = a   s + N
    Figure DE102017121876A1_0050
    x 1 = a 1 s + n 1
    Figure DE102017121876A1_0051
    x 2 = a 2 s + n 2
    Figure DE102017121876A1_0052
  • Das linke und rechte Signal in x setzt sich aus diffusen, nicht korrelierten Bestandteilen n1, n2 und einer eingemischten direktionalen (korrelierten) Komponente s zusammen.
  • Für die Mischkoeffizienten wird der folgende Zusammenhang definiert: | a 1 | 2 + | a 2 | 2 = 1
    Figure DE102017121876A1_0053
  • Damit kann man davon ausgehen, dass die Signale energieerhaltend auf den linken und rechten Kanal gemischt wurden.
  • Die Kovarianz-Matrix dieses Signalmodels wird zu einer Korrelations-Matrix, wenn man Signale mit dem Mittelwert Null annimmt. Dies ist eine verbreitete Annahme in Bezug auf Audiosignale. C = E ( x   x H ) = [ c 11 c 12 c 12 * c 22 ]
    Figure DE102017121876A1_0054
  • E( ) ist dabei der Erwartungswertoperator. Dieser kann über eine gleitende Mittelwertbildung oder einen Glättungs- IIR Filter (rekursiv) realisiert werden.
  • Die Eigenwerte dieser 2x2 Matrix werden durch λ1,2(C) = {x:det(C-xI) = 0 } berechnet. Mit det ( [ c 11 x c 12 c 12 * c 22 ] ) = ( c 11 x ) ( c 22 x ) | c 12 | 2 = 0  und  c 12 * c 12 = | c 12 | 2
    Figure DE102017121876A1_0055
    und folgt: λ 1,2 = 1 2 ( c 22 + c 11 ± ( c 11 c 22 ) 2 + 4 | c 12 | 2 )
    Figure DE102017121876A1_0056
  • Es gelten weitere Modelannahmen und Definitionen:
    • - Direktionale und diffuse Komponenten sind nicht korreliert: E ( s   n 1,2 * ) = 0
      Figure DE102017121876A1_0057
    • - Die geschätzte Signalleistung der direktionalen Komponente: Ps = E(s s*)
    • - Die (geschätzten) Signalleistungen der diffusen Komponenten sind gleich: Pn = Pn 1 = Pn 2 = E(n1n1) (Dies trifft in der Regel für 2 Kanalsignale zu, selten ist auf einer Seite offenes Gelände auf der anderen ein Halbraum; die diffusen Signale n1n2 selbst müssen nicht gleich sein).
    • - Die diffusen Komponenten sind untereinander nicht korreliert: E ( n 1 n 2 * ) = 0
      Figure DE102017121876A1_0058
    • - Die Mischkoeffizienten a1, a2 in a sind reell wertig und es gilt: a 1 2 + a 2 2 = 1
      Figure DE102017121876A1_0059
      und damit cr12 = real(c12). Bei Gegenkorrelation wird der Wert negativ. Negative Korrelationen zwischen dem linken und rechten Kanal lassen sich unterschiedlich interpretieren:
      • o Das Signal ist wird ambient/diffus, da es keine Zuordnung einer Position für die virtuelle Quelle vorne zwischen dem linken und rechten Lautsprecher gefunden werden kann.
      • o Es wird angenommen, dass eine rückwärtige direktionale Komponente eingemischt wurde. Damit können Quellen hinter dem Sweet-Spot (virtuellem Mikrofon) zugeordnet werden. Die Annahme macht Sinn, wenn der Upmix-Algorithmus kompatibel zu matrizierten Surroundsignalen arbeiten soll.
  • Damit wird die Kovarianz Matrix zu C = [ | a 1 | 2 P s + P n a 1 a 2 * P s a 1 * a 2 P s | a 2 | 2 P s + P n ] = C S + C n = [ | a 1 | 2 P s a 1 a 2 * P s a 1 * a 2 P s | a 2 | 2 P s ] + [ P n 0 0 P n ] ,
    Figure DE102017121876A1_0060
  • Sie setzt sich aus der Kovarianz des gemischten direktionalen Anteils Cs und der Kovarianz der diffusen Anteile Cn zusammen.
  • Die Eigenwerte der Matrix werden zu: λ 1,2 = 1 2 [ c 22 + c 11 ± ( c 11 c 22 ) 2 + 4 | c r12 | 2 ] = 0,5 ( P s + 2 P n ± ( Ps 2 ( a 1 2 a 2 2 ) 2 ) + 4 a 1 2 a 2 2 P s ) = 0.5 ( P s + 2 P n ± ( Ps 2 ( a 1 2 a 2 2 ) 2 ) ) = 0.5 ( P s + 2 P n ± P s )
    Figure DE102017121876A1_0061
  • Damit berechnet sich geschätzten Signalleistung der diffusen Komponenten mit: P n = λ 2 = 1 2 ( c 22 + c 11 ( c 11 c 22 ) 2 + 4 | c r12 | 2 ) .
    Figure DE102017121876A1_0062
  • Die geschätzte Signalleistung der direktionalen Komponente berechnet sich mit: P s = λ 1 P n = ( c 11 c 22 ) 2 + 4 | c r12 | 2
    Figure DE102017121876A1_0063
  • Das Verhältnis der Mischkoeffizienten lässt sich wie folgt ermitteln: A = a 2 a 1 = λ 1 c 11 c r12 = P n + P s c 11 c r12 = c 22 P n c r12 = ( c 22 c 11 + ( c 11 c 22 ) 2 + 4 | c r12 | 2 ) 2 c r12
    Figure DE102017121876A1_0064
    mit a 1 2 = 1 a 2 2  und  a 2 2 = 1 a 1 2
    Figure DE102017121876A1_0065
    s.o. und damit folgt: a 1 = 1 1 + A 2
    Figure DE102017121876A1_0066
    a 2 = A 1 + A 2
    Figure DE102017121876A1_0067
  • Um extrahierte direktionale Signal-Komponenten später auf das Surroundsignal mischen zu können ist es sinnvoll eine virtuelle Quellenrichtung aus den Mischkoeffizienten zu bestimmen.
  • Die den Eigenwerten λ1,λ2 zugeordneten Eigenvektoren v1, v2 werden mit
    Figure DE102017121876A1_0068
    angegeben. Das bedeutet, dass das Signal x1 der kartesischen X-Achse und das Signal x2 der Y-Achse zugeordnet wird. Dem folgend würden beide Signale im extrem Fall mit einem Winkel von 90° angeordnet: Ist das rechte Signal Null und (voll direktiv) so ist a1 = 1 und x1 wird voll der X-Achse zugeordnet, ist nur der rechte Kanal aktiv wird x2 voll der Y-Achse zugeordnet. Es gilt:
    Figure DE102017121876A1_0069
    Über das Verhältnis der Mischkoeffizienten A = a 2 a 1
    Figure DE102017121876A1_0070
    kann man also einen Abbildungswinkel φ̂ bestimmen:
    Figure DE102017121876A1_0071
  • Im Referenzkoordinatensystem liegt die X-Achse direkt zwischen den Lautsprechern. Um das PCA Koordinatensystem in das Referenzsystem umzurechnen muss dieses also um 45 Grad gedreht/ gespiegelt werden. Die Drehung wird mit der Addition von p i 4 ,
    Figure DE102017121876A1_0072
    die Spiegelung mit der Multiplikation mit -1 bewirkt. φ = φ ^ + p i 4 = atan ( | A | ) + p i 4 = atan ( 1 | A | ) p i 4 .
    Figure DE102017121876A1_0073
  • Mit φ = 2 ( atan ( 1 | A | ) p i 4 )
    Figure DE102017121876A1_0074
    wird der Abbildungswinkel zwischen [ π 2 ,   π 2 ]
    Figure DE102017121876A1_0075
    skaliert. Bei Gegenkorrelation kann man über:
    • • |a1|≥|a2|: φst̂, k)=π-φ,
    • • |a1|<|a1|: φs(t̂, k)=-π-φ
  • Winkel für rückwärtige virtuelle Quellenrichtungen gewinnen.
  • Die direktionale Signal Komponente soll als lineare Kombination des Eingangssignals x ermittelt werden: s ^ : = g T x = g T ( a   s + N ) ,
    Figure DE102017121876A1_0076
    mit gT = [g1, g2].
  • Der Fehler lässt sich mit e r r = s ^ g T ( a   s + N )
    Figure DE102017121876A1_0077
    ermitteln. Dieser wird minimal, wenn dieser orthogonal zum Eingangssignal wird: ( x   e r r * ) = 0 a   P s ^ a   g T   a   P s + g T   I P n = 0
    Figure DE102017121876A1_0078
  • Mit gT a = a gT folgt: ( a a T P s + I P n ) g = a P s
    Figure DE102017121876A1_0079
    und g = ( a a T P s ^ + I P n ) 1 a P s ^ = C 1   a P s ^ ( a a T P s ^ + I P n ) = [ a 1 2 P s ^ + P n a 1 a 2 P s ^ a 1 a 2 P s ^ a 2 2 P s ^ + P n ]
    Figure DE102017121876A1_0080
  • Eine Lösung existiert wenn die 2x2 Matrix C invertierbar ist und numerisch ergibt sich: g = [ a 1 P s P s + P n a 2 P s P s + P n ] s ^ = g T x
    Figure DE102017121876A1_0081
  • Mischt man jetzt das Signal zurück aŝ = agTx und bestimmt C so gilt in der Regel C ≠ Cs. Erst durch eine Skalierung lässt sich erreichen, dass C = Cs wird, bzw. die Leistung des extrahierten Signals Ps erreicht. Mit P s ^ = s ^ s ^ = g T ( a a T   P s + I P n ) g
    Figure DE102017121876A1_0082
    folgt: s = P s g T ( a a T P s + I P n ) g s ^ = P s g T ( C ) g s ^
    Figure DE102017121876A1_0083
    s = P s ( g 1 a 1 + g 2 a 2 ) 2 P s + ( g 1 2 + g 2 2 ) P n s ^
    Figure DE102017121876A1_0084
  • Die direkte Anwendung des Signalmodels liefert eine Beschreibungsform einer einzelnen diffusen Zweikanal-Komponente. Um einen Upmix auf eine 3D-Repräsentation zu ermöglichen sind jedoch mehr diffuse Komponenten notwendig. Eine Möglichkeit diese zu generieren besteht durch die Anwendung von Dekorrelatoren. Dies bringt jedoch häufig hörbare Artefakte mit sich so, dass hier ein anderer Ansatz angewendet wird bei dem mehrere diffuse Zweikanal-Komponenten aus dem Ursprungsignal extrahiert werden. Das vektorielle Diffussignal des Signalmodels wird damit als gewichtete additive Überlagerung der hier extrahierten Signale betrachtet: N = g n n + g T F n T F + g T B n T B .
    Figure DE102017121876A1_0085
  • Das erste eskalierte diffuse Signal kann wie folgt berechnet werden: n ^ 1 = x 1 a 1 s ^ = x 1 a 1 g T   x : = h T x
    Figure DE102017121876A1_0086
  • Damit wird h = ( a a T   P s ^ + I P n ) 1 [ P n 0 ] ,
    Figure DE102017121876A1_0087
    h = [ a 2 2 P s + P n P s + P n a 1 a 2 P s P s + P n ]
    Figure DE102017121876A1_0088
  • Auch hier ist eine folgende Skalierung notwendig damit die Leistung des extrahierten Signals Pn erreicht wird (Signalmodel: gn = 1, gTF = 0 + gTB = 0).
  • Mit P n ^ = n ^ 1 n ^ 1 = h T x x H h = h T ( a a T   P s + I P n ) h
    Figure DE102017121876A1_0089
    folgt: n 1 = P n ( h 1 a 1 + h 2 a 2 ) 2 P s + ( h 1 2 + h 2 2 ) P n n ^ 1 .
    Figure DE102017121876A1_0090
  • Die zweite diffuse Signalkomponente lässt sich wie folgt bestimmen: n ^ 2 = x 2 a 2 s ^ = x 2 a 2 g T   x : = w T x
    Figure DE102017121876A1_0091
  • Dies führt auf Extraktions- Koeffizienten: w = ( a a T P s ^ + I P n ) 1 [ 0 P n ] ,
    Figure DE102017121876A1_0092
    w = [ a 1 a 2 P s P s + P n a 1 2 P s + P n P s + P n ] .
    Figure DE102017121876A1_0093
  • Ebenfalls ist eine Skalierung notwendig um die Signalleistung von Pn zu erzielen.
  • Mit P n ^ = n ^ 2 n ^ 2 = w T x x H w = w T ( a a T   P s + I P n ) w
    Figure DE102017121876A1_0094
    wird n 2 = P n ( w 1 a 1 + w 2 a 2 ) 2 P s + ( w 1 2 + w 2 2 ) P n n ^ 2
    Figure DE102017121876A1_0095
  • Zur weiteren Dekorrelation in Bezug auf das direktive Signal s erfolgt zusätlich die Gewichtung mit i = 1 :
    Figure DE102017121876A1_0096
    n = i [ n 1 n 2 ]
    Figure DE102017121876A1_0097
  • Für den 3D Upmix werden weitere diffuse Signale benötigt. Diese können durch Dekorrelation gewonnen werden, was aber meistens mit hörbaren Artefakten einhergeht. Deshalb werden diese Signale ebenfalls aus x extrahiert.
  • Die diffusen Signalkomponenten für die vorderen Höhenkanäle nTF = [nTF 1 , nTF 2 ]T werden wie folgt berechnet: n T F = 1 i 2 [ 1 + a 2 2 a 1 a 2 a 1 a 2 1 + a 1 2 ] x
    Figure DE102017121876A1_0098
  • Das wird wie folgt aus dem Signalmodel hergeleitet: x = a s + N lässt sich umformen in: x = A [ s n t f 1 n t f 2 ] ,
    Figure DE102017121876A1_0099
    mit A = [ a 1 1 0 a 2 0 1 ] .
    Figure DE102017121876A1_0100
    Löst man dieses Gleichungssystem über die Pseudoinverse von A mit a 1 2 + a 2 2 = 1 :   A + = 1 2 [ a 1 a 2 a 2 2 + 1 a 1 a 2 a 1 a 2 1 + a 1 2 ] .
    Figure DE102017121876A1_0101
  • Zur weiteren Dekorrelation in Bezug auf das direktive Signal s erfolgt zusätzlich die Gewichtung mit i = 1
    Figure DE102017121876A1_0102
  • Die diffusen Signalkomponenten für die hinteren Höhenkanäle nTB = [nTB 1 , nTB 2 ]T werden wie folgt berechnet: n T B 1 = 1.2   e i π 8 ( x 1 a 1   s ) ,
    Figure DE102017121876A1_0103
    n T B 2 = 1.2   e i π 8 ( x 2 a 2   s ) ,
    Figure DE102017121876A1_0104
  • Dies entspricht den Restsignalen nach Abzug der direktionalen Komponente, die dann zur weiteren Dekorrelation (zu sich selbst) gegeneinander verdreht werden.
  • Die Erfindung kann für eine Formatumwandlung in beliebigen Bereichen der Audiowiedergabetechnik eingesetzt werden.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • N. Tsingos, C. Chabanne, C. Robinson, M. McCallus, „Surround sound with height in games using Dolby Pro Logic IIz“, AES 41ST INTERNATIONAL CONFERENCE, London, UK, 2011 February 2-4 [0006]
    • M. M. Goodwin and J. M. Jot, „Spatial audio scene coding,“ in Proc.125th Audio Eng. Soc. Conv., San Francisco, Ca, USA, 2008 [0007]
    • J. Thompson, B. Smith, A. Warner, and J. M. Jot, „Direct-diffuse decomposition of multichannel signals using a system of pair-wise correlations,“ in Proc. 133rd Audio Eng. Soc. Conv., San Francisco, CA, 2012 [0007]
    • C. Faller, „Multiple-loudspeaker playback of stereo signals,“ J. Audio Eng. Soc., vol. 54, no. 11, pp. 1051-1064, Nov. 2006 [0007]
    • Ville Pulkki „Spatial Sound Reproduction with Directional Audio Coding“, Journal of the AES, 55(6):503-516, June 2007 [0007]
    • A. Walther and C. Faller, „Direct-ambient decomposition and upmix of surround signals,“ in Proc. IWASPAA, New Paltz, NY, USA, Oct.2011, pp. 277-280 [0007]
    • Vinton, Mark; McGrath, David; Robinson, Charles; Brown, Phillip, „Next Generation Surround Decoding and Upmixing for Consumer and Professional Applications“, AES 57th International Conference: The Future of Audio Entertainment Technology - Cinema, Television and the Internet (March 2015) [0007]
    • Choi, Sunwoong; Hyun, Dong-il; Park, Young-cheol; Lee, Seokpil; Youn, Dae Hee, „Blind Upmixing for Height and Wide Channels Based on Image Source Method“, AES 133rd Convention, San Francisco, CA, USA, 2012 October 26-29 [0007]
    • Sebastian Kraft, Udo Zölzer, „Low-complexity stereo signal decomposition and source separation for application in stereo to 3D upmixing“, AES 140th Convention, Paris, France, 2016 June 4-7 [0007]
    • Hyunkook Lee, „2D to 3D Upmixing based on Perceptual Band Allocation (PBA)“, AES 136th Convention, Berlin, Germany, 2014 April 26-29 [0008]

Claims (12)

  1. Verfahren zur Formatumwandlung eines mehrkanaligen Audiosignals, bei dem - ein Eingangsaudiosignal (x̂(t)) mit mehreren Audiokanälen empfangen wird, wobei die einzelnen Audiokanäle für eine Lautsprecherwiedergabe jeweils unterschiedlichen Lautsprechern zugeordnet sind; - das Eingangsaudiosignal (x̂(t)) in ein transformiertes Signal (x(t̂, k)) im Zeit/Frequenzbandbereich transformiert wird; - aus dem transformierten Signal (x(t̂, k)) eine direktionale Signalkomponente (s(t, k)) mit zugehörigem Richtungswert φ(t̂, k)) und zugehörigem Vertrauenswert für die Direktivität (dd (t̂, k)) sowie mehrere diffuse Signalkomponenten (n(t̂, k), nTF(t̂, k) , nTB(t̂, k)) extrahiert werden; - aus den extrahierten Signalkomponenten (s(t, k), n(t̂, k), nTF(t̂, k) , nTB(t̂, k)) unter Verwendung des Richtungswerts φ(t̂, k)) und des Vertrauenswerts für die Direktivität (dd(t̂, k)) ein Signal (bM(t̂, k)) erzeugt wird, das mindestens einen neuen Audiokanal aufweist, der für eine Lautsprecherwiedergabe einem zusätzlichen Lautsprecher zugeordnet ist; - das erzeugte Signal (bM(t̂, k)) in ein Ausgangsaudiosignal (bM(t)) im Zeitbereich transformatiert wird; und - das Ausgangsaudiosignal (bM(t)) ausgegeben wird.
  2. Verfahren nach Anspruch 1, wobei aus dem transformierten Signal (x(t̂, k)) drei diffuse Zweikanal-Signalkomponenten (n(t̂, k), nTF(t̂, k) , nTB(t̂, k)) extrahiert werden.
  3. Verfahren nach Anspruch 2, wobei das Eingangsaudiosignal x̂(t) ein digitales Zweikanal-Stereosignal ist, das in ein Ausgangsaudiosignal bM(t) mit mehr als zwei Kanälen hochgemischt wird.
  4. Verfahren nach Anspruch 3, wobei das digitale Zweikanal-Stereosignal x̂(t) aus dem Heruntermischen von mehr als zwei Audiokanälen eines Surroundsignals gewonnen wurde.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Audiokanäle des Eingangsaudiosignals (x ̂(t)) Lautsprechern zugeordnet sind, die in einer horizontalen ersten Lautsprecherebene angeordnet sind und der mindestens eine neue Audiokanal des Ausgangsaudiosignals (bM(t)) einem zusätzlichen Lautsprecher zugeordnet ist; der in einer über der ersten Lautsprecherebene liegenden zweiten Lautsprecherebene angeordnet ist.
  6. Verfahren nach Anspruch 5, wobei das Eingangsaudiosignal x̂(t) ein digitales Zweikanal-Stereosignal oder ein 5-Kanal-Surroundsignal ist und in ein Ausgangsaudiosignal bM(t) mit neun Audiokanälen hochgemischt wird, das vier Audiokanäle in der zweiten Lautsprecherebene aufweist.
  7. Verfahren nach Anspruch 5, wobei das Eingangsaudiosignal x̂(t) ein digitales Zweikanal-Stereosignal oder ein 5-Kanal-Surroundsignal ist, welches zunächst auf ein Audiosignal mit neun Audiokanälen hochgemischt wird, das vier Audiokanäle in der zweiten Lautsprecherebene aufweist, und wobei ein Teil der zugeordneten Lautsprechern vor und der andere Teil der zugeordneten Lautsprechern hinter einer Hörposition eines Zuhörers angeordnet ist und dann in ein Ausgangsaudiosignal bM(t) mit sieben Audiokanälen runtergemischt wird, das zwei Audiokanäle in der zweiten Lautsprecherebene aufweist, wobei die zugeordneten Lautsprecher vor der Hörposition des Zuhörers angeordnet ist.
  8. Verfahren nach einem der Ansprüche 5 bis 7, wobei Teile der direktionalen Signalkomponente (s(t, k)) eines Mitten-Audiokanals des Eingangsaudiosignals (x ̂(t)) in einen linken und einen rechten Audiokanal zurückgemischt werden.
  9. Verfahren nach einem der vorhergehenden Ansprüche, wobei zum Erzeugen des Signals (bM(t̂, k)) aus den ermittelten Signalkomponenten (s(t, k), n(t̂, k), nTF(t̂, k) , nTB(t̂, k)) einstellbare Mischkoeffizienten verwendet werden.
  10. Vorrichtung zur Formatumwandlung eines mehrkanaligen Audiosignals, mit - einem Eingang, über den ein Eingangsaudiosignal (x̂(t)) mit mehreren Audiokanälen empfangen wird, wobei die einzelnen Audiokanäle für eine Lautsprecherwiedergabe jeweils unterschiedlichen Lautsprechern zugeordnet sind; - einer ersten Filterbank (31), in der das Eingangsaudiosignal (x̂(t)) in ein transformiertes Signal (x(t̂, k)) im Zeit/Frequenzbandbereich transformiert wird; - einer Extraktionseinheit (32), die aus dem transformierten Signal (x(t̂, k)) eine direktionale Signalkomponente (s(t, k)) mit zugehörigem Richtungswert φ(t̂, k)) und zugehörigem Vertrauenswert für die Direktivität (dd(t̂, k)) sowie mehrere diffuse Signalkomponenten (n(t̂, k), nTF(t̂, k) , nTB(t̂, k)) extrahiert; - einer Renderingeinheit (33), die aus den extrahierten Signalkomponenten (s(t, k), n(t̂, k), nTF(t̂, k) , nTB(t̂, k)) unter Verwendung des Richtungswerts (φ(t̂, k)) und des Vertrauenswerts für die Direktivität (dd(t̂, k)) ein Signal (bM(t̂, k)) erzeugt, das mindestens einen neuen Audiokanal aufweist, der für eine Lautsprecherwiedergabe einem zusätzlichen Lautsprecher zugeordnet ist; - einer zweiten Filterbank (34), in der das erzeugte Signal (bM(t̂, k)) in ein Ausgangsaudiosignal (bM(t)) im Zeitbereich transformatiert wird; und - einem Ausgang, über den das Ausgangsaudiosignal (bM(t)) ausgegeben wird.
  11. Vorrichtung nach Anspruch 10, mit einem oder mehreren der folgenden Einheiten: - einer Speichereinheit, aus der ein Audiostück zur Formatumwandlung ausgewählt werden kann; - einer Auswahleinheit (21) zur Auswahl eines Audiostücks; - einer Dekodiereinheit zum Umwandeln eines Audiosignals, falls das ausgewählte Audiostück in kodierter Form vorliegt; - einer Auswerteeeinheit zur Bestimmung der Audiokanalzahl eines ausgewählten Audiostücks aus dem Audiostück zugeordneten Metadaten; - einer Zuordnungseinheit (28) zum Zuordnen der generierten Audioausgangssignale an Lautsprecher; - einer Nachbearbeitungseinheit (3); - einer Speichereinheit zur Speicherung der generierten Audioausgangssignale; - einer Ausgabeeinheit (4) zur Wiedergabe der generierten Audioausgangssignale über Lautsprecher oder zur Verteilung der generierten Audioausgangssignale über Netzwerke oder andere Übertragungskanäle; - einer Einstelleinheit zum Einstellen von Mischkoeffizienten.
  12. Audiosignal, das nach dem Verfahren gemäß einem der Ansprüche 1 bis 9 oder mit einer Vorrichtung gemäß einem der Ansprüche 10 oder 11 erzeugt worden ist.
DE102017121876.9A 2017-09-21 2017-09-21 Verfahren und vorrichtung zur formatumwandlung eines mehrkanaligen audiosignals Ceased DE102017121876A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102017121876.9A DE102017121876A1 (de) 2017-09-21 2017-09-21 Verfahren und vorrichtung zur formatumwandlung eines mehrkanaligen audiosignals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102017121876.9A DE102017121876A1 (de) 2017-09-21 2017-09-21 Verfahren und vorrichtung zur formatumwandlung eines mehrkanaligen audiosignals

Publications (1)

Publication Number Publication Date
DE102017121876A1 true DE102017121876A1 (de) 2019-03-21

Family

ID=65526649

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102017121876.9A Ceased DE102017121876A1 (de) 2017-09-21 2017-09-21 Verfahren und vorrichtung zur formatumwandlung eines mehrkanaligen audiosignals

Country Status (1)

Country Link
DE (1) DE102017121876A1 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016130500A1 (en) * 2015-02-09 2016-08-18 Dolby Laboratories Licensing Corporation Upmixing of audio signals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016130500A1 (en) * 2015-02-09 2016-08-18 Dolby Laboratories Licensing Corporation Upmixing of audio signals

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
A. Walther and C. Faller, „Direct-ambient decomposition and upmix of surround signals," in Proc. IWASPAA, New Paltz, NY, USA, Oct.2011, pp. 277-280
C. Faller, „Multiple-loudspeaker playback of stereo signals," J. Audio Eng. Soc., vol. 54, no. 11, pp. 1051-1064, Nov. 2006
Choi, Sunwoong; Hyun, Dong-il; Park, Young-cheol; Lee, Seokpil; Youn, Dae Hee, „Blind Upmixing for Height and Wide Channels Based on Image Source Method", AES 133rd Convention, San Francisco, CA, USA, 2012 October 26-29
Hyunkook Lee, „2D to 3D Upmixing based on Perceptual Band Allocation (PBA)", AES 136th Convention, Berlin, Germany, 2014 April 26-29
J. Thompson, B. Smith, A. Warner, and J. M. Jot, „Direct-diffuse decomposition of multichannel signals using a system of pair-wise correlations," in Proc. 133rd Audio Eng. Soc. Conv., San Francisco, CA, 2012
M. M. Goodwin and J. M. Jot, „Spatial audio scene coding," in Proc.125th Audio Eng. Soc. Conv., San Francisco, Ca, USA, 2008
N. Tsingos, C. Chabanne, C. Robinson, M. McCallus, „Surround sound with height in games using Dolby Pro Logic IIz", AES 41ST INTERNATIONAL CONFERENCE, London, UK, 2011 February 2-4
Sebastian Kraft, Udo Zölzer, „Low-complexity stereo signal decomposition and source separation for application in stereo to 3D upmixing", AES 140th Convention, Paris, France, 2016 June 4-7
Ville Pulkki „Spatial Sound Reproduction with Directional Audio Coding", Journal of the AES, 55(6):503-516, June 2007
Vinton, Mark; McGrath, David; Robinson, Charles; Brown, Phillip, „Next Generation Surround Decoding and Upmixing for Consumer and Professional Applications", AES 57th International Conference: The Future of Audio Entertainment Technology - Cinema, Television and the Internet (March 2015)

Similar Documents

Publication Publication Date Title
EP2080411B1 (de) Vorrichtung und Verfahren zum Erzeugen einer Anzahl von Lautsprechersignalen für ein Lautsprecher-Array, das einen Wiedergaberaum definiert
DE69714782T2 (de) Mehrkanal-audioverbesserungssystem zur verwendung in aufzeichnung und wiedergabe und verfahren zu seiner herstellung
EP1854334B1 (de) Vorrichtung und verfahren zum erzeugen eines codierten stereo-signals eines audiostücks oder audiodatenstroms
EP2206113B1 (de) Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung
DE60225806T2 (de) Audiokanalübersetzung
EP3117631B1 (de) Vorrichtung und verfahren zum verarbeiten eines signals im frequenzbereich
EP3069530B1 (de) Verfahren und vorrichtung zum komprimieren und dekomprimieren von schallfelddaten eines gebiets
DE69827775T2 (de) Tonkanalsmischung
DE69232327T2 (de) Tonwiedergabesystem
EP2891334B1 (de) Erzeugung von mehrkanalton aus stereo-audiosignalen
EP3044972B1 (de) Vorrichtung, verfahren und computerprogramm zur dekorrelation von lautsprechersignalen
DE102010030534A1 (de) Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
WO2007118533A1 (de) Vorrichtung und verfahren zum erzeugen eines umgebungssignals
US11115768B2 (en) Binaural dialogue enhancement
DE102019135690B4 (de) Verfahren und Vorrichtung zur Audiosignalverarbeitung für binaurale Virtualisierung
EP2457389A1 (de) Vorrichtung und verfahren zur verbesserung stereophoner oder pseudostereophoner audiosignale
DE102012224454A1 (de) Erzeugung von 3D-Audiosignalen
WO2015101413A2 (de) Verfahren zur audiowiedergabe in einem mehrkanaltonsystem
Slavik et al. Wiedergabeverfahren
DE102017121876A1 (de) Verfahren und vorrichtung zur formatumwandlung eines mehrkanaligen audiosignals
DE112021004444T5 (de) Stereobasierte immersive codierung (stic)
WO2015128379A1 (de) Kodierung und dekodierung eines niederfrequenten kanals in einem audiomultikanalsignal

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R002 Refusal decision in examination/registration proceedings
R003 Refusal decision now final