DE102015104699A1

DE102015104699A1 - Verfahren zur Analyse und Dekomposition von Stereoaudiosignalen

Info

Publication number: DE102015104699A1
Application number: DE102015104699.7A
Authority: DE
Inventors: Sebastian Kraft; Marco Fink; Martin Mieth
Original assignee: Hamburg Innovation GmbH; Helmut Schmidt Universitaet
Current assignee: Hamburg Innovation GmbH; Helmut Schmidt Universitaet
Priority date: 2015-03-27
Filing date: 2015-03-27
Publication date: 2016-09-29
Also published as: US10284988B2; EP3275212A1; EP3275212B1; WO2016156091A1; US20180084360A1

Abstract

Im Rahmen der Erfindung wurde ein Verfahren zur Analyse und Dekomposition eines Stereoaudiosignals entwickelt. Dieses Stereoaudiosignal weist ein erstes Audiosignal für eine linke Wiedergabeeinrichtung und ein zweites Audiosignal für eine rechte Wiedergabeeinrichtung auf. Aus diesen Signalen werden Panning-Koeffizienten extrahiert, die die Richtungsinformation über die Schallquellen beinhalten, von denen das Stereoaudiosignal ursprünglich herrührt. Dabei wird von der Näherung ausgegangen, dass für jede Frequenz im Allgemeinen genau eine Schallquelle als dominant angesehen werden kann. Mit dieser Näherung sind die Panning-Koeffizienten durch Lösen eines Gleichungssystems mit geringerem Rechenaufwand erhältlich als nach dem bisherigen Stand der Technik. Dabei ist die Klangqualität, die sich nach dem Repanning des auf diese Weise aufgewerteten Signals auf eine Konfiguration mit mehr als zwei Lautsprechern ergibt, gleichbleibend oder besser. Vorteilhaft werden aus dem Stereoaudiosignal nach Bestimmunt der Panning-Koeffizienten das Direktsignal sowie zwei nicht mit der Direktschallquelle korrelierte Umgebungssignale und extrahiert.

Description

Die Erfindung betrifft ein Verfahren zur Analyse und Dekomposition eines Stereo-Audiosignals sowie ein Verfahren zum Erzeugen eines Mehrkanalaudiosignals.
Stand der Technik
Mit der Aufzeichnung eines Stereoaudiosignals, wobei in der Regel ein erstes Audiosignal für eine linke Wiedergabeeinrichtung und ein zweites Audiosignal für eine rechte Wiedergabeeinrichtung verwendet wird, lässt sich der Eindruck erzeugen, dass Phantomschallquellen auf einen Hörbereich zwischen dem Hörer und den beiden Wiedergabeeinrichtungen verteilt sind.
Dabei liefert der Pegelunterschied zwischen dem ersten und dem zweiten Audiosignal primär die Information, aus welcher azimutalen Richtung relativ zum Hörer der Schall zu kommen scheint. Diese Information ist lediglich eindimensional und kann daher naturgemäß keine realistische Reproduktion von Räumlichkeit herstellen. Zudem ist der Azimutwinkel der möglichen Positionierung von Phantomschallquellen auf den Bereich beschränkt, der durch eine erste Verbindungsstrecke zwischen dem Hörer und der linken Wiedergabeeinrichtung und durch eine zweite Verbindungsstrecke zwischen dem Hörer und der rechten Wiedergabeeinrichtung aufgespannt wird. Des Weiteren ist es nur mit zwei Wiedergabeeinrichtungen nicht möglich Räumlichkeit zu simulieren, da hierfür der Schall aus allen Raumrichtungen abgestrahlt und auf den Hörer treffen müsste.
Mehrkanalaudiosysteme mit beispielsweise fünf oder sieben Wiedergabeeinrichtungen vermitteln dem Hörer daher einen deutlich detaillierteren räumlichen Eindruck. Dieser Zusatznutzen liegt jedoch im Wesentlichen brach, wenn die Aufnahme nur als Stereoaudiosignal zur Verfügung steht.
Aus der DE 10 2012 017 296 B4 ist ein Verfahren zum Erzeugen eines Mehrkanalaudiosignals aus einem Stereoaudiosignal bekannt. Damit lassen sich gerichtete Direktschallanteile und diffuse Umgebungsschallanteile in einem Stereoaudiosignal trennen sowie die Richtungsinformation der Direktschallanteile bestimmen, um anschließend alle Signalbestandteile auf einer Mehrkanalwiedergabeeinrichtung abzuspielen. Allerdings ist dieses Verfahren sehr rechenaufwändig.
Aufgabe und Lösung
Aufgabe der vorliegenden Erfindung ist daher, bei gleichbleibender oder besserer Klangqualität die in einem Stereoaudiosignal enthaltene räumliche Information über die Anordnung der Schallquellen mit einem geringeren Rechenaufwand zu rekonstruieren.
Diese Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren zur Analyse gemäß Hauptanspruch sowie durch ein Verfahren zum Erzeugen eines Mehrkanalaudiosignals gemäß Nebenanspruch. Weitere vorteilhafte Ausgestaltungen ergeben sich aus den daraus rückbezogenen Unteransprüchen.
Gegenstand der Erfindung
Im Rahmen der Erfindung wurde ein Verfahren zur Analyse und Dekomposition eines Stereoaudiosignals entwickelt. Dieses Stereoaudiosignal weist ein erstes Audiosignal für eine linke Wiedergabeeinrichtung und ein zweites Audiosignal für eine rechte Wiedergabeeinrichtung auf.
Erfindungsgemäß sieht das Verfahren folgende Schritte vor:
Zunächst wird das erste Audiosignal in eine erste Zeit-Frequenz-Darstellung überführt. Das zweite Audiosignal wird in eine zweite Zeit-Frequenz-Darstellung überführt. Die Überführung der Audiosignale in die Zeit-Frequenz-Darstellung kann mit beliebigen Verfahren erfolgen. Bevorzugt wird die Kurzzeit-Fourier-Transformation (STFT) verwendet.
Nun wird eine erste Gleichung aufgestellt, die die erste Zeit-Frequenz-Darstellung in Beziehung setzt zum Produkt eines ersten zeit- und frequenzabhängigen Panning-Koeffizienten mit dem zeit- und frequenzabhängigen Signal einer in einem Hörbereich zwischen der linken Wiedergabeeinrichtung und der rechten Wiedergabeeinrichtung angeordneten Direktschallquelle. Es wird eine zweite Gleichung aufgestellt, die die zweite Zeit-Frequenz-Darstellung in Beziehung setzt zum Produkt eines zweiten zeit- und frequenzabhängigen Panning-Koeffizienten mit dem gleichen Signal der gleichen Direktschallquelle. Dabei sind die Panning-Koeffizienten dazu ausgebildet, die Direktschallquelle in dem Hörbereich zu positionieren.
Es werden nun die Panning-Koeffizienten und/oder ein Positionskoeffizient, der der Differenz der Quadrate der Panning-Koeffizienten entspricht, als Lösungen des aus beiden Gleichungen gebildeten Gleichungssystems ermittelt. Zu dem Stereoaudiosignal hat in der Regel eine Vielzahl unabhängiger Schallquellen beigetragen. Derjenige Anteil des ersten und des zweiten Audiosignals, der dem Richtungshören zugänglich ist, setzt sich also aus Beiträgen dieser einzelnen Schallquellen zusammen. Jeder dieser einzelnen Beiträge ist das Produkt einer zeit- und frequenzabhängigen komplexen Amplitude und eines Panning-Koeffizienten, der von der Positionierung der Schallquelle relativ zum Hörer abhängt. Das linke und das rechte Audiosignal sind, wenn man jeweils von Umgebungssignalen absieht, jeweils Summen über solche Einzelbeiträge. Da die Umgebungssignale diffus, über alle Raumrichtungen gleichverteilt und außerdem klein gegenüber dem Direktsignal sind, können sie in dem Gleichungssystem für die Ermittlung der Panning-Koeffizienten unberücksichtigt bleiben. Das Gleichungssystem wird dadurch deutlich einfacher lösbar.
Bei der Aufstellung des Gleichungssystems wird die vereinfachende Annahme gemacht, dass alle gleichzeitig aktiven Schallquellen zu einer einzigen Schallquelle mit zeit- und frequenzabhängiger komplexer Amplitude zusammengefasst werden können. Dies ist möglich, da bei einer ausreichend großen Zeit-Frequenz-Auflösung der Zeit-Frequenz-Darstellung davon auszugehen ist, dass zu einem bestimmten Zeitpunkt und in einem bestimmten Frequenzband nur eine einzige dominante Schallquelle existiert.
Dabei ist die komplexe Amplitude dieser zusammengefassten Schallquelle richtungsunabhängig. Die Richtungsabhängigkeit steckt allein in den Panning-Koeffizienten. Durch die Zusammenfassung der einzelnen Schallquellen lassen sich nun der erste und der zweite Panning-Koeffizient jeder Schallquelle zu einem Paar zeit- und frequenzabhängiger Panning-Koeffizienten für die zusammengefasste Schallquelle vereinen.
Unter der Annahme, dass der erste und der zweite Panning-Koeffizient miteinander verknüpft sind, lässt sich das Gleichungssystem mathematisch umformen, und die Panning-Koeffizienten lassen sich aus dem ersten und zweiten Kanal des Stereosignals ermitteln. Die Verknüpfung zwischen den beiden Panning-Koeffizienten ermöglicht es, das Gleichungssystem durch einfaches mathematisches Umformen zu lösen und für die Panning-Koeffizienten eine geschlossene Formel in den Zeit-Frequenz-Darstellungen des linken und des rechten Audiosignals anzugeben. Im laufenden Betrieb des Verfahrens sind Lösungen des Gleichungssystems also besonders schnell durch Einsetzen der Zeit-Frequenz-Darstellungen in die geschlossene Formel erhältlich.
In einer besonders vorteilhaften Ausgestaltung der Erfindung wird das Gleichungssystem unter der zusätzlichen Bedingung gelöst, dass die Summe der Quadrate der Panning-Koeffizienten konstant ist. Die Summe dieser Quadrate ist bei dem in der Musikproduktion üblicherweise verwendeten Constant-Power-Panning gleich 1. Diese führt dazu, dass die Schallquelle unabhängig von ihrer Position im Hörbereich gleich laut wahrgenommen wird.
Die Panning-Koeffizienten enthalten die vollständige Information, auf welcher Frequenz das Signal zu welcher Zeit von welchem Ort im Hörbereich zu kommen scheint.
Da sich die einzelnen Schallquellen inkohärent überlagern und die Aufnahme des Stereoaudiosignals ebenfalls inkohärent erfolgt, ändert eine unterschiedliche Positionierung der Schallquellen im Hörbereich nur die Amplitude des aufgenommenen Stereoaudiosignals, nicht jedoch dessen Phase. Daher sind auch die Zeit-Frequenz-Darstellungen des ersten und zweiten Audiosignals in Phase mit der zeit- und frequenzabhängigen komplexen Amplitude der Direktschallquelle. Damit kürzen sich die Phasenterme aus dem beschriebenen Gleichungssystem und nach umstellen ergibt sich der erste Panning-Koeffizient als Wurzel aus dem Verhältnis des Betragsquadrats der Zeit-Frequenz-Darstellung des ersten Audiosignals (Zähler) und der Summe der Betragsquadrate der Zeit-Frequenz-Darstellung des ersten und zweiten Audiosignals (Nenner). Analog ergibt sich der zweite Panning-Koeffizient als Wurzel aus dem Verhältnis des Betragsquadrats der Zeit-Frequenz-Darstellung des zweiten Audiosignals (Zähler) und der Summe der Betragsquadrate der Zeit-Frequenz-Darstellung des ersten und zweiten Audiosignals (Nenner).
Der Positionskoeffizient kann aus dem Verhältnis der Differenz der Betragsquadrate beider Zeit-Frequenz-Darstellungen zur Summe der Betragsquadrate beider Zeit-Frequenz-Darstellungen ermittelt werden.
Im Allgemeinen wird das Stereoaudiosignal nicht nur einen richtungsabhängigen Direktsignalanteil enthalten. Stattdessen werden das erste und das zweite Audiosignal jeweils mit einem diffusen Umgebungssignal überlagert sein. Daher werden in einer weiteren besonders vorteilhaften Ausgestaltung der Erfindung aus den Panning-Koeffizienten das Signal der Direktschallquelle (Direktsignal) und/oder zwei nicht richtungsabhängige, d. h. nicht mit der Direktschallquelle korrelierte, Umgebungssignale ermittelt. Dabei ist das erste Umgebungssignal nur in der Zeit-Frequenz-Darstellung des ersten Audiosignals enthalten, und das zweite Umgebungssignal ist nur in der Zeit-Frequenz-Darstellung des zweiten Audiosignals enthalten. Das Hörerlebnis wird genauer reproduziert, wenn nur das Direktsignal mit Hilfe der Panning-Koeffizienten in gerichteter Form wiedergegeben wird. Das diffuse Umgebungssignal sollte auch diffus wiedergegeben werden.
Vorteilhaft werden das Direktsignal und die Umgebungssignale mit einem iterativen Verfahren bestimmt ausgehend von einer Iterationsvorschrift, die das Direktsignal einer jeder Iteration, und/oder einen Beitrag zu diesem Signal, in Beziehung setzt zu den Umgebungssignalen der vorherigen Iteration. Beispielsweise kann in jeder Iteration die Lautstärke eines Beitrags zum Direktsignal als arithmetisches Mittel der Lautstärken beider Umgebungssignale der vorherigen Iteration festgelegt werden. Dies geht von der Annahme aus, dass das Direktsignal im ersten und zweiten Audiosignal mit gleicher Phase vorliegt und die Umgebungssignale dazu Phasenverschoben sind.
Die Näherung kann verfeinert werden, indem bei jeder Iteration die Panning-Koeffizienten aus den Umgebungssignalen der vorherigen Iterationen neu berechnet werden. Hierfür können beispielsweise die Umgebungssignale der vorherigen Iteration als Zeit-Frequenz-Darstellungen eines linken und eines rechten Audiosignals gewertet werden, so dass die Panning-Koeffizienten wie zuvor beschrieben durch Lösen eines Gleichungssystems berechnet werden können.
Vorteilhaft wird dann das erste Umgebungssignal bei jeder Iteration um einen Betrag korrigiert, der das Produkt aus dem neu berechneten ersten Panning-Koeffizienten mit dem Direktsignal, oder mit dem Signalbeitrag, gemäß der aktuellen Iteration ist. Analog wird das zweite Umgebungssignal bei jeder Iteration um einen Betrag korrigiert, der das Produkt aus dem neu berechneten zweiten Panning-Koeffizienten mit dem Direktsignal, oder mit dem Signalbeitrag, gemäß der aktuellen Iteration ist. Der Hintergedanke ist hierbei, dass die Lösung selbstkonsistent sein soll: Ein Signal, das sich im Nachhinein als mit dem Signal der Direktschallquelle korreliert und somit als Teil des Direktsignals erweist, kann offensichtlich nicht zum diffusen Umgebungssignal zählen.
Nach Durchlauf aller Iterationen ergibt sich das gesamte Direktsignal als Summe der in allen einzelnen Iterationen ermittelten Signalbeiträge. Da sowohl die iterativ berechneten Panning-Koeffizienten als auch das iterativ bestimmte Direktsignal nur jeweils Schätzungen sind, ist nicht garantiert, dass die Summe aus dem mit dem ersten Panning-Koeffizienten gewichteten Direktsignal und dem ersten Umgebungssignal genau den Wert der Zeit-Frequenz-Darstellung des ersten Audiosignals entspricht. Analog kann nicht garantiert werden, dass die Summe aus dem mit dem zweiten Panning-Koeffizienten gewichteten Direktsignal und dem zweiten Umgebungssignal genau den Wert der Zeit-Frequenz-Darstellung des zweiten Audiosignals reproduziert. Das Direktsignal und die Umgebungssignale gehorchen zusammen also nicht notwendigerweise dem Signalmodell, das der Aufteilung der Zeit-Frequenz-Darstellungen des ersten und des zweiten Audiosignals in jeweils einen gerichteten und einen diffusen Anteil zu Grunde lag. Daher ist es vorteilhaft, nicht unmittelbar die in der letzten Iteration ermittelten Umgebungssignale weiterzuverwenden, sondern das erste Umgebungssignal als Differenz aus der ersten Zeit-Frequenz-Darstellung und dem mit dem ersten Panning-Koeffizienten gemäß der ersten Iteration gewichteten Direktsignal zu ermitteln. Analog sollte das zweite Umgebungssignal als Differenz zwischen der zweiten Zeit-Frequenz-Darstellung und dem mit dem zweiten Panning-Koeffizienten gemäß der ersten Iteration gewichteten Direktsignal ermittelt werden.
Im Rahmen der Erfindung wurde auch ein Verfahren zum Erzeugen eines Mehrkanalaudiosignals aus einem Stereoaudiosignal entwickelt. Dabei weist das Stereoaudiosignal ein erstes Audiosignal für eine linke Wiedergabeeinrichtung und ein zweites Audiosignal für eine rechte Wiedergabeeinrichtung auf.
Erfindungsgemäß wird das Stereoaudiosignal zunächst mit einem Verfahren gemäß der Erfindung analysiert. Anschließend wird aus den Panning-Koeffizienten eine Mehrzahl von Repanning-Koeffizienten ermittelt, wobei jeder dieser Repanning-Koeffizienten einen Tonkanal einer Mehrzahl von Tonkanälen des Mehrkanalaudiosignals zugeordnet wird. Dabei sind die Repanning-Koeffizienten für die Mehrzahl von Tonkanälen ausgeführt, eine Direktschallquelle in einem Hörbereich zwischen einer Mehrzahl von Wiedergabeeinrichtungen für das Mehrkanalaudiosignal zu positionieren. Das Signal der Direktschallquelle (Direktsignal) wird nun mit einem ersten Repanning-Koeffizienten verrechnet und einem ersten Tonkanal zugeordnet. Es wird mit einem zweiten Repanning-Koeffizienten verrechnet und einem zweiten Tonkanal zugeordnet. Es wird schließlich auch mit einem dritten Repanning-Koeffizienten verrechnet und einem dritten Tonkanal zugeordnet. Diese Signale dieser drei Tonkanäle können entweder direkt wiedergegeben oder für eine spätere Wiedergabe bzw. Weiterverarbeitung gespeichert werden.
Vorteilhaft wird das erste Umgebungssignal dem ersten Tonkanal additiv hinzugefügt, und das zweite Umgebungssignal wird dem dritten Tonkanal additiv hinzugefügt.
In einer weiteren vorteilhaften Ausgestaltung der Erfindung wird jeder Tonkanal in jeweils ein Wiedergabesignal des Mehrkanalaudiosignals überführt, wobei jedes Wiedergabesignal für jeweils eine Wiedergabeeinrichtung vorgesehen ist.
Die Ermittlung der Repanning-Koeffizienten stellt eine Umverteilung des richtungsabhängigen Direktsignals auf eine beliebige Lautsprecheranordnung dar. Das Umgebungssignal wird anschließend auf eine Auswahl von Lautsprechern additiv überlagert. Für das Repanning kann ein beliebiges Verfahren gemäß Stand der Technik verwendet werden, beispielsweise das Verfahren gemäß DE 10 2012 017 296 B4 oder auch das „vector base amplitude panning” gemäß (Ville Pulkki, „Virtual sound source positioning using vector based amplitude panning", Journal of the Audio Engineering Society, Vol. 45, Issue 6, pp. 456–466, June 1997).
In einer weiteren vorteilhaften Ausgestaltung der Erfindung lassen sich die extrahierten Direkt- und Umgebungsschallsignale nicht nur für die unmittelbare Wiedergabe des Stereo-Audiosignals als aufgewertetes Mehrkanalaudiosignal nutzen. Sie können beispielsweise für eine spätere Wiedergabe abgespeichert und/oder vor der Wiedergabe manipuliert werden, um das Hörerlebnis mit weiteren Effekten aufzuwerten.
Es wurde erkannt, dass bei der oben beschriebenen iterativen Berechnung des Direktsignals und der Umgebungssignale für eine gegen Unendlich strebende Iterationszahl beide Umgebungssignale gegen betragsmäßig gleiche Werte mit unterschiedlichen Vorzeichen streben. Sie sind also bis auf einen Phasenfaktor identisch. Mit dieser zusätzlichen Vereinfachung können das Direktsignal und die Umgebungssignale im laufenden Betrieb mit besonders wenig Rechenaufwand unmittelbar erhalten werden.
In einer weiteren besonders vorteilhaften Ausgestaltung der Erfindung wird somit das Signal der Direktschallquelle (Direktsignal) aus dem Verhältnis der Summe beider Zeit-Frequenz-Darstellungen der Audiosignale (Zähler) zur Summe beider Panning-Koeffizienten (Nenner) ermittelt wird. Weiterhin können auch die Umgebungssignale aus dem Verhältnis einer Differenz zwischen der Zeit-Frequenz-Darstellung des ersten Audiosignals, gewichtet mit dem zweiten Panning-Koeffizienten, und der Zeit-Frequenz-Darstellung des zweiten Audiosignals, gewichtet mit dem ersten Panning-Koeffizienten (Zähler), zur Summe beider Panning-Koeffizienten (Nenner) ermittelt werden.
Spezieller Beschreibungsteil
Nachfolgend wird der Gegenstand der Erfindung anhand von Figuren erläutert, ohne dass der Gegenstand der Erfindung hierdurch beschränkt wird. Es ist gezeigt:
1 Skizzenhafte Darstellung der vereinfachenden Annahme für die Ermittlung der Panning-Koeffizienten
2 Linearisierung der Azimut-Position durch Einführung des Positions-Koeffizienten Ψ
1 verdeutlicht skizzenhaft die Annahme, deren Einführung die Bestimmung der Panning-Koeffizienten 310 (a_L(b, k)) und 320 (a_R(b, k)) deutlich vereinfacht. In Zeit-Frequenz-Darstellung wird die Zeit im Folgenden grundsätzlich als Blocknummer b des bei der Kurzzeit-Fourier-Transformation (STFT) erhaltenen Blocks angegeben. Das Frequenzband bzw. der Frequenzindex wird mit k indiziert.
Das Stereoaudiosignal umfasst ein erstes Audiosignal 110 für eine linke Wiedergabeeinrichtung 810 und ein zweites Audiosignal 120 für eine rechte Wiedergabeeinrichtung 820. Durch Kurzzeit-Fourier-Transformation (STFT) wird das erste Audiosignal 110 in seine Zeit-Frequenz-Darstellung 115 (X_L(b, k)) überführt. Ebenso wird das zweite Audiosignal 120 in seine Zeit-Frequenz-Darstellung 125 (X_R(b, k)) überführt.
Der Hörer ist an der Position 1 am Rand des Hörbereichs 890 angeordnet. Das durch den Hörer 1, die linke Wiedergabeeinrichtung 810 und die rechte Wiedergabeeinrichtung 820 definierte gleichseitige Dreieck trägt das Bezugszeichen 891 und ist in den kreisförmigen Hörbereich 890 einbeschrieben. Für die Ermittlung der Panning-Koeffizienten 310 und 320 wird nun gemäß der Erfindung angenommen, dass sich eine einzige Direktschallquelle 813, deren Lautstärke 330 in Abhängigkeit der Zeit b und der Frequenz k variiert, entlang des durchgezogenen Kreisbogens 892 am Rand des Hörbereichs 890 im Bereich zwischen der linken Wiedergabeeinrichtung 810 und der rechten Wiedergabeeinrichtung 820 bewegt. Diese Bewegung ist ebenfalls von der Zeit b und von der Frequenz k abhängig. Die aktuelle azimutale Position φ(b, k) der Direktschallquelle 813 auf dem Kreisbogen bestimmt die Panning-Koeffizienten 310 und 320. Die komplexe Amplitude 330 der Direktschallquelle 813 ergibt, wenn man sie multiplikativ mit den ersten Panning-Koeffizienten 310 gewichtet, die Zeit-Frequenz-Darstellung 115 des ersten Audiosignals 110. Wird die Signalstärke 330 dagegen mit dem zweiten Panning-Koeffizienten 320 multiplikativ gewichtet, erhält man die Zeit-Frequenz-Darstellung 125 des zweiten Audiosignals 120.
2 verdeutlicht den Zusammenhang zwischen dem ersten und zweiten Panning-Koeffizienten 310 und 320 einerseits und dem Positionskoeffizienten 390 (Ψ) andererseits. Aufgetragen ist jeweils der Wert dieser Koeffizienten über der Azimutposition φ von links L über Mitte M nach rechts R. Die Panning-Koeffizienten 310 und 320 verlaufen in Abhängigkeit der Azimut-Position φ nicht linear. Der Positionskoeffizient 390 hat demgegenüber den Vorteil, dass er von links L über Mitte M nach rechts R durchgehend linear verläuft.
3 verdeutlicht das Repanning zwecks Wiedergabe des Stereoaudiosignals als Mehrkanalaudiosignal. Das Signal 330 der Direktschallquelle wird mit Repanning-Koeffizienten 410 (g₁), 420 (g₂) und 430 (g₃) gewichtet auf Tonkanäle 580, 585 und 590 übertragen, die auf den drei Lautsprechern L, C und R wiedergegeben werden. In die Ermittlung der Repanning-Koeffizienten 410, 420 und 430 gehen die bei der Analyse des Stereosignals ermittelten Panning-Koeffizienten 310 und 320 ein. Die bei der Analyse weiterhin ermittelten Umgebungssignale 510 und 520 werden zum Einen den Tonkanälen 580 und 590 additiv überlagert. Zum Anderen werden sie auf zusätzlichen Lautsprechern RL und RR wiedergegeben. Alle Lautsprecher L, C, R, RL und RR sind auf einem Kreis K angeordnet, der gleichzeitig den Hörbereich 890 um den Hörer 1 definiert. Die Winkelpositionen der Lautsprecher L, C und R liegen jeweils um 30 Grad auseinander. Die Winkelpositionen der Lautsprecher RL und C bzw. RR und C liegen jeweils um 115 Grad auseinander.
Im Folgenden wird ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens mathematisch erläutert:
Der Verarbeitung liegt ein Signalmodell zu Grunde, welches das in einem Stereoaudiosignal enthaltene, an diskreten Zeitpunkten n aufgenommene erste Audiosignal 110 (x_L(n)) für die linke Wiedergabeeinrichtung 810 bzw. das zweite Audiosignal 120 (x_R(n)) für die rechte Wiedergabeeinrichtung 820
als die gewichtete Summe einzelner Quellsignale s_j(n) beschreibt, wobei j = 1, ..., J die einzelnen Schallquellen indiziert. Der linke Kanal x_L und der rechte Kanal x_R enthalten außerdem die jeweils nicht richtungsabhängigen, diffusen Umgebungssignale n_L(n) bzw. n_R(n). Die Panning-Koeffizienten a_L,j bzw. a_R,j geben jeweils eine richtungsabhängige Gewichtung an, mit der die nur von der Zeit abhängigen Quellsignale s_j(n) in das erste Audiosignal x_L bzw. in das zweite Audiosignal x_R eingehen.
Die Panning-Koeffizienten a_L,j und a_R,j können über die Beziehung α 2 / L,j + α 2 / R,j = 1 miteinander verknüpft werden, was dazu führt, dass unabhängig von der Position der einzelnen Quellen eine konstante Lautheit erzielt wird. Dies entspricht dem üblicherweise in der Musikproduktion verwendeten Constant-Power-Panning.
Kurzzeit-Fouriertransformation (STFT) dieser Signale in eine Zeit-Frequenz-Darstellung ergibt
worin b den Blockindex und k den Frequenzindex darstellt.
Die Koeffizienten a_R,j und a_L,j können weiterhin zu einem Positions-Koeffizienten Ψ_j = α 2 / R,j – α 2 / L,j (5) zusammengefasst werden. Dieser steht in einem linearen Zusammenhang zur Azimut-Position, wobei der Wertebereich von [–1, ..., 1] sich auf maximal links bzw. maximal rechts gepannte Signale abbildet (2). Dies erlaubt eine intuitive Zuordnung zwischen dem Wert des Koeffizienten und der tatsächlichen Position im Stereopanorama.
Unter der Annahme, dass in den Gleichungen (3) und (4) in einem Frequenzband k jeweils nur eine dominante Quelle auftritt, können die einzelnen Quellen S_j(b, k) zu einer einzigen ungepannten Mischquelle (Direktschallquelle) mit einer zeit- und frequenzabhängigen komplexen Amplitude S(b, k) = ΣS_j(b, k) zusammengeführt werden. Die Auswirkung dieser Mischquelle auf die Signale X_L(b, k) bzw. X_R(b, k) ist dann ebenfalls zeit- und frequenzabhängig und wird durch die Panning-Koeffizienten a_L(b, k) bzw. a_R(b, k) beschrieben: X_L(b, k) = α_L(b, k)·S(b, k) + N_L(b, k) (3a) X_R(b, k) – α_R(b, k)·S(b, k) + N_R(b, k) (4a)
Unter Vernachlässigung der, im Vergleich zu S üblicherweise relativ kleinen, diffusen Umgebungssignale N_L bzw. N_R ergibt sich insgesamt folgendes Gleichungssystem für die Panning-Koeffizienten a_L(b, k) und a_R(b, k): α 2 / L(b, k) + α 2 / R(b, k) = 1 (6) X_L(b, k) = α_L(b, k)·S(b, k) (7) X_R(b, k) = α_R(b, k)·S(b, k) (8)
Durch Auflösen erhält man die Panning-Koeffizienten
Die Signale X_L, X_R und S sind im Allgemeinen komplexwertig, während die Panning-Koeffizienten a_L und a_R reellwertig sind, da in dem Signalmodell gemäß den Gleichungen (7) und (8) ein reines Amplitudenpanning durchgeführt wird, d. h. nur die Amplitude richtungsabhängig ist. Daraus folgt, dass sowohl X_L(b, k) als auch X_R(b, k) in Phase mit S(b, k) sind. In den Polardarstellungen

sind also die Phasen ϕ_L von X_L, ϕ_R von X_R und ϕ_S von S identisch, so dass sich die Phasenterme kürzen lassen:
Die Panning-Koeffizienten a_L und a_R sind in dieser Näherung also unmittelbar mit den Leistungsdichtespektren (Zeit-Frequenz-Darstellungen) X_L und X_R des ersten und zweiten Audiosignals, die zusammen das Stereoaudiosignal ergeben, verknüpft.
Alternativ kann je nach Bedarf und Anwendung auch der Positionskoeffizient
berechnet werden. Dieser Positionskoeffizient Ψ(b, k) erlaubt eine sehr effektive Berechnung der Position durch einfache Betrachtung des Differenzleistungsspektrums und der Gesamtleistung des Signals.
Auf Grund der vereinfachenden Annahmen, unter denen die Panning-Koeffizienten a_L und a_R sowie die Position Ψ gewonnen wurden, sind diese Größen Näherungswerte. Sie werden im Folgenden zur Unterscheidung von den exakten Werten gemäß dem Signalmodell mit α ^, α ^_R bzw. Ψ ^ bezeichnet.
Zur Extraktion des Direktsignals S und der Umgebungssignale N_L und N_R aus den Summensignalen X_L und X_R (Gleichungen (3) und (4)) kommt ein iteratives Verfahren zum Einsatz. Aus dem linken Eingangskanal X_L und dem rechten Eingangskanal X_R werden schrittweise Direktsignalbeiträge Ŝ_i extrahiert, die am Ende zum Direktsignal Ŝ der Direktschallquelle zusammengefasst werden. Die Differenz zwischen dem mit den Panning-Koeffizienten a_L und a_R gewichteten Direktsignal Ŝ und den Eingangssignalen X_L bzw. X_R ist eine Näherung für die Umgebungssignale N_L bzw. N_R. Die Indices (b, k) werden im Folgenden auf Grund der besseren Übersichtlichkeit nicht mehr explizit angegeben.
Zum Start der Iteration werden die geschätzen Umgebungssignale N ^_L und N ^_R zunächst mit den Eingangssignalen X_L und X_R initialisiert: N ^_L,0 = X_L, N ^_R,0 = X_R (16)
Ausgehend hiervon werden gemäß den Iterationsvorschriften
die Panning-Koeffizienten verfeinert und ein Direktsignalbeitrag berechnet. Bei der ersten Iteration haben die Panning-Koeffizienten genau die Werte gemäß den Gleichungen (13) und (14) als Startwerte. Die Berechnung des Direktsignalbeitrags Ŝ_i, gemäß Gleichung (19) geht davon aus, dass das Direktsignal im ersten und zweiten Audiosignal mit gleicher Phase vorliegt und die Umgebungssignale dazu phasenverschoben sind.
Vor der nächsten Iteration werden die Umgebungssignale über N ^_L,i = N ^_L,i-1 – α ^_L,i·Ŝ_i (20) N ^_R,i = N ^_R,i-1 – α ^_R,i·Ŝ_i (21) in dem Sinne selbstkonsistent nachgeführt, dass ein Signalanteil, der sich als ein mit der Direktschallquelle 813 korrelierter Direktsignalanteil erwiesen hat, nicht gleichzeitig zum diffusen Umgebungssignal gehören kann. Diese selbstkonsistente Lösung zeichnet sich insbesondere dadurch aus, dass sie eine gute Extraktion stark gepannter, d. h. stark richtungsabhängiger, Direktsignale ermöglicht.
Nach Durchlauf aller I Iterationen ergibt sich das gesamte, mit der Direktschallquelle 813 korrelierte Direktsignal als Summe der einzelnen Signalanteile Ŝ_i:
Bei der Ermittlung der Panning-Koeffizienten a_L,i und a_R,i sowie der Signalanteile Ŝ_i wurde ausschließlich Selbstkonsistenz mit den Umgebungssignalen N ^_L,i und N ^_R,i gefordert, ohne dass das Signalmodell gemäß den Gleichungen (3) und (4) herangezogen wurde. Daher ist nicht sichergestellt, dass die letztendlich erhaltenen Werte für N ^_L, N ^_R und Ŝ diesem Signalmodell gehorchen. Da sich eine Verletzung des Signalmodells stärker auf den Höreindruck auswirkt als eine Abweichung im diffusen Umgebungssignal, wird der Erfüllung des Signalmodells Priorität gegenüber einer möglichst exakten Näherung für N ^_L und N ^_R eingeräumt. Daher werden nicht die bei der letzten Iteration I erhaltenen Werte N ^_L,I und N ^_R,I als Umgebungssignale N ^_L und N ^_R verwendet, sondern diese werden am Ende aus dem Gesamtergebnis Ŝ für das Direktsignal und den ersten Näherungswerten α ^_L,1 und α ^_R,1 für die Panning-Koeffizienten berechnet: N ^_L = X_L – α ^_L,1·Ŝ (23) N ^_R = X_R – α ^_R,1·Ŝ (24)
Die während des iterativen Verfahrens gemäß den Gleichungen (17) und (18) verfeinerten Panning-Koeffizienten werden ausschließlich für die Aufteilung der Signale X_L, und X_R in Direktsignal Ŝ und Umgebungssignale N ^_L und N ^_R verwendet. Für das Repanning auf eine Konfiguration von mehr als zwei Lautsprechern werden weiterhin die aus der Lösung des Gleichungssystems (13–14) erhaltenen Panning-Koeffizienten verwendet.
Für i → ∞ gilt für die Umgebungssignale N ^_L,i und N ^_R,i gemäß den Gleichungen (20) und (21) N ^_L,i = –N ^_R,i (25)
Es sind also beide Umgebungssignale bis auf eine Phasendrehung identisch. Das ursprüngliche Signalmodell gemäß den Gleichungen (3a) und (4a) vereinfacht sich damit zu X_L = α_L·S + N (26) X_R = α_R·S – N (27)
Einsetzen der Panning-Koeffizienten gemäß den Gleichungen (13) und (14) sowie Auflösen ergibt
als Näherungswerte für das Direktsignal Ŝ und das Umgebungssignal N ^_L ≡ –N ^_R ≡ N ^.
Bezugszeichenliste

1: Position des Hörers
110: erstes (linkes) Audiosignal x_L des Stereoaudiosignals
115: Zeit-Frequenz-Darstellung X_L des ersten Audiosignals 110
120: zweites (rechtes) Audiosignal x_R des Stereoaudiosignals
125: Zeit-Frequenz-Darstellung X_R des zweiten Audiosignals 120
310: Panning-Koeffizienten a_L(b, k) des ersten Audiosignals 110
320: Panning-Koeffizienten a_R(b, k) des ersten Audiosignals 120
330: komplexe Amplitude S(b, k) der Direktschallquelle 813
φ: azimutale Position der Direktschallquelle 813
390: Positionskoeffizient Ψ
410: erster Repanning-Koeffizient g₁ für ersten Tonkanal 580
420: zweiter Repanning-Koeffizient g₂ für zweiten Tonkanal 585
430: dritter Repanning-Koeffizient g₃ für dritten Tonkanal 590
510: erstes (linkes) Umgebungssignal N_L
520: zweites (rechtes) Umgebungssignal N_R
580: erster Tonkanal für Lautsprecher auf Position L (links)
585: zweiter Tonkanal für Lautsprecher auf Position C (Mitte)
590: dritter Tonkanal für Lautsprecher auf Position R (rechts)
810: linke Wiedergabeeinrichtung für das erste Audiosignal 110
813: Direktschallquelle
820: rechte Wiedergabeeinrichtung für das zweite Audiosignal 120
890: Hörbereich vor dem Hörer 1 bzw. um den Hörer 1
891: gleichseitiges Dreieck im Hörbereich 890
892: Kreisbogen am Rand des Hörbereichs 890
L, C, R: Lautsprecherpositionen Links, Mitte, Rechts für das Repanning
RL, RR: zusätzliche Lautsprecherpositionen für Umgebungssignale 510, 520

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102012017296 B4 [0005, 0028]

Zitierte Nicht-Patentliteratur

Ville Pulkki, „Virtual sound source positioning using vector based amplitude panning”, Journal of the Audio Engineering Society, Vol. 45, Issue 6, pp. 456–466, June 1997 [0028]

Claims

Verfahren zur Analyse eines Stereoaudiosignals, wobei das Stereoaudiosignal ein erstes Audiosignal (110) für eine linke Wiedergabeeinrichtung (810) und ein zweites Audiosignal (120) für eine rechte Wiedergabeeinrichtung (820) aufweist, gekennzeichnet durch folgende Schritte: das erste Audiosignal (110) wird in eine erste Zeit-Frequenz-Darstellung (115) überführt, und das zweite Audiosignal (120) wird in eine zweite Zeit-Frequenz-Darstellung (125) überführt; es wird eine erste Gleichung aufgestellt, die die erste Zeit-Frequenz-Darstellung (115) in Beziehung setzt zum Produkt eines ersten zeit- und frequenzabhängigen Panning-Koeffizienten (310) mit dem zeit- und frequenzabhängigen Signal (330) einer in einem Hörbereich (890) zwischen der linken Wiedergabeeinrichtung (810) und der rechten Wiedergabeeinrichtung (820) angeordneten Direktschallquelle (813); es wird eine zweite Gleichung aufgestellt, die die zweite Zeit-Frequenz-Darstellung (125) in Beziehung setzt zum Produkt eines zweiten zeit- und frequenzabhängigen Panning-Koeffizienten (320) mit dem gleichen Signal (330) der gleichen Direktschallquelle (813); wobei die Panning-Koeffizienten (310) und (320) dazu ausgebildet sind, die Direktschallquelle (813) in dem Hörbereich (890) zu positionieren; die Panning-Koeffizienten (310) und (320), und/oder ein Positionskoeffizient (390), der der Differenz der Quadrate der Panning-Koeffizienten (310) und (320) entspricht, werden als Lösungen des aus beiden Gleichungen gebildeten Gleichungssystems ermittelt.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass das Gleichungssystem unter der zusätzlichen Bedingung gelöst wird, dass die Summe der Quadrate der Panning-Koeffizienten (310) und (320) konstant ist.
Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass der erste Panning-Koeffizient (310) als Wurzel aus dem Verhältnis des Quadrats der Zeit-Frequenz-Darstellung (115) des ersten Audiosignals (110) zur Summe der Quadrate der Zeit-Frequenz-Darstellungen (115) und (125) beider Audiosignale (110) und (120) ermittelt wird und dass der zweite Panning-Koeffizient (320) als Wurzel aus dem Verhältnis der Zeit-Frequenz-Darstellung (125) des zweiten Audiosignals (120) zur Summe der Quadrate der Zeit-Frequenz-Darstellungen (115) und (125) beider Audiosignale (110) und (120) ermittelt wird.
Verfahren nach einem der Ansprüche 2 bis 3, dadurch gekennzeichnet, dass der Positionskoeffizient (390) aus dem Verhältnis der Differenz der Betragsquadrate beider Zeit-Frequenz-Darstellungen (115) und (125) zur Summe der Betragsquadrate beider Zeit-Frequenz-Darstellungen (115) und (125) ermittelt wird.
Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass aus den Panning-Koeffizienten (310) und (320) das Signal (330) der Direktschallquelle (813) und/oder zwei nicht mit dieser Direktschallquelle (813) korrelierte Umgebungssignale (510) und (520), wobei das erste Umgebungssignal (510) nur in der Zeit-Frequenz-Darstellung (115) des ersten Audiosignals (110) und das zweite Umgebungssignal (520) nur in der Zeit-Frequenz-Darstellung (125) des zweiten Audiosignals (120) enthalten ist, ermittelt werden.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass das Signal (330) der Direktschallquelle (813) und die Umgebungssignale (510, 520) mit einem iterativen Verfahren bestimmt werden ausgehend von einer Iterationsvorschrift, die das Signal (330) der Direktschallquelle einer jeden Iteration, und/oder einen Beitrag zu diesem Signal, in Beziehung setzt zu den Umgebungssignalen (510, 520) der vorherigen Iteration.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass bei jeder Iteration die Panning-Koeffizienten (310) und (320) aus den Umgebungssignalen (510, 520) der vorherigen Iteration neu berechnet werden.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass das erste Umgebungssignal (510) bei jeder Iteration um einen Betrag korrigiert wird, der das Produkt aus dem neu berechneten ersten Panning-Koeffizienten (310) mit dem Signal (330) der Direktschallquelle (813) gemäß der aktuellen Iteration ist, und dass das zweite Umgebungssignal (520) bei jeder Iteration um einen Betrag korrigiert wird, der das Produkt aus dem neu berechneten zweiten Panning-Koeffizienten (320) mit dem Signal (330) der Direktschallquelle (813) gemäß der aktuellen Iteration ist.
Verfahren nach einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, dass das Signal (330) der Direktschallquelle (813) aus dem Verhältnis der Summe beider Zeit-Frequenz-Darstellungen (115) und (125) zur Summe beider Panning-Koeffizienten (310) und (320) ermittelt wird.
Verfahren nach einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, dass die Umgebungssignale aus dem Verhältnis einer Differenz zwischen der Zeit-Frequenz-Darstellung (115) des ersten Audiosignals (110), gewichtet mit dem zweiten Panning-Koeffizienten (320), und der Zeit-Frequenz-Darstellung (125) des zweiten Audiosignals (125), gewichtet mit dem ersten Panning-Koeffizienten (310), zur Summe beider Panning-Koeffizienten (310) und (320) ermittelt wird.
Verfahren zum Erzeugen eines Mehrkanalaudiosignals (600, 700) aus einem Stereoaudiosignal, wobei das Stereoaudiosignal ein erstes Audiosignal (110) für eine linke Wiedergabeeinrichtung (810) und ein zweites Audiosignal (120) für eine rechte Wiedergabeeinrichtung (820) aufweist, gekennzeichnet durch folgende Schritte: das Stereoaudiosignal wird nach einem Verfahren gemäß einem der Ansprüche 1 bis 10 analysiert und zerlegt; aus den Panning-Koeffizienten (310) und (320) wird eine Mehrzahl von Repanning-Koeffizienten (410, 415, 420) ermittelt, wobei jeder dieser Repanning-Koeffizienten (410, 415, 420) einem Tonkanal (580, 585, 590) einer Mehrzahl von Tonkanälen des Mehrkanalaudiosignals (600, 700) zugeordnet wird und wobei die Repanning-Koeffizienten (410, 415, 420) für die Mehrzahl von Tonkanälen (580, 585, 590) ausgeführt sind, eine Direktschallquelle (811, 812, 813) in einem Hörbereich (890) zwischen einer Mehrzahl von Wiedergabeeinrichtungen (810, 815, 820, 830, 840) für das Mehrkanalaudiosignal (600, 700) zu positionieren; das Signal (330) der Direktschallquelle (813) wird mit einem ersten Repanning-Koeffizienten (410) verrechnet und einem ersten Tonkanal (580) zugeordnet; das Signal (330) der Direktschallquelle wird mit einem zweiten Repanning-Koeffizienten (415) verrechnet und einem zweiten Tonkanal (585) zugeordnet; das Signal (330) der Direktschallquelle wird mit einem dritten Repanning-Koeffizienten (420) verrechnet und einem dritten Tonkanal (590) zugeordnet.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass das erste Umgebungssignal (510) dem ersten Tonkanal (580) additiv hinzugefügt wird und dass das zweite Umgebungssignal (520) dem dritten Tonkanal (590) additiv hinzugefügt wird.
Verfahren nach einem der Ansprüche 11 bis 12, dadurch gekennzeichnet, dass jeder Tonkanal (580, 585, 590) in jeweils ein Wiedergabesignal (600, 700) des Mehrkanalaudiosignals überführt wird, wobei jedes Wiedergabesignal für jeweils eine Wiedergabeeinrichtung vorgesehen ist.