-
Die Erfindung betrifft ein Verfahren zur Analyse und Dekomposition eines Stereo-Audiosignals sowie ein Verfahren zum Erzeugen eines Mehrkanalaudiosignals.
-
Stand der Technik
-
Mit der Aufzeichnung eines Stereoaudiosignals, wobei in der Regel ein erstes Audiosignal für eine linke Wiedergabeeinrichtung und ein zweites Audiosignal für eine rechte Wiedergabeeinrichtung verwendet wird, lässt sich der Eindruck erzeugen, dass Phantomschallquellen auf einen Hörbereich zwischen dem Hörer und den beiden Wiedergabeeinrichtungen verteilt sind.
-
Dabei liefert der Pegelunterschied zwischen dem ersten und dem zweiten Audiosignal primär die Information, aus welcher azimutalen Richtung relativ zum Hörer der Schall zu kommen scheint. Diese Information ist lediglich eindimensional und kann daher naturgemäß keine realistische Reproduktion von Räumlichkeit herstellen. Zudem ist der Azimutwinkel der möglichen Positionierung von Phantomschallquellen auf den Bereich beschränkt, der durch eine erste Verbindungsstrecke zwischen dem Hörer und der linken Wiedergabeeinrichtung und durch eine zweite Verbindungsstrecke zwischen dem Hörer und der rechten Wiedergabeeinrichtung aufgespannt wird. Des Weiteren ist es nur mit zwei Wiedergabeeinrichtungen nicht möglich Räumlichkeit zu simulieren, da hierfür der Schall aus allen Raumrichtungen abgestrahlt und auf den Hörer treffen müsste.
-
Mehrkanalaudiosysteme mit beispielsweise fünf oder sieben Wiedergabeeinrichtungen vermitteln dem Hörer daher einen deutlich detaillierteren räumlichen Eindruck. Dieser Zusatznutzen liegt jedoch im Wesentlichen brach, wenn die Aufnahme nur als Stereoaudiosignal zur Verfügung steht.
-
Aus der
DE 10 2012 017 296 B4 ist ein Verfahren zum Erzeugen eines Mehrkanalaudiosignals aus einem Stereoaudiosignal bekannt. Damit lassen sich gerichtete Direktschallanteile und diffuse Umgebungsschallanteile in einem Stereoaudiosignal trennen sowie die Richtungsinformation der Direktschallanteile bestimmen, um anschließend alle Signalbestandteile auf einer Mehrkanalwiedergabeeinrichtung abzuspielen. Allerdings ist dieses Verfahren sehr rechenaufwändig.
-
Aufgabe und Lösung
-
Aufgabe der vorliegenden Erfindung ist daher, bei gleichbleibender oder besserer Klangqualität die in einem Stereoaudiosignal enthaltene räumliche Information über die Anordnung der Schallquellen mit einem geringeren Rechenaufwand zu rekonstruieren.
-
Diese Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren zur Analyse gemäß Hauptanspruch sowie durch ein Verfahren zum Erzeugen eines Mehrkanalaudiosignals gemäß Nebenanspruch. Weitere vorteilhafte Ausgestaltungen ergeben sich aus den daraus rückbezogenen Unteransprüchen.
-
Gegenstand der Erfindung
-
Im Rahmen der Erfindung wurde ein Verfahren zur Analyse und Dekomposition eines Stereoaudiosignals entwickelt. Dieses Stereoaudiosignal weist ein erstes Audiosignal für eine linke Wiedergabeeinrichtung und ein zweites Audiosignal für eine rechte Wiedergabeeinrichtung auf.
-
Erfindungsgemäß sieht das Verfahren folgende Schritte vor:
Zunächst wird das erste Audiosignal in eine erste Zeit-Frequenz-Darstellung überführt. Das zweite Audiosignal wird in eine zweite Zeit-Frequenz-Darstellung überführt. Die Überführung der Audiosignale in die Zeit-Frequenz-Darstellung kann mit beliebigen Verfahren erfolgen. Bevorzugt wird die Kurzzeit-Fourier-Transformation (STFT) verwendet.
-
Nun wird eine erste Gleichung aufgestellt, die die erste Zeit-Frequenz-Darstellung in Beziehung setzt zum Produkt eines ersten zeit- und frequenzabhängigen Panning-Koeffizienten mit dem zeit- und frequenzabhängigen Signal einer in einem Hörbereich zwischen der linken Wiedergabeeinrichtung und der rechten Wiedergabeeinrichtung angeordneten Direktschallquelle. Es wird eine zweite Gleichung aufgestellt, die die zweite Zeit-Frequenz-Darstellung in Beziehung setzt zum Produkt eines zweiten zeit- und frequenzabhängigen Panning-Koeffizienten mit dem gleichen Signal der gleichen Direktschallquelle. Dabei sind die Panning-Koeffizienten dazu ausgebildet, die Direktschallquelle in dem Hörbereich zu positionieren.
-
Es werden nun die Panning-Koeffizienten und/oder ein Positionskoeffizient, der der Differenz der Quadrate der Panning-Koeffizienten entspricht, als Lösungen des aus beiden Gleichungen gebildeten Gleichungssystems ermittelt. Zu dem Stereoaudiosignal hat in der Regel eine Vielzahl unabhängiger Schallquellen beigetragen. Derjenige Anteil des ersten und des zweiten Audiosignals, der dem Richtungshören zugänglich ist, setzt sich also aus Beiträgen dieser einzelnen Schallquellen zusammen. Jeder dieser einzelnen Beiträge ist das Produkt einer zeit- und frequenzabhängigen komplexen Amplitude und eines Panning-Koeffizienten, der von der Positionierung der Schallquelle relativ zum Hörer abhängt. Das linke und das rechte Audiosignal sind, wenn man jeweils von Umgebungssignalen absieht, jeweils Summen über solche Einzelbeiträge. Da die Umgebungssignale diffus, über alle Raumrichtungen gleichverteilt und außerdem klein gegenüber dem Direktsignal sind, können sie in dem Gleichungssystem für die Ermittlung der Panning-Koeffizienten unberücksichtigt bleiben. Das Gleichungssystem wird dadurch deutlich einfacher lösbar.
-
Bei der Aufstellung des Gleichungssystems wird die vereinfachende Annahme gemacht, dass alle gleichzeitig aktiven Schallquellen zu einer einzigen Schallquelle mit zeit- und frequenzabhängiger komplexer Amplitude zusammengefasst werden können. Dies ist möglich, da bei einer ausreichend großen Zeit-Frequenz-Auflösung der Zeit-Frequenz-Darstellung davon auszugehen ist, dass zu einem bestimmten Zeitpunkt und in einem bestimmten Frequenzband nur eine einzige dominante Schallquelle existiert.
-
Dabei ist die komplexe Amplitude dieser zusammengefassten Schallquelle richtungsunabhängig. Die Richtungsabhängigkeit steckt allein in den Panning-Koeffizienten. Durch die Zusammenfassung der einzelnen Schallquellen lassen sich nun der erste und der zweite Panning-Koeffizient jeder Schallquelle zu einem Paar zeit- und frequenzabhängiger Panning-Koeffizienten für die zusammengefasste Schallquelle vereinen.
-
Unter der Annahme, dass der erste und der zweite Panning-Koeffizient miteinander verknüpft sind, lässt sich das Gleichungssystem mathematisch umformen, und die Panning-Koeffizienten lassen sich aus dem ersten und zweiten Kanal des Stereosignals ermitteln. Die Verknüpfung zwischen den beiden Panning-Koeffizienten ermöglicht es, das Gleichungssystem durch einfaches mathematisches Umformen zu lösen und für die Panning-Koeffizienten eine geschlossene Formel in den Zeit-Frequenz-Darstellungen des linken und des rechten Audiosignals anzugeben. Im laufenden Betrieb des Verfahrens sind Lösungen des Gleichungssystems also besonders schnell durch Einsetzen der Zeit-Frequenz-Darstellungen in die geschlossene Formel erhältlich.
-
In einer besonders vorteilhaften Ausgestaltung der Erfindung wird das Gleichungssystem unter der zusätzlichen Bedingung gelöst, dass die Summe der Quadrate der Panning-Koeffizienten konstant ist. Die Summe dieser Quadrate ist bei dem in der Musikproduktion üblicherweise verwendeten Constant-Power-Panning gleich 1. Diese führt dazu, dass die Schallquelle unabhängig von ihrer Position im Hörbereich gleich laut wahrgenommen wird.
-
Die Panning-Koeffizienten enthalten die vollständige Information, auf welcher Frequenz das Signal zu welcher Zeit von welchem Ort im Hörbereich zu kommen scheint.
-
Da sich die einzelnen Schallquellen inkohärent überlagern und die Aufnahme des Stereoaudiosignals ebenfalls inkohärent erfolgt, ändert eine unterschiedliche Positionierung der Schallquellen im Hörbereich nur die Amplitude des aufgenommenen Stereoaudiosignals, nicht jedoch dessen Phase. Daher sind auch die Zeit-Frequenz-Darstellungen des ersten und zweiten Audiosignals in Phase mit der zeit- und frequenzabhängigen komplexen Amplitude der Direktschallquelle. Damit kürzen sich die Phasenterme aus dem beschriebenen Gleichungssystem und nach umstellen ergibt sich der erste Panning-Koeffizient als Wurzel aus dem Verhältnis des Betragsquadrats der Zeit-Frequenz-Darstellung des ersten Audiosignals (Zähler) und der Summe der Betragsquadrate der Zeit-Frequenz-Darstellung des ersten und zweiten Audiosignals (Nenner). Analog ergibt sich der zweite Panning-Koeffizient als Wurzel aus dem Verhältnis des Betragsquadrats der Zeit-Frequenz-Darstellung des zweiten Audiosignals (Zähler) und der Summe der Betragsquadrate der Zeit-Frequenz-Darstellung des ersten und zweiten Audiosignals (Nenner).
-
Der Positionskoeffizient kann aus dem Verhältnis der Differenz der Betragsquadrate beider Zeit-Frequenz-Darstellungen zur Summe der Betragsquadrate beider Zeit-Frequenz-Darstellungen ermittelt werden.
-
Im Allgemeinen wird das Stereoaudiosignal nicht nur einen richtungsabhängigen Direktsignalanteil enthalten. Stattdessen werden das erste und das zweite Audiosignal jeweils mit einem diffusen Umgebungssignal überlagert sein. Daher werden in einer weiteren besonders vorteilhaften Ausgestaltung der Erfindung aus den Panning-Koeffizienten das Signal der Direktschallquelle (Direktsignal) und/oder zwei nicht richtungsabhängige, d. h. nicht mit der Direktschallquelle korrelierte, Umgebungssignale ermittelt. Dabei ist das erste Umgebungssignal nur in der Zeit-Frequenz-Darstellung des ersten Audiosignals enthalten, und das zweite Umgebungssignal ist nur in der Zeit-Frequenz-Darstellung des zweiten Audiosignals enthalten. Das Hörerlebnis wird genauer reproduziert, wenn nur das Direktsignal mit Hilfe der Panning-Koeffizienten in gerichteter Form wiedergegeben wird. Das diffuse Umgebungssignal sollte auch diffus wiedergegeben werden.
-
Vorteilhaft werden das Direktsignal und die Umgebungssignale mit einem iterativen Verfahren bestimmt ausgehend von einer Iterationsvorschrift, die das Direktsignal einer jeder Iteration, und/oder einen Beitrag zu diesem Signal, in Beziehung setzt zu den Umgebungssignalen der vorherigen Iteration. Beispielsweise kann in jeder Iteration die Lautstärke eines Beitrags zum Direktsignal als arithmetisches Mittel der Lautstärken beider Umgebungssignale der vorherigen Iteration festgelegt werden. Dies geht von der Annahme aus, dass das Direktsignal im ersten und zweiten Audiosignal mit gleicher Phase vorliegt und die Umgebungssignale dazu Phasenverschoben sind.
-
Die Näherung kann verfeinert werden, indem bei jeder Iteration die Panning-Koeffizienten aus den Umgebungssignalen der vorherigen Iterationen neu berechnet werden. Hierfür können beispielsweise die Umgebungssignale der vorherigen Iteration als Zeit-Frequenz-Darstellungen eines linken und eines rechten Audiosignals gewertet werden, so dass die Panning-Koeffizienten wie zuvor beschrieben durch Lösen eines Gleichungssystems berechnet werden können.
-
Vorteilhaft wird dann das erste Umgebungssignal bei jeder Iteration um einen Betrag korrigiert, der das Produkt aus dem neu berechneten ersten Panning-Koeffizienten mit dem Direktsignal, oder mit dem Signalbeitrag, gemäß der aktuellen Iteration ist. Analog wird das zweite Umgebungssignal bei jeder Iteration um einen Betrag korrigiert, der das Produkt aus dem neu berechneten zweiten Panning-Koeffizienten mit dem Direktsignal, oder mit dem Signalbeitrag, gemäß der aktuellen Iteration ist. Der Hintergedanke ist hierbei, dass die Lösung selbstkonsistent sein soll: Ein Signal, das sich im Nachhinein als mit dem Signal der Direktschallquelle korreliert und somit als Teil des Direktsignals erweist, kann offensichtlich nicht zum diffusen Umgebungssignal zählen.
-
Nach Durchlauf aller Iterationen ergibt sich das gesamte Direktsignal als Summe der in allen einzelnen Iterationen ermittelten Signalbeiträge. Da sowohl die iterativ berechneten Panning-Koeffizienten als auch das iterativ bestimmte Direktsignal nur jeweils Schätzungen sind, ist nicht garantiert, dass die Summe aus dem mit dem ersten Panning-Koeffizienten gewichteten Direktsignal und dem ersten Umgebungssignal genau den Wert der Zeit-Frequenz-Darstellung des ersten Audiosignals entspricht. Analog kann nicht garantiert werden, dass die Summe aus dem mit dem zweiten Panning-Koeffizienten gewichteten Direktsignal und dem zweiten Umgebungssignal genau den Wert der Zeit-Frequenz-Darstellung des zweiten Audiosignals reproduziert. Das Direktsignal und die Umgebungssignale gehorchen zusammen also nicht notwendigerweise dem Signalmodell, das der Aufteilung der Zeit-Frequenz-Darstellungen des ersten und des zweiten Audiosignals in jeweils einen gerichteten und einen diffusen Anteil zu Grunde lag. Daher ist es vorteilhaft, nicht unmittelbar die in der letzten Iteration ermittelten Umgebungssignale weiterzuverwenden, sondern das erste Umgebungssignal als Differenz aus der ersten Zeit-Frequenz-Darstellung und dem mit dem ersten Panning-Koeffizienten gemäß der ersten Iteration gewichteten Direktsignal zu ermitteln. Analog sollte das zweite Umgebungssignal als Differenz zwischen der zweiten Zeit-Frequenz-Darstellung und dem mit dem zweiten Panning-Koeffizienten gemäß der ersten Iteration gewichteten Direktsignal ermittelt werden.
-
Im Rahmen der Erfindung wurde auch ein Verfahren zum Erzeugen eines Mehrkanalaudiosignals aus einem Stereoaudiosignal entwickelt. Dabei weist das Stereoaudiosignal ein erstes Audiosignal für eine linke Wiedergabeeinrichtung und ein zweites Audiosignal für eine rechte Wiedergabeeinrichtung auf.
-
Erfindungsgemäß wird das Stereoaudiosignal zunächst mit einem Verfahren gemäß der Erfindung analysiert. Anschließend wird aus den Panning-Koeffizienten eine Mehrzahl von Repanning-Koeffizienten ermittelt, wobei jeder dieser Repanning-Koeffizienten einen Tonkanal einer Mehrzahl von Tonkanälen des Mehrkanalaudiosignals zugeordnet wird. Dabei sind die Repanning-Koeffizienten für die Mehrzahl von Tonkanälen ausgeführt, eine Direktschallquelle in einem Hörbereich zwischen einer Mehrzahl von Wiedergabeeinrichtungen für das Mehrkanalaudiosignal zu positionieren. Das Signal der Direktschallquelle (Direktsignal) wird nun mit einem ersten Repanning-Koeffizienten verrechnet und einem ersten Tonkanal zugeordnet. Es wird mit einem zweiten Repanning-Koeffizienten verrechnet und einem zweiten Tonkanal zugeordnet. Es wird schließlich auch mit einem dritten Repanning-Koeffizienten verrechnet und einem dritten Tonkanal zugeordnet. Diese Signale dieser drei Tonkanäle können entweder direkt wiedergegeben oder für eine spätere Wiedergabe bzw. Weiterverarbeitung gespeichert werden.
-
Vorteilhaft wird das erste Umgebungssignal dem ersten Tonkanal additiv hinzugefügt, und das zweite Umgebungssignal wird dem dritten Tonkanal additiv hinzugefügt.
-
In einer weiteren vorteilhaften Ausgestaltung der Erfindung wird jeder Tonkanal in jeweils ein Wiedergabesignal des Mehrkanalaudiosignals überführt, wobei jedes Wiedergabesignal für jeweils eine Wiedergabeeinrichtung vorgesehen ist.
-
Die Ermittlung der Repanning-Koeffizienten stellt eine Umverteilung des richtungsabhängigen Direktsignals auf eine beliebige Lautsprecheranordnung dar. Das Umgebungssignal wird anschließend auf eine Auswahl von Lautsprechern additiv überlagert. Für das Repanning kann ein beliebiges Verfahren gemäß Stand der Technik verwendet werden, beispielsweise das Verfahren gemäß
DE 10 2012 017 296 B4 oder auch das „vector base amplitude panning” gemäß (
Ville Pulkki, „Virtual sound source positioning using vector based amplitude panning", Journal of the Audio Engineering Society, Vol. 45, Issue 6, pp. 456–466, June 1997).
-
In einer weiteren vorteilhaften Ausgestaltung der Erfindung lassen sich die extrahierten Direkt- und Umgebungsschallsignale nicht nur für die unmittelbare Wiedergabe des Stereo-Audiosignals als aufgewertetes Mehrkanalaudiosignal nutzen. Sie können beispielsweise für eine spätere Wiedergabe abgespeichert und/oder vor der Wiedergabe manipuliert werden, um das Hörerlebnis mit weiteren Effekten aufzuwerten.
-
Es wurde erkannt, dass bei der oben beschriebenen iterativen Berechnung des Direktsignals und der Umgebungssignale für eine gegen Unendlich strebende Iterationszahl beide Umgebungssignale gegen betragsmäßig gleiche Werte mit unterschiedlichen Vorzeichen streben. Sie sind also bis auf einen Phasenfaktor identisch. Mit dieser zusätzlichen Vereinfachung können das Direktsignal und die Umgebungssignale im laufenden Betrieb mit besonders wenig Rechenaufwand unmittelbar erhalten werden.
-
In einer weiteren besonders vorteilhaften Ausgestaltung der Erfindung wird somit das Signal der Direktschallquelle (Direktsignal) aus dem Verhältnis der Summe beider Zeit-Frequenz-Darstellungen der Audiosignale (Zähler) zur Summe beider Panning-Koeffizienten (Nenner) ermittelt wird. Weiterhin können auch die Umgebungssignale aus dem Verhältnis einer Differenz zwischen der Zeit-Frequenz-Darstellung des ersten Audiosignals, gewichtet mit dem zweiten Panning-Koeffizienten, und der Zeit-Frequenz-Darstellung des zweiten Audiosignals, gewichtet mit dem ersten Panning-Koeffizienten (Zähler), zur Summe beider Panning-Koeffizienten (Nenner) ermittelt werden.
-
Spezieller Beschreibungsteil
-
Nachfolgend wird der Gegenstand der Erfindung anhand von Figuren erläutert, ohne dass der Gegenstand der Erfindung hierdurch beschränkt wird. Es ist gezeigt:
-
1 Skizzenhafte Darstellung der vereinfachenden Annahme für die Ermittlung der Panning-Koeffizienten
-
2 Linearisierung der Azimut-Position durch Einführung des Positions-Koeffizienten Ψ
-
1 verdeutlicht skizzenhaft die Annahme, deren Einführung die Bestimmung der Panning-Koeffizienten 310 (aL(b, k)) und 320 (aR(b, k)) deutlich vereinfacht. In Zeit-Frequenz-Darstellung wird die Zeit im Folgenden grundsätzlich als Blocknummer b des bei der Kurzzeit-Fourier-Transformation (STFT) erhaltenen Blocks angegeben. Das Frequenzband bzw. der Frequenzindex wird mit k indiziert.
-
Das Stereoaudiosignal umfasst ein erstes Audiosignal 110 für eine linke Wiedergabeeinrichtung 810 und ein zweites Audiosignal 120 für eine rechte Wiedergabeeinrichtung 820. Durch Kurzzeit-Fourier-Transformation (STFT) wird das erste Audiosignal 110 in seine Zeit-Frequenz-Darstellung 115 (XL(b, k)) überführt. Ebenso wird das zweite Audiosignal 120 in seine Zeit-Frequenz-Darstellung 125 (XR(b, k)) überführt.
-
Der Hörer ist an der Position 1 am Rand des Hörbereichs 890 angeordnet. Das durch den Hörer 1, die linke Wiedergabeeinrichtung 810 und die rechte Wiedergabeeinrichtung 820 definierte gleichseitige Dreieck trägt das Bezugszeichen 891 und ist in den kreisförmigen Hörbereich 890 einbeschrieben. Für die Ermittlung der Panning-Koeffizienten 310 und 320 wird nun gemäß der Erfindung angenommen, dass sich eine einzige Direktschallquelle 813, deren Lautstärke 330 in Abhängigkeit der Zeit b und der Frequenz k variiert, entlang des durchgezogenen Kreisbogens 892 am Rand des Hörbereichs 890 im Bereich zwischen der linken Wiedergabeeinrichtung 810 und der rechten Wiedergabeeinrichtung 820 bewegt. Diese Bewegung ist ebenfalls von der Zeit b und von der Frequenz k abhängig. Die aktuelle azimutale Position φ(b, k) der Direktschallquelle 813 auf dem Kreisbogen bestimmt die Panning-Koeffizienten 310 und 320. Die komplexe Amplitude 330 der Direktschallquelle 813 ergibt, wenn man sie multiplikativ mit den ersten Panning-Koeffizienten 310 gewichtet, die Zeit-Frequenz-Darstellung 115 des ersten Audiosignals 110. Wird die Signalstärke 330 dagegen mit dem zweiten Panning-Koeffizienten 320 multiplikativ gewichtet, erhält man die Zeit-Frequenz-Darstellung 125 des zweiten Audiosignals 120.
-
2 verdeutlicht den Zusammenhang zwischen dem ersten und zweiten Panning-Koeffizienten 310 und 320 einerseits und dem Positionskoeffizienten 390 (Ψ) andererseits. Aufgetragen ist jeweils der Wert dieser Koeffizienten über der Azimutposition φ von links L über Mitte M nach rechts R. Die Panning-Koeffizienten 310 und 320 verlaufen in Abhängigkeit der Azimut-Position φ nicht linear. Der Positionskoeffizient 390 hat demgegenüber den Vorteil, dass er von links L über Mitte M nach rechts R durchgehend linear verläuft.
-
3 verdeutlicht das Repanning zwecks Wiedergabe des Stereoaudiosignals als Mehrkanalaudiosignal. Das Signal 330 der Direktschallquelle wird mit Repanning-Koeffizienten 410 (g1), 420 (g2) und 430 (g3) gewichtet auf Tonkanäle 580, 585 und 590 übertragen, die auf den drei Lautsprechern L, C und R wiedergegeben werden. In die Ermittlung der Repanning-Koeffizienten 410, 420 und 430 gehen die bei der Analyse des Stereosignals ermittelten Panning-Koeffizienten 310 und 320 ein. Die bei der Analyse weiterhin ermittelten Umgebungssignale 510 und 520 werden zum Einen den Tonkanälen 580 und 590 additiv überlagert. Zum Anderen werden sie auf zusätzlichen Lautsprechern RL und RR wiedergegeben. Alle Lautsprecher L, C, R, RL und RR sind auf einem Kreis K angeordnet, der gleichzeitig den Hörbereich 890 um den Hörer 1 definiert. Die Winkelpositionen der Lautsprecher L, C und R liegen jeweils um 30 Grad auseinander. Die Winkelpositionen der Lautsprecher RL und C bzw. RR und C liegen jeweils um 115 Grad auseinander.
-
Im Folgenden wird ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens mathematisch erläutert:
Der Verarbeitung liegt ein Signalmodell zu Grunde, welches das in einem Stereoaudiosignal enthaltene, an diskreten Zeitpunkten n aufgenommene erste Audiosignal
110 (x
L(n)) für die linke Wiedergabeeinrichtung
810 bzw. das zweite Audiosignal
120 (x
R(n)) für die rechte Wiedergabeeinrichtung
820 als die gewichtete Summe einzelner Quellsignale s
j(n) beschreibt, wobei j = 1, ..., J die einzelnen Schallquellen indiziert. Der linke Kanal x
L und der rechte Kanal x
R enthalten außerdem die jeweils nicht richtungsabhängigen, diffusen Umgebungssignale n
L(n) bzw. n
R(n). Die Panning-Koeffizienten a
L,j bzw. a
R,j geben jeweils eine richtungsabhängige Gewichtung an, mit der die nur von der Zeit abhängigen Quellsignale s
j(n) in das erste Audiosignal x
L bzw. in das zweite Audiosignal x
R eingehen.
-
Die Panning-Koeffizienten aL,j und aR,j können über die Beziehung α 2 / L,j + α 2 / R,j = 1 miteinander verknüpft werden, was dazu führt, dass unabhängig von der Position der einzelnen Quellen eine konstante Lautheit erzielt wird. Dies entspricht dem üblicherweise in der Musikproduktion verwendeten Constant-Power-Panning.
-
Kurzzeit-Fouriertransformation (STFT) dieser Signale in eine Zeit-Frequenz-Darstellung ergibt
worin b den Blockindex und k den Frequenzindex darstellt.
-
Die Koeffizienten aR,j und aL,j können weiterhin zu einem Positions-Koeffizienten Ψj = α 2 / R,j – α 2 / L,j (5) zusammengefasst werden. Dieser steht in einem linearen Zusammenhang zur Azimut-Position, wobei der Wertebereich von [–1, ..., 1] sich auf maximal links bzw. maximal rechts gepannte Signale abbildet (2). Dies erlaubt eine intuitive Zuordnung zwischen dem Wert des Koeffizienten und der tatsächlichen Position im Stereopanorama.
-
Unter der Annahme, dass in den Gleichungen (3) und (4) in einem Frequenzband k jeweils nur eine dominante Quelle auftritt, können die einzelnen Quellen Sj(b, k) zu einer einzigen ungepannten Mischquelle (Direktschallquelle) mit einer zeit- und frequenzabhängigen komplexen Amplitude S(b, k) = ΣSj(b, k) zusammengeführt werden. Die Auswirkung dieser Mischquelle auf die Signale XL(b, k) bzw. XR(b, k) ist dann ebenfalls zeit- und frequenzabhängig und wird durch die Panning-Koeffizienten aL(b, k) bzw. aR(b, k) beschrieben: XL(b, k) = αL(b, k)·S(b, k) + NL(b, k) (3a) XR(b, k) – αR(b, k)·S(b, k) + NR(b, k) (4a)
-
Unter Vernachlässigung der, im Vergleich zu S üblicherweise relativ kleinen, diffusen Umgebungssignale NL bzw. NR ergibt sich insgesamt folgendes Gleichungssystem für die Panning-Koeffizienten aL(b, k) und aR(b, k): α 2 / L(b, k) + α 2 / R(b, k) = 1 (6) XL(b, k) = αL(b, k)·S(b, k) (7) XR(b, k) = αR(b, k)·S(b, k) (8)
-
Durch Auflösen erhält man die Panning-Koeffizienten
-
Die Signale X
L, X
R und S sind im Allgemeinen komplexwertig, während die Panning-Koeffizienten a
L und a
R reellwertig sind, da in dem Signalmodell gemäß den Gleichungen (7) und (8) ein reines Amplitudenpanning durchgeführt wird, d. h. nur die Amplitude richtungsabhängig ist. Daraus folgt, dass sowohl X
L(b, k) als auch X
R(b, k) in Phase mit S(b, k) sind. In den Polardarstellungen
sind also die Phasen ϕ
L von X
L, ϕ
R von X
R und ϕ
S von S identisch, so dass sich die Phasenterme kürzen lassen:
-
Die Panning-Koeffizienten aL und aR sind in dieser Näherung also unmittelbar mit den Leistungsdichtespektren (Zeit-Frequenz-Darstellungen) XL und XR des ersten und zweiten Audiosignals, die zusammen das Stereoaudiosignal ergeben, verknüpft.
-
Alternativ kann je nach Bedarf und Anwendung auch der Positionskoeffizient
berechnet werden. Dieser Positionskoeffizient Ψ(b, k) erlaubt eine sehr effektive Berechnung der Position durch einfache Betrachtung des Differenzleistungsspektrums und der Gesamtleistung des Signals.
-
Auf Grund der vereinfachenden Annahmen, unter denen die Panning-Koeffizienten aL und aR sowie die Position Ψ gewonnen wurden, sind diese Größen Näherungswerte. Sie werden im Folgenden zur Unterscheidung von den exakten Werten gemäß dem Signalmodell mit α ^, α ^R bzw. Ψ ^ bezeichnet.
-
Zur Extraktion des Direktsignals S und der Umgebungssignale NL und NR aus den Summensignalen XL und XR (Gleichungen (3) und (4)) kommt ein iteratives Verfahren zum Einsatz. Aus dem linken Eingangskanal XL und dem rechten Eingangskanal XR werden schrittweise Direktsignalbeiträge Ŝi extrahiert, die am Ende zum Direktsignal Ŝ der Direktschallquelle zusammengefasst werden. Die Differenz zwischen dem mit den Panning-Koeffizienten aL und aR gewichteten Direktsignal Ŝ und den Eingangssignalen XL bzw. XR ist eine Näherung für die Umgebungssignale NL bzw. NR. Die Indices (b, k) werden im Folgenden auf Grund der besseren Übersichtlichkeit nicht mehr explizit angegeben.
-
Zum Start der Iteration werden die geschätzen Umgebungssignale N ^L und N ^R zunächst mit den Eingangssignalen XL und XR initialisiert: N ^L,0 = XL, N ^R,0 = XR (16)
-
Ausgehend hiervon werden gemäß den Iterationsvorschriften
die Panning-Koeffizienten verfeinert und ein Direktsignalbeitrag berechnet. Bei der ersten Iteration haben die Panning-Koeffizienten genau die Werte gemäß den Gleichungen (13) und (14) als Startwerte. Die Berechnung des Direktsignalbeitrags Ŝ
i, gemäß Gleichung (19) geht davon aus, dass das Direktsignal im ersten und zweiten Audiosignal mit gleicher Phase vorliegt und die Umgebungssignale dazu phasenverschoben sind.
-
Vor der nächsten Iteration werden die Umgebungssignale über N ^L,i = N ^L,i-1 – α ^L,i·Ŝi (20) N ^R,i = N ^R,i-1 – α ^R,i·Ŝi (21) in dem Sinne selbstkonsistent nachgeführt, dass ein Signalanteil, der sich als ein mit der Direktschallquelle 813 korrelierter Direktsignalanteil erwiesen hat, nicht gleichzeitig zum diffusen Umgebungssignal gehören kann. Diese selbstkonsistente Lösung zeichnet sich insbesondere dadurch aus, dass sie eine gute Extraktion stark gepannter, d. h. stark richtungsabhängiger, Direktsignale ermöglicht.
-
Nach Durchlauf aller I Iterationen ergibt sich das gesamte, mit der Direktschallquelle
813 korrelierte Direktsignal als Summe der einzelnen Signalanteile Ŝ
i:
-
Bei der Ermittlung der Panning-Koeffizienten aL,i und aR,i sowie der Signalanteile Ŝi wurde ausschließlich Selbstkonsistenz mit den Umgebungssignalen N ^L,i und N ^R,i gefordert, ohne dass das Signalmodell gemäß den Gleichungen (3) und (4) herangezogen wurde. Daher ist nicht sichergestellt, dass die letztendlich erhaltenen Werte für N ^L, N ^R und Ŝ diesem Signalmodell gehorchen. Da sich eine Verletzung des Signalmodells stärker auf den Höreindruck auswirkt als eine Abweichung im diffusen Umgebungssignal, wird der Erfüllung des Signalmodells Priorität gegenüber einer möglichst exakten Näherung für N ^L und N ^R eingeräumt. Daher werden nicht die bei der letzten Iteration I erhaltenen Werte N ^L,I und N ^R,I als Umgebungssignale N ^L und N ^R verwendet, sondern diese werden am Ende aus dem Gesamtergebnis Ŝ für das Direktsignal und den ersten Näherungswerten α ^L,1 und α ^R,1 für die Panning-Koeffizienten berechnet: N ^L = XL – α ^L,1·Ŝ (23) N ^R = XR – α ^R,1·Ŝ (24)
-
Die während des iterativen Verfahrens gemäß den Gleichungen (17) und (18) verfeinerten Panning-Koeffizienten werden ausschließlich für die Aufteilung der Signale XL, und XR in Direktsignal Ŝ und Umgebungssignale N ^L und N ^R verwendet. Für das Repanning auf eine Konfiguration von mehr als zwei Lautsprechern werden weiterhin die aus der Lösung des Gleichungssystems (13–14) erhaltenen Panning-Koeffizienten verwendet.
-
Für i → ∞ gilt für die Umgebungssignale N ^L,i und N ^R,i gemäß den Gleichungen (20) und (21) N ^L,i = –N ^R,i (25)
-
Es sind also beide Umgebungssignale bis auf eine Phasendrehung identisch. Das ursprüngliche Signalmodell gemäß den Gleichungen (3a) und (4a) vereinfacht sich damit zu XL = αL·S + N (26) XR = αR·S – N (27)
-
Einsetzen der Panning-Koeffizienten gemäß den Gleichungen (13) und (14) sowie Auflösen ergibt
als Näherungswerte für das Direktsignal Ŝ und das Umgebungssignal
N ^L ≡ –N ^R ≡ N ^.
-
Bezugszeichenliste
-
- 1
- Position des Hörers
- 110
- erstes (linkes) Audiosignal xL des Stereoaudiosignals
- 115
- Zeit-Frequenz-Darstellung XL des ersten Audiosignals 110
- 120
- zweites (rechtes) Audiosignal xR des Stereoaudiosignals
- 125
- Zeit-Frequenz-Darstellung XR des zweiten Audiosignals 120
- 310
- Panning-Koeffizienten aL(b, k) des ersten Audiosignals 110
- 320
- Panning-Koeffizienten aR(b, k) des ersten Audiosignals 120
- 330
- komplexe Amplitude S(b, k) der Direktschallquelle 813
- φ
- azimutale Position der Direktschallquelle 813
- 390
- Positionskoeffizient Ψ
- 410
- erster Repanning-Koeffizient g1 für ersten Tonkanal 580
- 420
- zweiter Repanning-Koeffizient g2 für zweiten Tonkanal 585
- 430
- dritter Repanning-Koeffizient g3 für dritten Tonkanal 590
- 510
- erstes (linkes) Umgebungssignal NL
- 520
- zweites (rechtes) Umgebungssignal NR
- 580
- erster Tonkanal für Lautsprecher auf Position L (links)
- 585
- zweiter Tonkanal für Lautsprecher auf Position C (Mitte)
- 590
- dritter Tonkanal für Lautsprecher auf Position R (rechts)
- 810
- linke Wiedergabeeinrichtung für das erste Audiosignal 110
- 813
- Direktschallquelle
- 820
- rechte Wiedergabeeinrichtung für das zweite Audiosignal 120
- 890
- Hörbereich vor dem Hörer 1 bzw. um den Hörer 1
- 891
- gleichseitiges Dreieck im Hörbereich 890
- 892
- Kreisbogen am Rand des Hörbereichs 890
- L, C, R
- Lautsprecherpositionen Links, Mitte, Rechts für das Repanning
- RL, RR
- zusätzliche Lautsprecherpositionen für Umgebungssignale 510, 520
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- DE 102012017296 B4 [0005, 0028]
-
Zitierte Nicht-Patentliteratur
-
- Ville Pulkki, „Virtual sound source positioning using vector based amplitude panning”, Journal of the Audio Engineering Society, Vol. 45, Issue 6, pp. 456–466, June 1997 [0028]