-
Die vorliegenden Erfindung bezieht sich auf die Verarbeitung von Signalen und insbesondere von Audiosignalen im Frequenzbereich.
-
In vielen Bereichen der Signalverarbeitung müssen Filtercharakteristiken zur Laufzeit geändert werden. Dabei ist oftmals ein allmählicher, glatter Übergang notwendig, um Störungen durch die Umschaltung (z. B. Diskontinuitäten im Signalverlauf, im Fall von Audiosignalen hörbare Knack-Artefakte) zu vermeiden. Dies kann entweder durch eine kontinuierliche Interpolation der Filterkoeffizienten oder ein simultanes Filtern des Signals mit beiden Filtern und einer anschließenden graduellen Überblendung der gefilterten Signale erfolgen. Beide Verfahren liefern identische Ergebnisse. Diese Funktionalität wird im Folgenden als „Crossfading” bezeichnet.
-
Bei Filterung mit FIR-Filtern, auch als lineare Faltung (engl. „convolution”) bezeichnet, können durch die Verwendung schneller Faltungsalgorithmen deutliche Performance-Gewinne erzielt werden. Diese Verfahren operieren im Frequenzbereich und arbeiten blockbasiert. Frequenzbereichs-Faltungsalgorithmen wie Overlap-Add and Overlap-Save (u. a. [8]; [9]) partitionieren nur das Eingangssignal, jedoch nicht den Filter, und verwenden daher große FFTs (FFT = Fast Fourier Transform = schnelle Fouriertransformation), was zu hohen Latenzen bei der Filterung führt. Partitionierte Faltungsalgorithmen, entweder gleichförmig [10]; [11] oder ungleichförmig [12]; [13]; [20] partitioniert, unterteilen auch die Filter (bzw. deren Impulsantworten) in kleinere Segmente. Durch Anwendung der Frequenzbereichsfaltung auf diese Partitionen, entsprechende Verzögerung und Kombination der Ergebnisse können gute Kompromisse zwischen verwendeter FFT-Größe, Latenz und Komplexität erzielt werden.
-
Alle Verfahren zur schnellen Faltung haben gemein, dass sie sich nur sehr schlecht mit einer graduellen Filter-Überblendung kombinieren lassen. Dies liegt zum einen in der blockbasierten Arbeitsweise dieser Algorithmen begründet. Zum anderen würde die Interpolation von Zwischenwerten zwischen mehreren Filtern, wie sie bei einem Übergang auftreten, eine deutlich erhöhte Rechenlast bedingen, da diese interpolierten Filtersätze jeweils erst in eine für die Anwendung schneller Faltungsalgorithmen geeignete Form transformiert werden müssen (i. d. R. erfordert dies ein Segmentieren, Auffüllen mit Nullen und eine FFT-Operation). Für eine „glatte” Überblendung müssen diese Operationen recht häufig ausgeführt werden, was den Leistungsvorteil der schnellen Faltung deutlich herabsetzt.
-
Bisherige beschriebene Lösungen sind insbesondere im Bereich der Binauralsynthese zu finden. Dabei werden entweder die Filterkoeffizienten der FIR-Filter interpoliert, gefolgt von einer Faltung im Zeitbereich [5] (Anm.: Der graduelle Austausch der Filterkoeffizienten wird in dieser Publikation als „commutation” bezeichnet). [14] beschreibt ein Crossfading zwischen FIR-Filtern durch die Anwendung zweier schneller Faltungsoperationen gefolgt von einem Crossfade im Zeitbereich. [16] betrachtet den Austausch von Filterkoeffizienten in ungleichförmig partitionierten Faltungsalgorithmen. Dabei werden sowohl Crossfades als auch Austauschstrategien für die partitionierten Impulsantwort-Blöcke (mit dem Ziel einer graduellen Überblendung) betrachtet.
-
Vom algorithmischen Ansatz (jedoch für eine andere Anwendung) kommt ein in [18] beschriebenes Verfahren zur nachträglichen Glättung eines durch die FFT gewonnenen Spektrums der hier beschriebenen Lösung am Nächsten. Dort wird die Anwendung eines speziellen Zeitbereichsfenster (vom Kosinus-Typ, z. B. Hann- oder Hamming-Fenster) durch eine Faltung im Frequenzbereich mit einer Frequenzbereichs-Fensterfunktion mit nur drei Elementen implementiert. Eine Überblendung oder ein Ein- oder Ausfaden von Signalen wird dort nicht als Anwendung vorgesehen, auch baut das dort beschriebene Verfahren auf festen 3-Element-Frequenzbereichsfenstern auf, die auf in der DSP bekannten Fenstern beruhen, und zeigt nicht die Flexibilität, um Komplexität und Güte der Approximation an eine vorgegebene Fensterfunktion anzupassen (und damit auch nicht das Entwurfsverfahren für die dünnbesetzten Fensterfunktionen). Zum anderen betrachtet [18] auch nicht die Verwendung des Overlap-Save-Verfahrens, und damit auch nicht die Möglichkeit, für bestimmte Teile der Zeitbereichs-Fensterfunktion keine Vorgaben machen zu müssen.
-
Die Binauralsynthese ermöglicht eine realistische Reproduktion komplexer akustischer Szenen über Kopfhörer, die auf vielen Gebieten angewendet wird, z. B. immersive Kommunikation [1], Hördisplays (engl. auditory displays) [2], virtuelle Realität [3] oder erweiterte Realität (engl. augmented reality) [4]. Ein Aufbereiten dynamischer akustischer Szenen dahingehend, dass dynamische Kopfbewegungen des Zuhörers einbezogen werden, verbessert die Lokalisierungsqualität, den Realismus und die Plausibilität einer Binauralsynthese beträchtlich, erhöht jedoch auch die rechentechnische Komplexität bezüglich der Aufbereitung. Eine andere üblicherweise angewendete Art und Weise, die Lokalisierungsgenauigkeit und Natürlichkeit zu verbessern, besteht darin, Raumreflexionen und Nachhalleffekte, z. B. [1], [5], hinzuzufügen, beispielsweise indem eine Anzahl diskreter Reflexionen für jedes Schallobjekt berechnet und als zusätzliche Schallobjekte aufbereitet werden. Wiederum erhöhen derartige Techniken die Komplexität eines binauralen Aufbereitens beträchtlich. Dies hebt die Bedeutung effizienter Signalverarbeitungstechniken für die Binauralsynthese hervor.
-
Der allgemeine Signalfluss eines dynamischen Binauralsynthese-Systems ist in 4 gezeigt. Die Signale der Schallobjekte werden mit den kopfbezogenen Übertragungsfunktionen (HRTFs) beider Ohren gefiltert. Eine Summation dieser Beiträge liefert das Signal des linken und des rechten Ohres, die durch Kopfhörer reproduziert werden. HRTFs bilden die Schallausbreitung von der Quellenposition zum Trommelfell ab und variieren je nach der relativen Position – je nach Azimut, Elevation und innerhalb bestimmter Grenzen auch je nach Abstand [6]. Somit erfordern dynamische Schallszenen ein Filtern mit zeitlich veränderlichen HRTFs. Allgemein werden zwei zueinander in Wechselbeziehung stehende, jedoch gesonderte Techniken benötigt, um derartige zeitlich veränderliche Filter zu implementieren: HRTF-Interpolation und Filter-Überblendung. In diesem Zusammenhang bezeichnet Interpolation ein Bestimmen von HRTFs für eine gegebene Quellenposition, die üblicherweise durch Azimut- und Erhöhungskoordinaten angegeben wird. Da HRTFs üblicherweise in Datenbanken mit einer endlichen räumlichen Auflösung bereitgestellt werden, z. B. [7], umfasst dies die Auswahl einer geeigneten Teilmenge von HRTFs und eine Interpolation zwischen diesen Filtern [3], [6]. Eine Filter-Überblendung, die bei [5] als „commutation” bezeichnet wird, ermöglicht einen glatten, über eine gegebene Übergangszeit verteilten Übergang zwischen diesen, möglicherweise interpolierten, HRTFs. Derartige graduelle Übergänge sind nötig, um hörbare Signaldiskontinuitäten, z. B. Knackgeräusche, zu vermeiden. Das vorliegende Dokument konzentriert sich auf den Überblendungsvorgang.
-
Aufgrund der üblicherweise großen Anzahl von Schallobjekten trägt ein Filtern der Quellensignale mit den HRTFs beträchtlich zur Komplexität einer Binauralsynthese bei. Eine geeignete Art und Weise, diesen Aufwand zu verringern, besteht darin, Frequenzbereichs-Faltungstechniken (FD-Faltungstechniken, FD = frequency domain, Frequenzbereich) wie beispielsweise das Overlap-Add- oder Overlap-Save-Verfahren [8], [9] oder partitionierte Faltungsalgorithmen anzuwenden, z. B. [10]–[13]. Ein gemeinsamer Nachteil aller FD-Faltungsverfahren besteht darin, dass ein Austausch der Filterkoeffizienten oder ein gradueller Übergang zwischen Filtern stärker eingeschränkt ist und üblicherweise einen höheren Berechnungsaufwand als eine Überblendung zwischen Zeitbereichsfiltern erfordert. Einerseits ist dies auf die blockbasierte Arbeitsweise dieser Verfahren zurückzuführen. Andererseits bringt die Notwendigkeit, die Filter in eine Frequenzbereichs-Darstellung umzuwandeln, bei häufigen Filterwechseln einen beträchtlichen Leistungsverlust mit sich. Folglich besteht eine typische Lösung für eine Filter-Überblendung aus zwei FD-Faltungsvorgängen mit verschiedenen Filtern und einer anschließenden Überblendung der Ausgaben im Zeitbereich.
-
Die
US2005/0203730 A1 offenbart ein Verfahren zum Erzeugen einer Gewichtungsfunktion. Eine Rechteckwelle zum Bestimmen eines Bereichs einer Gewichtungsfunktion wird durch eine FFT in den Frequenzbereich transformiert und wird dann mit einer Blackman-Harris-Fensterfunktion multipliziert. Das Ergebnis wird durch eine IFFT wieder in den Zeitbereich transformiert, um die Gewichtungsfunktion zu erhalten. Damit können sogenannte „spurious components” und eine Seitenkeule eines Sendesignals reduziert werden.
-
Die Aufgabe der vorliegenden Erfindung besteht darin, ein effizienteres Konzept zum Verarbeiten von Signalen im Frequenzbereich zu ermöglichen.
-
Diese Aufgabe wird durch eine Vorrichtung zum Verarbeiten eines Signals nach Patentanspruch 1, ein Verfahren zum Verarbeiten eines Signals nach Patentanspruch 23 oder ein Computerprogramm nach Patentanspruch 24 gelöst.
-
Die vorliegende Erfindung basiert auf der Erkenntnis, dass es insbesondere dann, wenn ohnehin Verarbeitungen im Frequenzbereich vorhanden sind, eine eigentlich im Zeitbereich zu erfolgende Fensterung, das heißt eine elementweise Multiplikation mit einer Zeitbereichsfolge, wie beispielsweise eine Überblendung, eine Verstärkung bzw. eine sonstige Verarbeitung eines Signals, ebenfalls in dieser Frequenzbereich-Repräsentation durchzuführen. Dabei ist zu beachten, dass eine solche Fensterung im Zeitbereich im Frequenzbereich als Faltung und beispielsweise als zirkuläre Faltung auszuführen ist. Dies ist insbesondere im Zusammenhang mit partitionierten Faltungsalgorithmen, die durchgeführt werden, um eine Faltung im Zeitbereich durch eine Multiplikation im Frequenzbereich zu ersetzen, von Vorteil. Bei solchen Algorithmen und auch bei sonstigen Anwendungen sind die Zeit-Frequenz-Transformationsalgorithmen und die inversen Frequenz-Zeitbereich-Transformationsalgorithmen derart aufwendig, so dass durchaus eine Faltung im Frequenzbereich mit einer Frequenzbereichs-Fensterfunktion ihren Aufwand rechtfertigt. Insbesondere bei Multikanal-Anwendungen, wo ansonsten viele Frequenz-Zeit-Transformationen nötig wären, um anschließend eine Zeitbereichs-Fensterung, wie beispielsweise eine Überblendung oder eine Verstärkungsänderung zu erreichen, ist es erfindungsgemäß von großem Vorteil, im Frequenzbereich, also in der Domäne, die durch einen partitionierten Faltungsalgorithmus ohnehin ausgewählt worden ist, Signalverarbeitungen durchzuführen, die eigentlich im Zeitbereich vorgesehen wären. Die dadurch nötige zirkuläre (auch zyklische oder periodische) Faltung im Frequenzbereich ist bei Verwendung geeigneter Frequenzbereichs-Fensterfunktionen aufwandsmäßig unproblematisch, da eine Anzahl von Frequenz-Zeitbereich-Transformationsalgorithmen eingespart wird. Eine Vielzahl benötigter Zeitbereichs-Fensterfunktionen lässt sich sehr gut durch solche Fensterfunktionen approximieren, deren Frequenzbereichs-Repräsentation nur wenige von Null verschiedene Koeffizienten aufweist. Damit kann die zirkuläre Faltung so effizient ausgeführt werden, dass der Gewinn durch die Einsparung der zusätzlichen Frequenz-Zeitbereichstransformationen die Kosten für die zirkuläre Faltung im Frequenzbereich übersteigt. Bei bevorzugten Ausführungsbeispielen der vorliegenden Erfindung, bei denen es um ein Einblenden, Ausblenden, Überblenden oder eine Veränderung der Lautstärke geht, kann insbesondere durch lediglich Approximieren einer Zeitbereichs-Fensterfunktion im Frequenzbereich, also durch Beschränken der Anzahl der Koeffizienten auf z. B. weniger als 18 Koeffizienten im Frequenzbereich eine deutliche Aufwandsreduktion erreicht werden Zusätzliche Effizienzgewinne können durch effiziente Berechnungsvorschriften für die zirkuläre Faltung erzielt werden, indem die Struktur der Frequenzbereichs-Fensterfunktion ausgenutzt wird. Dies betrifft zum einen die konjugiert-symmetrische Struktur dieser Fensterfunktion, die sich aus der Reellwertigkeit der zugehörigen Zeitbereichs-Fensterfunktion ergibt. Zum anderen können Summanden der zirkulären Faltungssumme effizienter berechnet werden, wenn die jeweiligen Koeffizienten der Frequenzbereichs-Fensterfunktion rein reellwertig oder rein imaginär sind.
-
Insbesondere bei einer Constant-Gain-Überblendung, d. h. wenn die Summe der Ein- und Ausblendfunktion zu jedem Zeitpunkt 1 ergibt, kann der Aufwand für die zirkuläre Faltung noch weiter reduziert werden, da lediglich eine einzige Faltung mit einer Frequenzbereichs-Filterfunktion berechnet werden muss und ansonsten lediglich eine Differenzbildung zwischen zwei gefilterten Signalen nötig ist.
-
Bei Ausführungsbeispielen kann somit lediglich ein einziges Signal mit einem einzigen Filter gefiltert werden, um dann eine Frequenzbereichs-Fensterfunktion anzulegen, um beispielsweise eine Lautstärke bzw. Verstärkungsänderung des Signals bereits im Frequenzbereich zu erreichen.
-
Bei einem alternativen Ausführungsbeispiel, bei dem eine Constant-Gain-Überblendung, also eine Überblendung mit konstanter Verstärkung angestrebt wird, wird es bevorzugt, zunächst eine Differenz zwischen zwei Filterausgangssignalen zu bilden, die durch Filter mit zwei unterschiedlichen Filtern ein- und desselben Eingangssignals erzeugt worden sind, um dann das Differenzsignal einer Frequenzbereichs-Fensterfunktion zu unterziehen.
-
Bei noch einem weiteren Ausführungsbeispiel der vorliegenden Erfindung wird jedes Filterausgangssignal mit einem eigenen Frequenzbereichs-Fenster zirkulär gefaltet und die Faltungs-Ausgangssignale werden dann aufaddiert, um im Frequenzbereich das Ergebnis der beispielsweise Überblendung zu erhalten. Wenn zwei getrennte Frequenzbereichsfenster verwendet werden, können auch die Filtereingangssignale unterschiedlich sein. Alternativ betrifft diesen Fall auch eine Erweiterung eines Anwendungsbeispiels mit nur einem Signal und z. B. einer Verstärkungsänderungsfunktion, welches auf viele parallele Kanäle erweitert wird, und wo die Kombination der Signale im Frequenzbereich mit einer einzigen Rücktransformation erfolgt.
-
Bei besonders bevorzugten Ausführungsbeispielen der vorliegenden Erfindung werden die erforderlichen Zeitbereichs-Fensterfunktionen für jede Frequenzbereichs-Darstellung lediglich angenähert. Dies wird dazu ausgenutzt, um die Anzahl der Frequenzbereichs-Fensterfunktionskoeffizienten zu reduzieren auf z. B. höchstens 18 Koeffizienten oder aber im Extremfall auf lediglich zwei Koeffizienten. Damit ergibt sich bei Rücktransformation dieser Frequenzbereichs-Fensterfunktionen in den Zeitbereich eine Abweichung von der eigentlich geforderten Fensterfunktion. Es hat sich jedoch herausgestellt, dass insbesondere bei den Anwendungen der Überblendung, der Lautstärkeänderung, der Ausblendung, der Einblendung oder auch einer sonstigen Signalverarbeitung diese Abweichung nicht problematisch ist oder den subjektiven Höreindruck nicht oder nur sehr geringfügig stört, so dass diese kleine Problematik, falls sie überhaupt vorhanden ist, für den subjektiven Höreindruck im Hinblick auf die erheblichen erreichten Effizienzsteigerungen ohne Weiteres in Kauf genommen werden kann.
-
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
-
1 eine Vorrichtung zum Verarbeiten eines Signals im Frequenzbereich mit eine Frequenzbereichs-Fensterfunktion und einem Filter;
-
2 eine Vorrichtung zum Verarbeiten eines Signals im Frequenzbereich mit zwei Filtern und zwei Frequenzbereichs-Fensterfunktionen;
-
3 eine Vorrichtung zum Verarbeiten eines Signals im Frequenzbereich mit zwei Filtern und einer einzigen Frequenzbereichs-Fensterfunktion;
-
4 einen Signalfluss eines dynamischen Binauralsynthesesystems;
-
5a eine Zeitbereichs-Fensterfunktion für eine lineare Überblendung als Beispiel für eine Überblendung mit konstanter Verstärkung;
-
5b eine Zeitbereichs-Fensterfunktion für eine lineare Verstärkungsänderung als Beispiel für eine beliebig geartete Verstärkungsänderung;
-
6a–6f Fensterentwurfsbeispiele für unterschiedliche Frequenzbereichs-Fensterkoeffizienten;
-
7a–7f eine tabellarische Aufstellung der numerischen Werte der Frequenzbereichs-Filterkoeffizienten für die in 6a–6f gezeigten Fenster;
-
7g eine tabellarische Darstellung der Designfehler für verschiedene Frequenzbereichs-Fensterfunktionen aufgrund der Approximation;
-
8 Übersichtsdiagramme für die Komplexität der Frequenzbereichs-Faltungsalgorithmen mit einer Filterüberblendung als Anzahl der Instruktionen pro Ausgabesample;
-
9 ein zu 4 ähnliches Diagramm zur Implementierung einer konventionellen Ohrhörersignalverarbeitung;
-
10 eine Ohrhörersignalverarbeitung gemäß einem Ausführungsbeispiel.; und
-
11 eine Vorrichtung zur Beaufschlagung eines im Frequenzbereich vorliegenden Signals mit einer Verstärkungsänderungsfunktion.
-
1 zeigt eine Vorrichtung zum Verarbeiten eines zeitdiskreten Signals im Frequenzbereich. Ein Eingangssignal 100, das im Zeitbereich vorliegt, wird in einen Zeit-Frequenz-Wandler 110 eingespeist. Das Ausgangssignal des Zeit-Frequenz-Wandlers 110 wird dann einer Prozessorstufe 120 zugeführt, die ein Filter 122 und eine Frequenzbereichs-Fensterfunktions-Beaufschlagungseinrichtung 124 aufweist. Das Ausgangssignal 123 der Frequenzbereichs-Fensterfunktions-Beaufschlagungseinrichtung 124 kann dann entweder direkt oder nach Verarbeitung, wie beispielsweise einer Kombination mit anderen entsprechend gleich verarbeiteten Signalen einer Frequenz-Zeit-Transformationseinrichtung bzw. einem Frequenz-Zeit-Wandler 130 zugeführt werden. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung sind der Zeit-Frequenz-Wandler 110 und der Frequenz-Zeit-Wandler 130 für eine schnelle Faltung ausgelegt. Eine schnelle Faltung kann beispielsweise einen Overlap-Add-Faltungsalgorithmus, ein Overlap-Save-Faltungsalgorithmus oder irgendein partitionierter Faltungsalgorithmus sein. Ein solcher partitionierter Faltungsalgorithmus wird verwendet, wenn eine direkte Anwendung eines unpartitionierten Frequenzbereichs-Faltungsalgorithmus wie Overlap-Save oder Overlap-Add aufgrund der durch diese Algorithmen bedingten Latenz oder anderen praktischen Gründen wie der Größe der verwendeten FFTs, nicht vertretbar ist. Dann wird eine entsprechende Partitionierung vorgenommen, und zwar je nach entsprechendem Faltungsalgorithmus. Eine entsprechende Filterung, wie sie in Block 122 dargestellt ist, kann dann durch Multiplikationen und Summation eines transformierten Eingangssignals mit einer partitionierten Frequenzbereichsrepräsentation der Impulsantwort ausgeführt werden, so dass die lineare Faltung im Zeitbereich vermieden werden kann.
-
Es sei darauf hingewiesen, dass die Frequenzbereichsdarstellung auf einer blockweisen Partitionierung des Signals beruht. Implizit ergibt sich das auch aus der im Zeit- und Frequenzbereich diskreten Natur der Frequenzbereichsdarstellung. Wie bereits dargestellt, sind prominente Vertreter von partitionierten Faltungsalgorithmen das Overlap-Add-Verfahren, bei dem ein Eingangssignal zunächst in nicht-überlappende Sequenzen partitioniert wird und mit einer bestimmten Zahl von Nullen ergänzt wird. Dann werden diskrete Fourier-Transformationen der einzelnen nicht-überlappenden, mit Nullen aufgefüllten Sequenzen und des Filters gebildet. Hierauf wird eine Multiplikation der transformierten nicht-überlappenden Sequenzen mit der Fourier-Transformation der ebenfalls mit einer bestimmten Zahl von Null-Samples ergänzten Impulsantwort des Filters durchgeführt. Dann werden die Sequenzen durch eine inverse FFT wieder in den Zeitbereich gebracht, wobei das resultierende Ausgangssignal durch Überlappen und Addieren rekonstruiert wird. Das Auffüllen mit Nullen ist erforderlich, um unter Verwendung einer Frequenzbereichs-Multiplikation, welche einer zirkulären Faltung im Zeitbereich entspricht, eine lineare Faltung im Zeitbereich zu implementieren. Die Überlappung stammt aus der Tatsache, dass das Ergebnis einer linearen Faltung immer länger als die ursprünglichen Sequenzen ist, und sich das Ergebnis jeder Frequenzbereichsmultiplikation daher auf mehr als eine Partition des Ausgangssignals auswirkt.
-
Bei einem alternativen Verfahren, dem Overlap-Save-Verfahren (z. B. [9]) werden überlappende Segmente des Eingangssignals gebildet und mittels einer diskreten Fourier-Transformation, z. B. der FFT, in den Frequenzbereich transformiert. Diese Sequenzen werden elementweise mit der mit einer Anzahl von Null-Samples aufgefüllten und in den Frequenzbereich transformierten Impulsantwort des Filters multipliziert. Das Ergebnis dieser Multiplikation wird mittels einer inversen diskreten Fourier-Transformation in den Zeitbereich zurücktransformiert. Zur Vermeidung zirkulärer Faltungseffekte wird aus jedem zurücktransformierten Block eine festgelegte Zahl von Samples verworfen. Durch Aneinanderfügen der verbleibenden Sequenzen wird das Ausgangssignal gebildet.
-
Bezug nehmend auf 1 ist die Prozessorstufe 120 somit ausgebildet, um das Signal, das in der Frequenzbereichs-Darstellung vorliegt, mit einem Filter mit einer Filtercharakteristik zu filtern, um ein gefiltertes Signal 123 zu erhalten.
-
Das gefilterte Signal oder das von dem gefilterten Signal abgeleitete Signal wird dann mit einer Frequenzbereichs-Fensterfunktion beaufschlagt 124, um ein gefenstertes Signal 125 zu erhalten, wobei das Beaufschlagen eine Multiplikation von Frequenzbereichs-Fensterfunktionskoeffizienten der Frequenzbereichs-Fensterfunktion mit Spektralwerten des gefilterten Signals, um Multiplikationsergebnisse zu erhalten und eine Aufsummation der Multiplikationsergebnisse, also eine Operation im Frequenzbereich umfasst. Vorzugsweise umfasst das Beaufschlagen eine zirkuläre (periodische) Faltung der Frequenzbereichs-Fensterfunktionskoeffizienten der Frequenzbereichs-Fensterfunktion mit Spektralwerten des gefilterten Signals. Der Umwandler 130 wiederum ist ausgebildet, um das gefensterte Signal oder ein unter Verwendung des gefensterten Signals ermitteltes Signal in einen Zeitbereich umzuwandeln, um das verarbeitete Signal z. B. bei 132 zu erhalten.
-
Die Verarbeitung um das von dem gefilterten Signal abgeleitete Signal zu erhalten soll alle möglichen Modifikationen des Signals, u. a. die Summation, die Differenzbildung oder die Bildung einer Linearkombination betreffen. Ein Beispiel ist in dem konkret in 3 dargestellten Signalfluss gegeben, in dem das „von dem gefilterten Signal abgeleitete Signal” aus der Differenz zweier gefilterter Signale besteht.
-
2 zeigt eine alternative Implementierung der Prozessorstufe, wobei der Zeit-Frequenz-Wandler 110 wie in 1 ausgeführt sein kann. Insbesondere umfasst die Prozessorstufe 120 ein Filter 122a, um ein Frequenzbereichs-Signal, das von dem Zeitbereichs-Signal 100 abgeleitet ist, mit einer ersten Filtercharakteristik H1 zu filtern, um ein gefiltertes Signal am Ausgang des Blocks 122a zu erhalten. Ferner ist die Prozessorstufe ausgebildet, um das Frequenzbereichs-Signal am Ausgang des Blocks 110 mit einem zweiten Filter 122b mit einer zweiten Filtercharakteristik H2 zu filtern, um ein gefiltertes zweites Signal zu erhalten. Ferner ist die Prozessorstufe ausgebildet, um das erste gefilterte Signal mit einer ersten Frequenzbereichs-Fensterfunktion 124a zu beaufschlagen, um ein gefenstertes erstes Signal zu erhalten, und ist die Prozessorstufe ausgebildet, um das zweite gefilterte Signal mit einer zweiten Frequenzbereichs-Fensterfunktionen 124b zu beaufschlagen, um ein gefenstertes zweites Signal zu erhalten. Die beiden gefensterten Signale werden daraufhin in einem Kombinierer 200 kombiniert. Das am Ausgang des Kombinierers 200 anliegende kombinierte Frequenzbereichssignal kann dann, beispielsweise wie in 1 dargestellt, durch einen Umwandler 130 in ein Zeitbereichssignal gewandelt werden.
-
3 zeigt eine weitere Implementierung der Prozessorstufe, bei der das Frequenzbereichssignal 105, welches von dem Zeitbereichssignal 100 abgeleitet ist, durch ein Filter 122a mit einer ersten Filtercharakteristik H2 zu filtern, um ein erstes gefiltertes Signal zu erhalten. Ferner wird das Frequenzbereichssignal 105 durch ein Filter 122b mit einer zweiten Filtercharakteristik H2 gefiltert, um ein zweites gefiltertes Signal zu erhalten. Durch einen Kombinierer 300 wird aus dem ersten und dem zweiten gefilterten Signal ein Differenzsignal 302 gebildet, welches dann einer einzigen Frequenzbereichs-Fensterfunktions-Beaufschlagungseinrichtung 122c zugeführt wird, wobei die Beaufschlagung vorzugsweise als zirkuläre Faltung der Spektralkoeffizienten des Differenzsignals mit den Koeffizienten der Frequenzbereichs-Fensterfunktion ausgeführt ist. Das gefensterte Ausgangssignal wird dann in dem Kombinierer 200 mit dem ersten gefilterten Signal am Ausgang des Blocks 122a kombiniert. Damit erhält man am Ausgang des Kombinierers 200 von 3 dasselbe Signal wie am Ausgang des Kombinierers 200 von 2, wenn die beiden Frequenzbereichs-Fensterfunktionen Constant-Gain-Überblendfunktionen sind, wenn also die Zeitbereichsrepräsentationen der Frequenzbereichs-Fensterfunktionen 124a und 124b sich so ergänzen, dass ihre Summe zu jedem Zeitpunkt 1 ergibt. Diese Bedingung ist beispielsweise erfüllt, wenn Frequenzbereichs-Fensterfunktion 124a im Zeitbereich einer abfallende Rampe entspricht und die Frequenzbereichs-Fensterfunktion 124b im Zeitbereich eine ansteigende Rampe darstellt (oder umgekehrt), wie es beispielsweise in 5a dargestellt ist.
-
Für einen Constant-Gain-Crossfade mit beliebigem Start- und Endwert und Verwendung eines „Standard-Fensters” wird es bevorzugt, die Signale vor der Summation (300) mit linearen Faktoren (s bzw. (e – s) zu skalieren, wie es in 11 dargestellt ist. Damit ergibt sich eine optionale Skalierung vor der Summation, so dass der Kombinierer eine Linearkombination ausführt als Alternative zu einer einfachen Addition. Weitere Ausführungsbeispiele können ebenfalls implementiert werden.
-
Ferner sei darauf hingewiesen, dass die Ein- oder Ausblendung oder die Überblendung über einen oder mehrere Blöcke erfolgen kann, je nach Anforderung in der speziellen Implementierung.
-
Bei bevorzugten Ausführungsbeispielen der vorliegenden Erfindung ist das Zeitbereichs-Signal ein Audiosignal, wie beispielsweise das Signal einer Quelle, das nach diverser Verarbeitung zu einem Lautsprecher oder einem Ohrhörer gesendet werden kann. Alternativ kann das Audiosignal auch das Empfangssignal eines Mikrofon-Arrays beispielsweise sein. Bei wieder anderen Ausführungsbeispielen ist das Signal kein Audiosignal, sondern ein Informationssignal, wie es nach einer Demodulation ins Basisband oder im Zwischenfrequenz-Band erhalten wird, und zwar im Kontext einer Übertragungsstrecke, wie sie für die drahtlose Kommunikation oder für die optische Kommunikation eingesetzt wird. Die vorliegende Erfindung ist somit in allen Gebieten nützlich und vorteilhaft, in denen zeitlich variierende Filter eingesetzt werden, und in denen Faltungen mit solchen Filtern im Frequenzbereich ausgeführt werden.
-
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung sind die Frequenzbereichs-Fensterfunktionen so ausgebildet, dass sie gewünschte Zeitbereichs-Fensterfunktionen lediglich annähern. Es hat sich jedoch herausgestellt, dass eine gewisse Approximation ohne Weiteres im Hinblick auf den subjektiven Eindruck tolerierbar ist und zu ganz erheblichen Einsparungen an Rechenaufwand führt. Insbesondere wird es bevorzugt, dass die Anzahl der Fensterkoeffizienten kleiner oder gleich 18 und noch bevorzugter kleiner oder gleich 15 und noch mehr bevorzugt kleiner oder gleich 8 oder sogar kleiner oder gleich 4 oder sogar kleiner oder gleich 3 oder im Extremfall sogar gleich 2 ist. Eine minimale Anzahl von 2 Frequenzbereichs-Fensterkoeffizienten wird jedoch eingesetzt.
-
Bei einer Implementierung ist die Prozessorstufe so ausgebildet, dass die von 0 verschiedenen Koeffizienten des Frequenzbereichs-Fenster teilweise oder vollständig so gewählt sind, dass sie entweder rein reell oder rein imaginär sind. Ferner ist die Frequenzbereichs-Fensterfunktions-Beaufschlagungsfunktion so ausgebildet, dass sie die rein reelle bzw. rein imaginäre Natur der einzelnen von 0 verschiedenen Frequenzbereichs-Fensterkoeffizienten bei der Berechnung der zirkulären Faltungssumme ausnutzt, um eine effizientere Evaluation der Faltungssumme zu erzielen.
-
Bei einer Implementierung ist die Prozessorstufe ausgebildet, um eine maximale Anzahl von Frequenzbereichs-Fensterkoeffizienten ungleich 0 zu verwenden, wobei eine Frequenzbereichs-Fensterkoeffizient für eine minimale Frequenz bzw. für das niedrigste Bin reell ist. Ferner sind Frequenzbereichs-Fensterkoeffizienten für gerade Bins oder Indizes rein imaginär und sind Frequenzbereichs-Fensterkoeffizienten für ungerade Indizes bzw. ungerade Bins rein reell.
-
Bei einer bevorzugten Implementierung der vorliegenden Erfindung, wie sie noch Bezug nehmend auf die 9 und insbesondere 10 beschrieben wird, sind die erste Filtercharakteristik und die zweite Filtercharakteristik, zwischen denen übergeblendet werden soll, kopfbezogene Übertragungsfunktionen (head related transfer functions – HRTF) für unterschiedliche Positionen und ist das Zeitbereichs-Signal ein Audiosignal für eine Quelle an einer entsprechend unterschiedlichen Position.
-
Ferner wird es bevorzugt, wie es in 10 dargestellt ist, ein Multikanal-Verarbeitungsszenario zu verwenden, bei dem mehrere Quellensignale im Frequenzbereich übergeblendet werden und die übergeblendeten Signale dann im Frequenzbereich aufaddiert werden, um erst dann das endgültige Summensignal mit einer einzigen Transformation in den Zeitbereich zurück zu transformieren. Hierzu wird auf 9 und vergleichsweise 10 Bezug genommen. Insbesondere stellen die verschiedenen Quellen SRC1 bis SRCM, die mit 600, 602, 604 bezeichnet sind, einzelne Audioquellen dar, wie sie bei 401, 402, 403 in 4 dargestellt sind. Durch Zeit-Frequenz-Wandler 606, 608, 610, die in 9 und in 10 analog aufgebaut sind, werden die Quellensignale in den Frequenzbereich transformiert. 10 enthält also den Überblendalgorithmus nach 2 (zwei zirkuläre Faltungen). Auch anwendbar ist es, hier den verbesserten Constant-Gain-Crossfade nach 3 einzusetzen.
-
Wie es ausgeführt worden ist, bewegen sich die Quellen 401 bis 403 und, um z. B. das Ohrhörersignal 713 zu erhalten, verändert sich für jede Quelle aufgrund der Bewegung der Quelle die für diese aktuelle Quellenposition nötige kopfbezogene Übertragungsfunktion. Wie es in 4 gezeigt ist, gibt es hierzu eine Datenbank, die durch eine bestimmte Quellenposition angesprochen wird. Dann wird für diese Quellenposition eine HRTF aus der Datenbank erhalten oder, wenn nicht genau für diese Position eine HRTF existiert, für zwei benachbarte Positionen zwei HRTFs erhalten, die dann interpoliert werden. Um einen Artefakt-freien Betrieb zu erhalten, wird das Audiosignal nach der Zeit-Frequenz-Wandlung 606 mit der ersten Filterfunktion durch Multiplikation im Frequenzbereich gefiltert, die für die erste Position zu einem ersten Zeitpunkt ermittelt worden ist. Ferner wird dasselbe Audiosignal durch ein zweites Filter (wieder durch Multiplikation mit der Übertragungsfunktion des Filters) gefiltert, wobei dieses zweite Filter 613 wiederum für die zweite Position zu einem späteren zweiten Zeitpunkt ermittelt worden ist. Um einen Artefaktfreien Übergang zu haben, muss übergeblendet werden, so dass also kontinuierlich das Ausgangssignal des ersten Filters 612 ausgeblendet wird und gleichzeitig das Ausgangssignal des zweiten Filters 613 eingeblendet wird, wie es durch die zeitlichen Filterfunktionen 706, 707 gezeigt ist. Daher werden die Signale am Ausgang der Filter 612, 613 in den Zeitbereich transformiert, wie es durch die IFFT-Blöcke 700, 701 dargestellt ist und dann wird das Cross-Fading (Überblenden) ausgeführt, wobei die Signale am Ausgang der Fensterung aufaddiert werden. Diese Aufaddition findet pro Quelle statt und die entsprechend übergeblendeten Signale sämtlicher Quellen werden dann in einem Addierer 712 im Zeitbereich aufaddiert, um schließlich das Ohrhörersignal 713 zu erhalten.
-
Analoge Verarbeitungen werden für die anderen Quellen stattfinden, wie es durch die Blöcke 614, 615, 702, 703, 708, 709 bzw. 616, 617, 704, 705, 710, 711 dargestellt ist.
-
Erfindungsgemäß wird nunmehr anstatt der 2M IFFT-Blöcke 700 bis 705 von 9 nur noch ein einziger IFFT-Block bzw. eine einzige IFFT-Operation 630 durchgeführt. Dazu wird die Ein/Ausblendung bzw. die Überblendung mit der Frequenzbereichs-Fensterfunktion 620, 621 bzw. 622, 623 bzw. 624, 625 im Frequenzbereich als Faltung durchgeführt. Die Ergebnisse der Faltungen werden dann jeweils aufaddiert, und zwar durch die Addierer 626, 627, 628 und 629, wobei jedoch auch sämtliche Additionen direkt durchgeführt werden können, ohne die Kaskadierung der Addierer 626, 627, 628 einerseits und dem Addierer 629 andererseits.
-
Damit werden 2M – 1 IFFT-Operationen eingespart. Demgegenüber steht ein potenziell etwas erhöhter Aufwand der zirkulären Faltung im Frequenzbereich, der jedoch durch eine effiziente Fensterapproximation, wie sie bereits angesprochen und nachfolgend detaillierter dargelegt werden wird, noch deutlich reduziert werden kann.
-
Die vorliegende Erfindung betrifft in Ausführungsbeispielen ein neuartiges Verfahren zum Durchführen einer Überblendung, d. h. eines glatten graduellen Übergangs zwischen zwei gefilterten Signalen, direkt im Frequenzbereich vor. Es arbeitet sowohl mit Overlap-Save- als auch mit Algorithmen zur partitionierten Faltung. Falls es separat auf jeden HRTF-Filtervorgang angewendet wird, spart es einen Inverse-FFT-Vorgang pro Block von Ausgangsabtastwerten, was zu beträchtlichen Verringerungen der Komplexität führt. Jedoch ist eine viel stärkere Beschleunigung möglich, falls das vorgeschlagene FD-Überblendungsverfahren mit einer Umstrukturierung des Signalflusses des Binauralsynthese-Systems kombiniert wird. Bei der Durchführung der Summation von Komponentensignalen im Frequenzbereich wird für jedes Ausgangssignal (Ohrsignal) lediglich eine einzige inverse FFT benötigt.
-
Der folgende Abschnitt gibt einen Überblick über die Bezeichnungsweise (und legt diese fest) zweier Techniken, die für den vorgeschlagenen FD-Überblendungsalgorithmus wesentlich sind – die schnelle Frequenzbereichs-Faltung und die Zeitbereichs-Überblendung.
-
Schnelle Faltungstechniken
-
Faltungstechniken, die auf einer schnellen Transformation beruhen, nutzen die Äquivalenz zwischen einer Multiplikation im Frequenzbereich und einer zirkulären Faltung im Zeitbereich sowie die Verfügbarkeit von Schnelle-Fourier-Transformation-Algorithmen (FFT-Algorithmen, engl. Fast Fourier Transform) zum Implementieren der diskreten Fourier-Transformation (DFT). Overlap-Add- oder Overlap-Save-Algorithmen [8], [9] unterteilen das Eingangssignal in Blöcke und wandeln die Frequenzbereichsmultiplikation in eine lineare Zeitbereichsfaltung um. Um jedoch effizient zu sein, erfordern Overlap-Add und Overlap-Save große FFT-Größen und bringen lange Verarbeitungslatenzzeiten mit sich.
-
Partitionierte Faltungsalgorithmen verringern diese Nachteile und ermöglichen Kompromisse zwischen rechentechnischer Komplexität, verwendeter FFT-Größe und Latenzzeit. Zu diesem Zweck wird die Impulsantwort h[n] in Blöcke einer entweder gleichförmigen [10], [11] oder einer ungleichförmigen Größe [12], [13] partitioniert, auf jede Partitionierung wird eine FD-Faltung (üblicherweise Overlap-Save) angewendet. Die Ergebnisse werden entsprechend verzögert und addiert, um die gefilterte Ausgabe zu bilden. Eine Wiederverwendung von Transformationsoperationen und Datenstrukturen als Frequenzberelchsverzögerungsleitungen (FDL, engl. frequency-domain delay lines) [11], [13] ermöglicht effiziente Implementierungen einer linearen Faltung.
-
Bei Impulsantwortlängen, die bei HRTF-Filtern üblicherweise verwendet werden (≈200–1000) ist eine gleichförmig partitionierte Faltung üblicherweise die effizienteste Wahl. Deshalb konzentriert sich das vorliegende Dokument auf diese Technik. Jedoch ist eine Anwendung auf eine ungleichförmig partitionierte Faltung unkompliziert, da der vorgeschlagene FD-Überblendungsalgorithmus separat auf jede der verwendeten Partitionsgrößen angewendet werden kann. Der Overlap-Save-Algorithmus kann als Extremfall einer gleichförmig partitionierten FD-Faltung mit lediglich einer Partition betrachtet werden. Somit ist die vorgeschlagene FD-Überblendung auch auf eine nicht-partitionierte Faltung anwendbar.
-
Das Verfahren einer gleichförmig partitionierten Faltung unterteilt eine Impulsantwort h[n] der Länge N in P = ⌈N/M⌉ Blöcke von jeweils M Werten (⌈·⌉ stellt eine Aufrundung dar), die mit Nullen aufgefüllt werden, um die Sequenzen h
p[n], p = 0, ..., P – 1 der Länge L zu bilden. Diese werden zu DFT-Vektoren H[p, k] transformiert.
H[p, k] = DFT{h[p, n]}. (2)
-
Die Anzahl von Nullen in Gleichung 1, die mit der horizontalen geschweiften Klammer dargestellt sind, beträgt L – M.
-
Das Eingangssignal x[n] wird in überlappende Blöcke x[m, n] der Länge L mit einem Vorlauf von B Abtastwerten zwischen aufeinanderfolgenden Blöcken unterteilt. Eine Transformation zu dem Frequenzbereich ergibt die Vektoren X[m, k] x[m, n] = [x[mB – L + 1] x[mB – L + 2] ... x[mB]] (3) X[m, k] = DFT{x[m, n]). (4)
-
Das Frequenzbereichsausgangssignal Y[m, k] wird durch eine Blockfaltung von H[p, k] und X[m, k] gebildet Y[m, k] = Σ P-1 / p=0H[p, k]·X[m – p, k], (5) wobei „·” eine komplexe Vektormultiplikation darstellt. Eine inverse DFT ergibt den Zeitbereichsblock der Länge L y[m, n] = DFT–1{Y[m, k]} (6)
-
Für jeden Ausgangsblock y[m, n] werden die letzten B Abtastwerte verwendet, um den m-ten Block des Ausgangssignals y[n] zu bilden. y[mB + n] = y[m, L – B + n] n = 0, ..., N – 1. (7)
-
Ein Zeitbereichs-Aliasing im Ausgangssignal wird verhindert, falls M ≤ L – B + 1 (8) gilt [9], [11]. Eine typische Wahl für eine partitionierte Faltung ist L = 2B, z. B. [12], [13], die im Folgenden als Standard-DFT-Größe bezeichnet wird und eine hohe Effizienz für sinnvolle Kombinationen von N und B ermöglicht [11].
-
Für jeden Ausgangsblock von B Abtastwerten erfordert der Algorithmus zur gleichförmig partitionierten Faltung eine FFT und eine inverse FFT, P Vektormultiplikationen und P – 1 Vektoradditionen. Für reellwertige Zeitbereichs-Signale erfordern sowohl die FFT als auch die IFFT etwa pL log2(L) reellwertige Operationen. Hierbei ist p eine hardwareabhängige Konstante, wobei typische Werte zwischen p = 2,5 [12] und p = 3 [13] liegen. Da die Vektoren X[m, k], H[p, k] und Y[m, k] für reelle Signale und Filter konjugiert-symmetrisch sind, können sie eindeutig durch ⌈(L + 1)/2)⌉ komplexe Werte dargestellt werden. Die Anzahl von Operationen zum Addieren oder Multiplizieren von konjugiert-symmetrischen Vektoren reduziert dadurch sich entsprechend. Da skalare komplexe Additionen und Multiplikationen durch 2 bzw. 6 reellwertige Operationen durchgeführt werden können, erfordert eine Auswertung der Blockfaltung (6) ⌈(L + 1)/2⌉(6P + 2(P – 1)) arithmetische Anweisungen. Somit beträgt die Gesamtkomplexität zum Falten von B Abtastwerten 2pL log2L + ⌈(L + 1)/2⌉6P + 2(P – 1).
-
Filterüberblendung im Zeitbereich
-
Eine Faltung von Audiosignalen mit zeitlich veränderlichen HRTFs erfordert einen glatten Übergang zwischen den Filtercharakteristika, da abrupte Veränderungen zu Signaldiskontinuitäten führen [5], [14], was hörbare Artefakte, z. B. ein Knacken oder ein Reißverschlussgeräusch (engl. „zipper noise”), nach sich zieht. Formal kann ein Übergang zwischen zwei zeitlich unveränderlichen Filtern FIR h1[n] und h2[n] der Länge N als zeitlich veränderliche Faltungssumme ausgedrückt werden (z. B. [15]) y[n] = Σ N-1 / k=0h[n, k] × [n – k], (9) wobei das zeitlich veränderliche Filter h[n, k] eine Summation der zwei Filter ist, die durch zwei Funktionen w1[n] und w2[n] gewichtet werden, die im Folgenden als Zeitbereichs-Fenster bezeichnet werden h[n, k] = w1[n]h1[n – k] + w2[n]h2[n – k]. (10)
-
5a zeigt ein Beispiel derartiger Fensterfunktionen. Falls die Filter h1[n] und h2[n] stark korreliert sind, was allgemein für Übergänge zwischen nahe gelegenen HRTFs gilt, wird üblicherweise eine Überblendung mit konstanter Verstärkung (constant-gain crossfade) verwendet. Dies bedeutet, dass die Summe der Gewichte w1[n] und w2[n] für jedes n gleich Eins ist. In diesem Fall können diese Gewichte durch eine einzelne Fensterfunktion w[n] ausgedrückt werden, wobei w1[n] = w[n], w2[n] = 1 – w[n] gilt. Somit bildet h[n, k] für jedes n eine lineare Interpolation zwischen h1[n] und h2[n]. Folglich kann (10) mit einer einzigen Multiplikation ausgewertet werden h[n, k] = h2[n] + w[n](h1[n] – h2[n]). (11)
-
Statt ein Signal mit interpolierten, zeitlich veränderlichen Filterkoeffizienten zu falten, ergibt ein Filtern des Eingangssignals mit h
1[n] und h
2[n], auf das eine gewichtete Summation mit den Fenstern w
1[n] und w
2[n] folgt, dasselbe Signal wie
-
Ähnlich wie bei (11) können Überblendungen mit konstanter Verstärkung als lineare Interpolation implementiert werden y[n] = y2[n] + w[n](y1[n] – y2[n]). (13)
-
Die Implementierungen (11) und (13) weisen eine vergleichbare Komplexität auf, während (13) etwas effizienter ist, falls die Filterkoeffizienten sehr oft aktualisiert werden, d. h. wenn glatte, artefaktfreie Übergänge erforderlich sind. Überdies kann die zuletzt genannte Form verwendet werden, falls die Filterkoeffizienten h[n, k] nicht direkt manipuliert werden können, z. B. falls eine schnelle Faltung verwendet wird. Beispiele, die eine FD-Faltung mit einer Ausgangsüberblendung kombinieren, werden z. B. in [14], [16] dargestellt.
-
Für eine blockbasierte Operation, z. B. bei einer Kombination mit einem FD-Faltungsverfahren, ist eine Anwendung von (13) einfach realisierbar, falls die Länge des Übergangs identisch mit der Blockgröße B ist. Für längere Übergangsperioden kann ein Überblenden der gefilterten Signale jedoch effizient unter Verwendung eines einzelnes Fensters w[n] der Länge B implementiert werden, falls zwei Bedingungen erfüllt sind: (a) der gewünschte Übergang zwischen den Filtern sollte einer linearen Funktion (Rampe) liegen; (b) die Gesamtübergangsperiode Bfull muss ein ganzzahliges Vielfaches der ursprünglichen Blockgröße B sein. In diesem Fall kann der Übergang in M = Bfull/B Blöcke aufgeteilt werden. Jeder Block des Gesamtübergangs kann ausgedrückt werden, indem das Differenzsignal y1[n] – y2[n] mit einer Einzelfensterfunktion w[n] multipliziert wird, die einen linearen Übergang von 1 zu 0 innerhalb von B Abtastwerten implementiert. Eine lineare Kombination mit y1[n] und y2[n] ergibt das Ausgangssignal für diesen Block y[n] = y2[n] + (s + [e – s]w[n])(y1[n] – y2[n]). (14)
-
Hier bezeichnen s = m/M und e = (m + 1)/M, m = 0 ... M – 1 Anfangs- und Endkoeffizienten für den m-ten Block innerhalb eines Übergangs über M Blöcke.
-
Frequenzbereichs-Darstellung des Zeitbereichsüberblendens
-
In diesem Abschnitt wird ein Algorithmus beschrieben, der auf der Basis der Frequenzbereichsbeschreibung eines gefilterten Signals arbeitet, beispielsweise der Darstellung Y[m, k] (5) innerhalb eines partitionierten Faltungsalgorithmus, um ein sanftes Überblenden der abschließenden Zeitbereichsausgabe zu implementieren. Die Hauptmotivation dafür ist eine gesteigerte Effizienz, da für ein Ausgangsüberblenden lediglich eine inverse FFT benötigt wird, falls der Übergang im Frequenzbereich implementiert wird.
-
Um eine Zeitbereichs-Überblendung im Frequenzbereich auszudrücken, betrachten wir eine elementweise Multiplikation eines einzelnen Signals x[n] mit einem Zeitbereichs-Fenster w[n] y[n] = x[n]·w[n], (15) das als ein Teil eines Ausgangsüberblendens angesehen werden kann (12). Die Erweiterung auf vollständige Überblendungen und weitere Komplexitätsoptimierungen werden im Abschnitt „Effiziente Implementierungen für zusätzliche Komplexitätsreduktionen” erörtert.
-
Die Frequenzbereichs-Darstellung von (15) folgt aus der Dualität des Faltungstheorems [9], [17]
wobei
eine zirkuläre Faltung zweier zeitdiskreter Sequenzen bezeichnet. Somit kann eine Zeitbereichs-Überblendung mittels einer zirkulären FD-Faltung implementiert werden. Aus rechentechnischer Sicht erscheint ein derartiges Frequenzbereichsüberblenden jedoch nicht attraktiv. Allgemein erfordert eine zirkuläre Faltung zweier Sequenzen der Länge L etwa L
2 komplexe Multiplikationen und Additionen, was den potenziellen Gewinn von etwa O(Llog
2L) aufgrund des Ersparnisses einer inversen FFT bei weitem überschreitet.
-
Falls jedoch das Frequenzbereichs-Fenster W[k] lediglich einige wenige von Null verschiedene Koeffizienten enthält, kann die FD-Überblendung effizienter werden als die herkömmliche Zeitbereichsimplementierung. Ein erster Hinweis darauf, dass Fensterfunktionen mit lediglich einigen wenigen Frequenzbereichskoeffizienten erfolgreich angewendet werden können, wird bei [18] gegeben, wo aus drei Koeffizienten bestehende Frequenzbereichssequenzen, welche Zeitbereichs-Hann- oder -Hamming-Fenstern entsprechen, zum Glätten von FFT-Spektren angewendet werden. Im Folgenden wird dargestellt, wie derartige dünn besetzte Fenster zur Verwendung bei Zeitbereichs-Überblendungsoperationen zweckmäßig gestaltet werden können.
-
Design von Frequenzbereichs-Fenstern
-
Das Designziel für ein Frequenzbereichs-Fenster W[k] besteht darin, dass sich die entsprechende Zeitbereichssequenz
an eine gewünschte Fensterfunktion w ^[n] bezüglich einer gegebenen Fehlernorm annähert. Der ringförmige Akzent gibt hier an, dass
das Ergebnis einer inversen FFT ist, welche möglicherweise Artefakte einer zirkulären Faltung (d. h. Zeitbereichs-Aliasing) enthält. Sowohl
als auch w ^[n] weisen die Länge L auf, während das Zeitbereichs-Fenster w[n] für einen Ausgangsblock der Größe B eine Länge B aufweist.
-
Aufgrund des dem partitionierten Faltungsverfahren (8) unterliegenden Overlap-Save-Mechanismus werden beim Fenstern des aktuellen Blocks lediglich die letzten B Werte von
tatsächlich verwendet, während der Beitrag der anderen Elemente verworfen wird. Folglich stehen die gewünschte Zeitbereichs-Fensterfunktion für den FD-Überblendungsalgorithmus w ^[n] und das Fenster w[n] der herkömmlichen Zeitbereichs-Überblendung in folgender Relation:
w ^[L – B + n] = w[n] 0 ≤ n < B. (17)
-
Das heißt, den ersten L – B Koeffizienten von w ^[n] werden keinerlei Beschränkungen auferlegt, sie können also beliebige Werte annehmen, ohne das Ergebnis der Frequenzbereichs-Überblendung zu beeinflussen. Diese Freiheitsgrade können beim Design von W[k] auf vorteilhafte Weise genutzt werden. Die Fensterfunktionen W[k] und
sind durch die inverse DFT
aufeinander bezogen, wobei der führende Faktor L aus der dualen Darstellung des Faltungstheorems (16) folgt.
-
Um reellwertige Signale überblenden, sind die Zeitbereichs-Fenster w[n] und somit
rein reell. Dies bedeutet, dass das Frequenzbereichs-Fenster konjugiert-symmetrisch ist
W[N – k] = W[k]. (19)
-
Folglich ist W[k] durch ⌈(L + 1)/2⌉ Elemente eindeutig definiert, beispielsweise W[0], ..., ⌈(1 – 1)/2⌉. Dies bedeutet auch, dass W[0] rein reellwertig ist. Ebenso ist, falls L geradzahlig ist, auch W[L/2] rein reell.
-
Indem W[k] durch seine reellen und imaginären Komponenten
W[k] = Wr[k] + jWi[k] k = 0, ..., ⌊(L + 1)/2⌋ (20) ausgedrückt wird und die Eulersche Identität verwendet wird, um Exponentialgrößen durch trigonometrische Funktionen zu ersetzen, kann (18) als
dargestellt werden. Dabei ist der letzte Term
Wr[ L / 2](–1)n nur dann von null verschieden, falls L geradzahlig ist. Durch Einführung von Basisfunktionen
kann das Fenster
kompakt durch
dargestellt werden. Diese Form kann direkt für ein optimierungsbasiertes Design von W[k] verwendet werden.
-
Um Beschränkungen bezüglich der von Null verschiedenen Elemente von W[k] (engl. sparsity constraints, Dünnbesetztheits-Einschränkungen) zu beschreiben, werden Indexmengen
und
eingeführt
-
Eine reelle Komponente W
r[k] kann nur dann von null verschieden sein, falls der Index k in der Menge
enthalten ist. Dieselbe Beziehung gilt zwischen der imaginären Komponente W
i[k] und der Menge
Unter Verwendung dieser Bezeichnung kann das Zeitbereichs-Fenster (24) für eine gegebene Menge von Null verschiedenen betragenden Komponenten von W[k] ausgedrückt werden durch
-
Somit kann das Design von W[k] als Optimierungsproblem in Matrixform angegeben werden
-
Der Vektor w ^ stellt die letzten B Abtastwerte des gewünschten Zeitbereichs-Fensters w ^[n] (17) dar, während W der Vektor von nicht null betragenden Komponenten von W[k] ist W = [Wr[r1] ... Wr[rR]Wi[i1] ... Wi[il]]T (29) w ^ = [w ^[L – B]w ^[L – B + 1] ... w ^[L – 1]]T. (30)
-
Desgleichen ist G die Matrix der Basisfunktionen
-
-
In Gleichung (28) bezeichnet ∥·∥p die bei der Minimierung verwendete Fehlernorm, z. B. p = 2 für eine Minimierung nach der Methode der kleinsten Quadrate oder p = ∞ für eine Chebyshev-(Minimax)-Optimierung.
-
Innerhalb dieses Dokuments werden die Optimierungsprobleme unter Verwendung von CVX, eines Softwarepakets für eine konvexe Optimierung [19], formuliert und gelöst. Das Problem (28) wird in dem folgenden CVX-Programm ausgedrückt:
-
Diese Designspezifikation kann an die jeweiligen Erfordernisse einer Anwendung durch eine Vielzahl zusätzlicher Einschränkungen angepasst werden. Beispiele dafür sind
- • Gleichheitseinschränkungen oder Ober- oder Untergrenzen für verschiedenartige Werte w[n], beispielsweise um Glattheitserfordernisse am Anfang oder am Ende des Zeitbereichs-Fensters zu gewährleisten.
- • Einschränkungen der Neigung von w[n], z. B. um ein Schwingungsverhalten des Zeitbereichs-Fensters zu vermeiden. Dies wird erreicht, indem den Unterschieden zwischen aufeinanderfolgenden Werten w[n] Einschränkungen auferlegt werden.
-
Designbeispiele
-
Ein Designbeispiel mit einer Zeitbereichsfensterlänge B = 64 und der entsprechenden Standard-FFT-Größe L = 2B = 128 veranschaulicht die Eigenschaften des Designverfahrens und der Leistungsfähigkeit der resultierenden Fensterfunktionen. Das gewünschte Zeitbereichs-Fenster ist eine lineare Rampe, die von 1 auf 0 abnimmt. Ungleichheitseinschränkungen für den ersten und den letzten Koeffizienten 1 – 1 / L ≤ w[0] ≤ 1 und ≤ w[B – 1] ≤ 1 / L(31) verhindern Diskontinuitäten am Anfang und am Ende des Übergangs. Jedoch zeigen Designexperimente, dass die Einschränkungen nur für eine sehr geringe Anzahl von nicht null betragenden Koeffizienten aktiv werden, d. h. das Ergebnis beeinflussen.
-
Die Designexperimente werden bezüglich der L
2- und L
∞-Fehlernormen für verschiedene Mengen von nicht null betragenden Koeffizienten durchgeführt, wobei
die Gesamtanzahl von nicht null betragenden Komponenten von W[k] bezeichnet. Die resultierenden Fenster sind in
6 gezeigt, und die Designs sind in
7g zusammengefasst.
6(a) zeigt ein Design mit einem vollständigen Satz von 8 komplexen Koeffizienten, d. h. K = 15, da W
i[0] = 0 (19). Es wird beobachtet, dass das resultierende Design das ideale Zeitbereichs-Fenster sehr gut annähert, mit L
2- und L
∞-Fehlernormen von 9,37·10
–6 bzw. 5,65·10
–6. Ein Design mit 8 ausschließlich reellen Koeffizienten wird in
6(b) gezeigt. Die Figur zeigt sichtbare Abweichungen von der idealen Fensterfunktion, was auch aus den Fehlernormen 5,45·10
–2 und 1,55·10
–2 für L
2- und L
∞-Designs klar hervorgeht. Im Gegensatz dazu weist das in
6(c) gezeigte Design ebenfalls K = 8 nicht null betragende Komponenten auf. Jedoch erreicht dieses Design fast die Leistungsfähigkeit des Beispiels mit 8 komplexen Koeffizienten, da die nicht null betragenden Werte bewußt aus der Menge der von reellen und imaginären Komponenten ausgewählt werden.
-
6(d) bis 6(f) zeigen weitere Designbeispiele mit einer abnehmenden Anzahl von jedoch optimal ausgewählten von Null verschiedenen Komponenten. Man kann erkennen, dass sogar mit Anzahlen, die so niedrig sind wie K = 3 liegen, relativ gute Annäherungen des idealen Zeitbereichs-Fensters ermöglichen. Obwohl das abschließende Design mit K = 2 (6(f)) deutliche Abweichungen von einem idealen linearen Übergang zeigt, kann es für viele Anwendungen einer Filterüberblendung eine akzeptable Wahl sein, da es einen glatten Übergang ohne Signaldiskontinuitäten liefert.
-
Effiziente Implementierungen für zusätzliche Komplexitätsreduktionen
-
Dieser Abschnitt stellt optimierte Implementierungen für zwei Aspekte des Frequenzbereichsüberblendungsalgorithmus vor und analysiert deren Leistungsfähigkeit. Zuerst wird eine effiziente Implementierung für eine zirkuläre Faltung von dünn besetzten konjungiert-symmetrischen Sequenzen vorgeschlagen. Zweitens wird eine Optimierung für Überblendungen mit konstanter Verstärkung (Constant Gain Crossfading), wie sie bei der Binauralsynthese verwendet werden, beschrieben.
-
Zirkuläre Faltung mit dünn besetzten Sequenzen
-
Eine zirkuläre Faltung zweier allgemeiner Sequenzen ist durch die Faltungssumme
definiert. Dabei bezeichnet ((k))
L = k mod L den Index modulo L (wie z. B. in [9]). Diese Operation erfordert für jedes Element Y[k] L komplexe Multiplikationen und L – 1 komplexe Additionen, was zu L
2 komplexen Multiplikationen und L(L – 1) Additionen für eine vollständige Faltung führt.
-
Die konjugierte Symmetrie von X[k] und W[k] sowie die dünne Besetzung von W[k] ermöglicht eine effizientere Darstellung
-
Dabei bezeichnet
die Vereinigung der Indexmengen
und
abzüglich des Index 0. Aus der dualen Darstellung des Faltungstheorems (16) folgt, dass Y[k] ebenfalls konjugiert-symmetrisch ist. Somit werden lediglich ⌈(L + 1)/2⌉ Elemente benötigt, um Y[k] eindeutig zu bestimmen. Wenn man Y
(l)[k] durch reelle und imaginäre Werte ausdrückt, ergibt dies
Y(l)[k] = (Wr[l] + jWi[l])(Xr[((k + l))L] + jXi[((k + l))L]) + (Wr[l] – jWi[l])(Xr[((k – l))L] + jXi[((k – l))L]). (36)
-
Durch Berechnen der Zwischenwerte X+[k, l] = X[((k + l))L] + X[((k – l))L] (37) X–[k, l] = X[((k + l))L] – X[((k – l))L], (38) wird Gleichung (36) effizient als Y(l)[k] = Wr[l]X + / r[k, l] – Wi[l]X – / i[k, l] + j(Wr[l]X + / i[k, l] + Wi[l]X – / r[k, l]) (39) ausgewertet. In Kombination erfordert eine Auswertung der Sequenz Y(l)[k] 4⌈(L + 1)/2⌉ reellwertige Multiplikationen und 2⌈(L + 1)/2⌉ Additionen. Somit ist diese Implementierung effizienter als eine direkte Auswertung von (35) unter Verwendung komplexer Operationen, welche 8⌈(L + 1)/2⌉ reelle Multiplikationen und 8⌈(L + 1)/2⌉ reelle Additionen erfordern würde. Falls W[l] rein reell oder imaginär ist, ist entweder Wi[l] oder Wr[l] null. In beiden dieser Fälle verringert sich die Komplexität auf 2⌈(L + 1)/2⌉ reelle Multiplikationen und 2⌈(L + 1)/2⌉ Additionen.
-
Auf der Basis dieser Komplexitäten ergibt sich daraus s eine Gesamtkomplexität für die Auswertung der zirkulären Faltung gemäß (34) von 4K⌈(L + 1)/2⌉ reellen Multiplikationen und 2(K – 1)⌈(L + 1)/2⌉ reellwertigen Additionen, d. h. insgesamt (6K – 2)⌈(L + 1)/2⌉ Operationen. Wie in (32) definiert, bezeichnet K die Gesamtanzahl der nicht null betragenden Komponenten von W[l]. Damit berücksichtigt die genannte Gesamtkomplexität sowohl die Reellwertigkeit von W[0] als auch die Tatsache, dass der Index l eines allgemeinen komplexen Werts W[l] sowohl in der Indexmenge R als auch in 3 enthalten ist.
-
Auf diese Weise ermöglicht die konjugierte Symmetrie der an der zirkulären Faltung beteiligten Sequenzen beträchtliche Einsparungen bezüglich der Komplexität. Zusätzliche signifikante Reduktionen können durch Fensterkoeffizienten gewonnen werden, die entweder rein reell oder imaginär sind. Somit kann der vorgeschlagene zirkuläre Faltungsalgorithmus aus dünnbesetzten Frequenzbereichs-Fensterfunktionen, wie beispielsweise den in 6a–6f dargestellten Designs, einen unmittelbaren Vorteil ziehen.
-
Überblendung mit konstanter Verstärkung (Constant-Gain-Crossfading)
-
Eine Überblendung mit konstanter Verstärkung, welche lineare Überblendungen umfasst, wie sie üblicherweise für Übergänge zwischen HRTFs verwendet werden, kann innerhalb des vorgestellten Konzeptes zur Frequenzbereichsüberblendung auf effiziente Weise implementiert werden.
-
Eine allgemeine Frequenzbereichsüberblendung wird durch eine zirkuläre Faltung der zwei Eingangssignale mit ihren jeweiligen Frequenzbereichs-Fenstern und eine anschließende Summation
implementiert. Für Überblendungen mit konstanter Verstärkung wird eine effizientere Implementierung erzielt, indem die Zeitbereichsüberblendungsfunktion (14) in den Frequenzbereich transformiert wird
-
Hierbei bezeichnet Yd[k] die Differenz Yd[k] = Y1[k] – Y2[k]. (42)
-
Wie in (14) ermöglicht diese Funktion ein Überblenden zwischen willkürlichen Anfangs- und Endwerten s und e. Der Hauptvorteil der Implementierung (41) gegenüber (40) besteht darin, dass sie lediglich eine einzige zirkuläre Faltung erfordert, welche den aufwändigsten Teil des Überblendungsalgorithmus darstellt.
-
Eine weitere Verringerung der Komplexität kann durch eine Fusion des zirkulären Faltungsschemas (34) mit (41) erzielt werden. Ein Kombinieren des Terms, der den zentralen Fensterkoeffizienten W[0] enthält, mit der Überblendungsfunktion ergibt
-
Auf diese Weise bestimmt sich der rechentechnische Aufwand für eine Überblendung mit konstanter Verstärkung durch die im Abschnitt 4.1 beschriebene dünn besetzte zirkuläre Faltungsoperation, zwei komplexe Vektoradditionen der Größe ⌈(L + 1)/2⌉, zwei Additionen und 2K – 1 Multiplikationen zum Skalieren der Fensterkoeffizienten W[k]. Dies ergibt insgesamt (6K – 2)⌈(L + 1)/2⌉ + 2 Additionen und 4K⌈(L + 1)/2⌉ + 2K – 1 reellwertige Multiplikationen. Somit erfordert ein Überblenden eines Blockes von B Ausgangsabtastwerten insgesamt (10K – 2)⌈(L + 1)/2⌉ + 2K + 1 Anweisungen.
-
5b zeigt, in Analogie zur 5a eine alternative Zeitbereichsfensterdarstellung, die eine Verstärkungsänderung, z. B. von einem Verstärkungsfaktor 1 auf einen Verstärkungsfaktor 0,5 darstellt. Ein solches Zeitbereichs-Fenster entspricht in etwa dem Ausblendungsfenster w1 in 5a, es wird jedoch keine Einblendung vorgenommen. Auch für das Zeitbereichs-Fenster in 5b existieren effiziente Frequenzbereichs-Fensterfunktionen, die im Block 124 oder in den Blöcken 124a, 124b, 124c der 1, 2 und 3 effizient eingesetzt werden können.
-
Die Darstellungen der Frequenzbereichs-Fensterfunktion für das Zeitbereichs-Fenster von 5b können aus den Frequenzbereichs-Darstellungen für die Fensterfunktionen von 5a durch Skalierung oder durch Addition/Subtraktion entsprechender Werte dargestellt werden, so dass keine neuen Optimierungen beispielsweise mehr vorgenommen werden müssen, sondern aus existierenden Frequenzbereichs-Fensterfunktionen basierend auf 5a, oder wie sie in den 6a bis 6f bezeichnet sind, die entsprechenden Frequenzbereichs-Fensterfunktionen für sämtliche Verstärkungsänderungen im Frequenzbereich erzeugt werden können. So kann durch 5b eine Verstärkungsreduktion erreicht werden. Alternativ kann durch eine entsprechende Funktion eine Verstärkungserhöhung erreicht werden, wobei hierzu auf die Funktion w2 von 5a wieder mit entsprechender Skalierung und/oder Addition entsprechender beispielsweise konstanter Werte zurückgegriffen werden kann.
-
11 zeigt exemplarisch eine Signalverarbeitungsstruktur zur Verstärkungsänderung mit beliebigen Start- und Endwerten unter Verwendung einer einzigen, festen Frequenzbereichsfensterfunktion. Dabei stellt Y1[k] 502 die Frequenzbereichsdarstellung des Signals dar, welches einer Verstärkungsänderung unterzogen werden soll. Dieses Signal kann beispielsweise durch Frequenzbereichs-Filterung eines Eingangssignals erzeugt worden sein. Eine solche Filterung ist jedoch nicht zwingend erforderlich. Notwendig ist nur, dass das Signal in einer zur verwendeten Frequenz-Zeitbereichstransformation (in Beschreibung als „Umwandler” bezeichnet) kompatiblen Repräsentation vorliegt, d. h., dass die Anwendung der Frequenz-Zeitbereichstransformation das entsprechende Zeitbereichssignal y1[n] erzeugt. Der Verlauf der Verstärkungsfunktion wird durch den Verstärkungswert s zu Beginn eines Signal-Blocks, den Verstärkungsfaktor e am Ende des Signal-Blocks sowie die gewählte Frequenzbereichs-Fensterfunktion, hier mit W2[k] bezeichnet, bestimmt. Diese wird beispielhaft so ausgeführt, dass ihre Zeitbereichsentsprechung eine von 1 auf 0 abfallende Funktion ist. Eine Verstärkungsänderung wird mittels folgender, auch in 11 dargestellter Berechnungsfunktion, durchgeführt.
-
-
Das Signal Y1[k] wird mit mittels zirkulärer Faltung mit einer Frequenzbereichs-Fensterfunktion W2[k] beaufschlagt. Das Ergebnis dieser Faltung wird durch elementweise Multiplikation des Vektors mit dem Wert e – s in einem ersten Multiplizierer 503 skaliert. Aufgrund der Linearität der zirkulären Faltung kann diese Skalierung auch vor der Faltung entweder auf Y1[k] oder W2[k] angewandt werden. Das Ergebnis dieser Repräsentation wird dem mit dem Start-Verstärkungswert s in einem zweiten Multiplizierer 504 skalierten Signal Y1[k] in dem Summierer 500 summiert und ergibt das Frequenzbereichs-Ausgangssignal Y[k]. Die Effizienz kann weiter erhöht werden, indem analog zu (43) der zentrale Fensterkoeffizient W[0] aus der Faltungssumme separiert und in der Skalierung von Y1[k] berücksichtigt wird.
-
-
7a bis 7f zeigt eine tabellarische Aufstellung der Filterkoeffizienten der Frequenzbereichs-Fensterfunktionen, die im Zeitbereich in den 6a bis 6f dargestellt sind. Die Frequenzbereichs-Fensterfunktionen sind nur schwach besetzt. Insbesondere zeigt 7a eine Frequenzbereichs-Darstellung, wo der Bin der Frequenzbereichs-Darstellung der Fensterfunktion, der der Frequenz gleich 0 entspricht bzw. der 0.te Bin den Wert 0,5 hat. Der exakte Wert „0.5” ist hier nicht zwingend notwendig. 0.5 für den 0-ten Bin heißt, dass der Durchschnitt der Zeitbereichs-Werte 0.5 ist, was bei eine gleichmäßigen Überblendung von 1 auf 0 gegeben ist.
-
Der erste bis siebte Frequenz-Bin hat dann die entsprechenden komplexen Koeffizienten, während alle weiteren, höheren Bins gleich 0 sind oder so kleine Werte haben, dass sie nahezu bedeutungslos sind. Die Menge
und die Wert
aus den
7a bis
7f beschreiben somit die Indizes der von Null verschiedenen Real- und Imaginärteile der Spektralkoeffizienten bzw. Bins der Frequenzbereichs-Fensterfunktionen, die im Zeitbereich in den
6a bis
6f dargestellt sind. So betrifft beispielsweise
7e und
7f lediglich eine Besetzung der ersten drei Spektralkoeffizienten der Fensterfunktion (
7e) oder nur der beiden ersten Spektralkoeffizienten der Fensterfunktion (
7f).
-
Komplexitätsauswertung
-
Dieser Abschnitt vergleicht die Komplexität des vorgeschlagenen Frequenzbereichsüberblendungsalgorithmus mit existierenden Lösungsansätzen einer Filterüberblendung. Ein Aufbereitungssystem mit einer Filterlänge N = 512, einer Blockgröße B = 128 und der entsprechenden Standard-DFT-Größe L = 256, M = 8 virtuelle Quellen und K = 4 nicht null betragende Koeffizienten für das Frequenzbereichsüberblendungsverfahren wird als Basis für die Leistungsauswertung verwendet. Jeder der Parameter wird variiert, um seinen Einfluss auf die Gesamtkomplexität zu beurteilen. Die Ergebnisse sind in 8 gezeigt. Sie zeigt die Anzahl von Multiplikationen zum Berechnen eines Abtastwerts eines einzelnen überblendeten Signals, d. h. die Gesamtanzahl von Operationen in dem Aufbereitungssystem geteilt durch die Anzahl von Schallquellen. Drei Algorithmen werden in Betracht gezogen: (a) partitionierte Faltung, auf die eine Zeitbereichs-Überblendung folgt, (b) die vorgeschlagenen FD-Überblendungsalgorithmen, die für jedes Quellensignal separat durchgeführt werden, und die Summation der Ohrsignale im Zeitbereich, und (c) FD-Überblendung und Summation der Ohrsignale im Frequenzbereich.
-
8(a) zeigt den Einfluss der Filterlänge N. Für eine konstante Blockgröße B ist die Komplexität eine lineare Funktion von N für alle Algorithmen, da das N lediglich den Aufwand, der auf die Blockfaltung (6) zurückzuführen ist, beeinflusst, die für die drei Algorithmen identisch ist. Trotzdem zeigt der vorgeschlagene FD-Überblendungsalgorithmus sogar im Fall eines einzigen Kanals eine messbare Verbesserung gegenüber dem Zeitbereichslösungsansatz. Wie durch den dritten Graphen angegeben ist, ergibt eine Summation der Ohrsignale im Frequenzbereich beträchtliche zusätzliche Komplexitätsverringerungen, d. h. von ≈ 186 auf ≈ 131 Anweisungen pro Abtastwert für N = 512.
-
Die Auswirkung der Blockgröße des partitionierten Faltungsschemas wird in 8(b) gezeigt. Während eine FD-Überblendung in allen Fällen effizienter ist als eine Zeitbereichs-Überblendung, nimmt der relative Gewinn mit steigender Blockgröße B zu. Dies lässt sich durch das Komplexitätseigenschaften gleichförmig partitionierter Faltungsschemata erklären. Für kleine Blockgrößen wird die Komplexität durch die Blockfaltung dominiert (6), während die Kosten der FFT- und IFFT-Operationen vernachlässigbar sind. Da eine Verringerung der Anzahl von IFFTs das Hauptmerkmal des FD-Überblendungsverfahrens ist, zeigt es seinen vollständigen Effekt nur für hinreichend große Blockgrößen. Dies ist jedoch nur ein geringfügiger Nachteil, da eine gleichförmig partitionierte Faltung für sehr kleine Blockgrößen in jedem Fall immer ineffizienter wird (siehe z. B. [12], [13]). Am anderen Ende der Skala werden die größten Verbesserungen gewonnen, falls die Blockgröße gleich der Filterlänge ist (bei diesem Beispiel N = B = 512). Dies entspricht einer nicht partitionierten schnellen Faltung. Somit kann das vorgeschlagene FD-Überblenden in Verbindung mit Overlap-Save-Schemata auf vorteilhafte Weise verwendet werden, falls die dadurch bedingte Latenzzeit akzeptabel ist.
-
Die Abhängigkeit der Komplexität von der dünnen Besetzung des FD-Fensters, d. h. der von Null verschiedenen Real- und Imaginärteile von Werten der Frequenzbereichs-Fensterfunktion W[l] ist in 8(c) gezeigt. F Für Zeitbereichsüberblendungen ist der Performance-Verlauf eine Konstante, die keine derartigen Fenster verwendet werden. Für den Fall einer kanalweisen Umsetzung des Algorithmus ist die FD-Überblendung bei dem betrachteten Aufbau für bis zu etwa 7 nicht null betragende Komponenten effizienter. Wie im Abschnitt „Design von Frequenzbereichs-Fenstern” gezeigt wurde, ermöglichen Fenster mit 3–4 Werten üblicherweise bereits sehr gute Annäherungen von linearen Überblendungen. Dies ermöglicht zweckmäßige Kompromisse zwischen der Genauigkeit und der Komplexität der Überblendung und bei den meisten Anwendungen eine beträchtliche Beschleunigung. Weitere beträchtliche Zugewinne bei der Genauigkeit oder Effizienz sind möglich, falls ein Mischen der Ohrsignale auch im Frequenzbereich durchgeführt wird. In diesem Fall ist bei FD-Fenstern mit bis zu 12 Koeffizienten eine FD-Überblendung effizienter als das Zeitbereichsverfahren.
-
8(d) zeigt die Auswirkung der Größe der wiedergegebenen akustischen Szene, d. h. der Anzahl von virtuellen Quellen, auf die Gesamtkomplexität. Wie oben dargestellt, werden die berechneten Anzahlen arithmetischer Operationen durch die Anzahl der berechneten Quellen normiert. Für eine Zeitbereichsüberblendung und den Einzelkanal-FD-Algorithmus ist die Komplexität unabhängig von der Szenengröße. Desgleichen ist der Mehrkanal-FD-Algorithmus für eine einzelne Quelle identisch mit der Einzelkanal-FD-Überblendung. Jedoch ermöglicht eine Kombination der überblendeten Quellensignale im Frequenzbereich sogar für kleine akustische Szenen beträchtliche Effizienzgewinne, z. B. für M = 2, ..., 8. Größere akustische Szenen ermöglichen lediglich geringfügige zusätzliche Leistungsfähigkeitsgewinne. Diese asymptotische Grenze folgt aus dem Einfluss der Vorwärts-FFT und der Blockfaltungsoperationen auf die Gesamtkomplexität. Diese kann nicht weiter verringert werden, indem die Anzahl inverser FFT-Operationen gesenkt wird.
-
Ausführungsbeispiele betreffen einen effizienten Algorithmus vor, der Frequenzbereichsfaltung und Überblendung gefilterter Signale kombiniert. Er ist auf eine Vielzahl von Frequenzbereichsfaltungstechniken anwendbar, insbesondere Overlap-Save und gleichförmig oder ungleichförmig partitionierte Faltung. Desgleichen kann er mit verschiedenen Arten von glatten Übergängen zwischen gefilterten Audiosignalen verwendet werden, einschließlich Verstärkungsveränderungen und Überblendungen. Überblendungen mit konstanter Verstärkung wie beispielsweise lineare Filterübergänge, die üblicherweise bei der dynamischen Binauralsynthese benötigt werden, ermöglichen zusätzliche beträchtliche Verringerungen der Komplexität. Der neuartige Algorithmus beruht auf einer zirkulären Faltung im Frequenzbereich mit einer dünn besetzten Fensterfunktion, die aus lediglich einigen wenigen von Null verschiedenen Werten besteht. Ferner wird ein flexibles optimierungsbasiertes Designverfahren für derartige Fenster dargestellt. Designbeispiele bestätigen, dass die Überblendungsverhalten, die üblicherweise bei Audioanwendungen eingesetzt werden, durch sehr dünn besetzte Fensterfunktionen sehr gut angenähert werden können.
-
Die vorgeschlagenen Ausführungsbeispiele zeigen beträchtliche Verbesserungen der Leistungsfähigkeit gegenüber vorhandenen Lösungen, die auf zwei separaten Faltungen und einer Zeitbereichsüberblendung basieren. Jedoch wird das vollständige Potenzial des Frequenzbereichsüberblendens für Binaural-Anwendungen erst dann ausgenutzt, falls es in die Struktur eines binauralen Wiedergabesystems integriert wird. In diesem Fall ermöglicht der neuartige Überblendungsalgorithmus, dass größere Anteile der Verarbeitung im Frequenzbereich durchgeführt werden, wodurch die Anzahl von inversen Transformationen beträchtlich verringert wird. Die die Vorteile dieses Lösungsansatzes für eine Binauralsynthese wurden aufgezeigt. In dieser Anwendung ermöglicht die Fähigkeit, die Signale mehrerer Schallquellen im Frequenzbereich zu mischen, beträchtliche Verringerungen der Komplexität. Trotzdem ist der vorgeschlagene Algorithmus nicht auf die Binauralsynthese beschränkt, sondern ist wahrscheinlich auf andere Verwendungszwecke anwendbar, die sowohl Techniken einer schnellen Faltung als auch ein zeitlich veränderliches Mischen von Audiosignalen, insbesondere bei Mehrkanalanwendungen, einsetzen.
-
Nachfolgend werden alternative Ausführungsbeispiele der vorliegenden Erfindung dargestellt. Generell betreffen Ausführungsbeispiele der vorliegenden Erfindung folgende Punkte.
-
Ein graduelles Ein- oder Ausblenden eines (gefilterten) Signals yi[n] kann allgemein als Multiplikation des Signals mit einer Zeitbereichs-Fensterfunktion wi[n] interpretiert werden.
-
Eine Überblendung („Crossfade”) zwischen zwei gefilterten Signalen (y
1[n] und y
2[n]) kann so durch die Multiplikation der Signale mit Fensterfunktion w
1[n] und w
2[n] und anschließender Summation dargestellt werden.
y[n] = w1[n]y1[n] + w2[n]y2[n] (44) mit
-
Eine besondere Form der Überblendung ist der sog. Constant-Gain-Crossfade, bei der die Summe der Fensterfunktionen w1[n] und w2[n] für jedes n den Wert 1 ergibt. Diese Form der Überblendung ist in vielen Anwendungen sinnvoll, insbesondere wenn die zu blendenden Signale (bzw. die Filter) stark korreliert sind. In diesem Fall kann die Überblendung durch eine einzelne Fensterfunktion w[n], w1[n] = w[n], w2[n] = 1 – w[n], dargestellt werden, und die Überblendung (1) kann in folgender Form dargestellt werden. y[n] = y2[n] + w[n](y1[n] – y2[n]). (46)
-
Ziel des Verfahrens ist es, die Überblendung direkt im Frequenzbereich vorzunehmen und dadurch den Aufwand, der bei der Ausführung zweier kompletter schneller Faltungsoperationen entsteht, zu reduzieren. Präzisiert heißt das, dass bei einer Überblendung der gefilterten Signale im Frequenzbereich nur eine statt zwei inverser FFTs notwendig sind.
-
Für die Herleitung der Überblendung im Frequenzbereich wird nur die Multiplikation eines einzelnen Signals x[n] mit einer Zeitbereichs-Fenstefunktion w[n] betrachtet y[n] = x[n]·w[n]. (47)
-
Die Erweiterung auf Überblendungen („Crossfades”) entsprechend den Formeln (44) bzw. (46) kann nach der Beschreibung des Kernalgorithmus in einfacher Weise erfolgen (aber dort noch zusätzliche Performance-Gewinne ermöglichen).
-
Eine elementweise Multiplikation im Zeitbereich (47) entspricht einer zirkulären (periodischen) Faltung im Frequenzbereich.
-
-
Dabei bezeichnet DFT {·} die diskrete Fourier-Transformation, und
repräsentiert eine zirkuläre Faltung zweier endlicher, hier i. d. R. komplexer Sequenzen, deren Länge hier mit L bezeichnet ist.
-
Die Überblendung durch zirkuläre Faltung im Frequenzbereich lässt sich in schnellen Faltungsalgorithmen wie Overlap-Save, partitionierte und ungleichförmig partitionierte Faltung integrieren. Dabei sollen die Eigenheiten dieser Verfahren, z. B. das Zero-Padding (Auffüllen mit Nullen) der Impulsantwort-Segmente und das Verwerfen eines Teils des in den Zeitbereich zurücktransformierten Signals (zur Vermeidung einer zirkulären Überfaltung des Zeitbereichssignals, Time-Domain-Aliasing) entsprechend betrachtet werden. Die Länge der Überblendung ist dabei auf die Blockgröße des Faltungsalgorithmus bzw. eines Vielfachen davon festgelegt.
-
Die Faltung (48) ist typischerweise deutlich aufwändiger als eine Überblendung im Zeitbereich (47) (Komplexität 0(L2)). Damit bedeutet die Verlagerung in den Frequenzbereich im allgemeinen Fall eine signifikante Steigerung der Komplexität, da der zustäzlcihe Aufwand 0(L2) die Reduktion durch das Einsparen der FFT 0(Llog2L) deutlich übersteigt. Zusätzlich werden Operationen wie gewichtete Summation in der Frequenzbereichs-Ensprechung von (44) teurer, da die Sequenzen komplexwertig sind.
-
Ein Ausführungsbeispiel ist es, Frequenzbereichs-Fensterfunktionen W[k] zu finden, die nur sehr wenige von Null verschiedene (engl. „nonzero”) Koeffizienten aufweisen. Bei sehr dünnbesetzten Fensterfunktionen kann die zirkuläre Faltung im Frequenzbereich deutlich effizienter werden als eine zusätzliche inverse FFT gefolgt von einer Überblendung im Zeitbereich.
-
Es wird gezeigt, dass solche Fensterfunktionen existieren, mit denen mit einer kleinen Zahl von Koeffizienten eine sehr gute Annäherung an gewünschte Überblend-Charakteristiken möglich ist.
-
Es wird ein Optimierungsverfahren eingeführt, mit denen zu einer gewünschten Zeitbereichs-Fensterfunktion w ^[n] und der Vorgabe, welche reellwertigen und imaginären Koeffizienten der Frequenzbereichs-Fensterfunktion von Null verschieden sein dürfen, ein optimales Frequenzbereichsfenster W[k] zu finden.
-
Bei dieser Optimierung können die Eigenschaften des Overlap-Save-Algorithmus und der drauf aufbauenden gleichförmig und ungleichförmig partitionierten Faltungsalgorithmen sinnvoll ausgenutzt werden. Von der inversen diskreten Fourier-Transformation
werden nur die letzten B Samples verwendet, wobei B die Blockgröße bzw. der Blockvorschub des partitionierten Faltungsalgorithmus ist (B < L). Die ersten L – B Werte des zurücktransformierten Ausgangssignals, und damit der Effekt der Multiplikation mit den ersten L – B Werten von
werden zur Vermeidung von Time-Domain-Aliasing durch den Faltungsalgorithmus verworfen. Daher dürfen die Fenster-Koeffizienten
beliebige Werte annehmen, ohne das Ergebnis der Überblendung zu verändern. Diese zusätzlichen Freiheitsgrade führen zu einen beträchtlichen Vorteil beim Design von Frequenzbereichsfenstern W[k] mit einer geringen Zahl von „nonzero” Koeffizienten.
-
Beim Design von W[k] sowie bei der effizienten Implementierung der zirkulären Faltung im Fjrequenzbereich können die symmetrisch-konjugierte Struktur des Frequenzbereichsfensters sinnvoll ausgenutzt werden. Dabei ist es sinnvoll, die reellen und imaginären Komponenten von W[k] getrennt zu betrachten.
-
Es werden verschiedene Designs für solche Frequenzbereichsfenster vorgestellt (u. a. mit 2, 3 und 4 „nonzero” Koeffizienten), welche eine spezifische, gezielt gewählte Verteilung der „nonzero” reellwertigen und imaginären Koeffizienten aufweisen. Die dabei gewonnenen Erkenntnisse, gelten streng genommen nur für die hier vorgestellten Fenster-Designs (das heisst zum Beispiel für die vorgegebenen Werte von L und B sowie die Form der gewünschten Überblendung). Jedoch sind die zugrundeliegenden Prinzipien, z. B. vorteilhafte Verteilungen von Null verschiedener Real- und Imaginärteile, auch auf andere Werte von B und L anwendbar.
-
Die Verteilung der „nonzero” reellwertigen und imaginären Komponenten ist sehr charakteristisch. Die Verteilung, wie sie z. B. im dritten Design in
7g verwendet wird (8 „nonzero” Koeffizienten, Index-Sets
= {0, 1, 3, 5, 7},
= {2, 4, 6} hat sich in zusätzlichen Untersuchungen auch für anderer Parameterkombinationen in Ausführungsbeispielen als optimal erwiesen. Dies bedeutet, dass eine besonders geeignete Vorgabe für die Frequenzbereichs-Fensterfunktion darin besteht, dass die Koeffizienten mit Index 0 sowie allen ungeraden Indizes rein reell sind und die Koeffizienten mit geradem Index (ab 2) rein imaginär sind.
-
Eine Fensterfunktion mit zwei „nonzero” Koeffizienten (letztes Design-Beispiel in 7g, Bild 6(f)) ermöglicht einen glatten Übergang zwischen zwei Filtern bzw. Signalen und kann auch für einen Constant-Gain-Crossfade verwendet werden. Diese Fensterfunktion entspricht einem Zeitbereichsfenster mit einem halbseitigen Fenster vom Kosinus-Typ (z. B. Hann- oder Hamming-Fenster). Obwohl diese Fensterfunktion recht stark von einer linearen Überblendung abweicht, sollte sie für viele Anwendungen bereits einsetzbar sein, in denen nur eine knackfreie Überblendung zwischen recht ähnlichen Filtern benötigt wird.
-
Für die Implementierung der zirkulären Faltung mit einer dünnbesetzten konjugiert-symmetrischen Fensterfunktion W[k] (wie hier betrachtet) werden effiziente Implementierungen und verschiedene Optimierungen vorgestellt. Dabei wird klar, dass eine getrennte Betrachtung der „nonzero” Real- und Imaginärteile Leistungsvorteile bietet.
-
Für die Umsetzung von Constant-Gain-Crossfades wird eine weiter optimierte Rechenvorschrift vorgestellt.
-
Die beschriebene Erfindung ermöglicht weitere deutlich größere Leistungsvorteile, wenn Systeme mit mehreren Ein- und Ausgängen betrachtet werden. In diesem Fall kann durch die Implementierung der Überblendung im Frequenzbereich (bzw. der durch den verwendeten schnellen Faltungsalgorithmus vorgegebenen Signalrepräsentation) ein größerer Teil der gesamten Berechnung in diesem Frequenzbereich erfolgen, was die Gesamt-Effizienz deutlich erhöhen kann.
-
Eine Wirkung der beschriebenen Erfindung ist eine Reduktion der Berechnungskomplexität. Dabei werden gewisse Abweichungen (die sich jedoch beeinflussen und in der Regel sehr gering halten lassen) gegenüber einem als ideal vorgegebenen Form der Überblendung in Kauf genommen.
-
Neben dieser Effizienzsteigerung ermöglicht das Konzept eine Integration von Überblend-Funktionalitäten direkt im Frequenzbereich. Wie weiter oben beschrieben, können dadurch größere Signalverarbeitungsalgorithmen, welche Überblendung als einen Baustein verwenden, so umstrukturiert werden, dass eine Effizienzsteigerung erzielt wird. Z. B. können größere Teile der Gesamtsignalverarbeitung in der Frequenzbereichsdarstellung ausgeführt werden, wodurch der Aufwand für die Transformation der Signale deutlich reduziert wird (z. B. die Zahl der Rücktransformationenin den Zeitbereich).
-
Generell können Ausführunsbeispiele in allen Anwendungen, die eine FIR-Faltung mit einer bestimmten Mindestlänge der Filter (je nach Hardware ab ca. 16–50 Koeffizienten) benötigen und bei denen die Filterkoeffizienten ohne Signalverarbeitungsartefakte zur Laufzeit ausgetauscht werden sollen, verwendet werden.
-
Zwei Anwendungsfelder im Gebiet Audio werden als besonders wichtig angesehen:
-
Binauralsynthese
-
Bei der Wiedergabe von Schallszenen über Kopfhörer werden die Signale der Schallobjekte mit sog. Head-RElated Transfer Functions (HRTFs) beider Ohren gefiltert, und die über den Kopfhörer weidergegebenen Signale werden durch Summation der entsprechenden Komponentensignale gebildet. Die HRTFs sind abhängig von der relativen Position von Schallquelle und Hörer und müssen daher bei bewegten Schallquellen oder Kopfbewegungen ausgetauscht werden. Die Notwendigkeit einer Filter-Überblendung ist bekannt, z. B. [5; 14].
-
Variable digitale Filterkernel für Beamforming
-
Beamforming-Anwendungen (sowohl für Lautsprecher als auch für Mikrofon-Arrays) mit zur Laufzeit steuerbarer Richtcharakteristik benötigen variable digitale Filterstrukturen, mit denen die Eigenschaften der Array-Verarbeitung kontinuierlich angepasst werden können. Dabei muss auch sichergestellt werden, dass die Veränderung der Charakteristik keine Störungen (z. B. Knackartefakte, Transienten) erzeugt. Bei einer Implementierung der variablen Filter mittels schneller Faltung kann die beschriebene Erfindung vorteilhaft angewendet werden.
-
Insbesondere ist bei dieser Ausführung das Frequenzbereichs-Signal ein Audiosignal. Die erste Filtercharakteristik betrifft ein Filter für einen bestimmten Schallwandler (Mikrofon oder Lautsprecher) in einem Schallwandlerarray ist, welches geeignet ist, um in Kombination mit den anderen Schallwandlern des Schallwandlerarrays eine gewünschte erste Richtcharakteristik zu einem ersten Zeitpunkt auszubilden. Die zweite Filtercharakteristik beschreibt ein Filter für einen bestimmten Schallwandler (Mikrofon oder Lautsprecher) in einem Schallwandlerarray ist, welche geeignet ist, um in Kombination mit den anderen Schallwandlern des Schallwandlerarrays eine zweite gewünschte Richtcharakteristik zu einem zweiten Zeitpunkt auszubilden, so dass durch ein Überblenden unter Verwendung der Frequenzbereichs-Fensterfunktion die Richtcharakteristik zeitlich verändert wird.
-
Eine andere Anwendung betrifft die Verwendung mehrerer Audiosignale, deren gefilterte und überblendete Frequenzbereichsrepräsentation vor der inversen Fourier-Transformation kombiniert werden. Dies entspricht der gleichzeitigen Abstrahlung mehrerer Audio-Beams mit unterschiedlichen Signalen über ein Lautsprecher-Array, oder der Summation der einzelnen Mikrofonsignale in einem Mikrofonarray.
-
Besonders vorteilhaft ist die beschriebene Erfindung für Systeme mit mehreren Ein- und Ausgängen (Multiple-Input, Multiple-Output, MIMO) anwendbar, z. B. wenn mehrere Überblendungen simultan erfolgen oder mehrere überblendete Signale kombiniert und weiterverarbeitet werden. In diesem Fall ist es möglich, einen größeren Teil der Gesamtberechnung im Frequenzbereich (bzw. der durch den verwendeten Overlap-Save- oder partitionierten Faltungsalgorithmus vorgegebenen Signalrepräsentation) auszuführen. Durch Verlagerung weiterer Operationen wie Summation, Mischen von Signalen etc. kann der Aufwand für die Rücktransformation in den Zeitbereich deutlich reduziert und damit die Gesamteffizienz oftmals signifikant verbessert werden. Beispiele für solche Systeme sind, wie oben beschrieben, ein Binaural-Rendering für komplexe Audio-Szenen oder auch Beamforming-Anwendungen, bei denen Signale für verschiedene Richtcharakteristiken und Wandler (Mikrofone bzw. Lautsprecher) mit veränderlichen Filtern gefiltert und miteinander kombiniert werden müssen.
-
Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar. Einige oder alle der Verfahrensschritte können durch einen Hardware-Apparat (oder unter Verwendung eines Hardware-Apparats), wie zum Beispiel einen Mikroprozessor, einen programmierbaren Computer oder einer elektronischen Schaltung durchgeführt werden. Bei einigen Ausführungsbeispielen können einige oder mehrere der wichtigsten Verfahrensschritte durch einen solchen Apparat ausgeführt werden.
-
Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer BluRay Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein.
-
Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmier-baren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
-
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft.
-
Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.
-
Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinen-lesbaren Träger gespeichert ist. Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft.
-
Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist.
-
Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahin gehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden.
-
Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.
-
Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
-
Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst eine Vorrichtung oder ein System, die bzw. das ausgelegt ist, um ein Computerprogramm zur Durchführung zumindest eines der hierin beschriebenen Verfahren zu einem Empfänger zu übertragen. Die Übertragung kann beispielsweise elektronisch oder optisch erfolgen. Der Empfänger kann beispielsweise ein Computer, ein Mobilgerät, ein Speichergerät oder eine ähnliche Vorrichtung sein. Die Vorrichtung oder das System kann beispielsweise einen Datei-Server zur Übertragung des Computerprogramms zu dem Empfänger umfassen.
-
Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
-
REFERENZEN
-
- [1] V. R. Algazi und R. 0. Duda, ”Headphone-based spatial sound,” IEEE Signal Processing Mag., Bd. 28, Nr. 1, S. 33–42, Jan. 2011.
- [2] R. Nicol, Binaural Technology, ser. AES Monographs. New York, NY: AES, 2010.
- [3] D. N. Zotkin, R. Duraiswami, und L. S. Davis, ”Rendering localized spatial audio in a virtual auditory space,” IEEE Trans. Multimedia, Bd. 6, Nr. 4, S. 553–564, Aug. 2004.
- [4] A. Härmä, J. Jakka, M. Tikander, et al., ”Augmented reality audio for mobile and wearable appliances,” J. Audio Eng. Soc., Bd. 52, Nr. 6, S. 618–639, Jun. 2004.
- [5] J.-M. Jot, V. Larcher und 0. Warusfel, ”Digital signal processing issues in the context of binaural and transaural stereophony,” in AES 98th Convention, Paris, Frankreich, Feb. 1995.
- [6] H. Gamper, ”Head-related transfer function interpolation in azimuth, elevation and distance,” J. Acoust. Soc. Am., Bd. 134, Nr. 6, EL547–EL553, Dez. 2013.
- [7] V. Algazi, R. Duda, D. Thompson, et al., ”The CIPIC HRTF database,” in Proc. IEEE Workshop Applications Signal Processing to Audio and Acoustics, New Paltz, NY, Okt. 2001, S. 99–102.
- [8] T. G. Stockham Jr., ”High-speed convolution and correlation,” in Proc. Spring Joint Computer Conf., Boston, MA, Apr. 1966, S. 229–233.
- [9] A. V. Oppenheim und R. W. Schafer, Discrete-Time Signal Processing, 3. Auflage, Upper Saddle River, NJ: Pearson, 2010.
- [10] B. D. Kulp, ”Digital equalization using Fourier transform techniques,” in AES 85th Convention, Los Angeles, CA, Nov. 1988.
- [11] F. Wefers und M. Vorländer, ”Optimal filter partitions for real-time FIR filtering using uniformly-partitioned FFT-based convolution in the frequency-domain,” in Proc. 14. Int. Conf. Digital Audio Effects, Paris, Frankreich, Sept. 2011, S. 155–161.
- [12] W. G. Gardner, ”Efficient convolution without input-output delay,” J. Audio Eng. Soc., Bd. 43, Nr. 3, S. 127–136, März 1995.
- [13] G. Garcia, ”Optimal filter partition for efficient convolution with short input/output delay,” in 113th AES Convention, Los Angeles, CA, Okt. 2002.
- [14] C. Tsakostas und A. Floros, ”Real-time spatial representation of moving sound sources,” in AES 123th Convention, New York, NY, Okt. 2007.
- [15] J. 0. Smith III, Introduction to Digital Filters with Audio Applications. W3K Publishing, 2007. [Online]. Erhältlich: http://ccrma.stanford.edu/-jos/filters/.
- [16] C. Müller-Tomfelde, ”Time-varying filter in non-uniform block convolution,” in Proc. COST G-6 Conf. Digital Audio Effects (DAFX-01), Limerick, Irland, Dez. 2001.
- [17] J. 0. Smith III, Mathematics of the Discrete Fourier Transform (DFT). W3K Publishing, 2007. [Online]. Erhältlich: http://ccrma.stanford.edu/-jos/mdft/mdft.html.
- [18] R. G. Lyons, Understanding Digital Signal Processing, 3rd ed. Upper Saddle River, NJ: Pearson, 2011.
- [19] M. C. Grant und S. P. Boyed, ”Graph implementations for nonsmooth convex programs,” in Recent Advances in Learning and Control, V. Blondel, S. Boyd, und H. Kimura, Eds., London, UK: Springer, 2008, S. 95–110.
- [20] F. Wefers und M. Vorländer. „Optimal Filter Partitions for Non-Uniformly Partitioned Convolution”. In: Proc. AES 45th Int. Conf. Espoo, Finland, März 2012, S. 324–332.