EP3117631B1

EP3117631B1 - Vorrichtung und verfahren zum verarbeiten eines signals im frequenzbereich

Info

Publication number: EP3117631B1
Application number: EP15709184.4A
Authority: EP
Inventors: Andreas Franck
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2014-03-14
Filing date: 2015-03-11
Publication date: 2020-06-03
Anticipated expiration: 2035-03-11
Also published as: WO2015135999A1; CN106465033B; CN106465033A; DE102014214143B4; JP2017513052A; US10257640B2; US10187741B2; US20170048641A1; US20180199145A1; EP3117631A1; JP6423446B2; HK1232367A1; DE102014214143A1

Description

Die vorliegenden Erfindung bezieht sich auf die Verarbeitung von Signalen und insbesondere von Audiosignalen im Frequenzbereich.
In vielen Bereichen der Signalverarbeitung müssen Filtercharakteristiken zur Laufzeit geändert werden. Dabei ist oftmals ein allmählicher, glatter Übergang notwendig, um Störungen durch die Umschaltung (z.B. Diskontinuitäten im Signalverlauf, im Fall von Audiosignalen hörbare Knack-Artefakte) zu vermeiden. Dies kann entweder durch eine kontinuierliche Interpolation der Filterkoeffizienten oder ein simultanes Filtern des Signals mit beiden Filtern und einer anschließenden graduellen Überblendung der gefilterten Signale erfolgen. Beide Verfahren liefern identische Ergebnisse. Diese Funktionalität wird im Folgenden als "Crossfading" bezeichnet.
Bei Filterung mit FIR-Filtern, auch als lineare Faltung (engl. "convolution") bezeichnet, können durch die Verwendung schneller Faltungsalgorithmen deutliche Performance-Gewinne erzielt werden. Diese Verfahren operieren im Frequenzbereich und arbeiten blockbasiert. Frequenzbereichs-Faltungsalgorithmen wie Overlap-Add and Overlap-Save (u.a. [8]; [9]) partitionieren nur das Eingangssignal, jedoch nicht den Filter, und verwenden daher große FFTs (FFT = Fast Fourier Transform = schnelle Fouriertransformation), was zu hohen Latenzen bei der Filterung führt. Partitionierte Faltungsalgorithmen, entweder gleichförmig [10]; [11] oder ungleichförmig [12]; [13]; [20] partitioniert, unterteilen auch die Filter (bzw. deren Impulsantworten) in kleinere Segmente. Durch Anwendung der Frequenzbereichsfaltung auf diese Partitionen, entsprechende Verzögerung und Kombination der Ergebnisse können gute Kompromisse zwischen verwendeter FFT-Größe, Latenz und Komplexität erzielt werden.
Alle Verfahren zur schnellen Faltung haben gemein, dass sie sich nur sehr schlecht mit einer graduellen Filter-Überblendung kombinieren lassen. Dies liegt zum einen in der blockbasierten Arbeitsweise dieser Algorithmen begründet. Zum anderen würde die Interpolation von Zwischenwerten zwischen mehreren Filtern, wie sie bei einem Übergang auftreten, eine deutlich erhöhte Rechenlast bedingen, da diese interpolierten Filtersätze jeweils erst in eine für die Anwendung schneller Faltungsalgorithmen geeignete Form transformiert werden müssen (i.d.R. erfordert dies ein Segmentieren, Auffüllen mit Nullen und eine FFT-Operation). Für eine "glatte" Überblendung müssen diese Operationen recht häufig ausgeführt werden, was den Leistungsvorteil der schnellen Faltung deutlich herabsetzt.
Bisherige beschriebene Lösungen sind insbesondere im Bereich der Binauralsynthese zu finden. Dabei werden entweder die Filterkoeffizienten der FIR-Filter interpoliert, gefolgt von einer Faltung im Zeitbereich [5] (Anm.: Der graduelle Austausch der Filterkoeffizienten wird in dieser Publikation als "commutation" bezeichnet). [14] beschreibt ein Crossfading zwischen FIR-Filtern durch die Anwendung zweier schneller Faltungsoperationen gefolgt von einem Crossfade im Zeitbereich. [16] betrachtet den Austausch von Filterkoeffizienten in ungleichförmig partitionierten Faltungsalgorithmen. Dabei werden sowohl Crossfades als auch Austauschstrategien für die partitionierten Impulsantwort-Blöcke (mit dem Ziel einer graduellen Überblendung) betrachtet.
Vom algorithmischen Ansatz (jedoch für eine andere Anwendung) kommt ein in [18] beschriebenes Verfahren zur nachträglichen Glättung eines durch die FFT gewonnenen Spektrums der hier beschriebenen Lösung am Nächsten. Dort wird die Anwendung eines speziellen Zeitbereichsfenster (vom Kosinus-Typ, z.B. Hann- oder Hamming-Fenster) durch eine Faltung im Frequenzbereich mit einer Frequenzbereichs-Fensterfunktion mit nur drei Elementen implementiert. Eine Überblendung oder ein Ein- oder Ausfaden von Signalen wird dort nicht als Anwendung vorgesehen, auch baut das dort beschriebene Verfahren auf festen 3-Element-Frequenzbereichsfenstern auf, die auf in der DSP bekannten Fenstern beruhen, und zeigt nicht die Flexibilität, um Komplexität und Güte der Approximation an eine vorgegebene Fensterfunktion anzupassen (und damit auch nicht das Entwurfsverfahren für die dünnbesetzten Fensterfunktionen). Zum anderen betrachtet [18] auch nicht die Verwendung des Overlap-Save-Verfahrens, und damit auch nicht die Möglichkeit, für bestimmte Teile der Zeitbereichs-Fensterfunktion keine Vorgaben machen zu müssen.
Die Binauralsynthese ermöglicht eine realistische Reproduktion komplexer akustischer Szenen über Kopfhörer, die auf vielen Gebieten angewendet wird, z.B. immersive Kommunikation [1], Hördisplays (engl. auditory displays) [2], virtuelle Realität [3] oder erweiterte Realität (engl. augmented reality) [4]. Ein Aufbereiten dynamischer akustischer Szenen dahingehend, dass dynamische Kopfbewegungen des Zuhörers einbezogen werden, verbessert die Lokalisierungsqualität, den Realismus und die Plausibilität einer Binauralsynthese beträchtlich, erhöht jedoch auch die rechentechnische Komplexität bezüglich der Aufbereitung. Eine andere üblicherweise angewendete Art und Weise, die Lokalisierungsgenauigkeit und Natürlichkeit zu verbessern, besteht darin, Raumreflexionen und Nachhalleffekte, z.B. [1], [5], hinzuzufügen, beispielsweise indem eine Anzahl diskreter Reflexionen für jedes Schallobjekt berechnet und als zusätzliche Schallobjekte aufbereitet werden. Wiederum erhöhen derartige Techniken die Komplexität eines binauralen Aufbereitens beträchtlich. Dies hebt die Bedeutung effizienter Signalverarbeitungstechniken für die Binauralsynthese hervor.
Der allgemeine Signalfluss eines dynamischen Binauralsynthese-Systems ist in Fig. 4 gezeigt. Die Signale der Schallobjekte werden mit den kopfbezogenen Übertragungsfunktionen (HRTFs) beider Ohren gefiltert. Eine Summation dieser Beiträge liefert das Signal des linken und des rechten Ohres, die durch Kopfhörer reproduziert werden. HRTFs bilden die Schallausbreitung von der Quellenposition zum Trommelfell ab und variieren je nach der relativen Position - je nach Azimut, Elevation und innerhalb bestimmter Grenzen auch je nach Abstand [6]. Somit erfordern dynamische Schallszenen ein Filtern mit zeitlich veränderlichen HRTFs. Allgemein werden zwei zueinander in Wechselbeziehung stehende, jedoch gesonderte Techniken benötigt, um derartige zeitlich veränderliche Filter zu implementieren: HRTF-Interpolation und Filter-Überblendung. In diesem Zusammenhang bezeichnet Interpolation ein Bestimmen von HRTFs für eine gegebene Quellenposition, die üblicherweise durch Azimut- und Erhöhungskoordinaten angegeben wird. Da HRTFs üblicherweise in Datenbanken mit einer endlichen räumlichen Auflösung bereitgestellt werden, z.B. [7], umfasst dies die Auswahl einer geeigneten Teilmenge von HRTFs und eine Interpolation zwischen diesen Filtern [3], [6]. Eine Filter-Überblendung, die bei [5] als "commutation" bezeichnet wird, ermöglicht einen glatten, über eine gegebene Übergangszeit verteilten Übergang zwischen diesen, möglicherweise interpolierten, HRTFs. Derartige graduelle Übergänge sind nötig, um hörbare Signaldiskontinuitäten, z.B. Knackgeräusche, zu vermeiden. Das vorliegende Dokument konzentriert sich auf den Überblendungsvorgang.
Aufgrund der üblicherweise großen Anzahl von Schallobjekten trägt ein Filtern der Quellensignale mit den HRTFs beträchtlich zur Komplexität einer Binauralsynthese bei. Eine geeignete Art und Weise, diesen Aufwand zu verringern, besteht darin, Frequenzbereichs-Faltungstechniken (FD-Faltungstechniken, FD = frequency domain, Frequenzbereich) wie beispielsweise das Overlap-Add- oder Overlap-Save-Verfahren [8], [9] oder partitionierte Faltungsalgorithmen anzuwenden, z.B. [10]-[13]. Ein gemeinsamer Nachteil aller FD-Faltungsverfahren besteht darin, dass ein Austausch der Filterkoeffizienten oder ein gradueller Übergang zwischen Filtern stärker eingeschränkt ist und üblicherweise einen höheren Berechnungsaufwand als eine Überblendung zwischen Zeitbereichsfiltern erfordert. Einerseits ist dies auf die blockbasierte Arbeitsweise dieser Verfahren zurückzuführen. Andererseits bringt die Notwendigkeit, die Filter in eine Frequenzbereichs-Darstellung umzuwandeln, bei häufigen Filterwechseln einen beträchtlichen Leistungsverlust mit sich. Folglich besteht eine typische Lösung für eine Filter-Überblendung aus zwei FD-Faltungsvorgängen mit verschiedenen Filtern und einer anschließenden Überblendung der Ausgaben im Zeitbereich.
Die EP 2667508 A2 offenbart ein Verfahren und eine Vorrichtung zur effizienten Frequenzbereichsimplementierung von zeitlich variablen Filtern. Um gefilterte Abtastwerte eines Eingangs-Frames zu erhalten, werden Frequenzbereichswerte des Eingangs-Frames mit gefalteten Frequenzbereichskoeffizienten multipliziert. Die gefalteten Frequenzbereichskoeffizienten werden durch Faltung von eingestellten Frequenzbereichskoeffizienten mit Frequenzbereichskoeffizienten eines Filter-Truncation-Fensters erzeugt.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein effizienteres Konzept zum Verarbeiten von Signalen im Frequenzbereich zu ermöglichen.
Diese Aufgabe wird durch eine Vorrichtung zum Verarbeiten eines Signals nach Patentanspruch 1 oder 15, ein Verfahren zum Verarbeiten eines Signals nach Patentanspruch 14 oder 17, oder ein Computerprogramm nach Patentanspruch 18 gelöst.
Die vorliegende Erfindung basiert auf der Erkenntnis, dass es insbesondere dann, wenn ohnehin Verarbeitungen im Frequenzbereich vorhanden sind, eine eigentlich im Zeitbereich zu erfolgende Fensterung, das heißt eine elementweise Multiplikation mit einer Zeitbereichsfolge, wie beispielsweise eine Überblendung, eine Verstärkung bzw. eine sonstige Verarbeitung eines Signals, ebenfalls in dieser Frequenzbereich-Repräsentation durchzuführen.. Dabei ist zu beachten, dass eine solche Fensterung im Zeitbereich im Frequenzbereich als Faltung und beispielsweise als zirkuläre Faltung auszuführen ist. Dies ist insbesondere im Zusammenhang mit partitionierten Faltungsalgorithmen, die durchgeführt werden, um eine Faltung im Zeitbereich durch eine Multiplikation im Frequenzbereich zu ersetzen, von Vorteil. Bei solchen Algorithmen und auch bei sonstigen Anwendungen sind die Zeit-Frequenz-Transformationsalgorithmen und die inversen Frequenz-Zeitbereich-Transformationsalgorithmen derart aufwendig, so dass durchaus eine Faltung im Frequenzbereich mit einer Frequenzbereichs-Fensterfunktion ihren Aufwand rechtfertigt. Insbesondere bei Multikanal-Anwendungen, wo ansonsten viele Frequenz-Zeit-Transformationen nötig wären, um anschließend eine Zeitbereichs-Fensterung, wie beispielsweise eine Überblendung oder eine Verstärkungsänderung zu erreichen, ist es erfindungsgemäß von großem Vorteil, im Frequenzbereich, also in der Domäne, die durch einen partitionierten Faltungsalgorithmus ohnehin ausgewählt worden ist, Signalverarbeitungen durchzuführen, die eigentlich im Zeitbereich vorgesehen wären. Die dadurch nötige zirkuläre (auch zyklische oder periodische) Faltung im Frequenzbereich ist bei Verwendung geeigneter Frequenzbereichs-Fensterfunktionen aufwandsmäßig unproblematisch, da eine Anzahl von Frequenz-Zeitbereich-Transformationsalgorithmen eingespart wird.
Eine Vielzahl benötigter Zeitbereichs-Fensterfunktionen lässt sich sehr gut durch solche Fensterfunktionen approximieren, deren Frequenzbereichs-Repräsentation nur wenige von Null verschiedene Koeffizienten aufweist. Damit kann die zirkuläre Faltung so effizient ausgeführt werden, dass der Gewinn durch die Einsparung der zusätzlichen Frequenz-Zeitbereichstransformationen die Kosten für die zirkuläre Faltung im Frequenzbereich übersteigt. Bei bevorzugten Ausführungsbeispielen der vorliegenden Erfindung, bei denen es um ein Einblenden, Ausblenden, Überblenden oder eine Veränderung der Lautstärke geht, kann insbesondere durch lediglich Approximieren einer Zeitbereichs-Fensterfunktion im Frequenzbereich, also durch Beschränken der Anzahl der Koeffizienten auf z.B. weniger als 18 Koeffizienten im Frequenzbereich eine deutliche Aufwandsreduktion erreicht werden Zusätzliche Effizienzgewinne können durch effiziente Berechnungsvorschriften für die zirkuläre Faltung erzielt werden, indem die Struktur der Frequenzbereichs-Fensterfunktion ausgenutzt wird. Dies betrifft zum einen die konjugiert-symmetrische Struktur dieser Fensterfunktion, die sich aus der Reellwertigkeit der zugehörigen Zeitbereichs-Fensterfunktion ergibt. Zum anderen können Summanden der zirkulären Faltungssumme effizienter berechnet werden, wenn die jeweiligen Koeffizienten der Frequenzbereichs-Fensterfunktion rein reellwertig oder rein imaginär sind.
Insbesondere bei einer Constant-Gain-Überblendung, d.h. wenn die Summe der Ein- und Ausblendfunktion zu jedem Zeitpunkt 1 ergibt, kann der Aufwand für die zirkuläre Faltung noch weiter reduziert werden, da lediglich eine einzige Faltung mit einer Frequenzbereichs-Filterfunktion berechnet werden muss und ansonsten lediglich eine Differenzbildung zwischen zwei gefilterten Signalen nötig ist.
Bei Ausführungsbeispielen kann somit lediglich ein einziges Signal mit einem einzigen Filter gefiltert werden, um dann eine Frequenzbereichs-Fensterfunktion anzulegen, um beispielsweise eine Lautstärke bzw. Verstärkungsänderung des Signals bereits im Frequenzbereich zu erreichen.
Bei einem alternativen Ausführungsbeispiel, bei dem eine Constant-Gain-Überblendung, also eine Überblendung mit konstanter Verstärkung angestrebt wird, wird es bevorzugt, zunächst eine Differenz zwischen zwei Filterausgangssignalen zu bilden, die durch Filter mit zwei unterschiedlichen Filtern ein- und desselben Eingangssignals erzeugt worden sind, um dann das Differenzsignal einer Frequenzbereichs-Fensterfunktion zu unterziehen.
Bei noch einem weiteren Ausführungsbeispiel der vorliegenden Erfindung wird jedes Filterausgangssignal mit einem eigenen Frequenzbereichs-Fenster zirkulär gefaltet und die Faltungs-Ausgangssignale werden dann aufaddiert, um im Frequenzbereich das Ergebnis der beispielsweise Überblendung zu erhalten. Wenn zwei getrennte Frequenzbereichsfenster verwendet werden, können auch die Filtereingangssignale unterschiedlich sein. Alternativ betrifft diesen Fall auch eine Erweiterung eines Anwendungsbeispiels mit nur einem Signal und z.B. einer Verstärkungsänderungsfunktion, welches auf viele parallele Kanäle erweitert wird, und wo die Kombination der Signale im Frequenzbereich mit einer einzigen Rücktransformation erfolgt.
Bei besonders bevorzugten Ausführungsbeispielen der vorliegenden Erfindung werden die erforderlichen Zeitbereichs-Fensterfunktionen für jede Frequenzbereichs-Darstellung lediglich angenähert. Dies wird dazu ausgenutzt, um die Anzahl der Frequenzbereichs-Fensterfunktionskoeffizienten zu reduzieren auf z.B. höchstens 18 Koeffizienten oder aber im Extremfall auf lediglich zwei Koeffizienten. Damit ergibt sich bei Rücktransformation dieser Frequenzbereichs-Fensterfunktionen in den Zeitbereich eine Abweichung von der eigentlich geforderten Fensterfunktion. Es hat sich jedoch herausgestellt, dass insbesondere bei den Anwendungen der Überblendung, der Lautstärkeänderung, der Ausblendung, der Einblendung oder auch einer sonstigen Signalverarbeitung diese Abweichung nicht problematisch ist oder den subjektiven Höreindruck nicht oder nur sehr geringfügig stört, so dass diese kleine Problematik, falls sie überhaupt vorhanden ist, für den subjektiven Höreindruck im Hinblick auf die erheblichen erreichten Effizienzsteigerungen ohne Weiteres in Kauf genommen werden kann.
Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:

Fig. 1: eine Vorrichtung zum Verarbeiten eines Signals im Frequenzbereich mit eine Frequenzbereichs-Fensterfunktion und einem Filter;
Fig. 2: eine Vorrichtung zum Verarbeiten eines Signals im Frequenzbereich mit zwei Filtern und zwei Frequenzbereichs-Fensterfunktionen;
Fig. 3: eine Vorrichtung zum Verarbeiten eines Signals im Frequenzbereich mit zwei Filtern und einer einzigen Frequenzbereichs-Fensterfunktion;
Fig. 4: einen Signalfluss eines dynamischen Binauralsynthesesystems;
Fig. 5a: eine Zeitbereichs-Fensterfunktion für eine lineare Überblendung als Beispiel für eine Überblendung mit konstanter Verstärkung;
Fig. 5b: eine Zeitbereichs-Fensterfunktion für eine lineare Verstärkungsänderung als Beispiel für eine beliebig geartete Verstärkungsänderung;
Fig. 6a-6f: Fensterentwurfsbeispiele für unterschiedliche Frequenzbereichs-Fensterkoeffizienten;
Fig. 7a-7f: eine tabellarische Aufstellung der numerischen Werte der Frequenzbereichs-Filterkoeffizienten für die in Fig. 6a-6f gezeigten Fenster;
Fig. 7g: eine tabellarische Darstellung der Designfehler für verschiedene Frequenzbereichs-Fensterfunktionen aufgrund der Approximation;
Fig. 8: Übersichtsdiagramme für die Komplexität der Frequenzbereichs-Faltungsalgorithmen mit einer Filterüberblendung als Anzahl der Instruktionen pro Ausgabesample;
Fig. 9: ein zu Fig. 4 ähnliches Diagramm zur Implementierung einer konventionellen Ohrhörersignalverarbeitung;
Fig. 10: eine Ohrhörersignalverarbeitung gemäß einem Ausführungsbeispiel.; und
Fig. 11: eine Vorrichtung zur Beaufschlagung eines im Frequenzbereich vorliegenden Signals mit einer Verstärkungsänderungsfunktion.

Fig. 1 zeigt eine Vorrichtung zum Verarbeiten eines zeitdiskreten Signals im Frequenzbereich. Ein Eingangssignal 100, das im Zeitbereich vorliegt, wird in einen Zeit-Frequenz-Wandler 110 eingespeist. Das Ausgangssignal des Zeit-Frequenz-Wandlers 110 wird dann einer Prozessorstufe 120 zugeführt, die ein Filter 122 und eine Frequenzbereichs-Fensterfunktions-Beaufschlagungseinrichtung 124 aufweist. Das Ausgangssignal 123 der Frequenzbereichs-Fensterfunktions-Beaufschlagungseinrichtung 124 kann dann entweder direkt oder nach Verarbeitung, wie beispielsweise einer Kombination mit anderen entsprechend gleich verarbeiteten Signalen einer Frequenz-Zeit-Transformationseinrichtung bzw. einem Frequenz-Zeit-Wandler 130 zugeführt werden. Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung sind der Zeit-Frequenz-Wandler 110 und der Frequenz-Zeit-Wandler 130 für eine schnelle Faltung ausgelegt. Eine schnelle Faltung kann beispielsweise einen Overlap-Add-Faltungsalgorithmus, ein Overlap-Save-Faltungsalgorithmus oder irgendein partitionierter Faltungsalgorithmus sein. Ein solcher partitionierter Faltungsalgorithmus wird verwendet, wenn eine direkte Anwendung eines unpartitionierten Frequenzbereichs-Faltungsalgorithmus wie Overlap-Save oder Overlap-Add aufgrund der durch diese Algorithmen bedingten Latenz oder anderen praktischen Gründen wie der Größe der verwendeten FFTs, nicht vertretbar ist. Dann wird eine entsprechende Partitionierung vorgenommen, und zwar je nach entsprechendem Faltungsalgorithmus. Eine entsprechende Filterung, wie sie in Block 122 dargestellt ist, kann dann durch Multiplikationen und Summation eines transformierten Eingangssignals mit einer partitionierten Frequenzbereichsrepräsentation der Impulsantwort ausgeführt werden, so dass die lineare Faltung im Zeitbereich vermieden werden kann.
Es sei darauf hingewiesen, dass die Frequenzbereichsdarstellung auf einer blockweisen Partitionierung des Signals beruht. Implizit ergibt sich das auch aus der im Zeit- und Frequenzbereich diskreten Natur der Frequenzbereichsdarstellung.
Wie bereits dargestellt, sind prominente Vertreter von partitionierten Faltungsalgorithmen das Overlap-Add-Verfahren, bei dem ein Eingangssignal zunächst in nicht-überlappende Sequenzen partitioniert wird und mit einer bestimmten Zahl von Nullen ergänzt wird. Dann werden diskrete Fourier-Transformationen der einzelnen nicht-überlappenden, mit Nullen aufgefüllten Sequenzen und des Filters gebildet. Hierauf wird eine Multiplikation der transformierten nicht-überlappenden Sequenzen mit der Fourier-Transformation der ebenfalls mit einer bestimmten Zahl von Null-Samples ergänzten Impulsantwort des Filters durchgeführt. Dann werden die Sequenzen durch eine inverse FFT wieder in den Zeitbereich gebracht, wobei das resultierende Ausgangssignal durch Überlappen und Addieren rekonstruiert wird. Das Auffüllen mit Nullen ist erforderlich, um unter Verwendung einer Frequenzbereichs-Multiplikation, welche einer zirkulären Faltung im Zeitbereich entspricht, eine lineare Faltung im Zeitbereich zu implementieren. Die Überlappung stammt aus der Tatsache, dass das Ergebnis einer linearen Faltung immer länger als die ursprünglichen Sequenzen ist, und sich das Ergebnis jeder Frequenzbereichsmultiplikation daher auf mehr als eine Partition des Ausgangssignals auswirkt.
Bei einem alternativen Verfahren, dem Overlap-Save-Verfahren (z.B. [9]) werden überlappende Segmente des Eingangssignals gebildet und mittels einer diskreten Fourier-Transformation, z.B. der FFT, in den Frequenzbereich transformiert. Diese Sequenzen werden elementweise mit der mit einer Anzahl von Null-Samples aufgefüllten und in den Frequenzbereich transformierten Impulsantwort des Filters multipliziert. Das Ergebnis dieser Multiplikation wird mittels einer inversen diskreten Fourier-Transformation in den Zeitbereich zurücktransformiert. Zur Vermeidung zirkulärer Faltungseffekte wird aus jedem zurücktransformierten Block eine festgelegte Zahl von Samples verworfen. Durch Aneinanderfügen der verbleibenden Sequenzen wird das Ausgangssignal gebildet.
Bezug nehmend auf Fig. 1 ist die Prozessorstufe 120 somit ausgebildet, um das Signal, das in der Frequenzbereichs-Darstellung vorliegt, mit einem Filter mit einer Filtercharakteristik zu filtern, um ein gefiltertes Signal 123 zu erhalten.
Das gefilterte Signal oder das von dem gefilterten Signal abgeleitete Signal wird dann mit einer Frequenzbereichs-Fensterfunktion beaufschlagt 124, um ein gefenstertes Signal 125 zu erhalten, wobei das Beaufschlagen eine Multiplikation von Frequenzbereichs-Fensterfunktionskoeffizienten der Frequenzbereichs-Fensterfunktion mit Spektralwerten des gefilterten Signals, um Multiplikationsergebnisse zu erhalten und eine Aufsummation der Multiplikationsergebnisse, also eine Operation im Frequenzbereich umfasst. Vorzugsweise umfasst das Beaufschlagen eine zirkuläre (periodische) Faltung der Frequenzbereichs-Fensterfunktionskoeffizienten der Frequenzbereichs-Fensterfunktion mit Spektralwerten des gefilterten Signals. Der Umwandler 130 wiederum ist ausgebildet, um das gefensterte Signal oder ein unter Verwendung des gefensterten Signals ermitteltes Signal in einen Zeitbereich umzuwandeln, um das verarbeitete Signal z.B. bei 132 zu erhalten.
Die Verarbeitung um das von dem gefilterten Signal abgeleitete Signal zu erhalten soll alle möglichen Modifikationen des Signals, u.a. die Summation, die Differenzbildung oder die Bildung einer Linearkombination betreffen. Ein Beispiel ist in dem konkret in Fig. 3 dargestellten Signalfluss gegeben, in dem das "von dem gefilterten Signal abgeleitete Signal" aus der Differenz zweier gefilterter Signale besteht.
Fig. 2 zeigt eine alternative Implementierung der Prozessorstufe, wobei der Zeit-Frequenz-Wandler 110 wie in Fig. 1 ausgeführt sein kann. Insbesondere umfasst die Prozessorstufe 120 ein Filter 122a, um ein Frequenzbereichs-Signal, das von dem Zeitbereichs-Signal 100 abgeleitet ist, mit einer ersten Filtercharakteristik H₁ zu filtern, um ein gefiltertes Signal am Ausgang des Blocks 122a zu erhalten. Ferner ist die Prozessorstufe ausgebildet, um das Frequenzbereichs-Signal am Ausgang des Blocks 110 mit einem zweiten Filter 122b mit einer zweiten Filtercharakteristik H₂ zu filtern, um ein gefiltertes zweites Signal zu erhalten. Ferner ist die Prozessorstufe ausgebildet, um das erste gefilterte Signal mit einer ersten Frequenzbereichs-Fensterfunktion 124a zu beaufschlagen, um ein gefenstertes erstes Signal zu erhalten, und ist die Prozessorstufe ausgebildet, um das zweite gefilterte Signal mit einer zweiten Frequenzbereichs-Fensterfunktionen 124b zu beaufschlagen, um ein gefenstertes zweites Signal zu erhalten. Die beiden gefensterten Signale werden daraufhin in einem Kombinierer 200 kombiniert. Das am Ausgang des Kombinierers 200 anliegende kombinierte Frequenzbereichssignal kann dann, beispielsweise wie in Fig. 1 dargestellt, durch einen Umwandler 130 in ein Zeitbereichssignal gewandelt werden.
Fig. 3 zeigt eine weitere Implementierung der Prozessorstufe, bei der das Frequenzbereichssignal 105, welches von dem Zeitbereichssignal 100 abgeleitet ist, durch ein Filter 122a mit einer ersten Filtercharakteristik H₂ zu filtern, um ein erstes gefiltertes Signal zu erhalten. Ferner wird das Frequenzbereichssignal 105 durch ein Filter 122b mit einer zweiten Filtercharakteristik H₂ gefiltert, um ein zweites gefiltertes Signal zu erhalten. Durch einen Kombinierer 300 wird aus dem ersten und dem zweiten gefilterten Signal ein Differenzsignal 302 gebildet, welches dann einer einzigen Frequenzbereichs-Fensterfunktions-Beaufschlagungseinrichtung 122c zugeführt wird, wobei die Beaufschlagung vorzugsweise als zirkuläre Faltung der Spektralkoeffizienten des Differenzsignals mit den Koeffizienten der Frequenzbereichs-Fensterfunktion ausgeführt ist. Das gefensterte Ausgangssignal wird dann in dem Kombinierer 200 mit dem ersten gefilterten Signal am Ausgang des Blocks 122a kombiniert. Damit erhält man am Ausgang des Kombinierers 200 von Fig. 3 dasselbe Signal wie am Ausgang des Kombinierers 200 von Fig. 2, wenn die beiden Frequenzbereichs-Fensterfunktionen Constant-Gain-Überblendfunktionen sind, wenn also die Zeitbereichsrepräsentationen der Frequenzbereichs-Fensterfunktionen 124a und 124b sich so ergänzen, dass ihre Summe zu jedem Zeitpunkt 1 ergibt. Diese Bedingung ist beispielsweise erfüllt, wenn Frequenzbereichs-Fensterfunktion 124a im Zeitbereich einer abfallende Rampe entspricht und die Frequenzbereichs-Fensterfunktion 124b im Zeitbereich eine ansteigende Rampe darstellt (oder umgekehrt), wie es beispielsweise in Fig. 5a dargestellt ist.
Für einen Constant-Gain-Crossfade mit beliebigem Start-und Endwert und Verwendung eines "Standard-Fensters" wird es bevorzugt, die Signale vor der Summation (300) mit linearen Faktoren (s bzw. (e-s) zu skalieren, wie es in Fig. 11 dargestellt ist. Damit ergibt sich eine optionale Skalierung vor der Summation, so dass der Kombinierer eine Linearkombination ausführt als Alternative zu einer einfachen Addition. Weitere Ausführungsbeispiele können ebenfalls implementiert werden.
Ferner sei darauf hingewiesen, dass die Ein- oder Ausblendung oder die Überblendung über einen oder mehrere Blöcke erfolgen kann, je nach Anforderung in der speziellen Implementierung.
Bei bevorzugten Ausführungsbeispielen der vorliegenden Erfindung ist das Zeitbereichs-Signal ein Audiosignal, wie beispielsweise das Signal einer Quelle, das nach diverser Verarbeitung zu einem Lautsprecher oder einem Ohrhörer gesendet werden kann. Alternativ kann das Audiosignal auch das Empfangssignal eines Mikrofon-Arrays beispielsweise sein. Bei wieder anderen Ausführungsbeispielen ist das Signal kein Audiosignal, sondern ein Informationssignal, wie es nach einer Demodulation ins Basisband oder im Zwischenfrequenz-Band erhalten wird, und zwar im Kontext einer Übertragungsstrecke, wie sie für die drahtlose Kommunikation oder für die optische Kommunikation eingesetzt wird. Die vorliegende Erfindung ist somit in allen Gebieten nützlich und vorteilhaft, in denen zeitlich variierende Filter eingesetzt werden, und in denen Faltungen mit solchen Filtern im Frequenzbereich ausgeführt werden.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung sind die Frequenzbereichs-Fensterfunktionen so ausgebildet, dass sie gewünschte Zeitbereichs-Fensterfunktionen lediglich annähern. Es hat sich jedoch herausgestellt, dass eine gewisse Approximation ohne Weiteres im Hinblick auf den subjektiven Eindruck tolerierbar ist und zu ganz erheblichen Einsparungen an Rechenaufwand führt. Insbesondere wird es bevorzugt, dass die Anzahl der Fensterkoeffizienten kleiner oder gleich 18 und noch bevorzugter kleiner oder gleich 15 und noch mehr bevorzugt kleiner oder gleich 8 oder sogar kleiner oder gleich 4 oder sogar kleiner oder gleich 3 oder im Extremfall sogar gleich 2 ist. Eine minimale Anzahl von 2 Frequenzbereichs-Fensterkoeffizienten wird jedoch eingesetzt.
Bei einer Implementierung ist die Prozessorstufe so ausgebildet, dass die von 0 verschiedenen Koeffizienten des Frequenzbereichs-Fenster teilweise oder vollständig so gewählt sind, dass sie entweder rein reell oder rein imaginär sind. Ferner ist die Frequenzbereichs-Fensterfunktions-Beaufschlagungsfunktion so ausgebildet, dass sie die rein reelle bzw. rein imaginäre Natur der einzelnen von 0 verschiedenen Frequenzbereichs-Fensterkoeffizienten bei der Berechnung der zirkulären Faltungssumme ausnutzt, um eine effizientere Evaluation der Faltungssumme zu erzielen.
Bei einer Implementierung ist die Prozessorstufe ausgebildet, um eine maximale Anzahl von Frequenzbereichs-Fensterkoeffizienten ungleich 0 zu verwenden, wobei eine Frequenzbereichs-Fensterkoeffizient für eine minimale Frequenz bzw. für das niedrigste Bin reell ist. Ferner sind Frequenzbereichs-Fensterkoeffizienten für gerade Bins oder Indizes rein imaginär und sind Frequenzbereichs-Fensterkoeffizienten für ungerade Indizes bzw. ungerade Bins rein reell.
Bei einer bevorzugten Implementierung der vorliegenden Erfindung, wie sie noch Bezug nehmend auf die Fig. 9 und insbesondere 10 beschrieben wird, sind die erste Filtercharakteristik und die zweite Filtercharakteristik, zwischen denen übergeblendet werden soll, kopfbezogene Übertragungsfunktionen (head related transfer functions - HRTF) für unterschiedliche Positionen und ist das Zeitbereichs-Signal ein Audiosignal für eine Quelle an einer entsprechend unterschiedlichen Position.
Ferner wird es bevorzugt, wie es in Fig. 10 dargestellt ist, ein Multikanal-Verarbeitungsszenario zu verwenden, bei dem mehrere Quellensignale im Frequenzbereich übergeblendet werden und die übergeblendeten Signale dann im Frequenzbereich aufaddiert werden, um erst dann das endgültige Summensignal mit einer einzigen Transformation in den Zeitbereich zurück zu transformieren. Hierzu wird auf Fig. 9 und vergleichsweise Fig. 10 Bezug genommen. Insbesondere stellen die verschiedenen Quellen SRC1 bis SRCM, die mit 600, 602, 604 bezeichnet sind, einzelne Audioquellen dar, wie sie bei 401, 402, 403 in Fig. 4 dargestellt sind. Durch Zeit-Frequenz-Wandler 606, 608, 610, die in Fig. 9 und in Fig. 10 analog aufgebaut sind, werden die Quellensignale in den Frequenzbereich transformiert. Fig. 10 enthält also den Überblendalgorithmus nach Fig. 2 (zwei zirkuläre Faltungen). Auch anwendbar ist es, hier den verbesserten Constant-Gain-Crossfade nach Fig. 3 einzusetzen.
Wie es ausgeführt worden ist, bewegen sich die Quellen 401 bis 403 und, um z.B. das Ohrhörersignal 713 zu erhalten, verändert sich für jede Quelle aufgrund der Bewegung der Quelle die für diese aktuelle Quellenposition nötige kopfbezogene Übertragungsfunktion. Wie es in Fig. 4 gezeigt ist, gibt es hierzu eine Datenbank, die durch eine bestimmte Quellenposition angesprochen wird. Dann wird für diese Quellenposition eine HRTF aus der Datenbank erhalten oder, wenn nicht genau für diese Position eine HRTF existiert, für zwei benachbarte Positionen zwei HRTFs erhalten, die dann interpoliert werden. Um einen Artefakt-freien Betrieb zu erhalten, wird das Audiosignal nach der Zeit-Frequenz-Wandlung 606 mit der ersten Filterfunktion durch Multiplikation im Frequenzbereich gefiltert, die für die erste Position zu einem ersten Zeitpunkt ermittelt worden ist. Ferner wird dasselbe Audiosignal durch ein zweites Filter (wieder durch Multiplikation mit der Übertragungsfunktion des Filters) gefiltert, wobei dieses zweite Filter 613 wiederum für die zweite Position zu einem späteren zweiten Zeitpunkt ermittelt worden ist. Um einen Artefakt-freien Übergang zu haben, muss übergeblendet werden, so dass also kontinuierlich das Ausgangssignal des ersten Filters 612 ausgeblendet wird und gleichzeitig das Ausgangssignal des zweiten Filters 613 eingeblendet wird, wie es durch die zeitlichen Filterfunktionen 706, 707 gezeigt ist. Daher werden die Signale am Ausgang der Filter 612, 613 in den Zeitbereich transformiert, wie es durch die IFFT-Blöcke 700, 701 dargestellt ist und dann wird das Cross-Fading (Überblenden) ausgeführt, wobei die Signale am Ausgang der Fensterung aufaddiert werden. Diese Aufaddition findet pro Quelle statt und die entsprechend übergeblendeten Signale sämtlicher Quellen werden dann in einem Addierer 712 im Zeitbereich aufaddiert, um schließlich das Ohrhörersignal 713 zu erhalten.
Analoge Verarbeitungen werden für die anderen Quellen stattfinden, wie es durch die Blöcke 614, 615, 702, 703, 708, 709 bzw. 616, 617, 704, 705, 710, 711 dargestellt ist.
Erfindungsgemäß wird nunmehr anstatt der 2M IFFT-Blöcke 700 bis 705 von Fig. 9 nur noch ein einziger IFFT-Block bzw. eine einzige IFFT-Operation 630 durchgeführt. Dazu wird die Ein/Ausblendung bzw. die Überblendung mit der Frequenzbereichs-Fensterfunktion 620, 621 bzw. 622, 623 bzw. 624, 625 im Frequenzbereich als Faltung durchgeführt. Die Ergebnisse der Faltungen werden dann jeweils aufaddiert, und zwar durch die Addierer 626, 627, 628 und 629, wobei jedoch auch sämtliche Additionen direkt durchgeführt werden können, ohne die Kaskadierung der Addierer 626, 627, 628 einerseits und dem Addierer 629 andererseits.
Damit werden 2M-1 IFFT-Operationen eingespart. Demgegenüber steht ein potenziell etwas erhöhter Aufwand der zirkulären Faltung im Frequenzbereich, der jedoch durch eine effiziente Fensterapproximation, wie sie bereits angesprochen und nachfolgend detaillierter dargelegt werden wird, noch deutlich reduziert werden kann.
Die vorliegende Erfindung betrifft in Ausführungsbeispielen ein neuartiges Verfahren zum Durchführen einer Überblendung, d.h. eines glatten graduellen Übergangs zwischen zwei gefilterten Signalen, direkt im Frequenzbereich vor. Es arbeitet sowohl mit Overlap-Saveals auch mit Algorithmen zur partitionierten Faltung. Falls es separat auf jeden HRTF-Filtervorgang angewendet wird, spart es einen Inverse-FFT-Vorgang pro Block von Ausgangsabtastwerten, was zu beträchtlichen Verringerungen der Komplexität führt. Jedoch ist eine viel stärkere Beschleunigung möglich, falls das vorgeschlagene FD-Überblendungsverfahren mit einer Umstrukturierung des Signalflusses des Binauralsynthese-Systems kombiniert wird. Bei der Durchführung der Summation von Komponentensignalen im Frequenzbereich wird für jedes Ausgangssignal (Ohrsignal) lediglich eine einzige inverse FFT benötigt.
Der folgende Abschnitt gibt einen Überblick über die Bezeichnungsweise (und legt diese fest) zweier Techniken, die für den vorgeschlagenen FD-Überblendungsalgorithmus wesentlich sind - die schnelle Frequenzbereichs-Faltung und die Zeitbereichs-Überblendung.

Schnelle Faltunqstechniken

Faltungstechniken, die auf einer schnellen Transformation beruhen, nutzen die Äquivalenz zwischen einer Multiplikation im Frequenzbereich und einer zirkulären Faltung im Zeitbereich sowie die Verfügbarkeit von Schnelle-Fourier-Transformation-Algorithmen (FFT-Algorithmen, engl. Fast Fourier Transform) zum Implementieren der diskreten Fourier-Transformation (DFT). Overlap-Add- oder Overlap-Save-Algorithmen [8], [9] unterteilen das Eingangssignal in Blöcke und wandeln die Frequenzbereichsmultiplikation in eine lineare Zeitbereichsfaltung um. Um jedoch effizient zu sein, erfordern Overlap-Add und Overlap-Save große FFT-Größen und bringen lange Verarbeitungslatenzzeiten mit sich.
Partitionierte Faltungsalgorithmen verringern diese Nachteile und ermöglichen Kompromisse zwischen rechentechnischer Komplexität, verwendeter FFT-Größe und Latenzzeit. Zu diesem Zweck wird die Impulsantwort h[n] in Blöcke einer entweder gleichförmigen [10], [11] oder einer ungleichförmigen Größe [12], [13] partitioniert, auf jede Partitionierung wird eine FD-Faltung (üblicherweise Overlap-Save) angewendet. Die Ergebnisse werden entsprechend verzögert und addiert, um die gefilterte Ausgabe zu bilden. Eine Wiederverwendung von Transformationsoperationen und Datenstrukturen als Frequenzbereichsverzögerungsleitungen (FDL, engl. frequency-domain delay lines) [11], [13] ermöglicht effiziente Implementierungen einer linearen Faltung.
Bei Impulsantwortlängen, die bei HRTF-Filtern üblicherweise verwendet werden (≈ 200-1000) ist eine gleichförmig partitionierte Faltung üblicherweise die effizienteste Wahl. Deshalb konzentriert sich das vorliegende Dokument auf diese Technik. Jedoch ist eine Anwendung auf eine ungleichförmig partitionierte Faltung unkompliziert, da der vorgeschlagene FD-Überblendungsalgorithmus separat auf jede der verwendeten Partitionsgrößen angewendet werden kann. Der Overlap-Save-Algorithmus kann als Extremfall einer gleichförmig partitionierten FD-Faltung mit lediglich einer Partition betrachtet werden. Somit ist die vorgeschlagene FD-Überblendung auch auf eine nicht-partitionierte Faltung anwendbar.
Das Verfahren einer gleichförmig partitionierten Faltung unterteilt eine Impulsantwort h[n] der Länge N in P = ┌N/M┐ Blöcke von jeweils M Werten (┌.┐ stellt eine Aufrundung dar), die mit Nullen aufgefüllt werden, um die Sequenzen h_p[n], p = 0,...,P - 1 der Länge L zu bilden. Diese werden zu DFT-Vektoren H[p,k] transformiert.
$H [p, k] = DFT \{h [p, n]\} .$
Die Anzahl von Nullen in Gleichung 1, die mit der horizontalen geschweiften Klammer dargestellt sind, beträgt L-M.
Das Eingangssignal x[n] wird in überlappende Blöcke x[m,n] der Länge L mit einem Vorlauf von B Abtastwerten zwischen aufeinanderfolgenden Blöcken unterteilt. Eine Transformation zu dem Frequenzbereich ergibt die Vektoren X[m,k] $x [m, n] = [\begin{matrix} x [mB - L + 1] & x [mB - L + 2] & \dots & x [mB] \end{matrix}]$
$X [m, k] = DFT \{x [m, n]\} .$
Das Frequenzbereichsausgangssignal Y[m,k] wird durch eine Blockfaltung von H[p,k] und X[m,k] gebildet $Y [m, k] = \sum_{p = 0}^{P - 1} H [p, k] \cdot X [m - p, k],$
wobei "." eine komplexe Vektormultiplikation darstellt. Eine inverse DFT ergibt den Zeitbereichsblock der Länge L $y [m, n] = {DFT}^{- 1} \{Y [m, k]\}$
Für jeden Ausgangsblock y[m,n] werden die letzten B Abtastwerte verwendet, um den m-ten Block des Ausgangssignals y[n] zu bilden. $y [mB + n] = y [m, L - B + n] n = 0, \dots, N - 1 .$
Ein Zeitbereichs-Aliasing im Ausgangssignal wird verhindert, falls $M \leq L - B + 1$
gilt [9], [11]. Eine typische Wahl für eine partitionierte Faltung ist L = 2B, z.B. [12], [13], die im Folgenden als Standard-DFT-Größe bezeichnet wird und eine hohe Effizienz für sinnvolle Kombinationen von N und B ermöglicht [11].
Für jeden Ausgangsblock von B Abtastwerten erfordert der Algorithmus zur gleichförmig partitionierten Faltung eine FFT und eine inverse FFT, P Vektormultiplikationen und P-1 Vektoradditionen. Für reellwertige Zeitbereichs-Signale erfordern sowohl die FFT als auch die IFFT etwa p L log₂(L) reellwertige Operationen. Hierbei ist p eine hardwareabhängige Konstante, wobei typische Werte zwischen p = 2,5 [12] und p = 3 [13] liegen. Da die Vektoren X[m,k], H[p,k] und Y[m,k] für reelle Signale und Filter konjugiert-symmetrisch sind, können sie eindeutig durch ┌(L+1)/2)┐ komplexe Werte dargestellt werden. Die Anzahl von Operationen zum Addieren oder Multiplizieren von konjugiert-symmetrischen Vektoren reduziert dadurch sich entsprechend.. Da skalare komplexe Additionen und Multiplikationen durch 2 bzw. 6 reellwertige Operationen durchgeführt werden können, erfordert eine Auswertung der Blockfaltung (6) ┌(L+1)/2┐(6P+2(P-1)) arithmetische Anweisungen. Somit beträgt die Gesamtkomplexität zum Falten von B Abtastwerten 2pL log₂ L + [(L + 1)/2]6P + 2(P - 1).

Filterüberblendung im Zeitbereich

Eine Faltung von Audiosignalen mit zeitlich veränderlichen HRTFs erfordert einen glatten Übergang zwischen den Filtercharakteristika, da abrupte Veränderungen zu Signaldiskontinuitäten führen [5], [14], was hörbare Artefakte, z.B. ein Knacken oder ein Reißverschlussgeräusch (engl. "zipper noise"), nach sich zieht. Formal kann ein Übergang zwischen zwei zeitlich unveränderlichen Filtern FIR h₁[n] und h₂[n] der Länge N als zeitlich veränderliche Faltungssumme ausgedrückt werden (z.B. [15]) $y [n] = \sum_{k = 0}^{N - 1} h [n, k] x [n - k],$
wobei das zeitlich veränderliche Filter h[n,k] eine Summation der zwei Filter ist, die durch zwei Funktionen w₁[n] und w₂[n] gewichtet werden, die im Folgenden als Zeitbereichs-Fenster bezeichnet werden $h [n, k] = w_{1} [n] h_{1} [n - k] + w_{2} [n] h_{2} [n - k] .$
Fig. 5a zeigt ein Beispiel derartiger Fensterfunktionen. Falls die Filter h ₁[n] und h ₂[n] stark korreliert sind, was allgemein für Übergänge zwischen nahe gelegenen HRTFs gilt, wird üblicherweise eine Überblendung mit konstanter Verstärkung (constant-gain crossfade) verwendet. Dies bedeutet, dass die Summe der Gewichte w₁[n] und w₂[n] für jedes n gleich Eins ist. In diesem Fall können diese Gewichte durch eine einzelne Fensterfunktion w[n] ausgedrückt werden, wobei w₁[n] = w[n], w₂[n] = 1 - w[n] gilt. Somit bildet h[n,k] für jedes n eine lineare Interpolation zwischen h₁[n] und h₂[n]. Folglich kann (10) mit einer einzigen Multiplikation ausgewertet werden $h [n, k] = h_{2} [n] + w [n] (h_{1} [n] - h_{2} [n]) .$
Statt ein Signal mit interpolierten, zeitlich veränderlichen Filterkoeffizienten zu falten, ergibt ein Filtern des Eingangssignals mit h₁[n] und h₂[n], auf das eine gewichtete Summation mit den Fenstern w₁[n] und w₂[n] folgt, dasselbe Signal wie $\begin{array}{l} y [n] = w_{1} [n] y_{1} [n] + w_{2} [n] y_{2} [n] mit \\ y_{1} [n] = \sum_{k = 0}^{N} h_{1} [k] x [n - k] and y_{2} [n] = \sum_{k = 0}^{N} h_{2} [k] x [n - k] . \end{array}$
Ähnlich wie bei (11) können Überblendungen mit konstanter Verstärkung als lineare Interpolation implementiert werden $y [n] = y_{2} [n] + w [n] (y_{1} [n] - y_{2} [n]) .$
Die Implementierungen (11) und (13) weisen eine vergleichbare Komplexität auf, während (13) etwas effizienter ist, falls die Filterkoeffizienten sehr oft aktualisiert werden, d.h. wenn glatte, artefaktfreie Übergänge erforderlich sind. Überdies kann die zuletzt genannte Form verwendet werden, falls die Filterkoeffizienten h[n,k] nicht direkt manipuliert werden können, z.B. falls eine schnelle Faltung verwendet wird. Beispiele, die eine FD-Faltung mit einer Ausgangsüberblendung kombinieren, werden z.B. in [14], [16] dargestellt.
Für eine blockbasierte Operation, z.B. bei einer Kombination mit einem FD-Faltungsverfahren, ist eine Anwendung von (13) einfach realisierbar, falls die Länge des Übergangs identisch mit der Blockgröße B ist. Für längere Übergangsperioden kann ein Überblenden der gefilterten Signale jedoch effizient unter Verwendung eines einzelnes Fensters w[n] der Länge B implementiert werden, falls zwei Bedingungen erfüllt sind: (a) der gewünschte Übergang zwischen den Filtern sollte einer linearen Funktion (Rampe) liegen; (b) die Gesamtübergangsperiode B_full muss ein ganzzahliges Vielfaches der ursprünglichen Blockgröße B sein. In diesem Fall kann der Übergang in M = B_full/B Blöcke aufgeteilt werden. Jeder Block des Gesamtübergangs kann ausgedrückt werden, indem das Differenzsignal y₁[n] - y₂[n] mit einer Einzelfensterfunktion w[n] multipliziert wird, die einen linearen Übergang von 1 zu 0 innerhalb von B Abtastwerten implementiert. Eine lineare Kombination mit y₁[n] und y₂[n] ergibt das Ausgangssignal für diesen Block $y [n] = y_{2} [n] + (s + [e - s] w [n]) (y_{1} [n] - y_{2} [n]) .$
Hier bezeichnen s = m/M und e = (m + 1) / M, m = 0....M - 1 Anfangs- und Endkoeffizienten für den m-ten Block innerhalb eines Übergangs über M Blöcke.

Frequenzbereichs-Darstellunq des Zeitbereichsüberblendens

In diesem Abschnitt wird ein Algorithmus beschrieben, der auf der Basis der Frequenzbereichsbeschreibung eines gefilterten Signals arbeitet, beispielsweise der Darstellung Y[m,k] (5) innerhalb eines partitionierten Faltungsalgorithmus, um ein sanftes Überblenden der abschließenden Zeitbereichsausgabe zu implementieren. Die Hauptmotivation dafür ist eine gesteigerte Effizienz, da für ein Ausgangsüberblenden lediglich eine inverse FFT benötigt wird, falls der Übergang im Frequenzbereich implementiert wird.
Um eine Zeitbereichs-Überblendung im Frequenzbereich auszudrücken, betrachten wir eine elementweise Multiplikation eines einzelnen Signals x[n] mit einem Zeitbereichs-Fenster w[n] $y [n] = x [n] \cdot w [n],$
das als ein Teil eines Ausgangsüberblendens angesehen werden kann (12). Die Erweiterung auf vollständige Überblendungen und weitere Komplexitätsoptimierungen werden im Abschnitt "Effiziente Implementierungen für zusätzliche Komplexitätsreduktionen" erörtert.
Die Frequenzbereichs-Darstellung von (15) folgt aus der Dualität des Faltungstheorems [9], [17]
wobei
eine zirkuläre Faltung zweier zeitdiskreter Sequenzen bezeichnet. Somit kann eine Zeitbereichs-Überblendung mittels einer zirkulären FD-Faltung implementiert werden. Aus rechentechnischer Sicht erscheint ein derartiges Frequenzbereichsüberblenden jedoch nicht attraktiv. Allgemein erfordert eine zirkuläre Faltung zweier Sequenzen der Länge L etwa L² komplexe Multiplikationen und Additionen, was den potenziellen Gewinn von etwa O(Llog₂L) aufgrund des Ersparnisses einer inversen FFT bei weitem überschreitet.
Falls jedoch das Frequenzbereichs-Fenster W[k] lediglich einige wenige von Null verschiedene Koeffizienten enthält, kann die FD-Überblendung effizienter werden als die herkömmliche Zeitbereichsimplementierung. Ein erster Hinweis darauf, dass Fensterfunktionen mit lediglich einigen wenigen Frequenzbereichskoeffizienten erfolgreich angewendet werden können, wird bei [18] gegeben, wo aus drei Koeffizienten bestehende Frequenzbereichssequenzen, welche Zeitbereichs-Hann- oder -Hamming-Fenstern entsprechen, zum Glätten von FFT-Spektren angewendet werden. Im Folgenden wird dargestellt, wie derartige dünn besetzte Fenster zur Verwendung bei Zeitbereichs-Überblendungsoperationen zweckmäßig gestaltet werden können.

Design von Frequenzbereichs-Fenstern

Das Designziel für ein Frequenzbereichs-Fenster W[k] besteht darin, dass sich die entsprechende Zeitbereichssequenz ẘ[n] = DTFT^-1 {W[k]} an eine gewünschte Fensterfunktion ŵ[n] bezüglich einer gegebenen Fehlernorm annähert. Der ringförmige Akzent gibt hier an, dass ẘ[n] das Ergebnis einer inversen FFT ist, welche möglicherweise Artefakte einer zirkulären Faltung (d.h. Zeitbereichs-Aliasing) enthält. Sowohl ẘ[n] als auch ŵ[n] weisen die Länge L auf, während das Zeitbereichs-Fenster w[n] für einen Ausgangsblock der Größe B eine Länge B aufweist.
Aufgrund des dem partitionierten Faltungsverfahren (8) unterliegenden Overlap-Save-Mechanismus werden beim Fenstern des aktuellen Blocks lediglich die letzten B Werte von ẘ[n] tatsächlich verwendet, während der Beitrag der anderen Elemente verworfen wird. Folglich stehen die gewünschte Zeitbereichs-Fensterfunktion für den FD-Überblendungsalgorithmus ŵ[n] und das Fenster w[n] der herkömmlichen Zeitbereichs-Überblendung in folgender Relation: $\hat{w} [L - B + n] = w [n] 0 \leq n < B .$
Das heißt, den ersten L - B Koeffizienten von ŵ[n] werden keinerlei Beschränkungen auferlegt, sie können also beliebige Werte annehmen, ohne das Ergebnis der Frequenzbereichs-Überblendung zu beeinflussen. Diese Freiheitsgrade können beim Design von W[k] auf vorteilhafte Weise genutzt werden. Die Fensterfunktionen W[k] und ẘ[n] sind durch die inverse DFT $\overset{\circ}{w} [n] = L \cdot {DFT}^{- 1} \{W [k]\} = \sum_{k = 0}^{L - 1} W [k] e^{j \frac{2 π}{L} nk},$
aufeinander bezogen, wobei der führende Faktor L aus der dualen Darstellung des Faltungstheorems (16) folgt.
Um reellwertige Signale überblenden, sind die Zeitbereichs-Fenster w[n] und somit ẘ[n] rein reell. Dies bedeutet, dass das Frequenzbereichs-Fenster konjugiert-symmetrisch ist $W [N - k] = \overline{W [k]} .$
Folglich ist W[k] durch ┌(L + 1)/2┐ Elemente eindeutig definiert, beispielsweise W[0],..., ┌(L - 1)/2┐. Dies bedeutet auch, dass W[0] rein reellwertig ist. Ebenso ist, falls L geradzahlig ist, auch W[L/2] rein reell.
Indem W[k] durch seine reellen und imaginären Komponenten $W [k] = W_{r} [k] + j W_{i} [k] k = 0, \dots, ⌊ (L + 1) / 2 ⌋$
ausgedrückt wird und die Eulersche Identität verwendet wird, um Exponentialgrößen durch trigonometrische Funktionen zu ersetzen, kann (18) als $\overset{\circ}{w} [n] = W_{r} [0] + \sum_{k = 1}^{⌊ L / 2 - 1 ⌋} [2 W_{r} \cos (\frac{2 π}{L} nk) - 2 W_{i} \sin (\frac{2 π}{L} nk)] + W_{r} [\frac{L}{2}] {(- 1)}^{n}$
dargestellt werden. Dabei ist der letzte Term $W_{r} [\frac{L}{2}] {(- 1)}^{n}$
nur dann von null verschieden, falls L geradzahlig ist. Durch Einführung von Basisfunktionen $G_{r} (k, n) = (\begin{array}{l} 1, & k = 0 \\ 2 \cos (\frac{2 π}{L} nk), & 1 \leq k < L / 2 \\ {(- 1)}^{n}, & k = L / 2 (L gerade) \end{array}$
$G_{i} (k, n) = (\begin{array}{l} 0, & k = 0 \\ - 2 \sin (\frac{2 π}{L} nk), & 1 \leq k < L / 2 \\ 0, & k = L / 2 (L gerade) \end{array},$
kann das Fenster w[n] kompakt durch $\overset{\circ}{w} [n] = \sum_{k = 0}^{⌊ (L + 1) / 2 ⌋} W_{r} [n] G_{r} (k, n) + \sum_{k = 1}^{⌊ (L - 1) / 2 ⌋} W_{i} [n] G_{i} (k, n),$
dargestellt werden. Diese Form kann direkt für ein optimierungsbasiertes Design von W[k] verwendet werden.
Um Beschränkungen bezüglich der von Null verschiedenen Elemente von W[k] (engl. sparsity constraints, Dünnbesetztheits-Einschränkungen) zu beschreiben, werden Indexmengen
und
eingeführt
Eine reelle Komponente W_r[k] kann nur dann von null verschieden sein, falls der Index k in der Menge
enthalten ist. Dieselbe Beziehung gilt zwischen der imaginären Komponente W_i[k] und der Menge
. Unter Verwendung dieser Bezeichnung kann das Zeitbereichs-Fenster (24) für eine gegebene Menge von Null verschiedenen betragenden Komponenten von W[k] ausgedrückt werden durch
Somit kann das Design von W[k] als Optimierungsproblem in Matrixform angegeben werden $\underset{W}{minimize} {‖ G \cdot W - \hat{w} ‖}_{p} .$
Der Vektor w stellt die letzten B Abtastwerte des gewünschten Zeitbereichs-Fensters w[n] (17) dar, während W der Vektor von nicht null betragenden Komponenten von W[k] ist $W = {[W_{r} [r_{1}] \dots W_{r} [r_{R}] W_{i} [i_{1}] \dots W_{i} [i_{I}]]}^{T}$
$\hat{w} = {[\hat{w} [L - B] \hat{w} [L - B + 1] \dots \hat{w} [L - 1]]}^{T} .$
Desgleichen ist G die Matrix der Basisfunktionen $G = 0 pt [\begin{array}{l} G_{r} (r_{1}, L - B) & \dots & G_{r} (r_{r}, L - B) & \dots & G_{r} (i_{I}, L - B) \\ ⋮ & ⋱ & ⋮ & ⋱ & ⋮ \\ G_{r} (r_{1}, L - 1) & \dots & G_{r} (r_{r}, L - 1) & \dots & G_{r} (i_{I}, L - 1) \end{array}] .$
In Gleichung (28) bezeichnet ∥·∥_p die bei der Minimierung verwendete Fehlernorm, z.B. p = 2 für eine Minimierung nach der Methode der kleinsten Quadrate oder p = ∞ für eine Chebyshev-(Minimax)-Optimierung.
Innerhalb dieses Dokuments werden die Optimierungsprobleme unter Verwendung von CVX, eines Softwarepakets für eine konvexe Optimierung [19], formuliert und gelöst. Das Problem (28) wird in dem folgenden CVX-Programm ausgedrückt:

cvx_begin (Beginn)
- variable (Variable) W (N_coeffs)
- minimize (Minimiere) (norm((G*W-ŵ), p));
- subject to <optional constraints> (unter der Voraussetzung von <optionalen Einschränkungen>)
cvx_end (Ende)

Diese Designspezifikation kann an die jeweiligen Erfordernisse einer Anwendung durch eine Vielzahl zusätzlicher Einschränkungen angepasst werden. Beispiele dafür sind

Gleichheitseinschränkungen oder Ober- oder Untergrenzen für verschiedenartige Werte w[n], beispielsweise um Glattheitserfordernisse am Anfang oder am Ende des Zeitbereichs-Fensters zu gewährleisten.
Einschränkungen der Neigung von w[n], z.B. um ein Schwingungsverhalten des Zeitbereichs-Fensters zu vermeiden. Dies wird erreicht, indem den Unterschieden zwischen aufeinanderfolgenden Werten w[n] Einschränkungen auferlegt werden.

Desiqnbeispiele

Ein Designbeispiel mit einer Zeitbereichsfensterlänge B = 64 und der entsprechenden Standard-FFT-Größe L = 2B = 128 veranschaulicht die Eigenschaften des Designverfahrens und der Leistungsfähigkeit der resultierenden Fensterfunktionen. Das gewünschte Zeitbereichs-Fenster ist eine lineare Rampe, die von 1 auf 0 abnimmt. Ungleichheitseinschränkungen für den ersten und den letzten Koeffizienten $1 - \frac{1}{L} \leq w [0] \leq 1 und \leq w [B - 1] \leq \frac{1}{L}$
verhindern Diskontinuitäten am Anfang und am Ende des Übergangs. Jedoch zeigen Designexperimente, dass die Einschränkungen nur für eine sehr geringe Anzahl von nicht null betragenden Koeffizienten aktiv werden, d.h. das Ergebnis beeinflussen.
Die Designexperimente werden bezüglich der L₂- und L _∞-Fehlernormen für verschiedene Mengen von nicht null betragenden Koeffizienten durchgeführt, wobei
die Gesamtanzahl von nicht null betragenden Komponenten von W[k] bezeichnet. Die resultierenden Fenster sind in Fig. 6 gezeigt, und die Designs sind in Fig. 7g zusammengefasst. Fig. 6(a) zeigt ein Design mit einem vollständigen Satz von 8 komplexen Koeffizienten, d.h. K = 15, da W_i[0] = 0 (19). Es wird beobachtet, dass das resultierende Design das ideale Zeitbereichs-Fenster sehr gut annähert, mit L₂- und L _∞-Fehlernormen von 9,37 · 10^-6 bzw. 5,65 · 10^-6. Ein Design mit 8 ausschließlich reellen Koeffizienten wird in Fig. 6(b) gezeigt. Die Figur zeigt sichtbare Abweichungen von der idealen Fensterfunktion, was auch aus den Fehlernormen 5,45 · 10^-2 und 1,55 · 10^-2 für L₂- und L _∞-Designs klar hervorgeht. Im Gegensatz dazu weist das in Fig. 6(c) gezeigte Design ebenfalls K = 8 nicht null betragende Komponenten auf. Jedoch erreicht dieses Design fast die Leistungsfähigkeit des Beispiels mit 8 komplexen Koeffizienten, da die nicht null betragenden Werte bewußt aus der Menge der von reellen und imaginären Komponenten ausgewählt werden.
Fig. 6(d) bis 6(f) zeigen weitere Designbeispiele mit einer abnehmenden Anzahl von jedoch optimal ausgewählten von Null verschiedenen Komponenten. Man kann erkennen, dass sogar mit Anzahlen, die so niedrig sind wie K = 3 liegen, relativ gute Annäherungen des idealen Zeitbereichs-Fensters ermöglichen. Obwohl das abschließende Design mit K = 2 (Fig. 6(f)) deutliche Abweichungen von einem idealen linearen Übergang zeigt, kann es für viele Anwendungen einer Filterüberblendung eine akzeptable Wahl sein, da es einen glatten Übergang ohne Signaldiskontinuitäten liefert.

Effiziente Implementierungen für zusätzliche Komplexitätsreduktionen

Dieser Abschnitt stellt optimierte Implementierungen für zwei Aspekte des Frequenzbereichsüberblendungsalgorithmus vor und analysiert deren Leistungsfähigkeit. Zuerst wird eine effiziente Implementierung für eine zirkuläre Faltung von dünn besetzten konjungiertsymmetrischen Sequenzen vorgeschlagen. Zweitens wird eine Optimierung für Überblendungen mit konstanter Verstärkung (Constant Gain Crossfading), wie sie bei der Binauralsynthese verwendet werden, beschrieben.

Zirkuläre Faltung mit dünn besetzten Sequenzen

Eine zirkuläre Faltung zweier allgemeiner Sequenzen ist durch die Faltungssumme
definiert. Dabei bezeichnet ((k))_L = k mod L den Index modulo L (wie z.B. in [9]). Diese Operation erfordert für jedes Element Y[k] L komplexe Multiplikationen und L - 1 komplexe Additionen, was zu L² komplexen Multiplikationen und L(L - 1) Additionen für eine vollständige Faltung führt.
Die konjugierte Symmetrie von X[k] und W[k] sowie die dünne Besetzung von W[k] ermöglicht eine effizientere Darstellung
Dabei bezeichnet
die Vereinigung der Indexmengen
und
abzüglich des Index 0. Aus der dualen Darstellung des Faltungstheorems (16) folgt, dass Y[k] ebenfalls konjugiert-symmetrisch ist. Somit werden lediglich ┌(L+1)/2┐ Elemente benötigt, um Y[k] eindeutig zu bestimmen. Wenn man Y^(l)[k] durch reelle und imaginäre Werte ausdrückt, ergibt dies $Y^{(l)} [k] = (W_{r} [l] + j W_{i} [l]) (X_{r} [{((k + l))}_{L}] + j X_{i} [{((k + l))}_{L}]) + (W_{r} [l] - j W_{i} [l]) (X_{r} [{((k - l))}_{L}] + j X_{i} [{((k - l))}_{L}]) .$
Durch Berechnen der Zwischenwerte $X^{+} [k, l] = X [{((k + l))}_{L}] + X [{((k - l))}_{L}]$
$X^{-} [k, l] = X [{((k + l))}_{L}] - X [{((k - l))}_{L}],$
wird Gleichung (36) effizient als $Y^{(l)} [k] = W_{r} [l] X_{r}^{+} [k, l] - W_{i} [l] X_{i}^{-} [k, l] + j (W_{r} [l] X_{i}^{+} [k, l] + W_{i} [l] X_{r}^{-} [k, l]) .$
ausgewertet. In Kombination erfordert eine Auswertung der Sequenz Y ^(l)[k] 4┌(L+1)/2┐ reellwertige Multiplikationen und 2┌(L+1)/2┐ Additionen. Somit ist diese Implementierung effizienter als eine direkte Auswertung von (35) unter Verwendung komplexer Operationen, welche 8┌(L+1)/2┐ reelle Multiplikationen und 8┌(L+1)/2┐ reelle Additionen erfordern würde. Falls W[l] rein reell oder imaginär ist, ist entweder W_i[l] oder W_r[l] null. In beiden dieser Fälle verringert sich die Komplexität auf 2┌(L+1)/2┐ reelle Multiplikationen und 2┌(L+1)/2┐ Additionen.
Auf der Basis dieser Komplexitäten ergibt sich daraus s eine Gesamtkomplexität für die Auswertung der zirkulären Faltung gemäß (34) von 4K┌(L+1)/2┐ reellen Multiplikationen und 2(K-1)┌(L+1)/2┐ reellwertigen Additionen, d.h. insgesamt(6K-2)┌(L+1)/2┐ Operationen. Wie in (32) definiert, bezeichnet K die Gesamtanzahl der nicht null betragenden Komponenten von W[l]. Damit berücksichtigt die genannte Gesamtkomplexität sowohl die Reellwertigkeit von W[0] als auch die Tatsache, dass der Index I eines allgemeinen komplexen Werts W[l] sowohl in der Indexmenge
als auch in
enthalten ist.
Auf diese Weise ermöglicht die konjugierte Symmetrie der an der zirkulären Faltung beteiligten Sequenzen beträchtliche Einsparungen bezüglich der Komplexität. Zusätzliche signifikante Reduktionen können durch Fensterkoeffizienten gewonnen werden, die entweder rein reell oder imaginär sind. Somit kann der vorgeschlagene zirkuläre Faltungsalgorithmus aus dünnbesetzten Frequenzbereichs-Fensterfunktionen, wie beispielsweise den in Fig. 6a-6f dargestellten Designs, einen unmittelbaren Vorteil ziehen.

Überblendung mit konstanter Verstärkung (Constant-Gain-Crossfading)

Eine Überblendung mit konstanter Verstärkung, welche lineare Überblendungen umfasst, wie sie üblicherweise für Übergänge zwischen HRTFs verwendet werden, kann innerhalb des vorgestellten Konzeptes zur Frequenzbereichsüberblendung auf effiziente Weise implementiert werden.
Eine allgemeine Frequenzbereichsüberblendung wird durch eine zirkuläre Faltung der zwei Eingangssignale mit ihren jeweiligen Frequenzbereichs-Fenstern und eine anschließende Summation
implementiert. Für Überblendungen mit konstanter Verstärkung wird eine effizientere Implementierung erzielt, indem die Zeitbereichsüberblendungsfunktion (14) in den Frequenzbereich transformiert wird
Hierbei bezeichnet Y_d[k] die Differenz $Y_{d} [k] = Y_{1} [k] - Y_{2} [k] .$
Wie in (14) ermöglicht diese Funktion ein Überblenden zwischen willkürlichen Anfangs- und Endwerten s und e. Der Hauptvorteil der Implementierung (41) gegenüber (40) besteht darin, dass sie lediglich eine einzige zirkuläre Faltung erfordert, welche den aufwändigsten Teil des Überblendungsalgorithmus darstellt.
Eine weitere Verringerung der Komplexität kann durch eine Fusion des zirkulären Faltungsschemas (34) mit (41) erzielt werden. Ein Kombinieren des Terms, der den zentralen Fensterkoeffizienten W[0] enthält, mit der Überblendungsfunktion ergibt
Auf diese Weise bestimmt sich der rechentechnische Aufwand für eine Überblendung mit konstanter Verstärkung durch die im Abschnitt 4.1 beschriebene dünn besetzte zirkuläre Faltungsoperation, zwei komplexe Vektoradditionen der Größe ┌(L+1)/2┐, zwei Additionen und 2K - 1 Multiplikationen zum Skalieren der Fensterkoeffizienten W[k]. Dies ergibt insgesamt (6K-2)┌(L+1)/2┐+2 Additionen und 4K┌(L+1)/2┐+2K-1 reellwertige Multiplikationen. Somit erfordert ein Überblenden eines Blockes von B Ausgangsabtastwerten insgesamt (10K-2)┌(L+1)/2┐+2K+1 Anweisungen.
Fig. 5b zeigt, in Analogie zur Fig. 5a eine alternative Zeitbereichsfensterdarstellung, die eine Verstärkungsänderung, z.B. von einem Verstärkungsfaktor 1 auf einen Verstärkungsfaktor 0,5 darstellt. Ein solches Zeitbereichs-Fenster entspricht in etwa dem Ausblendungsfenster w₁ in Fig. 5a, es wird jedoch keine Einblendung vorgenommen. Auch für das Zeitbereichs-Fenster in Fig. 5b existieren effiziente Frequenzbereichs-Fensterfunktionen, die im Block 124 oder in den Blöcken 124a, 124b, 124c der Fig. 1, 2 und 3 effizient eingesetzt werden können.
Die Darstellungen der Frequenzbereichs-Fensterfunktion für das Zeitbereichs-Fenster von Fig. 5b können aus den Frequenzbereichs-Darstellungen für die Fensterfunktionen von Fig. 5a durch Skalierung oder durch Addition/Subtraktion entsprechender Werte dargestellt werden, so dass keine neuen Optimierungen beispielsweise mehr vorgenommen werden müssen, sondern aus existierenden Frequenzbereichs-Fensterfunktionen basierend auf Fig. 5a, oder wie sie in den Fig. 6a bis 6f bezeichnet sind, die entsprechenden Frequenzbereichs-Fensterfunktionen für sämtliche Verstärkungsänderungen im Frequenzbereich erzeugt werden können. So kann durch Fig. 5b eine Verstärkungsreduktion erreicht werden. Alternativ kann durch eine entsprechende Funktion eine Verstärkungserhöhung erreicht werden, wobei hierzu auf die Funktion w₂ von Fig. 5a wieder mit entsprechender Skalierung und/oder Addition entsprechender beispielsweise konstanter Werte zurückgegriffen werden kann.
Fig. 11 zeigt exemplarisch eine Signalverarbeitungsstruktur zur Verstärkungsänderung mit beliebigen Start- und Endwerten unter Verwendung einer einzigen, festen Frequenzbereichsfensterfunktion. Dabei stellt Y ₁[k] 502 die Frequenzbereichsdarstellung des Signals dar, welches einer Verstärkungsänderung unterzogen werden soll. Dieses Signal kann beispielsweise durch Frequenzbereichs-Filterung eines Eingangssignals erzeugt worden sein. Eine solche Filterung ist jedoch nicht zwingend erforderlich. Notwendig ist nur, dass das Signal in einer zur verwendeten Frequenz-Zeitbereichstransformation (in Beschreibung als "Umwandler" bezeichnet) kompatiblen Repräsentation vorliegt, d.h., dass die Anwendung der Frequenz-Zeitbereichstransformation das entsprechende Zeitbereichs-signal y ₁[n] erzeugt. Der Verlauf der Verstärkungsfunktion wird durch den Verstärkungswert s zu Beginn eines Signal-Blocks, den Verstärkungsfaktor e am Ende des Signal-Blocks sowie die gewählte Frequenzbereichs-Fensterfunktion, hier mit W ₂[k] bezeichnet, bestimmt. Diese wird beispielhaft so ausgeführt, dass ihre Zeitbereichsentsprechung eine von 1 auf 0 abfallende Funktion ist. Eine Verstärkungsänderung wird mittels folgender, auch in Fig. 11 dargestellter Berechnungsfunktion, durchgeführt.
Das Signal Y ₁[k] wird mit mittels zirkulärer Faltung mit einer Frequenzbereichs-Fensterfunktion W ₂[k] beaufschlagt. Das Ergebnis dieser Faltung wird durch elementweise Multiplikation des Vektors mit dem Wert e - s in einem ersten Multiplizierer 503 skaliert. Aufgrund der Linearität der zirkulären Faltung kann diese Skalierung auch vor der Faltung entweder auf Y ₁[k] oder W ₂[k] angewandt werden. Das Ergebnis dieser Repräsentation wird dem mit dem Start-Verstärkungswert s in einem zweiten Multiplizierer 504 skalierten Signal Y ₁[k] in dem Summierer 500 summiert und ergibt das FrequenzbereichsAusgangssignal Y[k]. Die Effizienz kann weiter erhöht werden, indem analog zu (43) der zentrale Fensterkoeffizient W[0] aus der Faltungssumme separiert und in der Skalierung von Y ₁[k] berücksichtigt wird.
Fig. 7a bis 7f zeigt eine tabellarische Aufstellung der Filterkoeffizienten der Frequenzbereichs-Fensterfunktionen, die im Zeitbereich in den Fig. 6a bis 6f dargestellt sind. Die Frequenzbereichs-Fensterfunktionen sind nur schwach besetzt. Insbesondere zeigt Fig. 7a eine Frequenzbereichs-Darstellung, wo der Bin der Frequenzbereichs-Darstellung der Fensterfunktion, der der Frequenz gleich 0 entspricht bzw. der 0.te Bin den Wert 0,5 hat. Der exakte Wert "0.5" ist hier nicht zwingend notwendig. 0.5 für den 0-ten Bin heißt, dass der Durchschnitt der Zeitbereichs-Werte 0.5 ist, was bei eine gleichmäßigen Überblendung von 1 auf 0 gegeben ist.
Der erste bis siebte Frequenz-Bin hat dann die entsprechenden komplexen Koeffizienten, während alle weiteren, höheren Bins gleich 0 sind oder so kleine Werte haben, dass sie nahezu bedeutungslos sind. Die Menge
und die Wert
aus den Fig. 7a bis 7f beschreiben somit die Indizes der von Null verschiedenen Real- und Imaginärteile der Spektralkoeffizienten bzw. Bins der Frequenzbereichs-Fensterfunktionen, die im Zeitbereich in den Fig. 6a bis 6f dargestellt sind. So betrifft beispielsweise Fig. 7e und Fig. 7f lediglich eine Besetzung der ersten drei Spektralkoeffizienten der Fensterfunktion (Fig. 7e) oder nur der beiden ersten Spektralkoeffizienten der Fensterfunktion (Fig. 7f).

Komplexitätsauswertung

Dieser Abschnitt vergleicht die Komplexität des vorgeschlagenen Frequenzbereichsüberblendungsalgorithmus mit existierenden Lösungsansätzen einer Filterüberblendung. Ein Aufbereitungssystem mit einer Filterlänge N=512, einer Blockgröße B = 128 und der entsprechenden Standard-DFT-Größe L = 256, M = 8 virtuelle Quellen und K = 4 nicht null betragende Koeffizienten für das Frequenzbereichsüberblendungsverfahren wird als Basis für die Leistungsauswertung verwendet. Jeder der Parameter wird variiert, um seinen Einfluss auf die Gesamtkomplexität zu beurteilen. Die Ergebnisse sind in Fig. 8 gezeigt. Sie zeigt die Anzahl von Multiplikationen zum Berechnen eines Abtastwerts eines einzelnen überblendeten Signals, d.h. die Gesamtanzahl von Operationen in dem Aufbereitungssystem geteilt durch die Anzahl von Schallquellen. Drei Algorithmen werden in Betracht gezogen: (a) partitionierte Faltung, auf die eine Zeitbereichs-Überblendung folgt, (b) die vorgeschlagenen FD-Überblendungsalgorithmen, die für jedes Quellensignal separat durchgeführt werden, und die Summation der Ohrsignale im Zeitbereich, und (c) FD-Überblendung und Summation der Ohrsignale im Frequenzbereich.
Fig. 8(a) zeigt den Einfluss der Filterlänge N. Für eine konstante Blockgröße B ist die Komplexität eine lineare Funktion von N für alle Algorithmen, da das N lediglich den Aufwand, der auf die Blockfaltung (6) zurückzuführen ist, beeinflusst, die für die drei Algorithmen identisch ist. Trotzdem zeigt der vorgeschlagene FD-Überblendungsalgorithmus sogar im Fall eines einzigen Kanals eine messbare Verbesserung gegenüber dem Zeitbereichslösungsansatz. Wie durch den dritten Graphen angegeben ist, ergibt eine Summation der Ohrsignale im Frequenzbereich beträchtliche zusätzliche Komplexitätsverringerungen, d.h. von ≈ 186 auf ≈ 131 Anweisungen pro Abtastwert für N=512.
Die Auswirkung der Blockgröße des partitionierten Faltungsschemas wird in Fig. 8(b) gezeigt. Während eine FD-Überblendung in allen Fällen effizienter ist als eine Zeitbereichs-Überblendung, nimmt der relative Gewinn mit steigender Blockgröße B zu. Dies lässt sich durch das Komplexitätseigenschaften gleichförmig partitionierter Faltungsschemata erklären. Für kleine Blockgrößen wird die Komplexität durch die Blockfaltung dominiert (6), während die Kosten der FFT- und IFFT-Operationen vernachlässigbar sind. Da eine Verringerung der Anzahl von IFFTs das Hauptmerkmal des FD-Überblendungsverfahrens ist, zeigt es seinen vollständigen Effekt nur für hinreichend große Blockgrößen. Dies ist jedoch nur ein geringfügiger Nachteil, da eine gleichförmig partitionierte Faltung für sehr kleine Blockgrößen in jedem Fall immer ineffizienter wird (siehe z.B. [12], [13]). Am anderen Ende der Skala werden die größten Verbesserungen gewonnen, falls die Blockgröße gleich der Filterlänge ist (bei diesem Beispiel N = B = 512). Dies entspricht einer nicht partitionierten schnellen Faltung. Somit kann das vorgeschlagene FD-Überblenden in Verbindung mit Overlap-Save-Schemata auf vorteilhafte Weise verwendet werden, falls die dadurch bedingte Latenzzeit akzeptabel ist.
Die Abhängigkeit der Komplexität von der dünnen Besetzung des FD-Fensters, d.h. der von Null verschiedenen Real- und Imaginärteile von Werten der Frequenzbereichs-Fensterfunktion W[l] ist in Fig. 8(c) gezeigt. F Für Zeitbereichsüberblendungen ist der Performance-Verlauf eine Konstante, die keine derartigen Fenster verwendet werden. Für den Fall einer kanalweisen Umsetzung des Algorithmus ist die FD-Überblendung bei dem betrachteten Aufbau für bis zu etwa 7 nicht null betragende Komponenten effizienter. Wie im Abschnitt "Design von Frequenzbereichs-Fenstern" gezeigt wurde, ermöglichen Fenster mit 3-4 Werten üblicherweise bereits sehr gute Annäherungen von linearen Überblendungen. Dies ermöglicht zweckmäßige Kompromisse zwischen der Genauigkeit und der Komplexität der Überblendung und bei den meisten Anwendungen eine beträchtliche Beschleunigung. Weitere beträchtliche Zugewinne bei der Genauigkeit oder Effizienz sind möglich, falls ein Mischen der Ohrsignale auch im Frequenzbereich durchgeführt wird. In diesem Fall ist bei FD-Fenstern mit bis zu 12 Koeffizienten eine FD-Überblendung effizienter als das Zeitbereichsverfahren.
Fig. 8(d) zeigt die Auswirkung der Größe der wiedergegebenen akustischen Szene, d.h. der Anzahl von virtuellen Quellen, auf die Gesamtkomplexität. Wie oben dargestellt, werden die berechneten Anzahlen arithmetischer Operationen durch die Anzahl der berechneten Quellen normiert. Für eine Zeitbereichsüberblendung und den Einzelkanal-FD-Algorithmus ist die Komplexität unabhängig von der Szenengröße. Desgleichen ist der Mehrkanal-FD-Algorithmus für eine einzelne Quelle identisch mit der Einzelkanal-FD-Überblendung. Jedoch ermöglicht eine Kombination der überblendeten Quellensignale im Frequenzbereich sogar für kleine akustische Szenen beträchtliche Effizienzgewinne, z.B. für M = 2,...,8. Größere akustische Szenen ermöglichen lediglich geringfügige zusätzliche Leistungsfähigkeitsgewinne. Diese asymptotische Grenze folgt aus dem Einfluss der Vorwärts-FFT und der Blockfaltungsoperationen auf die Gesamtkomplexität. Diese kann nicht weiter verringert werden, indem die Anzahl inverser FFT-Operationen gesenkt wird.
Ausführungsbeispiele betreffen einen effizienten Algorithmus vor, der Frequenzbereichs-faltung und Überblendung gefilterter Signale kombiniert. Er ist auf eine Vielzahl von Frequenzbereichsfaltungstechniken anwendbar, insbesondere Overlap-Save und gleichförmig oder ungleichförmig partitionierte Faltung. Desgleichen kann er mit verschiedenen Arten von glatten Übergängen zwischen gefilterten Audiosignalen verwendet werden, einschließlich Verstärkungsveränderungen und Überblendungen. Überblendungen mit konstanter Verstärkung wie beispielsweise lineare Filterübergänge, die üblicherweise bei der dynamischen Binauralsynthese benötigt werden, ermöglichen zusätzliche beträchtliche Verringerungen der Komplexität. Der neuartige Algorithmus beruht auf einer zirkulären Faltung im Frequenzbereich mit einer dünn besetzten Fensterfunktion, die aus lediglich einigen wenigen von Null verschiedenen Werten besteht. Ferner wird ein flexibles optimierungsbasiertes Designverfahren für derartige Fenster dargestellt. Designbeispiele bestätigen, dass die Überblendungsverhalten, die üblicherweise bei Audioanwendungen eingesetzt werden, durch sehr dünn besetzte Fensterfunktionen sehr gut angenähert werden können.
Die vorgeschlagenen Ausführungsbeispiele zeigen beträchtliche Verbesserungen der Leistungsfähigkeit gegenüber vorhandenen Lösungen, die auf zwei separaten Faltungen und einer Zeitbereichsüberblendung basieren. Jedoch wird das vollständige Potenzial des Frequenzbereichsüberblendens für Binaural-Anwendungen erst dann ausgenutzt, falls es in die Struktur eines binauralen Wiedergabesystems integriert wird. In diesem Fall ermöglicht der neuartige Überblendungsalgorithmus, dass größere Anteile der Verarbeitung im Frequenzbereich durchgeführt werden, wodurch die Anzahl von inversen Transformationen beträchtlich verringert wird . Die die Vorteile dieses Lösungsansatzes für eine Binauralsynthese wurden aufgezeigt. In dieser Anwendung ermöglicht die Fähigkeit, die Signale mehrerer Schallquellen im Frequenzbereich zu mischen, beträchtliche Verringerungen der Komplexität. Trotzdem ist der vorgeschlagene Algorithmus nicht auf die Binauralsynthese beschränkt, sondern ist wahrscheinlich auf andere Verwendungszwecke anwendbar, die sowohl Techniken einer schnellen Faltung als auch ein zeitlich veränderliches Mischen von Audiosignalen, insbesondere bei Mehrkanalanwendungen, einsetzen.
Nachfolgend werden alternative Ausführungsbeispiele der vorliegenden Erfindung dargestellt. Generell betreffen Ausführungsbeispiele der vorliegenden Erfindung folgende Punkte.
Ein graduelles Ein- oder Ausblenden eines (gefilterten) Signals y_i[n] kann allgemein als Multiplikation des Signals mit einer Zeitbereichs-Fensterfunktion w_i[n] interpretiert werden.
Eine Überblendung ("Crossfade") zwischen zwei gefilterten Signalen (y₁[n] und y₂[n]) kann so durch die Multiplikation der Signale mit Fensterfunktion w₁[n] und w₂[n] und anschließender Summation dargestellt werden. $y [n] = w_{1} [n] y_{1} [n] + w_{2} [n] y_{2} [n] mit$
$y_{1} [n] = \sum_{k = 0}^{N} h_{1} [k] x [n - k] und y_{2} [n] = \sum_{k = 0}^{N} h_{2} [k] x [n - k] .$
Eine besondere Form der Überblendung ist der sog. Constant-Gain-Crossfade, bei der die Summe der Fensterfunktionen w₁[n] und w₂[n] für jedes n den Wert 1 ergibt. Diese Form der Überblendung ist in vielen Anwendungen sinnvoll, insbesondere wenn die zu blendenden Signale (bzw. die Filter) stark korreliert sind. In diesem Fall kann die Überblendung durch eine einzelne Fensterfunktion w[n], w₁[n] = w[n], w₂[n] = 1 - w[n] dargestellt werden, und die Überblendung (1) kann in folgender Form dargestellt werden. $y [n] = y_{2} [n] + w [n] (y_{1} [n] - y_{2} [n]) .$
Ziel des Verfahrens ist es, die Überblendung direkt im Frequenzbereich vorzunehmen und dadurch den Aufwand, der bei der Ausführung zweier kompletter schneller Faltungsoperationen entsteht, zu reduzieren. Präzisiert heißt das, dass bei einer Überblendung der gefilterten Signale im Frequenzbereich nur eine statt zwei inverser FFTs notwendig sind.
Für die Herleitung der Überblendung im Frequenzbereich wird nur die Multiplikation eines einzelnen Signals x[n] mit einer Zeitbereichs-Fenstefunktion w[n] betrachtet $y [n] = x [n] \cdot w [n] .$
Die Erweiterung auf Überblendungen ("Crossfades") entsprechend den Formeln (44) bzw. (46) kann nach der Beschreibung des Kernalgorithmus in einfacher Weise erfolgen (aber dort noch zusätzliche Performance-Gewinne ermöglichen).
Eine elementweise Multiplikation im Zeitbereich (47) entspricht einer zirkulären (periodischen) Faltung im Frequenzbereich.
Dabei bezeichnet DFT {·} die diskrete Fourier-Transformation, und
repräsentiert eine zirkuläre Faltung zweier endlicher, hier i.d.R. komplexer Sequenzen, deren Länge hier mit L bezeichnet ist.
Die Überblendung durch zirkuläre Faltung im Frequenzbereich lässt sich in schnellen Faltungsalgorithmen wie Overlap-Save, partitionierte und ungleichförmig partitionierte Faltung integrieren. Dabei sollen die Eigenheiten dieser Verfahren, z.B. das Zero-Padding (Auffüllen mit Nullen) der Impulsantwort-Segmente und das Verwerfen eines Teils des in den Zeitbereich zurücktransformierten Signals (zur Vermeidung einer zirkulären Überfaltung des Zeitbereichssignals, Time-Domain-Aliasing) entsprechend betrachtet werden. Die Länge der Überblendung ist dabei auf die Blockgröße des Faltungsalgorithmus bzw. eines Vielfachen davon festgelegt.
Die Faltung (48) ist typischerweise deutlich aufwändiger als eine Überblendung im Zeitbereich (47) (Komplexität 0(L²)). Damit bedeutet die Verlagerung in den Frequenzbereich im allgemeinen Fall eine signifikante Steigerung der Komplexität, da der zustäzlcihe Aufwand 0(L²) die Reduktion durch das Einsparen der FFT 0(Llog₂L) deutlich übersteigt. Zusätzlich werden Operationen wie gewichtete Summation in der Frequenzbereichs-Ensprechung von (44) teurer, da die Sequenzen komplexwertig sind.
Ein Ausführungsbeispiel ist es, Frequenzbereichs-Fensterfunktionen W[k] zu finden, die nur sehr wenige von Null verschiedene (engl. "nonzero") Koeffizienten aufweisen. Bei sehr dünnbesetzten Fensterfunktionen kann die zirkuläre Faltung im Frequenzbereich deutlich effizienter werden als eine zusätzliche inverse FFT gefolgt von einer Überblendung im Zeitbereich.
Es wird gezeigt, dass solche Fensterfunktionen existieren, mit denen mit einer kleinen Zahl von Koeffizienten eine sehr gute Annäherung an gewünschte Überblend-Charakteristiken möglich ist.
Es wird ein Optimierungsverfahren eingeführt, mit denen zu einer gewünschten Zeitbereichs-Fensterfunktion ŵ[n] und der Vorgabe, welche reellwertigen und imaginären Koeffizienten der Frequenzbereichs-Fensterfunktion von Null verschieden sein dürfen, ein optimales Frequenzbereichsfenster W[k] zu finden.
Bei dieser Optimierung können die Eigenschaften des Overlap-Save-Algorithmus und der drauf aufbauenden gleichförmig und ungleichförmig partitionierten Faltungsalgorithmen sinnvoll ausgenutzt werden. Von der inversen diskreten Fourier-Transformation w[n] $\overset{\circ}{w} [n] = L \cdot {DFT}^{- 1} \{W [k]\} = \sum_{k = 0}^{L - 1} W [k] e^{j \frac{2 π}{L} nk}$
werden nur die letzten B Samples verwendet, wobei B die Blockgröße bzw. der Blockvorschub des partitionierten Faltungsalgorithmus ist (B < L). Die ersten L - B Werte des zurücktransformierten Ausgangssignals, und damit der Effekt der Multiplikation mit den ersten L - B Werten von ẘ[n] werden zur Vermeidung von Time-Domain-Aliasing durch den Faltungsalgorithmus verworfen. Daher dürfen die Fenster-Koeffizienten ẘ[0]... ẘ[L - B] beliebige Werte annehmen, ohne das Ergebnis der Überblendung zu verändern. Diese zusätzlichen Freiheitsgrade führen zu einen beträchtlichen Vorteil beim Design von Frequenzbereichsfenstern W[k] mit einer geringen Zahl von "nonzero" Koeffizienten.
Beim Design von W[k] sowie bei der effizienten Implementierung der zirkulären Faltung im Fjrequenzbereich können die symmetrisch-konjugierte Struktur des Frequenzbereichsfensters sinnvoll ausgenutzt werden. Dabei ist es sinnvoll, die reellen und imaginären Komponenten von W[k] getrennt zu betrachten.
Es werden verschiedene Designs für solche Frequenzbereichsfenster vorgestellt (u.a. mit 2, 3 und 4 "nonzero" Koeffizienten), welche eine spezifische, gezielt gewählte Verteilung der "nonzero" reellwertigen und imaginären Koeffizienten aufweisen. Die dabei gewonnenen Erkenntnisse, gelten streng genommen nur für die hier vorgestellten Fenster-Designs (das heisst zum Beispiel für die vorgegebenen Werte von L und B sowie die Form der gewünschten Überblendung). Jedoch sind die zugrundeliegenden Prinzipien , z.B. vorteilhafte Verteilungen von Null verschiedener Real- und Imaginärteile, auch auf andere Werte von B und L anwendbar.
Die Verteilung der "nonzero" reellwertigen und imaginären Komponenten ist sehr charakteristisch. Die Verteilung, wie sie z.B. im dritten Design in Fig. 7g verwendet wird (8
"nonzero" Koeffizienten, Index-Sets
hat sich in zusätzlichen Untersuchungen auch für anderer Parameterkombinationen in Ausführungsbeispielen als optimal erwiesen. Dies bedeutet, dass eine besonders geeignete Vorgabe für die Frequenzbereichs-Fensterfunktion darin besteht, dass die Koeffizienten mit Index 0 sowie allen ungeraden Indizes rein reell sind und die Koeffizienten mit geradem Index (ab 2) rein imaginär sind.
Eine Fensterfunktion mit zwei "nonzero" Koeffizienten (letztes Design-Beispiel in Fig. 7g, Bild 6(f)) ermöglicht einen glatten Übergang zwischen zwei Filtern bzw. Signalen und kann auch für einen Constant-Gain-Crossfade verwendet werden. Diese Fensterfunktion entspricht einem Zeitbereichsfenster mit einem halbseitigen Fenster vom Kosinus-Typ (z.B. Hann- oder Hamming-Fenster). Obwohl diese Fensterfunktion recht stark von einer linearen Überblendung abweicht, sollte sie für viele Anwendungen bereits einsetzbar sein, in denen nur eine knackfreie Überblendung zwischen recht ähnlichen Filtern benötigt wird.
Für die Implementierung der zirkulären Faltung mit einer dünnbesetzten konjugiert-symmetrischen Fensterfunktion W[k] (wie hier betrachtet) werden effiziente Implementierungen und verschiedene Optimierungen vorgestellt. Dabei wird klar, dass eine getrennte Betrachtung der "nonzero" Real- und Imaginärteile Leistungsvorteile bietet.
Für die Umsetzung von Constant-Gain-Crossfades wird eine weiter optimierte Rechenvorschrift vorgestellt.
Die beschriebene Erfindung ermöglicht weitere deutlich größere Leistungsvorteile, wenn Systeme mit mehreren Ein- und Ausgängen betrachtet werden. In diesem Fall kann durch die Implementierung der Überblendung im Frequenzbereich (bzw. der durch den verwendeten schnellen Faltungsalgorithmus vorgegebenen Signalrepräsentation) ein größerer Teil der gesamten Berechnung in diesem Frequenzbereich erfolgen, was die Gesamt-Effizienz deutlich erhöhen kann.
Eine Wirkung der beschriebenen Erfindung ist eine Reduktion der Berechnungskomplexität. Dabei werden gewisse Abweichungen (die sich jedoch beeinflussen und in der Regel sehr gering halten lassen) gegenüber einem als ideal vorgegebenen Form der Überblendung in Kauf genommen.
Neben dieser Effizienzsteigerung ermöglicht das Konzept eine Integration von Überblend-Funktionalitäten direkt im Frequenzbereich. Wie weiter oben beschrieben, können dadurch größere Signalverarbeitungsalgorithmen, welche Überblendung als einen Baustein verwenden, so umstrukturiert werden, dass eine Effizienzsteigerung erzielt wird. Z.B. können größere Teile der Gesamtsignalverarbeitung in der Frequenzbereichsdarstellung ausgeführt werden, wodurch der Aufwand für die Transformation der Signale deutlich reduziert wird (z.B. die Zahl der Rücktransformationenin den Zeitbereich).
Generell können Ausführunsbeispiele in allen Anwendungen, die eine FIR-Faltung mit einer bestimmten Mindestlänge der Filter (je nach Hardware ab ca. 16-50 Koeffizienten) benötigen und bei denen die Filterkoeffizienten ohne Signalverarbeitungsartefakte zur Laufzeit ausgetauscht werden sollen, verwendet werden.
Zwei Anwendungsfelder im Gebiet Audio werden als besonders wichtig angesehen:

Binauralsynthese

Bei der Wiedergabe von Schallszenen über Kopfhörer werden die Signale der Schallobjekte mit sog. Head-RElated Transfer Functions (HRTFs) beider Ohren gefiltert, und die über den Kopfhörer weidergegebenen Signale werden durch Summation der entsprechenden Komponentensignale gebildet. Die HRTFs sind abhängig von der relativen Position von Schallquelle und Hörer und müssen daher bei bewegten Schallquellen oder Kopfbewegungen ausgetauscht werden. Die Notwendigkeit einer Filter-Überblendung ist bekannt, z.B. [5; 14].

Variable digitale Filterkernel für Beamforming

Beamforming-Anwendungen (sowohl für Lautsprecher als auch für Mikrofon-Arrays) mit zur Laufzeit steuerbarer Richtcharakteristik benötigen variable digitale Filterstrukturen, mit denen die Eigenschaften der Array-Verarbeitung kontinuierlich angepasst werden können. Dabei muss auch sichergestellt werden, dass die Veränderung der Charakteristik keine Störungen (z.B. Knackartefakte, Transienten) erzeugt. Bei einer Implementierung der variablen Filter mittels schneller Faltung kann die beschriebene Erfindung vorteilhaft angewendet werden.
Insbesondere ist bei dieser Ausführung das Frequenzbereichs-Signal ein Audiosignal. Die erste Filtercharakteristik betrifft ein Filter für einen bestimmten Schallwandler (Mikrofon oder Lautsprecher) in einem Schallwandlerarray ist, welches geeignet ist, um in Kombination mit den anderen Schallwandlern des Schallwandlerarrays eine gewünschte erste Richtcharakteristik zu einem ersten Zeitpunkt auszubilden. Die zweite Filtercharakteristik beschreibt ein Filter für einen bestimmten Schallwandler (Mikrofon oder Lautsprecher) in einem Schallwandlerarray ist, welche geeignet ist, um in Kombination mit den anderen Schallwandlern des Schallwandlerarrays eine zweite gewünschte Richtcharakteristik zu einem zweiten Zeitpunkt auszubilden, so dass durch ein Überblenden unter Verwendung der Frequenzbereichs-Fensterfunktion die Richtcharakteristik zeitlich verändert wird.
Eine andere Anwendung betrifft die Verwendung mehrerer Audiosignale, deren gefilterte und überblendete Frequenzbereichsrepräsentation vor der inversen Fourier-Transformation kombiniert werden. Dies entspricht der gleichzeitigen Abstrahlung mehrerer Audio-Beams mit unterschiedlichen Signalen über ein Lautsprecher-Array, oder der Summation der einzelnen Mikrofonsignale in einem Mikrofonarray.
Besonders vorteilhaft ist die beschriebene Erfindung für Systeme mit mehreren Ein- und Ausgängen (Multiple-Input, Multiple-Output, MIMO) anwendbar, z.B. wenn mehrere Überblendungen simultan erfolgen oder mehrere überblendete Signale kombiniert und weiterverarbeitet werden. In diesem Fall ist es möglich, einen größeren Teil der Gesamtberechnung im Frequenzbereich (bzw. der durch den verwendeten Overlap-Save- oder partitionierten Faltungsalgorithmus vorgegebenen Signalrepräsentation) auszuführen. Durch Verlagerung weiterer Operationen wie Summation, Mischen von Signalen etc. kann der Aufwand für die Rücktransformation in den Zeitbereich deutlich reduziert und damit die Gesamteffizienz oftmals signifikant verbessert werden. Beispiele für solche Systeme sind, wie oben beschrieben, ein Binaural-Rendering für komplexe Audio-Szenen oder auch Beamforming-Anwendungen, bei denen Signale für verschiedene Richtcharakteristiken und Wandler (Mikrofone bzw. Lautsprecher) mit veränderlichen Filtern gefiltert und miteinander kombiniert werden müssen.
Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, sodass ein Block oder ein Bauelement einer Vorrichtung auch als ein entsprechender Verfahrensschritt oder als ein Merkmal eines Verfahrensschrittes zu verstehen ist. Analog dazu stellen Aspekte, die im Zusammenhang mit einem oder als ein Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar. Einige oder alle der Verfahrensschritte können durch einen Hardware-Apparat (oder unter Verwendung eines Hardware-Apparats), wie zum Beispiel einen Mikroprozessor, einen programmierbaren Computer oder einer elektronischen Schaltung durchgeführt werden. Bei einigen Ausführungsbeispielen können einige oder mehrere der wichtigsten Verfahrensschritte durch einen solchen Apparat ausgeführt werden.
Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der Erfindung in Hardware oder in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer BluRay Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können oder zusammenwirken, dass das jeweilige Verfahren durchgeführt wird. Deshalb kann das digitale Speichermedium computerlesbar sein.
Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmier-baren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft.
Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.
Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinen-lesbaren Träger gespeichert ist. Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft.
Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger (oder ein digitales Speichermedium oder ein computerlesbares Medium), auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist.
Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahin gehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden.
Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen.
Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
Ein weiteres Ausführungsbeispiel gemäß der Erfindung umfasst eine Vorrichtung oder ein System, die bzw. das ausgelegt ist, um ein Computerprogramm zur Durchführung zumindest eines der hierin beschriebenen Verfahren zu einem Empfänger zu übertragen. Die Übertragung kann beispielsweise elektronisch oder optisch erfolgen. Der Empfänger kann beispielsweise ein Computer, ein Mobilgerät, ein Speichergerät oder eine ähnliche Vorrichtung sein. Die Vorrichtung oder das System kann beispielsweise einen Datei-Server zur Übertragung des Computerprogramms zu dem Empfänger umfassen.
Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei.

REFERENZEN

[1] V. R. Algazi und R. 0. Duda, "Headphone-based spatial sound," IEEE Signal Processing Mag., Bd. 28, Nr. 1, S. 33-42, Jan. 2011.
[2] R. Nicol, Binaural Technology, ser. AES Monographs. New York, NY: AES, 2010.
[3] D. N. Zotkin, R. Duraiswami, und L. S. Davis, "Rendering localized spatial audio in a virtual auditory space," IEEE Trans. Multimedia, Bd. 6, Nr. 4, S. 553-564, Aug. 2004.
[4] A. Härmä, J. Jakka, M. Tikander, et al., "Augmented reality audio for mobile and wearable appliances," J. Audio Eng. Soc., Bd. 52, Nr. 6, S. 618-639, Jun. 2004.
[5] J.-M. Jot, V. Larcher und 0. Warusfel , "Digital signal processing issues in the context of binaural and transaural stereophony," in AES 98th Convention, Paris, Frankreich, Feb. 1995.
[6] H. Gamper, "Head-related transfer function interpolation in azimuth, elevation and distance," J. Acoust. Soc. Am., Bd. 134, Nr. 6, EL547-EL553, Dez. 2013.
[7] V. Algazi, R. Duda, D. Thompson , et al., "The CIPIC HRTF database," in Proc. IEEE Workshop Applications Signal Processing to Audio and Acoustics, New Paltz, NY, Okt. 2001, S. 99-102.
[8] T. G. Stockham Jr., "High-speed convolution and correlation," in Proc. Spring Joint Computer Conf., Boston, MA, Apr. 1966, S. 229-233.
[9] A. V. Oppenheim und R. W. Schafer, Discrete-Time Signal Processing, 3. Auflage, Upper Saddle River, NJ: Pearson, 2010.
[10] B. D. Kulp, "Digital equalization using Fourier transform techniques," in AES 85th Convention, Los Angeles, CA, Nov. 1988.
[11] F. Wefers und M. Vorländer, "Optimal filter partitions for real-time FIR filtering using uniformly-partitioned FFT-based convolution in the frequency-domain," in Proc. 14. Int. Conf. Digital Audio Effects, Paris, Frankreich, Sept. 2011, S. 155- 161.
[12] W. G. Gardner, "Efficient convolution without input-output delay," J. Audio Eng. Soc., Bd. 43, Nr. 3, S. 127-136, März 1995.
[13] G. Garcia, "Optimal filter partition for efficient convolution with short input/output delay," in 113th AES Convention, Los Angeles, CA, Okt. 2002.
[14] C. Tsakostas und A. Floros, "Real-time spatial representation of moving sound sources," in AES 123th Convention, New York, NY, Okt. 2007.
[15] J. 0. Smith III, Introduction to Digital Filters with Audio Applications. W3K Publishing, 2007. [Online]. Erhältlich: http://ccrma.stanford.edu/-jos/filters/.
[16] C. Müller-Tomfelde, "Time-varying filter in non-uniform block convolution," in Proc. COST G-6 Conf. Digital Audio Effects (DAFX-01), Limerick, Irland, Dez. 2001.
[17] J. 0. Smith III, Mathematics of the Discrete Fourier Transform (DFT). W3K Publishing, 2007. [Online]. Erhältlich: http://ccrma.stanford.edu/-jos/mdft/mdft.html.
[18] R. G. Lyons, Understanding Digital Signal Processing, 3rd ed. Upper Saddle River, NJ: Pearson, 2011.
[19] M.C. Grant und S.P. Boyed, "Graph implementations for nonsmooth convex programs," in Recent Advances in Learning and Control, V. Blondel, S. Boyd, und H. Kimura, Eds., London, UK: Springer, 2008, S. 95-110.
[20] F. Wefers und M. Vorländer. "Optimal Filter Partitions for Non-Uniformly Partitioned Convolution". In: Proc. AES 45th Int. Conf. Espoo, Finland, März 2012, S. 324-332.

Claims

Vorrichtung zum Verarbeiten eines zeitdiskreten Signals, mit folgenden Merkmalen:
einer Prozessorstufe (120), die ausgebildet ist,
um das Signal, das in einer diskreten Frequenzbereichs-Darstellung vorliegt, mit einem Filter (122) mit einer Filtercharakteristik durch Multiplikation mit einer Übertragungsfunktion zu filtern, um ein gefiltertes Signal (123) zu erhalten,

um das gefilterte Signal (123) oder ein von dem gefilterten Signal abgeleitetes Signal (302) mit einer Frequenzbereichs-Fensterfunktion (124, 124a, 124b, 124c) zu beaufschlagen, um ein gefenstertes Signal zu erhalten, wobei das Beaufschlagen Multiplikationen von Frequenzbereichs-Fensterkoeffizienten der Frequenzbereichs-Fensterfunktion mit Spektralwerten des gefilterten Signals (123) oder des von dem gefilterten Signal abgeleiteten Signals (302), um Multiplikationsergebnisse zu erhalten, und eine Aufsummation der Multiplikationsergebnisse aufweist; und

einem Umwandler (130) zum Umwandeln des gefensterten Signals (125) oder eines unter Verwendung des gefensterten Signals ermittelten Signals in einen Zeitbereich, um das verarbeitete Signal zu erhalten,

wobei die Prozessorstufe (120) ferner ausgebildet ist, um das Signal, das in der diskreten Frequenzbereichs-Darstellung vorliegt, unter Verwendung eines weiteren Filters (122b) mit einer weiteren Filtercharakteristik zu filtern, um ein weiteres gefiltertes Signal zu erhalten, um das weitere gefilterte Signal mit einer weiteren Frequenzbereichs-Fensterfunktion (124b) zu beaufschlagen, um ein weiteres gefenstertes Signal zu erhalten, und um das gefensterte Signal und das weitere gefensterte Signal zu kombinieren (200), um ein Kombinationssignal zu erhalten, oder

wobei die Prozessorstufe (120) ausgebildet ist, um das Signal, das in der diskreten Frequenzbereichs-Darstellung vorliegt, unter Verwendung eines weiteren Filters (122b) mit einer weiteren Filtercharakteristik zu filtern, um ein weiteres gefiltertes Signal zu erhalten, um ein Kombinationssignal (302) aus dem gefilterten Signal und dem weiteren gefilterten Signal zu bilden (300), wobei das von dem gefilterten Signal abgeleitete Signal (302) das Kombinationssignal (302) darstellt, um das Kombinationssignal mit der Frequenzbereichs-Fensterfunktion (124c) zu beaufschlagen, um ein gefenstertes Kombinationssignal zu erhalten, und um das gefensterte Kombinationssignal mit dem gefilterten Signal oder dem weiteren gefilterten Signal zu kombinieren (200).
Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Frequenzbereichs-Fensterfunktion (124a, 124c) oder die weitere Frequenzbereichs-Fensterfunktion (124b) höchstens 15 oder höchstens 8 Koeffizienten ungleich 0 aufweist.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Prozessorstufe (120) ausgebildet ist, um eine maximale Anzahl von Frequenzbereichs-Fensterkoeffizienten ungleich 0 zu verwenden,
wobei ein Frequenzbereichs-Fensterkoeffizient für einen Gleichanteil reell ist, und
wobei Frequenzbereichs-Fensterkoeffizienten für gerade Indizes bezogen auf einen Index des Gleichanteils rein imaginär sind und Frequenzbereichs-Fensterkoeffizienten für ungerade Indizes bezogen auf einen Index des Gleichanteils rein reell sind.
Vorrichtung nach einem der vorhergehenden Ansprüche, bei der die Prozessorstufe (120) ausgebildet ist, um das Beaufschlagen mit einer Frequenzbereichs-Fensterfunktion unter Verwendung der folgenden Gleichung durchzuführen: $Y [k] = X [k] W [0] + \sum_{l \in C} Y^{(l)} [k]$
wobei der Term Y ^(l)[k] folgendermaßen berechnet wird: $Y^{(l)} [k] = W_{r} [l] X_{r}^{+} [k, l] - W_{i} [l] X_{i}^{-} [k, l] + j (W_{r} [l] X_{i}^{+} [k, l] + W_{i} [l] X_{r}^{-} [k, l])$
wobei k ein Frequenzindex ist, wobei I ein ganzzahliger Index ist, wobei C eine Menge von Indizes ist, wobei ein Index I dann in der Menge C enthalten ist, wenn I ungleich 0 ist und der Koeffizient der Frequenzbereichs-Fensterfunktion W[l] von 0 verschieden ist, wobei W_r [l] ein Realteil eines Koeffizienten der Frequenzbereichs-Fensterfunktion ist, wobei W_i [l] ein Imaginärteilkoeffizient der Frequenzbereichs-Fensterfunktion ist, wobei X ⁺[k,l] und X^- [k,l] durch folgende Gleichungen berechnet werden: $\begin{matrix} X^{+} [k, l] = X [{((k + l))}_{L}] + X [{((k - l))}_{L}] \\ X^{-} [k, l] = X [{((k + l))}_{L}] - X [{((k - l))}_{L}], \end{matrix}$
und
wobei ((k))_L K mod L bedeutet, wobei L die Länge der FFT-Blöcke ist, und wobei X[k] Spektralkoeffizienten des Signals sind, das in dem Frequenzbereich vorliegt.
Vorrichtung nach Anspruch 4, bei der für den Fall, dass der Wert der Fensterfunktion W[l] rein reell ist, der Term Y^(l) [k] nach folgender Vorschriften berechnet wird: $Y^{(l)} [k] = W_{r} [l] X_{r}^{+} [k, l] + j W_{r} [l] X_{i}^{+} [k, l]$
oder
bei der für den Fall, dass der Wert der Fensterfunktion W[l] rein imaginär ist, der Term Y ^(l)[k] nach folgender Vorschriften berechnet wird: $Y^{(l)} [k] = - W_{i} [l] X_{i}^{-} [k, l] + j W_{i} [l] X_{r}^{-} [k, l] .$
Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner folgende Merkmale aufweist:
einen Umwandler (110) zum Umwandeln des Signals in eine Frequenzbereichs-Repräsentation, die zur Verwendung mit dem Overlap-Add, Overlap-Save oder partitionierten Faltungsalgorithmus geeignet ist, und

bei der der Umwandler (130) zum Umwandeln des gefensterten Signals oder eines unter Verwendung des gefensterten Signals ermittelten Signals in den Zeitbereich ausgebildet ist, um unter Verwendung eines Overlap-Add-Algorithmus, eines Overlap-Save-Algorithmus oder eines partitionierten Faltungsalgorithmus zu arbeiten.
Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der das Zeitbereichs-Signal eine erste Audioquelle (600) beschreibt,
bei der ein weiteres Zeitbereichs-Signal eine zweite Audioquelle (602) beschreibt,
bei der das Filter (612) für die erste Audioquelle (600) mit der Filtercharakteristik ausgebildet ist, und das weitere Filter (613) für die erste Audioquelle (600) mit der weiteren Filtercharakteristik ausgebildet ist,
wobei die Prozessorstufe (120) ferner ausgebildet ist, um unter Verwendung eines dritten Filters (614) und eines vierten Filters (615) für die zweite Audioquelle (602) zu arbeiten, wobei das dritte Filter (614) eine dritte Filtercharakteristik hat, die eine erste Charakteristik der zweiten Audioquelle (602) zu einem ersten Zeitpunkt beschreibt, und wobei das vierte Filter (615) eine vierte Filtercharakteristik hat, die einer zweiten Charakteristik der zweiten Audioquelle (602) zu dem zweiten Zeitpunkt entspricht,
wobei die Prozessorstufe (120) ferner ausgebildet ist, um unter Verwendung der Frequenzbereichs-Fensterfunktion (620) das erste gefensterte Signal zu berechnen, um unter Verwendung der weiteren Frequenzbereichs-Fensterfunktion (621) das weitere gefensterte Signal zu ermitteln, um unter Verwendung einer dritten Frequenzbereichs-Fensterfunktion (622) ein drittes gefenstertes Signal zu ermitteln, und um unter Verwendung einer vierten Frequenzbereichs-Fensterfunktion (623) ein viertes gefenstertes Signal zu ermitteln, und
um die gefensterten Signale zu kombinieren (626, 627, 629), um das Kombinationssignal zu erhalten, und
wobei der Umwandler (630) ausgebildet ist, um das Kombinationssignal in den Zeitbereich umzuwandeln.
Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Prozessorstufe (120) ausgebildet ist, um die Frequenzbereichs-Fensterfunktion (124a) zu verwenden, die im Zeitbereich eine Ausblendungsfunktion (w₍₁₎) ist, und um die weitere Frequenzbereichs-Fensterfunktion (124b) zu verwenden, die im Zeitbereich eine Einblendungsfunktion (w₍₂₎) ist,
bei der die Prozessorstufe (120) ausgebildet ist, um die Frequenzbereichs-Fensterfunktion (124a) und die weitere Frequenzbereichs-Fensterfunktion (124b) zu verwenden, die eine konstante-Verstärkungs-Eigenschaft zumindest approximieren, wobei eine Summe der ersten Frequenzbereichs-Fensterfunktion (124a) und der weiteren Frequenzbereichs-Fensterfunktion (124b) zu jedem diskreten Zeitpunkt Eins ergibt bzw. Eins zumindest approximiert.
Vorrichtung nach Anspruch 1,
bei der die Prozessorstufe (120) ausgebildet ist, um als das Kombinationssignal (302) eine Differenz aus dem gefilterten Signal und dem weiteren gefilterten Signal zu bilden, und bei dem die Prozessorstufe (120) ausgebildet ist, um das gefensterte Kombinationssignal mit dem weiteren gefilterten Signal zu kombinieren (200), um ein kombiniertes Signal zu erhalten, und
bei dem der Umwandler (130) ausgebildet ist, um das kombinierte Signal oder ein Signal, das aus weiteren Signalen zusätzlich zu dem kombinierten Signal besteht, in den Zeitbereich umzuwandeln.
Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Prozessorstufe (120) ausgebildet ist, um die Frequenzbereichs-Fensterfunktion, die weitere Frequenzbereichs-Fensterfunktion oder noch weitere Frequenzbereichs-Fensterfunktionen zu verwenden, die eine Überblendfunktion oder eine Verstärkungsänderungsfunktion im Zeitbereich darstellen.
Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der der Umwandler (130) ausgebildet ist, um lediglich einen Anteil von diskreten Werten zu verwenden und einen anderen Anteil zu verwerfen, wobei der verworfene Anteil L-B diskrete Werte aufweist, wobei L eine Gesamtanzahl der diskreten Werte einer diskreten inversen Fourier-Transformation und B eine Blockgröße bzw. ein Blockvorschub eines partitionierten Faltungsalgorithmus ist, wobei eine zeitliche Länge der Frequenzbereichs-Fensterfunktion (124a, 124c), der weiteren Frequenzbereichs-Fensterfunktion (124b) oder von noch weiteren Frequenzbereichs-Fensterfunktionen gleich der Blockgröße oder einem Vielfachen der Blockgröße ist.
Vorrichtung nach einem der Ansprüche 1 bis 6,
bei der das Signal, das im Frequenzbereich vorliegt, ein Audiosignal einer Audioquelle (600) an einer ersten Position zu einem ersten Zeitpunkt und an einer zweiten Position zu einem zweiten Zeitpunkt ist,
bei dem ein weiteres Frequenzbereichs-Signal ein Audiosignal einer weiteren Audioquelle (602) an einer ersten Position zu einem ersten Zeitpunkt und an einer zweiten Position zu einem zweiten Zeitpunkt ist,
bei der die Prozessorstufe (120) ausgebildet ist, um für jedes Audiosignal die erste Filtercharakteristik (612, 614) und die zweite Filtercharakteristik (613, 615) zu verwenden, wobei die erste Filtercharakteristik (612, 614) eine HRTF-Funktion für die erste Position ist und die zweite Filtercharakteristik (613, 615) eine HRTF-Funktion für die zweite Position ist, und
wobei die Prozessorstufe (120) ausgebildet ist, um für jedes Audiosignal zwei Frequenzbereichs-Fensterfunktionen (620, 621, 622, 623) oder eine einzige Frequenzbereichs-Fensterfunktion (124c) zu verwenden, und
wobei die Prozessorstufe (120) ferner ausgebildet ist, um Signale im Frequenzbereich zu kombinieren (626, 627, 628, 629), und
wobei der Umwandler (130, 630) ausgebildet ist, um ein kombiniertes Signal in den Zeitbereich umzuwandeln, um ein Ohrhörersignal (713) zu erhalten.
Vorrichtung nach einem der Ansprüche 1 bis 6,
bei der das Frequenzbereichs-Signal ein Audiosignal ist, bei der die erste Filtercharakteristik ein Filter für einen bestimmten Schallwandler (Mikrofon oder Lautsprecher) in einem Schallwandlerarray ist, welches geeignet ist, um in Kombination mit den anderen Schallwandlern des Schallwandlerarrays eine gewünschte erste Richtcharakteristik zu einem ersten Zeitpunkt auszubilden und die zweite Filtercharakteristik ein Filter für einen bestimmten Schallwandler (Mikrofon oder Lautsprecher) in einem Schallwandlerarray ist, welche geeignet ist, um in Kombination mit den anderen Schallwandlern des Schallwandlerarrays eine zweite gewünschte Richtcharakteristik zu einem zweiten Zeitpunkt auszubilden, so dass durch ein Überblenden unter Verwendung der Frequenzbereichs-Fensterfunktion oder einer weiteren Frequenzbereichs-Fensterfunktion die Richtcharakteristik zeitlich verändert wird.
Verfahren zum Verarbeiten eines Signals, mit folgenden Schritten:
Filtern des Signals, das in einer diskreten Frequenzbereichs-Darstellung vorliegt, mit einem Filter (122) mit einer Filtercharakteristik durch Multiplikation mit einer Übertragungsfunktion, um ein gefiltertes Signal (123) zu erhalten,

Beaufschlagen des gefilterten Signals (123) oder eines von dem gefilterten Signal abgeleiteten Signals (302) mit einer Frequenzbereichs-Fensterfunktion (124, 124a, 124b, 124c), um ein gefenstertes Signal zu erhalten, wobei das Beaufschlagen Multiplikationen von Frequenzbereichs-Fensterkoeffizienten der Frequenzbereichs-Fensterfunktion mit Spektralwerten des gefilterten Signals (123) oder des von dem gefilterten Signal abgeleiteten Signals (302), um Multiplikationsergebnisse zu erhalten, und eine Aufsummation der Multiplikationsergebnisse aufweist; und

Umwandeln (130) des gefensterten Signals (125) oder eines unter Verwendung des gefensterten Signals ermittelten Signals in einen Zeitbereich, um das verarbeitete Signal zu erhalten,

wobei das Signal, das in der diskreten Frequenzbereichs-Darstellung vorliegt, unter Verwendung eines weiteren Filters (122b) mit einer weiteren Filtercharakteristik gefiltert wird, um ein weiteres gefiltertes Signal zu erhalten, wobei das weitere gefilterte Signal mit einer weiteren Frequenzbereichs-Fensterfunktion (124b) beaufschlagt wird, um ein weiteres gefenstertes Signal zu erhalten, und wobei das gefensterte Signal und das weitere gefensterte Signal kombiniert werden (200), um ein Kombinationssignal zu erhalten, oder

wobei das Signal, das in der diskreten Frequenzbereichs-Darstellung vorliegt, unter Verwendung eines weiteren Filters (122b) mit einer weiteren Filtercharakteristik gefiltert wird, um ein weiteres gefiltertes Signal zu erhalten, wobei ein Kombinationssignal (302) aus dem gefilterten Signal und dem weiteren gefilterten Signal gebildet wird (300), wobei das von dem gefilterten Signal abgeleitete Signal (302) das Kombinationssignal (302) darstellt, wobei das Kombinationssignal mit der Frequenzbereichs-Fensterfunktion (124c) beaufschlagt wird, um ein gefenstertes Kombinationssignal zu erhalten, und wobei das gefensterte Kombinationssignal mit dem gefilterten Signal oder dem weiteren gefilterten Signal kombiniert wird (200).
Vorrichtung zum Verarbeiten eines zeitdiskreten Signals, mit folgenden Merkmalen:
einer Prozessorstufe (120), die ausgebildet ist,

um das Signal, das in einer diskreten Frequenzbereichs-Darstellung vorliegt, mit einem Filter (122) mit einer Filtercharakteristik zu filtern, um ein gefiltertes Signal (123) zu erhalten,

um das gefilterte Signal (123) mit einer Frequenzbereichs-Fensterfunktion (124, 124a, 124b, 124c) zu beaufschlagen, um ein gefenstertes Signal zu erhalten, wobei das Beaufschlagen Multiplikationen von Frequenzbereichs-Fensterkoeffizienten der Frequenzbereichs-Fensterfunktion mit Spektralwerten des gefilterten Signals (123), um Multiplikationsergebnisse zu erhalten, und eine Aufsummation der Multiplikationsergebnisse aufweist; und

einem Umwandler (130) zum Umwandeln des gefensterten Signals (125) oder eines unter Verwendung des gefensterten Signals ermittelten Signals in einen Zeitbereich, um das verarbeitete Signal zu erhalten,

wobei die Frequenzbereichs-Fensterfunktion eine zeitlich ansteigende oder zeitlich abfallende Verstärkungseigenschaft hat, und wobei die Prozessorstufe (120) ferner ausgebildet ist, um das gefensterte Signal und das gefilterte Signal mittels eines Kombinierers zu kombinieren, wobei der Kombinierer folgende Merkmale aufweist: einen ersten Multiplizierer (503) zum Multiplizieren des gefensterten Signals mit einem ersten Wert (e-s); einen zweiten Multiplizierer (504) zum Multiplizieren des gefilterten Signals mit einem zweiten Wert (s); und einen Summierer (500) zum Summieren der Multiplizierer-Ausgangssignale.
Vorrichtung nach Anspruch 15, bei der der erste Wert eine Differenz aus einem Verstärkungswert der Frequenzbereichs-Fensterfunktion am Beginn eines Signal-blocks und einem Verstärkungswert der Frequenzbereichs-Fensterfunktion an einem Ende des Signalblocks ist, und bei der der zweite Wert der Verstärkungswert der Frequenzbereichs-Fensterfunktion zu Beginn des Signalblocks ist.
Verfahren zum Verarbeiten eines Signals, mit folgenden Schritten:
Filtern des Signals, das in einer diskreten Frequenzbereichs-Darstellung vorliegt, mit einem Filter (122) mit einer Filtercharakteristik, um ein gefiltertes Signal (123) zu erhalten,

Beaufschlagen des gefilterten Signals (123) mit einer Frequenzbereichs-Fensterfunktion (124, 124a, 124b, 124c), um ein gefenstertes Signal zu erhalten, wobei das Beaufschlagen Multiplikationen von Frequenzbereichs-Fensterkoeffizienten der Frequenzbereichs-Fensterfunktion mit Spektralwerten des gefilterten Signals (123), um Multiplikationsergebnisse zu erhalten, und eine Aufsummation der Multiplikationsergebnisse aufweist; und

Umwandeln (130) des gefensterten Signals (125) oder eines unter Verwendung des gefensterten Signals ermittelten Signals in einen Zeitbereich, um das verarbeitete Signal zu erhalten,

wobei die Frequenzbereichs-Fensterfunktion eine zeitlich ansteigende oder zeitlich abfallende Verstärkungseigenschaft hat, und wobei das Verfahren ferner folgenden Schritt aufweist: Kombinieren des gefensterten Signals und des gefilterten Signals mittels eines Kombinierers, wobei der Kombinierer folgende Merkmale aufweist: einen ersten Multiplizierer (503) zum Multiplizieren des gefensterten Signals mit einem ersten Wert (e-s); einen zweiten Multiplizierer (504) zum Multiplizieren des gefilterten Signals mit einem zweiten Wert (s); und einen Summierer (500) zum Summieren der Multiplizierer-Ausgangssignale.
Computerprogramm mit einem Programmcode zum Ausführen des Verfahrens nach Anspruch 14 oder 17, wenn der Programmcode auf einem Computer oder Prozessor abläuft.