DE102022209004B3

DE102022209004B3 - Vorrichtung und Verfahren zum Verarbeiten eines Audiosignals

Info

Publication number: DE102022209004B3
Application number: DE102022209004.7A
Authority: DE
Inventors: Annika Briegleb; Mhd Modar Halimeh; Walter Kellermann
Original assignee: VOICE INTER CONNECT GmbH; Friedrich Alexander Univeritaet Erlangen Nuernberg FAU
Current assignee: Voice Inter Connect De GmbH
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2024-01-04
Anticipated expiration: 2042-08-31

Abstract

Eine Vorrichtung zum Verarbeiten eines Audiosignals, um ein gefiltertes Signal zu erhalten, ist konfiguriert zum Bestimmen des gefilterten Signals durch Transformieren eines zeitlichen Segments des Audiosignals in einen Spektralbereich, um ein komplexwertiges transformiertes Segment zu erhalten. Ferner ist die Vorrichtung konfiguriert zum Filtern des transformierten Segments unter Verwendung einer komplexwertigen Maske, wobei die Vorrichtung konfiguriert ist zum Bestimmen der komplexwertigen Maske durch ein Bestimmen einer reellwertigen Maske auf der Basis des transformierten Segments unter Verwendung eines ersten neuronalen Netzwerks und durch ein Bestimmen der komplexwertigen Maske unter Verwendung eines zweiten neuronalen Netzwerks unter Verwendung der reellwertigen Maske und des komplexwertigen transformierten Segments als Eingaben für das zweite neuronale Netzwerk.

Description

Die vorliegende Erfindung bezieht sich auf das Gebiet der Verarbeitung von Audiosignalen, genauer gesagt auf das Gebiet der Filterung geräuschbehafteter (bzw. rauschbehafteter) Audiosignale, um ein Audiosignal mit einem verbesserten Signal-Rausch-Verhältnis (SNR - Signal-to-Noise Ratio) zu erhalten. Einige Ausführungsbeispiele der vorliegenden Erfindung beziehen sich auf die Verarbeitung geräuschbehafteter Sprachsignale, insbesondere auf dem Gebiet der Telekommunikation, zum Beispiel in Nutzfahrzeugen oder anderen industriellen Anwendungen. Einige Ausführungsbeispiele der vorliegenden Erfindung beziehen sich auf die Nachfilterung zur Sprachverbesserung auf Basis des maschinellen Lernens.
Audiosignale, die mit einem Mikrofon oder einem Mikrofonarray aufgezeichnet werden, können unerwünschte Störgeräusche aufweisen, die das eigentliche Signal von Interesse, das aufgezeichnet werden soll, beeinträchtigen. So kann zum Beispiel ein Sprachsignal, das beim Telefonieren - insbesondere beim Freisprechen - aufgezeichnet und übertragen werden soll, von Hintergrundgeräuschen beeinträchtigt werden. In solchen Szenarien kann sich die Nachfilterung auf den Prozess der Bereinigung unerwünschter Hintergrundgeräusche aus einem mit einem Mikrofon aufgezeichneten Signal beziehen.
Für die Nachbearbeitung können Deep-Learning-Ansätze zur Sprachverbesserung verwendet werden, insbesondere Deep Neural Networks (DNNs bzw. tiefe neuronale Netzwerke). Es sind verschiedene Ansätze für die Unterdrückung von Einkanal-Rauschen mit DNNs bekannt, einschließlich verschiedener Verlustfunktionen („Loss Functions“) und Trainingszielkriterien, die typischerweise für das Training eines DNN verwendet werden. Die wesentliche Unterscheidung der Verfahren erfolgt in Verfahren im Zeitbereich und Verfahren im Kurzzeit-Fourier-Transformation-(STFT - Short-Time-Fourier-Transform)-Bereich. Letztere werden weiter unterteilt in reellwertige maskenbasierte und komplexwertige Verfahren. Zusätzlich gibt es zweistufige Ansätze. Diese Kategorien unterscheiden sich hauptsächlich in der Domäne ihrer Berechnung, in der Methode zur Schätzung des sauberen Sprachsignals oder in der Netzwerkarchitektur.
Bezüglich Trainingszielkriterien und Verlustfunktionen gibt es im Allgemeinen mehrere Möglichkeiten, DNNs für die Sprachverbesserung einzusetzen. So kann entweder eine Spektralmaske geschätzt werden, die bei Anwendung auf das Eingangsspektrum unerwünschte Signalkomponenten unterdrückt, oder das saubere Signal kann direkt geschätzt werden, entweder im STFT-Bereich oder Zeitbereich. Die jeweiligen Verlustfunktionen spiegeln diese unterschiedlichen Ansätze wider, indem sie ein geeignetes Ziel wählen, d.h. entweder eine ideale Spektralmaske, ein ideales Spektrum oder ein ideales Zeitbereichssignal. Viele in der Literatur vorgeschlagene Netzwerke zur Sprachverbesserung verwenden das geräuschbehaftete Betragsspektrum und schätzen das saubere Signal im STFT-Bereich. Somit scheint die Verwendung einer Verlustfunktion im STFT-Bereich naheliegend. Aber selbst wenn die Verbesserung im STFT-Bereich durchgeführt wird, hat es sich als vorteilhaft erwiesen, eine Verlustfunktion im Zeitbereich zu verwenden, z. B. [14]. Die Zeitbereich-Verlustfunktion enthält die Phaseninformation des bereinigten Signals, indem sie die inverse STFT (ISTFT) als Teil der Verarbeitungspipeline einbezieht. Auf diese Weise kann der Optimierungsprozess während des Trainings die Phaseninformation implizit berücksichtigen. Darüber hinaus kann die Zeitbereich-Verlustfunktion Herausforderungen bei der Rekonstruktion des Zeitbereichssignals widerspiegeln, wie z. B. die STFT-Konsistenzbeschränkung, und somit das Endergebnis im Vergleich zu einer STFT-(betrags-)basierten Verlustfunktion verbessern.
Eine wichtige Gestaltungsentscheidung bei der Entwicklung eines Algorithmus zur Sprachverbesserung ist die Frage, ob Modifikationen im Zeitbereich oder im STFT-Bereich vorgenommen werden sollen. Letzteres ist zwar häufiger der Fall (siehe oben), doch es gibt auch einige vielversprechende Ansätze, die direkt im Zeitbereich arbeiten. Die Autoren stellen in [26] und [25] TasNet bzw. Conv-TasNet vor - eine Netzwerkstruktur zur Sprechertrennung, die eine Signaltransformation implizit erlernt. Ihre Anwendbarkeit bei der Rauschunterdrückung ist bisher unbekannt. Außerdem haben Wavenet [29] und die zugehörige Erweiterung zur Sprachverbesserung [34] beeindruckende Ergebnisse bei der Erzeugung natürlicher Sprache erzielt.
Während maskenbasierte STFT-Bereich-Verfahren das vorhandene Signal modifizieren, vermeiden einige Zeitbereich-Verfahren, z. B. [34], jede Form der Transformation bei der Verarbeitung und sind daher generativ in dem Sinne, dass sie ein neues Signal auf der Basis der Eingabe vorhersagen, anstatt die Eingabe zu modifizieren. Dies könnte zu unerwünschtem Verhalten des neuen Signals führen [34]. Daher werden im gegebenen Kontext Zeitbereich-Verfahren zur Geräuschunterdrückung (bzw. Rauschunterdrückung) nicht weiter berücksichtigt.
Im Folgenden werden Verfahren betrachtet, die eine Signalverbesserung im STFT-Bereich durchführen. Wie oben beschrieben, kann der Signalverbesserungsalgorithmus entweder eine Maske oder das saubere STFT-Spektrum direkt schätzen. Unter den maskenbasierten Ansätzen gibt es reellwertige maskenbasierte Verfahren und komplexwertige Verfahren.
Viele DNN-basierte Ansätze zur Sprachverbesserung verwenden das Betragsspektrum des geräuschbehafteten Signals, um eine Maske für die Sprachverbesserung zu schätzen. Der aktuelle Stand der Technik für reellwertige maskenbasierte Verfahren wird durch den in [52] vorgestellten Ansatz bestimmt, der als Referenz („Baseline“) für die 2020 Deep Noise Suppression (DNS) Challenge [35] verwendet wurde. Die Architektur weist drei mit Gate versehene rekurrente Einheiten (GRUs - Gated Recurrent Units) auf, gefolgt von einer vollständig verbundenen Schicht (FC-Schicht, FC = Fully Connected) und einer Sigmoidaktivierungsfunktion. Die geräuschbehaftete Phase wird zusammen mit dem maskierten Betrag des Eingangssignals verwendet, um das Zeitbereichssignal zu rekonstruieren. Das Netzwerk wird mit der Zwei-Komponenten-Verlustfunktion aus der Gleichung (8) trainiert. Die Phasenverschiebungsinformation aufgrund der Rauschkomponente kann, wie in [8] beschrieben, durch die phasensensitive Filter-Zielmaske in eine reellwertige Maske einfließen.
Lange Zeit hat sich die Forschung auf die Verbesserung des Betragsspektrums eines geräuschbehafteten Mischsignals konzentriert, da der Betrag für den Höreindruck wichtiger ist als die Phase. Insbesondere in Szenarien mit sehr geringem SNR ist die Korrektur des Phasenterms jedoch tatsächlich notwendig [10, 20]. Aus diesem Grund wurden in letzter Zeit komplexwertige Masken verwendet, um die gewünschten Signalkomponenten zu schätzen, mit beachtlichen Ergebnissen bei der Geräuschfilterung (bzw. Rauschfilterung). Zu diesem Zweck wurden neuronale Netzwerke entwickelt, die komplexwertige Gewichtungen verwenden, d.h. komplexwertige neuronale Netzwerke.
Für die Verbesserung komplexwertiger Sprachsignale im STFT-Bereich können zwei Darstellungen komplexer Signale verwendet werden. In [51] wird festgestellt, dass bei Betrachtung der kartesischen Darstellung des komplexwertigen STFT-Signals mit seinem Real- und Imaginärteil eine Struktur in beiden Komponenten identifiziert werden kann. Normalerweise wird ein Sprachsignal jedoch in Betrag und Phase aufgeteilt, d.h. in eine polare Darstellung, wie dies bei reellwertigen Maskierungsansätzen der Fall ist. Da die Phasenkomponente zumindest ohne weitere Modifikationen in der polaren Darstellung nur unzureichend strukturiert ist [51], stellt die direkte Schätzung einer sauberen Phasenkomponente eine Herausforderung dar. Unter den in der Literatur vorgeschlagenen Verfahren zur komplexwertigen Sprachverbesserung ist vor allem der Beitrag von Trabelsi et al. [43] zu nennen, der Definitionen komplexwertiger Varianten wichtiger Bausteine für DNNs bereitstellt. Ein bahnbrechender Beitrag zur komplexwertigen Verarbeitung mit DNNs ist Deep Complex U-net [6], das eine Faltungs-Encoder-Decoder-Struktur verwendet und sowohl den Real- als auch den Imaginärteil des Eingangsspektrums verarbeitet. Die Signalverbesserung ist dann das Ergebnis einer Betragsmaske und eines Phasenkorrekturterms. Um Phasenfehler zu berücksichtigen, wird dieses Netzwerk mit einer zeitbereichsgewichteten Signal-zu-Verzerrungs-Leistungsverhältnis-(SDR - Signal-to-Distortion Power Ratio)-Verlustfunktion trainiert. Ein weiteres Verfahren zur komplexwertigen Sprachverbesserung ist das in [15] vorgeschlagene Deep Complex Convolution Recurrent Network (bzw. tiefes komplexes rekurrentes Faltungsnetzwerk), das [6] durch Hinzufügen einer komplexwertigen LSTM-Schicht (LSTM - Long Short-Term Memory bzw. langes Kurzzeitgedächtnis) am Flaschenhals („Bottle Neck“) zwischen dem Faltungsencoder und -decoder erweitert. Dieses Netzwerk weist 3,7 Mio. Parameter auf und wird mit einer skaleninvarianten Signal-Rausch-Verhältnis-(SI-SNR)-Verlustfunktion trainiert. Weitere Arbeiten zu komplexwertigen neuronalen Netzwerken für die Sprachverbesserung umfassen die Einführung einer komplexwertigen LSTM-Schicht zur Schätzung einer komplexwertigen Verhältnismaske [11], eine LSTM-Schicht zur komplexwertigen Spektrumsapproximation [31], die Erweiterung der parametrischen rektifizierenden linearen Einheit (ReLU - Rectified Linear Unit) zu einer komplexwertigen Version [30] und eine Verfeinerung der in [43] vorgeschlagenen komplexwertigen Batch-Normalisierung durch [30]. In [12] stellen Halimeh et al. ein Netzwerk mit komplexwertigen Gewichtungen zur Nachfilterung für die akustische Echokompensation (AEC - Acoustic Echo Cancellation) vor. Das Netzwerk besteht aus einer komplexwertigen Encoder-Decoder-Struktur mit einer komplexwertigen GRU am Flaschenhals und schätzt eine komplexwertige Maske mit dem Ziel, Restechos und -störgeräusche am Ausgang der AEC-Einheit zu unterdrücken. Die Idee baut auf [6] und [15] auf und erweitert sie auf das Problem der Echounterdrückung.
Weitere Ansätze nutzen zweistufige Verfahren, bei denen zwei neuronale Netzwerkstrukturen kombiniert werden. Dabei gibt es mehrere Merkmale, auf die man sich konzentrieren kann. In [50] stellen die Autoren das Dual-Signal-Transformations-LSTM-Netzwerk (DTLN) vor, das ein reellwertiges Netzwerk zur Schätzung der Spektralmaske mit einem Netzwerk zur Maskenschätzung kombiniert, das an einer erlernten Transformation des Signals arbeitet. Diese Transformation wird in Form einer 1-D-Faltungsschicht erlernt, die von [25] inspiriert ist und implizit Phaseninformationen in die Verarbeitung einbezieht. Ein etwas anderer Ansatz wird in [40] verfolgt, wo zwei auf unterschiedlichen Verlustfunktionen trainierte Netzwerke kombiniert werden. Zunächst wird ein Netzwerk zur Geräuschunterdrückung auf einer komplexwertigen Maskiertes-Spektrum-Approximations-Verlustfunktion trainiert, die einen Term für den maskierten Realteil und einen Term für den maskierten Imaginärteil der Eingabe umfasst. Anschließend wird ein Netzwerk zur Sprachwiederherstellung auf einer komplexwertigen Maskiertes-Spektrum-Approximations-Verlustfunktion trainiert, um das saubere Sprachspektrum zu schätzen. Auf diese Weise kann jede Verlustfunktion zum Endergebnis beitragen. In [41] ist eine gründliche Analyse des Systems bereitgestellt. Alternativ dazu wird in [18] eine zweistufiges Verfahren erreicht, indem zwischen Netzwerken im Zeitbereich (vgl. TasNet [26]) und im STFT-Bereich (vgl. U-Net [36]) gewechselt wird, um die Vorteile beider Bereiche zu kombinieren. Schließlich wird in [21] eine multikriterielle Kostenfunktion für das Training eines neuronalen Netzwerks vorgeschlagen, die darauf abzielt, eine komplexwertige Maske mit einem großen Dynamikbereich zu schätzen.
Weitere Ansätze zur Einkanal-Geräuschunterdrückung mit DNNs werden in [2, 4, 7, 9, 19, 23, 32, 38, 44-48] vorgestellt.
In dem Artikel „YU, Guochen: A Two-stage Complex Network Using Cycle-consistent Generative Adversarial Networks for Speech Enhancement. In: Speech Communication, Vol. 134, 2021 , S. 42-54. URL: https://arxiv.org/pdf/2109.02011“ ist ein zweistufiges Rauschunterdrückungssystem beschrieben, das ein zykluskonsistentes generatives kontradiktorisches Netzwerk (Cycle-consistent generative adversarial network - CycleGAN) - basiertes Verstärkungsnetzwerk mit einem darauf folgenden komplexen spektralen Verfeinerungsnetzwerk kombiniert.
Es wird darauf hingewiesen, dass die Informationen im obigen Abschnitt nur dem besseren Verständnis des Hintergrunds der Erfindung dienen und daher Informationen enthalten können, die nicht zum Stand der Technik gehören und einem Fachmann bereits bekannt sind. Es wird ferner darauf hingewiesen, dass Ausführungsbeispiele der vorliegenden Erfindung einzelne der oben erwähnten Konzepte oder Teile davon implementieren können.
Für Audioverarbeitungsanwendungen, z. B. wie oben beschrieben, kann ein verbessertes Verhältnis zwischen einer guten Geräuschunterdrückung (bzw. Rauschunterdrückung) und einem geringen Ressourcenbedarf im Hinblick auf Rechenleistung und/oder Speicher erforderlich sein.
Ausführungsbeispiele der vorliegenden Erfindung beruhen auf der Idee, ein reellwertiges neuronales Netzwerk mit einem komplexwertigen neuronalen Netzwerk zu kombinieren, um eine komplexwertige Maske zur Filterung eines Audiosignals in einem Spektralbereich zu schätzen. Zu diesem Zweck wird eine reellwertige Maske unter Verwendung des reellwertigen neuronalen Netzwerks zusätzlich zu einer Repräsentation des Audiosignals im Transformationsbereich als Eingabe für das komplexwertige neuronale Netzwerk bestimmt. Durch die Kombination des reellwertigen und des komplexwertigen neuronalen Netzwerks können die Vorteile beider Arten von Netzwerk kombiniert werden. Insbesondere ermöglichen reellwertige neuronale Netzwerke eine gute Geräuschunterdrückung, während komplexwertige neuronale Netzwerke eine gute Erhaltung des gewünschten Sprachsignals erlauben. Insbesondere haben die Erfinder festgestellt, dass die Verwendung der reellwertigen Maske als Eingabe für das komplexwertige neuronale Netzwerk, also die Versorgung des komplexwertigen neuronalen Netzwerks mit zusätzlichen Informationen, für eine relativ starke Verbesserung des gefilterten Signals bei relativ geringen Kosten für zusätzliche Rechenressourcen sorgen kann.
Ausführungsbeispiele der vorliegenden Erfindung stellen eine Vorrichtung zur Verarbeitung eines Audiosignals bereit, um ein gefiltertes Signal zu erhalten. Die Vorrichtung ist konfiguriert zum Bestimmen des gefilterten Signals durch Transformieren eines zeitlichen Segments des Audiosignals in einen Spektralbereich, z. B. den STFT-Bereich, um ein komplexwertiges transformiertes Segment, z. B. ein STFT-Bereichssignal des Audiosignals, zu erhalten. Die Vorrichtung ist ferner konfiguriert zum Filtern des transformierten Segments unter Verwendung einer komplexwertigen Maske. Die Vorrichtung ist konfiguriert zum Bestimmen der komplexwertigen Maske durch Bestimmen einer reellwertigen Maske auf der Basis des transformierten Segments unter Verwendung eines ersten neuronalen Netzwerks. Ferner ist die Vorrichtung konfiguriert zum Bestimmen der komplexwertigen Maske unter Verwendung eines zweiten neuronalen Netzwerks durch Verwenden der reellwertigen Maske und des komplexwertigen transformierten Segments als Eingaben für das zweite neuronale Netzwerk.
Weitere Ausführungsbeispiele der vorliegenden Erfindung stellen ein entsprechendes Verfahren zur Verarbeitung eines Audiosignals bereit, um ein gefiltertes Signal zu erhalten, wobei das Verfahren ein Bestimmen des gefilterten Signals durch Transformieren eines zeitlichen Segments des Audiosignals in einen Spektralbereich umfasst, um ein komplexwertiges transformiertes Segment zu erhalten. Das Verfahren umfasst ferner ein Filtern des transformierten Segments unter Verwendung einer komplexwertigen Maske. Weiterhin umfasst das Verfahren ein Bestimmen der komplexwertigen Maske durch Bestimmen einer reellwertigen Maske auf Basis des transformierten Segments unter Verwendung eines ersten neuronalen Netzwerks und durch Bestimmen der komplexwertigen Maske unter Verwendung eines zweiten neuronalen Netzwerks unter Verwendung der reellwertigen Maske und des komplexwertigen transformierten Segments als Eingaben für das zweite neuronale Netzwerk.
Vorteilhafte Aspekte der vorliegenden Erfindung sind Gegenstand der abhängigen Ansprüche. Bevorzugte Ausführungsbeispiele der vorliegenden Anmeldung werden im Folgenden unter Bezugnahme auf die Figuren beschrieben.

1 zeigt ein Blockdiagramm für eine Vorrichtung und ein Verfahren zur Verarbeitung eines Audiosignals gemäß einem Ausführungsbeispiel,
2 zeigt ein Implementierungsschema für die Bestimmung der komplexwertigen Maske gemäß einem Ausführungsbeispiel,
3 zeigt eine komplexwertige Faltungsschicht („Convolutional Layer“) gemäß einem Ausführungsbeispiel,
4 zeigt eine reellwertige Faltungsschicht gemäß einem Ausführungsbeispiel,
5 zeigt eine vollständig verbundene Schicht (FC-Schicht bzw. Fully-Connected-Schicht) gemäß einem Ausführungsbeispiel,
6 zeigt ein Beispiel für ein Computersystem.

Ausführungsbeispiele der vorliegenden Erfindung werden nun unter Bezugnahme auf die beigefügten Zeichnungen näher beschrieben, wobei gleiche oder ähnliche Elemente oder Elemente mit gleicher oder ähnlicher Funktionalität mit den gleichen Bezugszeichen versehen oder mit dem gleichen Namen gekennzeichnet sind. In der folgenden Beschreibung wird eine Mehrzahl von Details aufgeführt, um eine gründliche Erläuterung der Ausführungsbeispiele der Erfindung zu ermöglichen. Einem Fachmann wird jedoch klar sein, dass andere Ausführungsbeispiele auch ohne diese spezifischen Details realisiert werden können. Darüber hinaus können Merkmale der verschiedenen hier beschriebenen Ausführungsbeispiele miteinander kombiniert werden, sofern dies nicht ausdrücklich anders angegeben ist.
1 zeigt ein Blockdiagramm einer Vorrichtung 10 zum Verarbeiten eines Audiosignals 12, z. B. eines digitalen Audiosignals, gemäß einem Ausführungsbeispiel. Die Vorrichtung 10 ist konfiguriert zum Erhalten eines gefilterten Signals 82 auf der Basis des Audiosignals 12. Zu diesem Zweck setzt die Vorrichtung 10 ein zeitliches Segment 14 des Audiosignals 12 gegenüber einer Transformation 20, z. B. einer Fourier-Transformation, von einem Zeitbereich in einen Spektralbereich aus, um ein transformiertes Segment 24 in einer komplexwertigen Darstellung zu erhalten. Die Vorrichtung 10 verwendet ferner ein erstes neuronales Netzwerk 30 zum Bestimmen einer reellwertigen Maske 34 auf der Basis des transformierten Segments 24. Die Vorrichtung 10 verwendet sowohl die reellwertige Maske 34 als auch das komplexwertige transformierte Segment 24 als Eingaben für ein zweites neuronales Netzwerk 40, um eine komplexwertige Maske 44 zu bestimmen. Die Vorrichtung 10 verwendet die komplexwertige Maske 44, die unter Verwendung des zweiten neuronalen Netzwerks 40 ermittelt wird, zum Filtern 80 des transformierten Segments 24. Die Vorrichtung 10 bestimmt, z. B. in Block 90, das gefilterte Signal 82 auf der Basis des gefilterten Transformationssegments 84, das durch das Filtern 80 des transformierten Segments bestimmt wurde.
Es wird darauf hingewiesen, dass das Blockdiagramm in 1 auch als Veranschaulichung eines Verfahrens zum Verarbeiten des Audiosignals 12 zu verstehen ist und dass alle hier beschriebenen Details in Bezug auf die Vorrichtung 10 auch gleichermaßen für das Verfahren gelten können. Neuronales Netzwerk kann als NN abgekürzt werden.
Dementsprechend können Ausführungsbeispiele der vorliegenden Erfindung auf dem Konzept der Hintereinanderschaltung (bzw. der Stapelung) mehrerer Netzwerke beruhen, insbesondere eines reellwertigen neuronalen Netzwerks und eines komplexwertigen neuronalen Netzwerks, und insbesondere auf der Verwendung eines komplexwertigen neuronalen Netzwerks zur Maskenschätzung. Ausführungsbeispiele der vorliegenden Erfindung können zum Beispiel für die Einkanal-Geräuschunterdrückung bei der Telekommunikation in Nutzfahrzeugen eingesetzt werden. Die akustische Umgebung in einem Nutzfahrzeug wird durch die Betriebsgeräusche des Fahrzeugs bestimmt, die aufgrund der Motoren eine harmonische Struktur aufweisen und zu einer Telekommunikation mit niedriger SNR-Charakteristik in diesen Szenarien führen können. Das Konzept ermöglicht es, ein gutes SNR des gefilterten Signals auf einer ressourcenbeschränkten Plattform zu erreichen, d.h. mit einer relativ geringen Anzahl von Parametern des ersten und zweiten neuronalen Netzwerks, was zu einer kompakten und recheneffizienten Architektur führt. Insbesondere komplexwertige Maskierungsansätze sind sehr vielversprechend für die Sprachverbesserung, vor allem in Szenarien mit niedrigem SNR-Wert. Außerdem zeigt die offenbarte Struktur eine schnelle Konvergenz beim Training, so dass sie mit einem begrenzten Datensatz trainiert werden kann. Daher ist sie vor allem für Anwendungen geeignet, für die nur relativ kleine Trainingsdatensätze zur Verfügung stehen.
Die Vorrichtung 10 ist zum Beispiel konfiguriert zum Bestimmen des gefilterten Signals 82 auf der Basis einer Mehrzahl von zeitlichen Segmenten des Audiosignals, wobei die Mehrzahl der zeitlichen Segmente das zeitliche Segment 14 umfasst. Die zeitlichen Segmente können überlappend oder nicht überlappend sein. Die Vorrichtung 10 kann zum Beispiel jedes der zeitlichen Segmente so verarbeiten, wie in Bezug auf das zeitliche Segment 14 beschrieben ist, d.h. jedes der zeitlichen Segmente dem Filtern 80 zu unterziehen, wobei eine entsprechende komplexwertige Maske verwendet wird, die individuell für das jeweilige zeitliche Segment so bestimmt wird, wie in Bezug auf das zeitliche Segment 14 beschrieben ist. Es ist jedoch zu beachten, dass die einzelnen Masken, die für die zeitlichen Segmente bestimmt werden, voneinander abhängig sein können, wenn es sich um die Berücksichtigung einer zeitlichen Abhängigkeit zwischen den zeitlichen Segmenten handelt. Wie weiter unten erläutert wird, kann die zeitliche Abhängigkeit durch rekurrente Schichten in dem ersten und/oder zweiten neuronalen Netzwerk (NN) berücksichtigt werden. In Block 90 kann das gefilterte Signal auf der Basis der Mehrzahl von zeitlichen Segmenten bestimmt werden.
So kann die Vorrichtung 10 beispielsweise in Block 90 das gefilterte transformierte Segment 84 oder jedes der gefilterten transformierten Segmente, die basierend auf der Mehrzahl von zeitlichen Segmenten bestimmt werden, einer inversen Transformation vom Spektralbereich in den Zeitbereich unterziehen, um ein gefiltertes zeitliches Segment bzw. eine Mehrzahl gefilterter zeitlicher Segmente zu erhalten. Die Vorrichtung 10 kann das gefilterte Signal 82 auf der Basis der Mehrzahl von gefilterten zeitlichen Segmenten bestimmen, beispielsweise durch überlappendes oder nicht überlappendes Zusammenfügen der gefilterten zeitlichen Segmente, je nach den Anordnungen der anfänglichen zeitlichen Segmente. Mit anderen Worten kann die Vorrichtung 10 das Audiosignal 12 segmentweise im Spektralbereich oder im Frequenzbereich filtern. Dementsprechend kann die Transformation 20 der einzelnen zeitlichen Segmente als STFT durchgeführt werden.
Bei dem Audiosignal kann es sich um ein aufgezeichnetes und abgetastetes (bzw. gesampeltes) Signal handeln, das ein rauschbehaftetes Sprachsignal enthält. Mit anderen Worten kann das Audiosignal ein Zielsignal, z. B. ein Sprachsignal, enthalten, das mit einem Geräuschsignal (bzw. Rauschsignal) überlagert ist. Das Verhältnis zwischen dem Pegel des Zielsignals und dem Pegel des Geräuschsignals innerhalb der Überlagerung kann als Signal-Rausch-Verhältnis (SNR - Signal-to-Noise Ratio) bezeichnet werden. Die Verarbeitung des Audiosignals 12 durch die Vorrichtung 10 dient dazu, das Signal-Rausch-Verhältnis zu erhöhen, z. B. durch Unterdrücken des Geräuschsignals, so dass das gefilterte Signal 82 im Vergleich zum Audiosignal 12 ein höheres Signal-Rausch-Verhältnis aufweist. Mit anderen Worten kann das Audiosignal 12 ein Zielsignal mit einem ersten Pegel und ein Geräuschsignal mit einem zweiten Pegel umfassen, und das gefilterte Signal kann das Zielsignal mit einem dritten Pegel und das Geräuschsignal mit einem vierten Pegel umfassen, wobei ein Verhältnis zwischen dem dritten und dem vierten Pegel höher ist als ein Verhältnis zwischen dem ersten und dem zweiten Pegel.
Das offenbarte Konzept zur Verarbeitung des Audiosignals 12 kann zum Beispiel zum Nachfiltern von aufgezeichneten Sprachsignalen eingesetzt werden, z. B. beim Telefonieren, insbesondere beim Freisprechen. Insbesondere kann das offenbarte Konzept dazu in der Lage sein, Hintergrundgeräusche mit einer hohen Amplitude, die nicht stationär sind und/oder zeitlich variieren, effektiv zu filtern. Beispielhafte Anwendungsszenarien sind das Nachfiltern für Freisprechtelefonie in Nutzfahrzeugen oder in einem akustischen Vorprozessor für einen medizinischen Sprachassistenten. Beim Nachfiltern werden unerwünschte Hintergrundgeräusche aus einem aufgezeichneten Signal entfernt, das z. B. mit einem einzelnen Mikrofon aufgezeichnet und mit einer Echokompensation verarbeitet wurde, um akustische Echos beim Freisprechen zu unterdrücken, oder das mit einem Mikrofonarray aufgezeichnet und mit einem Beamformer verarbeitet wurde, um den Zielsprecher zu extrahieren.
Im ersten Szenario stammen die Hintergrundgeräusche in den Mikrofonsignalen hauptsächlich vom Nutzfahrzeug und seiner Umgebung. In einem solchen Szenario kann das Rauschen eine starke Breitbandcharakteristik aufweisen und der Rauschpegel und das Spektrum können zeitlich variieren. Im Stand ähneln die Geräusche des Fahrzeugs weißem Rauschen, das Frequenzbänder betrifft, in denen auch signifikante Sprachkomponenten auftreten, was die Vorhersage und damit die Geräuschentfernung erschwert. Während der Fahrt, insbesondere beim Beschleunigen und Abbremsen, weist das Motorengeräusch eine dominante harmonische Struktur auf, die der von Sprachsignalen ähnelt, was die Aufgabe der Geräuschunterdrückung noch weiter erschwert.
Im zweiten Szenario werden die Mikrofonsignale durch den Raumhall in der medizinischen Umgebung oder im Labor, störende Stimmen anderer Sprecher, Lüftergeräusche von speziellen medizinischen Geräten und harmonische Signale von lebenserhaltenden Geräten stark beeinträchtigt.
Im Allgemeinen sind die Hintergrundgeräusche in beiden Anwendungsbereichen vergleichsweise laut und führen zu einem negativen SNR an den Mikrofonen. Dies kann durch die Anwendung eines Beamformers (bzw. Strahlformer) vor dem Nachfilter leicht verbessert werden.
So kann ein rauschbehaftetes Zeitbereichssignal, z. B. das Audiosignal 12, wie folgt ausgedrückt werden x = [x(1), ...,x(T)]^T. Das rauschbehaftete Signal x kann die Überlagerung des sauberen Sprachsignals (gewünschte Quelle) s und dem Hintergrundrauschen n sein, so dass zum Zeitindex t des abgetasteten Signals Folgendes gilt: $x (t) = s (t) + n (t) .$
Ein Sprachverbesserungsalgorithmus, wie er z. B. von der Vorrichtung 10 ausgeführt wird, kann das saubere Sprachsignal, d.h. das Sprachsignal s(t) ohne Geräuschsignal n(t), als ŝ(t) schätzen, das hier auch als s' bezeichnet wird, wobei die Differenz zwischen s und s' die Verzerrung zwischen dem ursprünglichen Sprachsignal und dem rekonstruierten bzw. geschätzten Signal s' darstellt.
Das zeitliche Segment 14 kann beispielsweise ein Zeitintervall des Audiosignals umfassen, das eine Dauer zwischen 5 ms und 200 ms oder eine Dauer zwischen 10 ms und 100 ms oder eine Dauer von 20 ms bis 60 ms, z. B. 20 ms oder 40 ms, aufweisen kann. Die Anzahl Abtastwerte im zeitlichen Segment 14 kann außerdem von der Abtastrate des Audiosignals abhängen.
Eine Erkenntnis der vorliegenden Erfindung ist, dass das Konzept der Verwendung einer reellwertigen Maske als Eingabe für die Bestimmung der komplexwertigen Maske einen guten Kompromiss zwischen einer kurzen Dauer der zeitlichen Segmente und einem guten Signal-Rausch-Verhältnis des gefilterten Signals ermöglicht. Das Konzept ermöglicht es also, mit kurzen zeitlichen Segmenten zu arbeiten und so für eine kurze Zeitverzögerung zwischen dem Audiosignal 12 und dem gefilterten Signal 82 zu sorgen.
Das Ergebnis der Transformation 20 ist das komplexwertig transformierte Segment 24, das eine Mehrzahl komplexwertiger Spektralkoeffizienten für die jeweiligen Spektralkomponenten oder Frequenz-Bins umfassen kann. Die Anzahl der Spektralkoeffizienten kann von der Anzahl der Abtastwerte des zeitlichen Segments 14 abhängen.
Für die Spektralanalyse und -verarbeitung wird zum Beispiel eine STFT mit einem Fenster der Länge N auf einen Block k von N Zeitbereichsabtastungen des Signals x(t) angewandt. Der resultierende Rahmen X_k ∈ ℂ^F×1, z. B. das transformierte Segment 24, erfasst F = N/2 + 1 eindeutige Frequenz-Bins.
Zum Beispiel bestimmt das erste NN 30 eine reellwertige geschätzte Spektralbetragsmaske 34 als M̂_m,k ∈ ℝ^F×1 und das zweite NN 40 bestimmt eine komplexwertige Spektralmaske 44 als M̂_c,k ∈ ℂ^F×1. Ein reellwertiger STFT-Bereichsansatz schätzt das saubere Spektrum als ${\hat{S}}_{k} = ({\hat{M}}_{m, k} ⊙ | X_{k} |) \cdot e^{j ∠ X_{k}},$
wobei ⊙ die elementweise Multiplikation bezeichnet und ∠X_k die Phasenkomponente des Signals X_k bezeichnet. Bei einem komplexwertigen Ansatz, wie er von der Vorrichtung 10 durchgeführt wird, z. B. im Schritt 80 zum Filtern des transformierten Segments 24, kann das geschätzte saubere Spektrum erhalten werden durch ${\hat{S}}_{k} = (| {\hat{M}}_{c, k} | ⊙ | X_{k} |) \cdot e^{j (∠ {\hat{M}}_{c, k} + ∠ X_{k})}$
Aus Gründen der Lesbarkeit wird der Blockzeitindex k wenn möglich weggelassen.
Das erste NN 30 und das zweite NN 40 können jeweils eine Mehrzahl von Schichten umfassen. Jede der Schichten kann eine entsprechende Mehrzahl von Eingangsmerkmalen erhalten, und die Schicht kann eine entsprechende Mehrzahl von Ausgangsmerkmalen auf der Basis ihrer Eingangsmerkmale ableiten. Die Ausgangsmerkmale einer Schicht eines der neuronalen Netzwerke können als Eingangsmerkmale für eine nachfolgende Schicht des NN bereitgestellt werden.
Das erste NN 30 ist reellwertig und kann z. B. die Beträge der Spektralkoeffizienten, die im transformierten Segment 24 enthalten sind, als Eingabe verwenden, z. B. als Eingangsmerkmale für eine erste Schicht des NN (z. B. Schicht 33, die weiter unten mit Bezug auf 2 beschrieben wird). Die reellwertige Maske 34 kann eine Mehrzahl von reellwertigen Maskenkoeffizienten umfassen, z. B. einen für jede Spektralkomponente des transformierten Segments 24. Dementsprechend kann das zweite NN für jede Spektralkomponente des transformierten Segments 24 einen komplexwertigen Spektralkoeffizienten des transformierten Segments 24 und einen reellwertigen Maskenkoeffizienten der reellwertigen Maske 34 empfangen.
Dementsprechend kann eine erste Schicht des zweiten NN, die eine Faltungsschicht sein kann, z. B. die Schicht 47₁ wie in Bezug auf 2 beschrieben, ein Ausgangsmerkmal der ersten Schicht des zweiten NN auf der Basis einer Menge komplexwertiger Spektralkoeffizienten aus einer Mehrzahl komplexwertiger Spektralkoeffizienten des transformierten Segments 24 und auf der Basis einer Menge reellwertiger Maskenkoeffizienten aus einer Mehrzahl reellwertiger Maskenkoeffizienten der reellwertigen Maske 34 bestimmen. Zum Beispiel können die Menge der komplexwertigen Spektralkoeffizienten und die Menge der reellwertigen Maskenkoeffizienten durch entsprechende Vorlagen, z. B. Faltungskerne, oder durch eine gemeinsame Vorlage oder einen gemeinsamen Kern (bzw. Kernel) definiert werden. Eine oder mehrere Vorlagen können außerdem entsprechende Gewichtungen, z. B. komplexwertige Gewichtungen, für die komplexwertigen Spektralkoeffizienten und die reellwertigen Maskenkoeffizienten definieren.
Das hier offenbarte Konzept zur Einspeisung von M̂_m und der Eingabemischung X als zwei getrennte Kanäle in ein komplexwertiges neuronales Faltungsnetzwerk (CCN - Convolutional Neural Network), das zweite NN 40, liefert dem CCN mehr Informationen als eine in [40, 50] vorgeschlagene alternative Option, bei der die von einem Entrauscher (bzw. Denoiser) geschätzte reellwertige Maske M̂_m, welche von einem Entrauscher geschätzt wird, auf die Eingabemischung X angewendet werden kann und dann X̃ = (M̂_me|X|) · e^j∠X als Eingabe für das CCN verwendet wird. Im Rahmen des hier vorgestellten Konzepts kann das zweite NN 40 ableiten, ob ein niederwertiger Eintrag in dem STFT-Betrag des maskierten Signals von der Eingabemischung oder von der reellwertigen Maske stammt. Da die Anzahl der Parameter, die typischerweise zum kombinierten Netzwerk hinzugefügt werden, wenn zwei Kanäle als Eingabe für das CCN verwendet werden, um mindestens zwei Größenordnungen geringer ist als die Gesamtzahl der Parameter im kombinierten Netzwerk, ist die überlegene Leistung mit einem relativ geringen Preis verbunden. Die Kombination aus dem reellwertigen ersten NN 30, welches als Entrauscher bezeichnet werden kann, und dem CCN kann als Multi-Stage Complex Deep Net (MCD bzw. mehrstufiges komplexes tiefes Netzwerk) bezeichnet werden.
2 veranschaulicht ein Implementierungsschema für die Bestimmung der komplexwertigen Maske 44 gemäß einem Ausführungsbeispiel. Die in 2 beschriebenen Details können optional in der Vorrichtung 10 gemäß 1 implementiert werden. Obwohl optionale Details der einzelnen Merkmale von 1 gemeinsam in 2 dargestellt sind, können die Details auch einzeln oder in beliebiger Kombination implementiert werden. Zum Beispiel können die Details, die in Bezug auf das erste NN 30 beschrieben sind, unabhängig von den Details, die in Bezug auf das zweite NN 40 beschrieben sind, implementiert werden.
Gemäß einem Ausführungsbeispiel umfasst das zweite NN 40 ein Faltungsencoder-NN 46 mit einer Mehrzahl von Faltungsschichten 47, z. B. vier Faltungsschichten 47₁, 47₂, 47₃ und 47₄ wie in 2. Gemäß diesem Ausführungsbeispiel umfasst das zweite NN 40 außerdem ein Faltungsdecoder-NN 48 mit einer Mehrzahl von Faltungsschichten 49, z. B. vier Faltungsschichten 49₁, 49₂, 49₃ und 49₄ wie in 2. Zum Beispiel können das Encoder-NN 46 und das Decoder-NN 48 die gleiche Anzahl von Faltungsschichten aufweisen. So kann eine erste Faltungsschicht 47₁ des Encoder-NN 46 die erste Schicht des zweiten NN 40 sein. Die faltungsbasierte Encoder-Decoder-Struktur kann für eine gute Geräuschunterdrückung sorgen.
Zum Beispiel kann die Encoder-Decoder-Struktur, die oft auch als Autoencoder bezeichnet wird, insbesondere als U-Net implementiert werden. Der Encoder-Decoder kann zum Beispiel Auslassverbindungen (bzw. Skip-Verbindungen) 59 und eine Faltungskorrespondenz bzw. Transponierte-Faltung-Korrespondenz zwischen Encoder und Decoder enthalten. Die Encoder-Decoder-Struktur kann beispielsweise gemäß [6, 36] implementiert werden oder darauf basieren. Die Aufgabe des Faltungsencoders besteht darin, relevante Informationen aus der Eingabe zu extrahieren. Mehrere hintereinandergeschaltete (bzw. gestapelte) Faltungsschichten können für die Extraktion von Informationen aus einem Eingangssignal oder Bild von Vorteil sein [36]. Indem die Größe der Merkmalskarte von Schicht zu Schicht verringert wird, haben die inneren Schichten ein größeres rezeptives Feld und können so mehr Kontext aus der ursprünglichen Eingabe verwenden als die ersten Schichten. Transponierte Faltungen im Decoder erweitern dann die extrahierten Informationen zurück in eine Merkmalskarte, die der Dimensionalität des Eingangssignals entspricht, was die Schätzung einer Spektralmaske zur Entrauschung ermöglicht.
Gemäß einem Ausführungsbeispiel sind die Faltungsschichten 47, 49 des zweiten NN 40 so konfiguriert, dass sie komplexwertige Gewichtungen zur Gewichtung der jeweiligen Mengen von Eingangsmerkmalen der Faltungsschichten verwenden.
3 veranschaulicht ein Ausführungsbeispiel einer der Faltungsschichten 47. Mit anderen Worten kann die im Folgenden beschriebene Implementierung der Faltungsschicht 47 ein Beispiel für die Implementierung einer oder mehrerer oder jeder der Faltungsschichten 47 aus 2 sein. Gemäß diesem Ausführungsbeispiel bestimmt die Faltungsschicht 47 eine Menge von Ausgangsmerkmalen der Faltungsschicht durch eine Faltung 43. Die Faltung 43 kann die Menge von Eingangsmerkmalen der Faltungsschicht mit einem komplexwertigen Kern falten, um die Menge von Ausgangsmerkmalen zu erhalten. Der Kern kann sich für jedes der Ausgangsmerkmale hinsichtlich der Größe und/oder hinsichtlich der komplexwertigen Gewichtungen unterscheiden, welche der Kern für eine Menge von Eingangsmerkmalen umfassen kann. Mit anderen Worten können für jedes der Ausgangsmerkmale ein oder mehrere Kerne verwendet werden, z. B. ein Kern für jeden der unten genannten Kanäle. Der oder die Kerne für ein Ausgangsmerkmal können eine Menge von Eingangsmerkmalen definieren, die zu dem Ausgangsmerkmal beitragen, und der Kern kann für jedes der Eingangsmerkmale der Menge eine entsprechende Gewichtung enthalten. Das Ausgangsmerkmal kann durch Bilden einer gewichteten Summe über die durch den Kern definierten Eingangsmerkmale bestimmt werden. Beispielsweise kann die Schrittgröße (bzw. der Stride) für den Kern größer als eins sein, z. B. 2, so dass die Anzahl der Merkmale auf der Frequenzachse von Schicht zu Schicht im Encoder-NN 46 abnimmt.
Die komplexwertigen Schichten im CCN werden zum Beispiel gemäß [43] implementiert. Für die Multiplikation in einer komplexwertigen Schicht kann die komplexe Filtermatrix als W = A + iB definiert werden und der Eingabevektor ist durch z = u + iv gegeben. In Matrixschreibweise ist die Multiplikation dann definiert als $[\begin{matrix} ℜ (Wz) \\ ℑ (Wz) \end{matrix}] = [\begin{matrix} A & - B \\ B & A \end{matrix}] [\begin{matrix} u \\ v \end{matrix}],$
wobei ℜ(·) der Realteil und ℑ(·) der Imaginärteil des Arguments sind. Die komplexe Faltungsschicht mit dem Faltungsoperator wird dann wie folgt bezeichnet: $[\begin{matrix} ℜ (W * z) \\ ℑ (W * z) \end{matrix}] = [\begin{matrix} A & - B \\ B & A \end{matrix}] [\begin{matrix} u \\ v \end{matrix}] .$
Es wird darauf hingewiesen, dass die Eingangsmerkmale jeder der Schichten 47 eine Mehrzahl von Eingangskanälen umfassen können, wobei jeder Eingangskanal eine Mehrzahl von komplexwertigen Koeffizienten umfasst, die den jeweiligen Spektralkomponenten zugeordnet sind. Zum Beispiel können für die erste Schicht 47₁ das transformierte Segment 24 und die reellwertige Maske 34 jeweils einen Eingangskanal bilden. Es wird darauf hingewiesen, dass im Falle der reellwertigen Maske die reellwertigen Koeffizienten gemäß den Beispielen dupliziert werden können, um die gleiche Anzahl an reellwertigen Zahlen zu erhalten, wie die Real- und Imaginärteile des komplexwertigen transformierten Segments 24 zusammen. Zum Beispiel kann die erste Schicht 47₁ die Anzahl der Ausgangskanäle im Verhältnis zur Anzahl der Eingangskanäle erhöhen. Einem Beispiel zufolge hat die erste Schicht 47₁ 64 Ausgangskanäle, die Schichten 47₂ und 47₃ haben jeweils 32 Ausgangskanäle und die Schicht 47₄ hat 16 Ausgangskanäle.
Detaillierte Beispiele für die Kerngrößen und die Ausgangsmerkmalsmengen werden im Folgenden beschrieben.
Gemäß Ausführungsbeispielen umfasst die Faltungsschicht 47 außerdem einen Schritt 55 zum Normalisieren der Menge von Ausgangsmerkmalen. Die Normalisierung wird beispielsweise in Bezug auf die Gesamtheit der Ausgangsmerkmale der Schicht durchgeführt, z. B. ein maximales Ausgangsmerkmal. Eine Batch-Normalisierung kann das Training beschleunigen und die Optimierung des Modells so verbessern.
Die Normalisierung kann zum Beispiel getrennt für den Realteil aller Ausgangsmerkmale und für den Imaginärteil der Ausgangsmerkmale durchgeführt werden. Zum Beispiel kann die komplexwertige Batch-Normalisierung durch eine reellwertige Batch-Normalisierungsoperation BN wie folgt angenähert werden $\begin{matrix} \tilde{u} = BN (u) \\ \tilde{v} = BN (v) . \end{matrix}$
Gemäß Ausführungsbeispielen umfasst die Faltungsschicht 47 außerdem einen Schritt 55 eines Unterziehens jedes Ausgangsmerkmals der normalisierten Menge von Ausgangsmerkmalen einer Aktivierungsfunktion. Die Aktivierungsfunktion der Faltungsschicht 47 kann zum Beispiel eine rektifizierende lineare Einheit (ReLU - Rectifying Linear Unit) sein. So ist zum Beispiel die komplexwertige parametrische ReLU wie in [43] beschrieben implementiert.
Gemäß einem Ausführungsbeispiel kann eine oder mehrere oder jede der Faltungsschichten 49 des Decoder-NN 48 wie die oben in Bezug auf 3 beschriebene Faltungsschicht 47 implementiert werden, mit Ausnahme von Schritt 43. Stattdessen wird in Schritt 43 die Menge der Eingangsmerkmale der jeweiligen Faltungsschicht 49 mit einem komplexwertigen Kern multipliziert, um die Menge der Ausgangsmerkmale zu erhalten. Auch hier kann sich der Kern für jedes der Ausgangsmerkmale hinsichtlich der Größe und/oder hinsichtlich der komplexwertigen Gewichtungen unterscheiden, die der Kern für eine Menge der Eingangsmerkmale umfassen kann. Mit anderen Worten, für jedes der Eingangsmerkmale können ein oder mehrere Kerne verwendet werden, z. B. ein Kern für jeden der oben erwähnten Kanäle. Einer bzw. mehrere Kerne für ein Eingangsmerkmal können eine Menge von Ausgangsmerkmalen definieren, zu denen das Eingangsmerkmal beiträgt, und der Kern kann für jedes der Ausgangsmerkmale der Menge eine entsprechende Gewichtung zum Gewichten des Beitrags des Eingangsmerkmals zu dem jeweiligen Ausgangsmerkmal umfassen. Dementsprechend können die Faltungsschichten 49 des Decoder-NN 48 als transponierte Faltungsschichten bezeichnet werden.
Gemäß einem Ausführungsbeispiel umfasst das zweite NN 40 für jede der Faltungsschichten 47 des Encoder-NN 46 eine Auslassverbindung 59, die die jeweilige Faltungsschicht des Encoder-NN mit einer zugehörigen Faltungsschicht 49 des Decoder-NN 48 verbindet, wobei die zugehörige Faltungsschicht mit der jeweiligen Faltungsschicht des Encoder-NNs 46 zugeordnet ist. Mit anderen Worten können jede der Schichten 47 des Encoder-NN 46 und eine der Schichten 49 des Decoder-NN 48 ein Paar zugehöriger Schichten bilden, die durch eine Auslassverbindung 59 verbunden sind.
Zum Beispiel können Auslassverbindungen den Gradientenfluss zu den Schichten im Encoder während der Optimierung verbessern und helfen, das Phänomen des verschwindenden Gradienten zu vermeiden [15]. Außerdem können Auslassverbindungen dem Decoder helfen, Informationen wiederherzustellen, die bei der Merkmalskomprimierung im Encoder verloren gegangen sind, und somit bei der Identifizierung feiner Details im Signal helfen.
Gemäß einem Ausführungsbeispiel umfasst das zweite NN 40 eine komplexwertige mit Gate versehene rekurrente Einheit (GRU - Gated Recurrent Unit) 50, die zwischen dem Faltungsencoder-NN 46 und dem Faltungsdecoder-NN 48 angeordnet ist. Die Verwendung einer rekurrenten Einheit ermöglicht die Ausnutzung der zeitlichen Korrelation zwischen aufeinanderfolgenden zeitlichen Segmenten des Audiosignals 12 und kann daher zusätzliche Informationen liefern. Mit anderen Worten ermöglicht es die Verwendung eines rekurrenten neuronalen Netzwerks (RNN - Recurrent Neural Network) am Flaschenhals, die zeitliche Struktur des Eingangssignals zu erfassen, wenn man Zeitreihen wie Sprachsignale der Reihe nach betrachtet.
Gemäß einem Ausführungsbeispiel ist die komplexwertige mit Gate versehene rekurrente Einheit (CGRU - Complex-Valued Gated Recurrent Unit) 50 konfiguriert zum Bestimmen eines Ausgangsmerkmals der CGRU 50 unter Verwendung einer ersten reellwertigen mit Gate versehenen rekurrenten Einheit, z. B. GRU_r, und einer zweiten reellwertigen mit Gate versehenen rekurrenten Einheit, z. B. GRU_i. Zu diesem Zweck kann die CGRU 50 beispielsweise einen ersten Realwert auf der Basis eines Imaginärteils eines oder mehrerer Eingangsmerkmale der CGRU unter Verwendung der ersten reellwertigen mit Gate versehenen rekurrenten Einheit bestimmen; einen zweiten Realwert auf der Basis eines Realteils des einen oder der mehreren Eingangsmerkmale der komplexwertigen mit Gate versehenen rekurrenten Einheit unter Verwendung einer zweiten reellwertigen mit Gate versehenen rekurrenten Einheit bestimmen; einen dritten Realwert, der auf dem Realteil des einen oder der mehreren Eingangsmerkmale der komplexwertigen mit Gate versehenen rekurrenten Einheit unter Verwendung der ersten reellwertigen mit Gate versehenen rekurrenten Einheit basiert, bestimmen; und einen vierten Realwert, der auf dem Imaginärteil des einen oder der mehreren Eingangsmerkmale der komplexwertigen mit Gate versehenen rekurrenten Einheit unter Verwendung der zweiten reellwertigen mit Gate versehenen rekurrenten Einheit basiert, bestimmen.
Zum Beispiel kann die CGRU 50 den Realteil des Ausgangsmerkmals bestimmen durch Subtrahieren des ersten Realwerts vom zweiten Realwert, und den Imaginärteil des Ausgangsmerkmals bestimmen durch Kombinieren eines dritten Realwerts und des vierten Realwerts.
Mit anderen Worten kann die CGRU als lineare Operation auf der Basis von zwei reellwertigen GRUs, GRU_r und GRU_i, wie folgt approximiert werden $ℂ G R U (z) = (G R U_{r} (u) - G R U_{i} (v)) + i (G R U_{r} (v) + G R U_{i} (u)) .$
GRU_r/i verwenden beispielsweise beide eine reellwertige tanh-Aktivierungsfunktion, um Nichtlinearität in deren Ausgabe einzubringen.
Gemäß alternativen Ausführungsbeispielen arbeitet die GRU entlang der Frequenzachse statt entlang der Zeitachse. Eine solche Implementierung kann dazu beitragen, die Konsistenz der Maskenschätzung über Frequenzbereiche hinweg zu verbessern.
Gemäß einem Ausführungsbeispiel umfasst das zweite NN eine erste vollständig verbundene Schicht („Fully Connected Layer“) 51₁, die zwischen dem Faltungsencoder-NN 46 und der komplexwertigen mit Gate versehenen rekurrenten Einheit 50 angeordnet ist, und eine zweite vollständig verbundene Schicht 51₂, die zwischen der komplexwertigen mit Gate versehenen rekurrenten Einheit 50 und dem Faltungsdecoder-NN 48 angeordnet ist.
Mit anderen Worten, wie in 2 und 3 dargestellt, kann das zweite neuronale Netzwerk gemäß einem Ausführungsbeispiel durch ein CCN implementiert werden, z. B. basierend auf dem in [12] beschriebenen, das eine komplexwertige Maske 44 für die Sprachverbesserung schätzt. Das CCN verwendet eine komplexwertige Encoder-Decoder-Struktur und arbeitet mit dem Real- und Imaginärteil des Eingangsspektrums. Sowohl der Encoder als auch der Decoder können aus vier komplexwertigen Modulen bestehen oder diese umfassen. Jedes Modul kann eine komplexwertige Faltungsschicht, eine Batch-Normalisierungsschicht und eine komplexwertige Aktivierungsfunktion umfassen, die für alle außer der letzten Decoder-Schicht die komplexwertige parametrische ReLU sein kann. Am Flaschenhals zwischen dem Encoder und dem Decoder fügt eine komplexwertige GRU dem Netzwerk Speicher hinzu.
Im Allgemeinen erzeugen komplexwertige Netzwerke eine sehr gute Sprachqualität, aber sie können eine geringe Geräuschunterdrückungsleistung aufweisen, während reellwertige Netzwerke eine gute Geräuschunterdrückung auf Kosten der Sprachqualität bieten, wie weiter unten erläutert wird. Daher kann die Kombination aus beiden gleichzeitig für eine gute Geräuschunterdrückung und Sprachqualität sorgen. Das erste neuronale Netzwerk 30 des kombinierten Netzwerks kann als Entrauscher bezeichnet werden. Seine Aufgabe ist es, eine reellwertige Maske zu schätzen, die das Sprachsignal ideal entrauscht und deren Ausgabe und Parameter als zusätzliche Informationen in das CCN eingespeist werden können.
Gemäß einigen Ausführungsbeispielen kann die Struktur des zweiten NN 40 wie das in [12] vorgestellte Netzwerk implementiert werden. Es sei jedoch darauf hingewiesen, dass gemäß den Ausführungsbeispielen der vorliegenden Offenbarung das zweite NN die reellwertige Maske 34 als zusätzliche Eingabe empfängt.
In Fortsetzung der Beschreibung des Ausführungsbeispiels von 2 werden im Folgenden Beispiele für das erste NN 30 beschrieben.
Da das transformierte Segment 24 komplexwertig ist, kann die Vorrichtung 10 das transformierte Segment einem Schritt 28 eines Bestimmens der absoluten Werte der komplexwertigen Koeffizienten des transformierten Segments 24 unterziehen, und die Vorrichtung kann die absoluten Werte als Eingabe für das erste NN 30 bereitstellen. Gemäß einem Ausführungsbeispiel ist das erste NN 30 konfiguriert zum Bestimmen der reellwertigen Maske 34 auf der Basis von Absolutwerten, z. B. Beträge, der Spektralkoeffizienten des transformierten Segments 24.
Zum Beispiel können so die logarithmischen Absolutwerte eines Spektralkoeffizienten z = u + iv als 10log₁₀(|z|²) bestimmt werden.
Gemäß einem Ausführungsbeispiel umfasst das erste NN 30 eine Faltungsschicht 33 als Eingangsschicht, z. B. als erste Schicht, die das transformierte Segment 24 empfängt.
Eine Faltungsschicht im Entrauscher kann die Anzahl der Parameter reduzieren, wobei jedoch die Qualität der Ergebnisse erhalten bleibt.
4 zeigt ein Beispiel für die Implementierung der Faltungsschicht 33, bei der die Faltungsschicht 33 eine Faltung 34 umfasst, gefolgt von einer Aktivierung 37. Die Faltung 34 kann z. B. so durchgeführt werden, wie bei der Faltung 43 in Bezug auf 3 beschrieben ist, mit der Ausnahme, dass die Faltung 34 mit reellen Zahlen arbeitet und eine reelle Gewichtung verwendet. Die Faltungsschicht 34 kann die Ausgabe der Faltung 34 einer Aktivierungsfunktion 35, z. B. einer ReLU, unterziehen.
Um mit der Beschreibung des Ausführungsbeispiels von 2 fortzufahren, umfasst das erste NN 30 gemäß einem Ausführungsbeispiel eine Mehrzahl von vollständig verbundenen Schichten (FC-Schichten bzw. Fully-Connected-Schichten) 35, die in 2 durch die FC-Schichten 35₁, 35₂, 35₃ dargestellt sind. In diesem Ausführungsbeispiel umfasst das erste NN 30 außerdem eine mit Gate versehene rekurrente Einheit (GRU - Gated Recurrent Unit) 36, die zwischen zwei der FC-Schichten 35 angeordnet ist, nämlich den Schichten 35₁ und 35₂ in 2. Die beiden FC-Schichten, zwischen denen die GRU 35 angeordnet ist, verwenden eine ReLU als Aktivierungsfunktion.
5 zeigt ein Beispiel für eine Implementierung der FC-Schichten 35, wonach jede der FC-Schichten 35 einen Schritt 38 umfasst, in dem jedes der Ausgangsmerkmale der FC-Schicht auf der Basis aller Eingangsmerkmale der FC-Schicht bestimmt wird. Die Ausgangsmerkmale werden anschließend einer Aktivierungsfunktion 39, z. B. einer ReLU, unterzogen.
Gemäß einem Ausführungsbeispiel verwendet die letzte FC-Schicht 35₃ des ersten NN 30 als Aktivierungsfunktion 39 eine Sigmoidaktivierungsfunktion.
Mit anderen Worten umfasst der reellwertige Entrauscher gemäß einem Ausführungsbeispiel eine Faltungsschicht 33 und eine FC-Schicht 35₁ für die Merkmalsextraktion, eine GRU-Schicht 36, die es dem Netzwerk ermöglicht, Speicher zu erfassen, und zwei zusätzliche FC-Schichten 35₂, 35₃ zur Schätzung der reelwertigen Maske 34. Die Faltungsschicht und die ersten beiden FC-Schichten verwenden eine ReLU-Aktivierung, während die letzte Schicht eine Sigmoidaktivierungsfunktion verwendet, um eine beschränkte Maske zu erhalten. Der Entrauscher 30 verwendet den logarithmischen Betrag der STFT 24 des geräuschbehafteten Sprachsignals 12 als Eingabe.
In Fortführung der Beschreibung von 2 können gemäß einem Ausführungsbeispiel die Ausgangsmerkmale der letzten Schicht 49₁ des Decoder-NNs 48 einer Begrenzungsfunktion 53 zur Bestimmung der komplexwertigen Maske 44 unterzogen werden, so dass die absoluten Werte, z. B. die Beträge, der Koeffizienten der komplexwertigen Maske 44 beschränkt werden.
Es sei darauf hingewiesen, dass die letzte Schicht 49₁ des Decoder-NN einen einzigen Ausgangskanal liefern kann und die Anzahl der Ausgangsmerkmale der Anzahl der Spektralkoeffizienten des transformierten Segments 24 entsprechen kann.
Zum Beispiel ist die Ausgabe des MCD-Netzwerks O_k ∈ ℂ^F×1ist so beschränkt, dass die endgültige komplexwertige Maske M̂_c,k ∈ ℂ^F×1 gegeben ist durch $\begin{matrix} | {\hat{M}}_{c, k} | = tanh (| O_{k} |) \\ ∠ {\hat{M}}_{c, k} = ∠ O_{k} . \end{matrix}$
Dies beschränkt den Betrag der Maske |M̂_c,k| auf einen Bereich von [0; 1]. M̂_c,k wird dann auf die Eingabemischung angewendet, wie in Gl. (3) beschrieben, z. B. in Schritt 80 aus 1.
In einem Ausführungsbeispiel wird das MCD ganzheitlich trainiert, d.h. es wird als ein einziges Netzwerk betrachtet und nicht als eine Verkettung von zwei Netzwerken. Dies vereinfacht den Trainingsprozess im Vergleich zum separaten Training beider Teile. Letzteres würde zwei Trainingsdatensätze erfordern: einen für das Training des Entrauschers und einen für das Training des CCN. Die Trainingsdaten für das CCN müssten durch eine trainierte Version des Entrauschers geleitet werden, um realistische Eingangssignale für das CCN beim Training zu erzeugen. Da dies nur erreicht werden kann, wenn ungesehene Daten durch den trainierten Entrauscher geleitet werden, wären zwei Trainingsdatensätze erforderlich. Dennoch könnte dieser Ansatz weitere Vorteile bieten, wie weiter unten erläutert wird. Als Kostenfunktion kann zum Beispiel der SNR-Verlust aus Gl. (4) verwendet werden, der im Vergleich zur wSDR-Verlustfunktion (Gl. (6)) eine ähnliche Leistung bei geringerem Implementierungsaufwand zeigt.
Beispielhafte Verlustfunktionen schließen den SNR-Verlust [37], wSDR im Zeitbereich [6] und den Zwei-Komponenten-Verlust im STFT-Bereich [52] ein. Der SNR-Verlust im Zeitbereich ist gegeben durch $L_{SNR} (s, \hat{s}) = - 10 {log}_{10} (\frac{< s, s >}{< (s - \hat{s}), (s - \hat{s}) >}),$
wobei < a, b > das innere Produkt der Vektoren a und b bezeichnet.
Der wSDR-Verlust ist ein Beispiel für einen Multi-Term-Verlust, da er sprach- und geräuschbezogene Verlustkomponenten umfasst. Der wSDR-Verlust verwendet den SI-SDR als Basis, der wie folgt definiert ist $L_{S I - SDR} (s, \hat{s}) = - \frac{< s, \hat{s} >}{‖ \hat{s} ‖ ‖ s ‖} .$
Der wSDR-Verlust ist dann gegeben durch $L_{wSDR} (s, \hat{s},x) = α L_{SI - SDR} (s, \hat{s}) + (1 - α) L_{SI - SDR} (x - s, x - \hat{s}),$
mit $α = \frac{{‖ s ‖}^{2}}{{‖ x ‖}^{2}} .$
Während der SNR-Verlust ein Verhältnis zwischen dem sauberen Signal und dem Restrauschsignal darstellt, ist der SI-SDR-Verlust, wie in [6] definiert und in Gleichung (5) formuliert, beschränkt zwischen -1 und 1 und hat eine erhöhte Phasensensitivität, da auch die invertierte Phase bestraft wird. Der wSDR-Verlust erweitert dann den SI-SDR-Verlust um einen gespiegelten, geräuschabhängigen Term, der es dem Netzwerk ermöglicht, auch aus Nur-Rauschen-Abtastwerten zu lernen, für die der SI-SDR-Term, der auf Sprache basiert, in jedem Fall Null werden würde, da s = 0. Verlustfunktionen im Zeitbereich bestrafen auch relative Verzögerungen zwischen den Signalen, was für eine gute Sprachqualität nicht zwingend notwendig ist, aber auch keine negativen Auswirkungen hat.
Der Zwei-Komponenten-Verlust ist ein Beispiel für eine maskenbasierte Multi-Term-Verlustfunktion im STFT-Bereich und ist definiert als $L_{2 - comp} (S, N, {\hat{M}}_{m}) = β ‖ | S | - {({\hat{M}}_{m} e | S |) ‖}_{2}^{2} + (1 - β) ‖ {\hat{M}}_{m} e {| N | ‖}_{2}^{2},$
mit 0 ≤ β ≤ 1. Eine eingehendere Analyse möglicher Trainings-Zielkriterien für reellwertige DNN-basierte Ansätze zur Sprachverbesserung wird in [49] beschrieben, während eine Zusammenfassung von reell- und komplexwertigen Masken und Zielen in [8] zu finden ist.
Im Allgemeinen ist es beim Training zwar immer das Ziel, eine gute Schätzung des sauberen Sprachsignals zu erhalten, doch können auch andere Aspekte wie die Reduzierung von Artefakten oder die Qualität des Restrauschens berücksichtigt werden, indem zusätzliche Terme in die Verlustfunktion eingeführt werden (vgl. Gleichungen (6) und (8)). Außerdem schlagen die Autoren in [24] vor, eine progressive Verlustfunktion für mehrstufige Netzwerke zu verwenden. So kann z. B. ein neuronales Faltungsnetzwerk, das zur Schätzung einer Betragsmaske für die Entrauschung verwendet wird und das mehrere verdeckte Schichten („Hidden Layers“) verwendet, die alle die Dimensionalität der Eingaben beibehalten, trainiert werden, indem die Verlustfunktion nicht nur für die endgültige Ausgabe des Netzwerks berechnet wird, sondern indem auch Terme berücksichtigt werden, die Ergebnisse aus einer der verdeckten Schichten verwenden. Auf diese Weise kann jede verdeckte Schicht zur Schätzung der Zwischenmasken verwendet werden und ihre Ausgabe kann in die Verlustfunktion einbezogen werden. Auf diese Weise wird das Trainingsziel des Netzwerks nach und nach im gesamten Netzwerk erreicht.
Im Folgenden wird die Leistung des MCD für die Geräuschunterdrückung und Sprachverbesserung in Nutzfahrzeugen demonstriert. Es wird gezeigt, dass MCD in der Lage ist, Szenarien mit niedrigem SNR zu bewältigen und herkömmliche reellwertige und andere komplexwertige Verfahren zu übertreffen.
Um die Leistung des MCD zu beurteilen, vergleichen wir es mit einer reellwertigen, einer komplexwertigen und einer zweistufigen Referenz („Baseline“). Die reellwertige Baseline ist identisch mit dem ersten Teil des MCD, dem Entrauscher, da dieser dem aktuellen Stand der Technik von reellwertigen Geräuschunterdrückungsnetzwerken entspricht, die in [52] vorgestellt wurden. Für die komplexwertige Baseline verwenden wir den zweiten Teil des MCD, das CCN, da es der in [15] vorgestellten DCCRN-Architektur ähnelt. Für die zweistufige Baseline evaluieren wir das in [50] vorgeschlagene DTLN unter Verwendung der Parametereinstellungen, die in der in [50] referenzierten Open-Source-Implementierung zur Verfügung stehen. Die Abtastrate wurde lediglich auf 8 kHz und die Fensterlänge und - verschiebung für die STFT an die Anforderungen angepasst.
Im Folgenden werden beispielhafte Implementierungen und Auswahl von Hyperparametern gemäß den Ausführungsbeispielen des MCD bezüglich 2 bis 5 beschrieben, die für die Auswertung ausgewählt werden. Es wird darauf hingewiesen, dass die im Folgenden beschriebenen Implementierungen der einzelnen Merkmale beispielhafte Implementierungen der in Bezug auf die in 1 bis 5 beschriebenen Merkmale darstellen. Die im Folgenden beschriebenen Details können wahlweise in den Merkmalen von 1 bis 5 einzeln oder in Kombination umgesetzt werden.
Das Netzwerk wird auf kurzen Sequenzen von geräuschbehafteten und sauberen Sprachpaaren trainiert, die Auswertung aber online durchgeführt, d.h. blockweise. Es werden zwei Blocklängen (d.h. STFT-Fensterlängen) betrachtet und ihre Vor- und Nachteile gegeneinander abgewogen. Im ersten Szenario werden die STFT-Frames (bzw. -Rahmen= auf Zeitbereichssignalblöcken berechnet, die N = 160 Abtastwerte, d.h. 20 ms, mit einer Überlappung von N/2 = 80 Abtastwerten. Dies führt zu F = 81 eindeutigen Frequenz-Bins im STFT-Bereich. Um das Potenzial des MCD zu demonstrieren, wenn ein etwas größerer Merkmalsraum vorliegt, wird im zweiten Szenario die STFT-Fensterlänge auf N = 320 Abtastwerte, d.h. 40 ms, mit einer Überlappung von N/2 = 160 Abtastwerten erhöht. Das Spektrum enthält dann F = 161 eindeutige Frequenz-Bins.
Die Wahl der Hyperparameter des MCD ist abhängig von der Anzahl der Merkmale F des geräuschbehafteten Spektrums, d.h. der Eingabe des Netzwerks. Außerdem müssen bei der Wahl der Anzahl und Größe der Encoder- und Decoder-Schichten mehrere Überlegungen angestellt werden. Erstens ist es für die Merkmalsextraktion in der Regel von Vorteil, mehrere aufeinanderfolgende Faltungsschichten zu verwenden, da sie eine genaue Darstellung des Merkmalsraums ermöglichen. Jede Schicht hat eine andere Sicht auf das Signal als die vorherige. Mit zunehmender Anzahl verdeckter Schichten wird das Training der tiefen Teile des Netzwerks jedoch immer schwieriger, da der Backpropagation-Algorithmus durch das Phänomen des verschwindenden Gradienten beeinträchtigt wird. Kleine Faltungskerne können feinkörnige Muster abdecken, wohingegen große Faltungskerne auf größeren Teilen der Eingangsmerkmalskarte arbeiten und daher mehr Kontext liefern können. Mehr Kontext kann insbesondere bei breitbandigem Rauschen hilfreich sein. Dennoch können zu große Faltungskerne zu Artefakten führen, die vom Decoder erzeugt wurden.
Für die Experimente mit einer STFT-Fenstergröße von 20 ms wird die folgende Netzwerkkonfiguration MCD _20ms verwendet.
Für den Entrauscher wird eine Faltungskerngröße von drei auf der Frequenzachse mit einer Schrittgröße (bzw. einem Stride) von zwei gewählt. Dies ermöglicht die Erkennung von Merkmalen auf einer kleinen Skala über die Frequenzbänder hinweg, komprimiert aber den Merkmalsraum nicht drastisch. Im Allgemeinen lässt sich die Anzahl der Ausgangsmerkmale für eine einfache 1-D-Faltungsschicht ohne Padding als die Anzahl der Eingangsmerkmale geteilt durch die Schrittgröße (gerundet auf die nächstkleinere ganze Zahl) abzüglich der Anzahl der Kerne, die nicht vollständig in die Eingangsmerkmalskarte mit der verwendeten Schrittgröße passen, ermitteln. Das Ergebnis sind $⌊ 81 / 2 ⌋ = 40$
Merkmale am Ausgang der ersten Faltungsschicht, weshalb auch die nachfolgende FC- und GRU-Schicht 40 verdeckte Einheiten aufweist. Die letzten beiden FC-Schichten verwenden 80 und 81 verdeckte Einheiten, um die Merkmale zu dekomprimieren und eine Maske für die Entrauschung zu erstellen, die für jedes Frequenzband im Eingangsspektrum einen entsprechenden Eintrag enthält.
Für das CCN folgen wir einer ähnlichen Schlussfolgerung für die Wahl der Parameter. Das erste Encoder-Modul verwendet eine Faltungskerngröße von drei, während die anderen drei Module zwei auf der Frequenzachse verwenden. Die Schrittgröße wird auf zwei gesetzt. Dies führt am Flaschenhals zu fünf Merkmalen (z. B. pro Ausgangskanal, wobei sich Ausgangskanal hier auf die Ausgangskanäle der letzten Faltungsschicht des Encoders bezieht.) $(⌊ 81 / 2 ⌋ / 2 / 2 / 2 = 5) .$
Außerdem kann jedes Modul mehr als nur einen Faltungskern für dieselbe Aufgabe lernen, indem es mehrere Kanäle am Ausgang jedes Moduls zulässt. Die Kanäle in den Encoder-Modulen liefern dem nächsten Modul mehr Informationen als ein Encoder-Modul mit einem einzigen Ausgang. Es werden 64, 32, 32 bzw. 16 Kanäle in jedem Encoder-Modul verwendet, so dass der Encoder am Flaschenhals 5 · 16 = 80 Merkmale aufweist. Dies ist auch die Anzahl der verdeckten Einheiten für die beiden komplexen FC-Schichten und die GRU-Schicht. Der Decoder kehrt die Verarbeitung des Encoders in Bezug auf den Merkmalsraum um und erzeugt somit eine einkanalige Ausgabe mit 81 Einträgen, die den 81 eindeutigen Frequenz-Bins des rauschbehafteten Eingangsspektrums entsprechen. Es sollte beachtet werden, dass der zweite Kanal (die Entrauscher-Ausgabe), der in das erste Encoder-Modul eingespeist wurde, nicht rekonstruiert werden muss, da das MCD nur eine Maske für die Entrauschung schätzen muss. Obwohl also das erste Encoder-Modul zwei Eingangs- und 64 Ausgangskanäle aufweist, hat das entsprechende letzte Decoder-Modul 64 Eingänge, aber nur einen Ausgangskanal. Diese Ausgabe wird dann in die geschätzte Maske umgewandelt M̂_c.. MCD _20ms besitzt 171.204 Parameter, von denen 170.116 trainierbar sind. Das sind weniger Parameter, als die derzeit im Stand der Technik zu findenden modernsten Ansätze benötigen. Der eigenständige Entrauscher benötigt 21.124 Parameter und das eigenständige CCN 149.696 (148.608 trainierbare) Parameter.
Für den Aufbau mit einer STFT-Fensterlänge von 40 ms enthält das MCD _40ms einen Entrauscher, der ebenfalls einen Faltungskern der Größe drei mit Schrittgröße zwei verwendet. Dies führt zu 80 Merkmalen nach der Faltungsschicht $(⌊ 161 / 2 ⌋ = 80)$
und damit zu 80 verdeckten Einheiten in der nachfolgenden FC- und GRU-Schicht. Die letzten beiden Schichten des Entrauschers weisen 160 bzw. 161 verdeckte Einheiten auf. Der CCN verwendet dieselbe Anzahl von Kanälen wie bei der 20 ms-Konfiguration, verwendet aber höhere Faltungskerngrößen, um die höhere Frequenzauflösung auszugleichen. Die in den vier Modulen des Encoders verwendeten Kerngrößen sind 10, 8, 6 bzw. 4, alle mit einer Schrittgröße von zwei. Der Decoder verwendet die gleiche Kerngröße in umgekehrter Reihenfolge. Die FC-Schichten und die GRU am Flaschenhals verwenden jeweils 96 verdeckte Einheiten, was das Ergebnis von 16 Kanälen und 6 Merkmalen pro Kanal nach dem letzten Encoder-Modul ergibt $(⌊ 161 / 2 ⌋ - 4 = 76 \to ⌊ 76 / 2 ⌋ - 3 = 35 \to ⌊ 35 / 2 ⌋ - 2 = 15 \to ⌊ 15 / 2 ⌋ - 1 = 6.)$
Diese Einstellungen wurden experimentell optimiert. Daraus ergibt sich, dass der MCD _40ms in der gewählten Konfiguration über 387.204 Parameter verfügt. Der eigenständige Entrauscher verwendet 83.844 Parameter und das eigenständige CCN verwendet 302.080 Parameter.
Das oben erwähnte DTLN besitzt 693.713 Parameter, wenn eine Eingabe mit 81 Merkmalen (STFT-Fensterlänge von 20 ms) verwendet wird, und 826.913 Parameter für 161 Eingangsmerkmale (STFT-Fensterlänge von 40 ms). Zum Vergleich: Das DTLN wurde mit einer Fensterlänge von 52 ms für die STFT veröffentlicht und benötigt dann 913.493 Parameter.
Wenn nicht anders angegeben, wurden alle Netzwerke in den Experimenten für 30 Epochen trainiert. Es ist zu erwarten, dass ein Training mit vorzeitigem Abbruch auf der Basis eines Validierungsdatensatzes die Ergebnisse verändert und sie plattform übergreifend vergleichbarer macht. Dies hängt jedoch stark von der Wahl des Validierungsdatensatzes ab und bleibt somit zukünftigen Arbeiten vorbehalten.
Zur Initialisierung der Netzwerkschichten wurden beispielsweise die Standardinitialisierungsfunktionen in Tensorflow Version 2.4 verwendet, außer für die komplexwertigen Faltungsschichten im Encoder und Decoder. Dort kann eine komplexwertige Rayleigh-Initialisierung verwendet werden, wie in [43] beschrieben.
Um die Leistung des vorgeschlagenen Systems zu bewerten, werden die PESQ ∈ [-0.5,4.5] [33], STOI ∈ [0,1] [39] und ESTOI-Bewertungen ∈ [0,1] [17] auf einem Testdatensatz berechnet. Da für die Berechnung dieser Werte ein sauberes Referenzsprachsignal erforderlich ist, müssen, wie im folgenden Abschnitt beschrieben, synthetische Datensätze für das Training und die Bewertung erstellt werden. Zum Beispiel werden die Daten für Training und Test künstlich aus getrennten Geräusch- und Sprachäußerungen gemischt.
Es werden mehrkanalige Aufzeichnungen von sauberen Sprachsignalen und separate mehrkanalige Aufzeichnungen von geräuschbehafteten Signalen verwendet, um sie zu überlagern und verschiedene SNR-Kombinationen für mehrkanalige Mischungen zu erzeugen. Da in der vorliegenden Offenbarung das Nachfiltern betrachtet wird, werden einerseits die Mehrkanalmischungen durch einen Beamformer geleitet, um einkanalige Mischungen als Eingangssignal für das Nachfiltern zu erzeugen, und andererseits werden mehrkanalige saubere Sprachsignale durch einen Beamformer verarbeitet, um ein einkanaliges Referenzsignal für saubere Sprachsignale (saubere Referenz) für die Berechnung der objektiven Qualitätsmaße zu erhalten.
Im Folgenden werden die Ergebnisse für die oben genannten Implementierungen vorgestellt.
Um die allgemeine Eignung des MCD für die Geräuschunterdrückung im gegebenen Kontext zu zeigen, wird das vorgeschlagene MCD _20ms Netzwerk mit den oben vorgestellten Baseline-Verfahren unter Verwendung von PESQ, STOI und ESTOI verglichen. Die Ergebnisse für alle Modelle, die für 30 Epochen trainiert wurden, sind in Tabelle 1 dargestellt. Aus Tabelle 1 geht hervor, dass DTLN, CCN und MCD in Bezug auf PESQ ähnlich gut abschneiden, während der Entrauscher den anderen Modellen bei weitem unterlegen ist. Da der Entrauscher auf eine gute Geräuschunterdrückung, aber nicht unbedingt auf eine gute Spracherhaltung ausgelegt ist, ist ein schlechteres Ergebnis erwartungsgemäß. In Bezug auf STOI schneiden alle Modelle ähnlich ab. In Bezug auf ESTOI führen CCN, DTLN und MCD zu ähnlichen Ergebnissen und schneiden etwas besser ab als der Denoiser. Auch hier sollte beachtet werden, dass das DTLN für diese Experimente viermal so viele Parameter nutzt wie das MCD.

Auf der Basis der vorgestellten Ergebnisse kommen die Autoren zu dem Schluss, dass die vorgeschlagene MCD-Architektur für die Aufgabe der Geräuschunterdrückung in Nutzfahrzeugen gut geeignet ist, da sie mit anderen modernen Ansätzen konkurrieren kann. Tabelle 1: Leistung von Entrauscher, CCN, DTLN und MCD bei einer Fensterlänge von 20 ms.

Modell	PESQ	STOI	ESTOI
Mischung	1,77 ± 0.21	0,77 ± 0,07	0,57 ± 0,11
Entrauscher _20ms	1,92 ± 0,26	0,80 ± 0,05	0,61 ± 0,09
CCN _20ms	2,24 ± 0,28	0,84 ± 0,05	0,67 ± 0,09
DTLN _20ms	2,25 ± 0,26	0,84 ± 0,04	0,68 ± 0,09
MCD _20ms	2,24 ± 0,30	0,82 ± 0,05	0,65 ± 0,10

Wie oben beschrieben, erzielt MCD _20ms gute Ergebnisse bei der Geräuschunterdrückung. Was die Sprachqualität betrifft, so sind verbleibende Artefakte im geschätzten Sprachsignal hörbar und können störend sein. Wie oben beschrieben, wurde der Aufbau mit nur etwas mehr als 171.000 Parametern auf der Basis von Frames mit 81 Frequenz-Bins gewählt, um die algorithmische Verzögerung klein zu halten, um so den Einsatz für Echtzeitanwendungen zu ermöglichen, und um die Anzahl der Parameter für den Einsatz auf einem digitalen Signalprozessor klein zu halten. Die niedrige Frequenzauflösung hat jedoch mehrere Nachteile. Da ein Frequenz-Bin die kombinierten Informationen eines Bereichs von fast 100 Hz enthält, werden die Obertöne der Sprache in den Eingangsmerkmalen nicht gut dargestellt. Aus demselben Grund werden auch die Merkmale des Hintergrundgeräuschs nicht deutlich dargestellt. Außerdem kann die Maske, die für die Geräuschunterdrückung geschätzt wird, nur ein ganzes Bin modifizieren und daher werden alle darin enthaltenen Informationen auf die gleiche Weise behandelt. Selbst wenn also eine gute Unterscheidung zwischen den Obertönen der Sprache und den Geräuschkomponenten möglich wäre, gibt es keine Möglichkeit, diese zu trennen, wenn ein Bin beide Komponenten enthält. Um das Potenzial des MCD darzustellen, wurde eine zweite Version des MCD vorgeschlagen, bei der eine Fensterlänge von 40 ms mit einer Verschiebung von 20 ms und somit eine doppelte Frequenzauflösung (siehe oben) MCD _40ms verwendet wird, wobei etwas mehr als 387.000 Parameter verwendet werden, was im Vergleich zu Netzwerken in der Literatur immer noch vergleichsweise gering ausfällt. Die erhöhte Frequenzauflösung ermöglicht eine deutlich bessere Unterscheidung zwischen Sprache und Geräuschen, insbesondere in Zeitrahmen, in denen sich die beiden Komponenten stark überschneiden. Tatsächlich bietet das MCD _40ms in dieser Konfiguration eine bessere Geräuschunterdrückung, weniger bis gar keine Artefakte und eine höhere Sprachqualität als MCD _20ms.
Zum Vergleich von MCD _40ms mit anderen Baselines, enthält Tabelle 2 die objektiven Leistungskennzahlen, die für jede Methode ermittelt wurden. Insbesondere PESQ zeigt eine deutliche Verbesserung für alle Modelle im Vergleich zu Tabelle 1. Eine deutliche Verbesserung von CCN und auch MCD im Vergleich zum DTLN-Modell ist ebenfalls zu beobachten. STOI und ESTOI bleiben bei allen Modellen und beiden Konfigurationen ähnlich. Die Überlegenheit von CCN gegenüber MCD, die durch die PESQ-Werte nahegelegt wird, wird durch den subjektiven Höreindruck nicht bestätigt, bei dem beide Netzwerke in Bezug auf die Sprachqualität gleich gut abschneiden, wobei das MCD eine etwas bessere Geräuschunterdrückung während der Sprachpausen aufweist.

Die verbesserten Ergebnisse in Bezug auf den subjektiven Höreindruck für die Modelle, die eine Fensterlänge von 40 ms für die Verarbeitung verwenden, gehen jedoch auf Kosten von mehr Rechenressourcen und einer größeren algorithmischen Verzögerung, die durch die Verwendung einer größeren Überlappung für aufeinanderfolgende STFT-Fenster behoben werden kann. Vorläufige Experimente haben gezeigt, dass MCD_40ms, das mit einer Überlappung von 20 ms trainiert wurde, bei Tests mit einer Überlappung von 30 ms fast genauso gut abschneidet wie mit 20 ms. Im Folgenden basieren alle Auswertungen auf den von MCD_40ms generierten Ergebnissen, sofern nicht anders angegeben. Tabelle 2: Leistung von Entrauscher, CCN, DTLN und MCD bei einer Fensterlänge von 40 ms.

Modell	PESQ	STOI	ESTOI
Mischung	1,77 ± 0,21	0,77 ± 0,07	0,57 ± 0,11
Entrauscher _40ms	2,09 ± 0,24	0,82 ± 0,05	0,65 ± 0,09
CCN _40ms	2,49 ± 0,32	0,84 ± 0,05	0,68 ± 0,10
DTLN _40ms	2,30 ± 0,23	0,84 ± 0,05	0,67 ± 0,09
MCD _40ms	2,35 ± 0,24	0,84 ± 0,05	0,68 ± 0,09

Wie die vorangegangenen Überlegungen zeigen, ermöglichen Ausführungsbeispiele der vorliegenden Erfindung eine vergleichbare Leistung wie die Verfahren gemäß dem Stand der Technik bei geringerer Komplexität, z. B. bei Verwendung einer geringeren Anzahl von Merkmalen. Eine kompakte Größe ermöglicht eine eingebettete Implementierung des offengelegten Filterkonzepts.
Dementsprechend kann die Vorrichtung 10 in einem eingebetteten System implementiert werden.
Mit anderen Worten zeigt die untersuchte Geräuschunterdrückung mit DNN für Niedrig-SNR-Szenarien für die Telekommunikation in Nutzfahrzeugen vielversprechende einkanalige Ansätze aus der Literatur. Die Ausführungsbeispiele der vorliegenden Offenbarung machen sich diese Erkenntnis zunutze, indem sie ein ressourcenarmes zweistufiges neuronales Netzwerk mit einer komplexwertigen Komponente zur Geräuschunterdrückung verwenden. Das offenbarte MCD-Konzept erreicht eine sehr gute Geräuschunterdrückung und übertrifft den aktuellen Stand der Technik bezüglich Sprachqualität.
Darüber hinaus kann man sich die Erkenntnis zunutze machen, dass das Training von MCD mit unverarbeiteten und mit einem Hochpassfilter gefilterten Mikrofonsignalen zu guten Ergebnissen führt. Dementsprechend können die Trainingsdaten mit einem Hochpassfilter und optional mit einem Beamformer vorverarbeitet werden.
Alternativ kann die MCD-Leistung, zum Beispiel kann das Netzwerk trainiert werden, mit einer anderen Vorverarbeitungspipeline bewertet werden, beispielsweise ohne den Beamformer oder das Hochpassfilter.
Eine weitere Erkenntnis ist, dass die Verwendung einer ausreichend großen Fenstergröße für die Merkmalsextraktion vorteilhaft für die Leistung der Geräuschunterdrückung und insbesondere für die Vermeidung von Artefakten in der Sprache ist. Dementsprechend kann die Zeitdauer des zeitlichen Segments 14 länger als oder gleich 20 ms oder länger als oder gleich 40 ms sein.
Weiterhin stellen die Erfinder fest, dass die komplexwertige Verarbeitung von Vorteil ist und dass der vorgeschlagene komplexwertige Ansatz andere reellwertige Ansätze übertreffen kann.
In einem weiteren Ausführungsbeispiel werden individuelle Kostenfunktionen für das Training des ersten NN 30 und des zweiten NN 40 oder für das Training verschiedener Teile des ersten oder zweiten NN verwendet. Mit anderen Worten kann eine bestimmte Aufgabe einem Teil des Netzwerks explizit zugewiesen werden, indem die Kostenfunktion angepasst wird.
Beispielsweise können die Kerngrößen, die optional für die Faltungsschichten 47 und/oder die transponierten Faltungsschichten 49 verwendet werden können, in einem Bereich zwischen 2 und 14 gewählt werden, wobei die Decoder-Module, z. B. die Schichten 49, in den jeweiligen Netzwerken die gleichen Kerngrößen verwenden können wie die Encoder-Module, z. B. die Schichten 47, aber in umgekehrter Reihenfolge. Zum Beispiel kann die Schrittgröße auf der Frequenzachse 2 und auf der Zeitachse 1 betragen. Die Kerngröße auf der Zeitachse (z. B. in Bezug auf die Faltungsschichten 47, 49) wurde bei 1 belassen.
Gemäß Ausführungsbeispielen umfasst die Vorrichtung 10 einen Signalprozessor zur Durchführung des Verfahrens zur Verarbeitung des Audiosignals.
Gemäß Ausführungsbeispielen umfasst die Vorrichtung 10 außerdem ein Mikrofon oder ein Mikrofonarray zur Aufnahme des Audiosignals und optional einen Vorprozessor zur Verarbeitung des aufgenommenen Audiosignals vor der Verarbeitung des Audiosignals gemäß dem zuvor beschriebenen Verfahren.
Obwohl manche Aspekte im Zusammenhang mit einer Vorrichtung beschrieben wurden, versteht es sich, dass diese Aspekte auch eine Beschreibung des entsprechenden Verfahrens darstellen, wobei ein Block oder ein Bauelement einem Verfahrensschritt oder einem Merkmal eines Verfahrensschrittes entspricht. Analog dazu stellen Aspekte, die im Zusammenhang mit einem Verfahrensschritt beschrieben wurden, auch eine Beschreibung eines entsprechenden Blocks oder Details oder Merkmals einer entsprechenden Vorrichtung dar.
Verschiedene Elemente und Merkmale der vorliegenden Erfindung können in Hardware unter Verwendung analoger und/oder digitaler Schaltungen, in Software durch die Ausführung von Befehlen durch einen oder mehrere Allzweck- oder Spezialprozessoren oder als Kombination von Hardware und Software implementiert werden. Zum Beispiel können Ausführungsbeispiele der vorliegenden Erfindung in der Umgebung eines Computersystems oder eines anderen Verarbeitungssystems implementiert werden. 6 zeigt ein Beispiel für ein Computersystem 600. Die Einheiten oder Module sowie die Schritte der von diesen Einheiten durchgeführten Verfahren können auf einem oder mehreren Computersystemen 600 ausgeführt werden. Das Computersystem 600 enthält einen oder mehrere Prozessoren 602, z. B. einen speziellen oder einen universellen digitalen Signalprozessor. Der Prozessor 602 ist mit einer Kommunikationsinfrastruktur 604, wie einem Bus oder einem Netzwerk, verbunden. Das Computersystem 600 umfasst einen Hauptspeicher 606, z. B. einen Direktzugriffsspeicher (RAM), und einen sekundären Speicher 608, z. B. eine Festplatte und/oder ein Wechseldatenträger. Der Sekundärspeicher 608 kann das Laden von Computerprogrammen oder anderen Anweisungen in das Computersystem 600 ermöglichen. Das Computersystem 600 kann außerdem eine Kommunikationsschnittstelle 610 enthalten, über die Software und Daten zwischen dem Computersystem 600 und externen Geräten übertragen werden können. Die Kommunikation kann in Form von elektronischen, elektromagnetischen, optischen oder anderen Signalen erfolgen, die von einer Kommunikationsschnittstelle verarbeitet werden können. Die Kommunikation kann über ein Kabel, eine Glasfaser, eine Telefonleitung, eine Mobilfunkverbindung, eine RF-Verbindung und andere Kommunikationskanäle 612 erfolgen.
Die Begriffe „Computerprogrammmedium“ und „computerlesbares Medium“ beziehen sich im Allgemeinen auf greifbare Speichermedien wie z. B. Wechselspeichereinheiten oder eine in einem Festplattenlaufwerk installierte Festplatte. Diese Computerprogrammprodukte sind Mittel zur Bereitstellung von Software für das Computersystem 600. Die Computerprogramme, die auch als Computersteuerungslogik bezeichnet werden, sind im Hauptspeicher 606 und/oder im Sekundärspeicher 608 gespeichert. Computerprogramme können auch über die Kommunikationsschnittstelle 610 empfangen werden. Wenn das Computerprogramm ausgeführt wird, ermöglicht es dem Computersystem 600, die vorliegende Erfindung zu implementieren. Insbesondere ermöglicht das Computerprogramm, wenn es ausgeführt wird, dem Prozessor 602, die Prozesse der vorliegenden Erfindung zu implementieren, wie z. B. jede der hier beschriebenen Verfahren. Dementsprechend kann ein solches Computerprogramm einen Controller des Computersystems 600 darstellen. Wenn die Erfindung mit Hilfe von Software umgesetzt wird, kann die Software in einem Computerprogrammprodukt gespeichert und über ein Wechseldatenträgerlaufwerk, eine Schnittstelle, wie die Kommunikationsschnittstelle 610, in das Computersystem 600 geladen werden.
Die Implementierung in Hardware oder in Software kann unter Verwendung eines digitalen Speichermediums erfolgen, z. B. eines Cloud-Speichers, einer Diskette, einer DVD, einer Blue-Ray, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem zusammenarbeiten oder zusammenarbeiten können, so dass das jeweilige Verfahren ausgeführt wird. Daher kann das digitale Speichermedium computerlesbar sein.
Manche Ausführungsbeispiele gemäß der Erfindung umfassen also einen Datenträger, der elektronisch lesbare Steuersignale aufweist, die in der Lage sind, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogrammprodukt mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogrammprodukt auf einem Computer abläuft.
Andere Ausführungsbeispiele umfassen das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren, wobei das Computerprogramm auf einem maschinenlesbaren Träger gespeichert ist. Mit anderen Worten ist ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens somit ein Computerprogramm, das einen Programmcode zum Durchführen eines der hierin beschriebenen Verfahren aufweist, wenn das Computerprogramm auf einem Computer abläuft.
Ein weiteres Ausführungsbeispiel der erfindungsgemäßen Verfahren ist somit ein Datenträger oder ein digitales Speichermedium oder ein computerlesbares Medium, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren aufgezeichnet ist. Ein weiteres Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist somit ein Datenstrom oder eine Sequenz von Signalen, der bzw. die das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren darstellt bzw. darstellen. Der Datenstrom oder die Sequenz von Signalen kann bzw. können beispielsweise dahin gehend konfiguriert sein, über eine Datenkommunikationsverbindung, beispielsweise über das Internet, transferiert zu werden. Ein weiteres Ausführungsbeispiel umfasst eine Verarbeitungseinrichtung, beispielsweise einen Computer oder ein programmierbares Logikbauelement, die dahin gehend konfiguriert oder angepasst ist, eines der hierin beschriebenen Verfahren durchzuführen. Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Verfahren durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eines der hierin beschriebenen Verfahren durchzuführen. Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt.
Aus der vorstehenden Beschreibung geht hervor, dass verschiedene Merkmale in Beispielen zusammengefasst wurden, um die Offenbarung zu straffen. Diese Art der Offenbarung ist nicht so zu verstehen, dass die beanspruchten Beispiele mehr Merkmale erfordern, als in den einzelnen Ansprüchen ausdrücklich aufgeführt sind. Vielmehr kann, wie die folgenden Ansprüche zeigen, der Gegenstand in weniger als allen Merkmalen eines einzelnen offenbarten Beispiels liegen. Daher werden die folgenden Ansprüche hiermit in die Beschreibung aufgenommen, wobei jeder Anspruch für sich allein als separates Beispiel stehen kann. Während jeder Anspruch für sich allein als separates Beispiel stehen kann, ist zu beachten, dass sich ein abhängiger Anspruch in den Ansprüchen zwar auf eine bestimmte Kombination mit einem oder mehreren anderen Ansprüchen beziehen kann, andere Beispiele jedoch auch eine Kombination des abhängigen Anspruchs mit dem Gegenstand jedes anderen abhängigen Anspruchs oder eine Kombination jedes Merkmals mit anderen abhängigen oder unabhängigen Ansprüchen umfassen können. Solche Kombinationen werden hier vorgeschlagen, es sei denn, es wird angegeben, dass eine bestimmte Kombination nicht beabsichtigt ist. Darüber hinaus ist beabsichtigt, auch Merkmale eines Anspruchs in einen anderen unabhängigen Anspruch einzubeziehen, selbst wenn dieser Anspruch nicht direkt von dem unabhängigen Anspruch abhängig gemacht wird.
Die oben beschriebenen Ausführungsbeispiele stellen lediglich eine Veranschaulichung der Prinzipien der vorliegenden Erfindung dar. Es versteht sich, dass Modifikationen und Variationen der hierin beschriebenen Anordnungen und Einzelheiten anderen Fachleuten einleuchten werden. Deshalb ist beabsichtigt, dass die Erfindung lediglich durch den Schutzumfang der nachstehenden Patentansprüche und nicht durch die spezifischen Einzelheiten, die anhand der Beschreibung und der Erläuterung der Ausführungsbeispiele hierin präsentiert wurden, beschränkt sei.
Referenzen

[1] C. Draxler, „Einführung in die verbmobil-phondat Datenbank des gesprochenen Deutsch“, 1995.
[2] N. Alamdari, A. Azarang, und N. Kehtarnavaz, „Improving Deep Speech Denoising by Noisy2Noisy Signal Mapping,“ arXiv:1904.12069 Cs Eess, Feb. 2020.
[3] European Language Resources Association, „Audio eNhancement In Telecom Applications“, 2004. ISLRN: 537-894-870-719-4. Verfügbar unter http://catalog.elra.info/en-us/repository/browse/ELRA-S0156/.
[4] G . Carbajal, J. Richter, und T. Gerkmann, „Guided Variational Autoencoder for Speech Enhancement With a Supervised Classifier,“ arXiv:2102.06454 Cs Eess, Feb. 2021.
[5] . Barker, R. Marxer, E. Vincent, und S. Watanabe, „The third ‚chime‘ speech separation and recognition challenge: Dataset, task and baselines,“ IEEE Autom. Speech Recognition and Understanding Workshop (ASRU), 2015.
[6] H .-S. Choi, J.-H. Kim, J. Huh, A. Kim, J.-W. Ha, and K. Lee, „Phase-aware Speech Enhancement with Deep Complex U-Net,“ arXiv:1903.03107 Cs Eess Stat, Apr. 2019.
[7] S . Elshamy und T. Fingscheidt, „Improvement of Speech Residuals for Speech Enhancement," in 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), pp. 219-223, Oct. 2019.
[8] H . Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, „Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks," in IEEE Int. Conf. Acoust., Speech and Signal Process. (ICASSP), pp. 708-712, IEEE, Apr. 2015.
[9] H . Fang, G. Carbajal, S. Wermter, und T. Gerkmann, „Variational Autoencoder for Speech Enhancement with a Noise-Aware Encoder,“ arXiv:2102.08706 Cs Eess, Feb. 2021.
[10] T. Gerkmann, M. Krawczyk-Becker, and J. Le Roux, „Phase Processing for Single-Channel Speech Enhancement: History and recent advances," IEEE Signal Process. Magazine, vol. 32, pp. 55-66, Mar. 2015.
[11] R . G. Goswami, S. Andhavarapu, und K. S. R. Murty, „Phase Aware Speech Enhancement using Realisation of Complex-valued LSTM,“ arXiv:2010.14122 Cs Eess, Oct. 2020.
[12] M . M. Halimeh, T. Haubner, A. Briegleb, A. Schmidt, and W. Kellermann, „Combining Adaptive Filtering and Complex-valued Deep Postfiltering for Acoustic Echo Cancellation,“ in IEEE Int. Conf. Acoust., Speech and Signal Process. (ICASSP), 2021.
[13] X . Hao, X. Su, R. Horaud, and X. Li, „FullSubNet: A Full-Band and Sub-Band Fusion Model for Real-Time Single-Channel Speech Enhancement,“ arXiv:2010.15508 Cs Eess, Jan. 2021.
[14] J. Heitkaemper, D. Jakobeit, C. Boeddeker, L. Drude, und R. Haeb-Umbach, „Demystifying TasNet: A Dissecting Approach," in IEEE Int. Conf. Acoust., Speech and Signal Process. (ICASSP), S. 6359-6363, Mai 2020.
[15] Y . Hu, Y. Liu, S. Lv, M. Xing, S. Zhang, Y. Fu, J. Wu, B. Zhang, and L. Xie, „DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement,“ in INTERSPEECH, 2020.
[16] S . Ioffe und C. Szegedy, „Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift,“ arXiv:1502.03167 Cs, Mar. 2015.
[17] J. Jensen und C. H. Taal, „An Algorithm for Predicting the Intelligibility of Speech Masked by Modulated Noise Maskers," IEEE/ACM Trans. Audio, Speech, and Lang. Process, vol. 24, pp. 2009-2022, Nov. 2016.
[18] J.-H. Kim, J. Yoo, S. Chun, A. Kim, and J.-W. Ha, „Multi-Domain Processing via Hybrid Denoising Networks for Speech Enhancement,“ arXiv:1812.08914 Cs Eess, Dec. 2018.
[19] M. Kolbaek, Z. Tan, S. H. Jensen, and J. Jensen, „On Loss Functions for Supervised Monaural Time-Domain Speech Enhancement," IEEE/ACM Trans. Audio Speech Lang. Process, Vol. 28, S. 825-838, 2020.
[20] M. Krawczyk und T. Gerkmann, „STFT Phase Reconstruction in Voiced Speech for an Improved Single-Channel Speech Enhancement," IEEE/ACM Trans. Audio, Speech, and Language Process, vol. 22, pp. 1931-1940, Dec. 2014.
[21] J. Lee and H. Kang, „A Joint Learning Algorithm for Complex-Valued T-F Masks in Deep Learning-Based Single-Channel Speech Enhancement Systems," IEEE/ACM Trans. Audio Speech Lang. Process, Vol. 27, S. 1098-1108, Juni 2019.
[22] X. Li und R. Horaud, „Online Monaural Speech Enhancement Using Delayed Subband LSTM,“ arXiv:2005.05037 Cs Eess, Mai 2020.
[23] Y. Liu, M. Delfarah, and D. Wang, „Deep Casa for Talker-independent Monaural Speech Separation," in ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6354-6358, May 2020.
[24] J. Llombart, D. Ribas, A. Miguel, L. Vicente, A. Ortega, and E. Lleida, „Progressive loss functions for speech enhancement with deep neural networks,“ EURASIP J. Audio Speech Music Process, vol. 2021, p. 1, Jan. 2021.
[25] Y. Luo und N. Mesgarani, „Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation," IEEE/ACM Trans. Audio Speech Lang. Process, vol. 27, pp. 1256-1266, Aug. 2019.
[26] Y. Luo und N. Mesgarani, „TasNet: Time-domain audio separation network for real-time, single-channel speech separation,“ arXiv:1711.00541 Cs Eess, Apr. 2018.
[27] P. Zinemanas, P. Cancela, und M. Rocamora, „Mavd: a dataset for sound event detection in urban environments,“ DCASE Workshop, 2019.
[28] J. Ma, „A higher-level Neural Network library on Microcontrollers (NNoM),“ Oct. 2020. Software erhältlich bei https://doi.org/10.5281/zenodo.4158710.
[29] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, „Wavenet: A generative model for raw audio," in Advances Neural Inf. Process. Sys., pp. 479-4798, 2016.
[30] A. Pandey und D. Wang, „Exploring Deep Complex Networks for Complex Spectrogram Enhancement", in IEEE Int. Conf. Acoust., Speech and Signal Process. (ICASSP), S. 6885-6889, Mai 2019.
[31] A. Pandey und D. Wang, „Learning Complex Spectral Mapping for Speech Enhancement with Improved Cross-Corpus Generalization," in INTERSPEECH, pp. 4511-4515, Oct. 2020.
[32] S. Pascual, A. Bonafonte, and J. Serra, „SEGAN: Speech Enhancement Generative Adversarial Network,“ arXiv:1703.09452 Cs, Mar. 2017.
[33] ITU-T Recommendation P.862.2, „Wideband extension to recommendation P.862 for the assessment of wideband telephone networks and speech codecs,“ Recommendation, ITU, Nov. 2007.
[34] K. Qian, Y. Zhang, S. Chang, X. Yang, D. Florêncio, and M. Hasegawa-Johnson, „Speech Enhancement Using Bayesian Wavenet," in INTERSPEECH, pp. 2013-2017, Aug. 2017.
[35] C. K. A. Reddy, V. Gopal, R. Cutler, E. Beyrami, R. Cheng, H. Dubey, S. Matusevych, R. Aichner, A. Aazami, S. Braun, P. Rana, S. Srinivasan, and J. Gehrke, „The INTERSPEECH 2020 Deep Noise Suppression Challenge: Datasets, Subjective Testing Framework, and Challenge Results," INTERSPEECH, S. 5, 2020.
[36] O. Ronneberger, P. Fischer, and T. Brox, „U-net: Convolutional networks for biomedical image segmentation," in Medical Image Computing and Computer-Assisted Intervention (MICCAI), vol. 9351 of LNCS, pp. 234-241, Springer, 2015. (verfügbar auf arXiv:1505.04597 [cs.CV]).
[37] J. Le Roux, S. Wisdom, H. Erdogan, und J. R. Hershey, „SDR - half-baked or well done?“ , arXiv:1811.02508 Cs Eess, Nov. 2018.
[38] Y. Saishu, A. H. Poorjam, and M. G. Christensen, „A CNN-based approach to identification of degradations in speech signals," J. Audio Speech Music Proc., vol. 2021, p. 9, Dec. 2021.
[39] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, „An algorithm for intelligibility prediction of timeâ€"frequency weighted noisy speech," IEEE/ACM Trans. Audio, Speech, and Lang. Process, vol. 19, no. 7, pp. 2125-2136, 2011.
[40] M. Strake, B. Defraene, K. Fluyt, W. Tirry, and T. Fingscheidt, „Separated Noise Suppression and Speech Restoration: Lstm-Based Speech Enhancement in Two Stages," in IEEE Workshop Appl. Signal Process. Audio and Acoust. (WASPAA), pp. 239-243, Oct. 2019.
[41] M. Strake, B. Defraene, K. Fluyt, W. Tirry, and T. Fingscheidt, „Speech enhancement by LSTM-based noise suppression followed by CNN-based speech restoration," EURASIP J. Advances Signal Process., vol. 2020, p. 49, Dec. 2020.
[42] M. Abadi et al., „TensorFlow: Large-scale machine learning on heterogeneous systems“, 2015. Software erhältlich bei tensorflow.org.
[43] C. Trabelsi, O. Bilaniuk, Y. Zhang, D. Serdyuk, S. Subramanian, J. F. Santos, S. Mehri, N. Rostamzadeh, Y. Bengio, and C. J. Pal, „Deep Complex Networks,“ arXiv:1705.09792 Cs, Feb. 2018.
[44] J.-M. Valin, „A Hybrid DSP/Deep Learning Approach to Real-Time Full-Band Speech Enhancement,“ arXiv:1709.08243 Cs Eess, Mai 2018.
[45] J.-M. Valin, U. Isik, N. Phansalkar, R. Giri, K. Helwani, and A. Krishnaswamy, „A Perceptually-Motivated Approach for Low-Complexity, Real-Time Enhancement of Fullband Speech,“ in INTERSPEECH, Aug. 2020.
[46] S. Venkataramani, R. Higa, and P. Smaragdis, „Performance Based Cost Functions for End-to-End Speech Separation,“ arXiv:1806.00511 Cs Eess, June 2018.
[47] A. Vrankovic', J. Lerga, and N. Saulig, „A novel approach to extracting useful information from noisy TFDs using 2D local entropy measures," EURASIP J. Adv. Signal Process., vol. 2020, p. 18, Dec. 2020.
[48] Z.-Q. Wang, P. Wang, and D. Wang, „Complex Spectral Mapping for Single- and Multi-Channel Speech Enhancement and Robust ASR," IEEE/ACM Trans. Audio Speech Lang. Process, vol. 28, pp. 1778-1787, 2020.
[49] Y. Wang, A. Narayanan, and D. Wang, „On Training Targets for Supervised Speech Separation," IEEE/ACM Trans. Audio, Speech, and Lang. Process, vol. 22, pp. 1849-1858, Dec. 2014.
[50] N. L. Westhausen und B. T. Meyer, „Dual-Signal Transformation LSTM Network for Real-Time Noise Suppression,“ in INTERSPEECH, Oct. 2020.
[51] D. S. Williamson, Y. Wang, and D. Wang, „Complex Ratio Masking for Monaural Speech Separation," IEEE/ACM Trans. Audio Speech Lang. Process, vol. 24, pp. 483-492, Mar. 2016.
[52] Y. Xia, S. Braun, C. K. A. Reddy, H. Dubey, R. Cutler, and I. Tashev, „Weighted Speech Distortion Losses for Neural-Network-Based Real-Time Speech Enhancement," in IEEE Int. Conf. Acoust., Speech and Signal Process. (ICASSP), S. 871-875, Mai 2020.
[53] D. Yin, C. Luo, Z. Xiong, and W. Zeng, „PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network," AAAI, vol. 34, pp. 9458-9465, Apr. 2020.

Claims

Vorrichtung (10) zum Verarbeiten eines Audiosignals (12), um ein gefiltertes Signal (82) zu erhalten, wobei die Vorrichtung konfiguriert ist zum Bestimmen des gefilterten Signals durch: Transformieren (20) eines zeitlichen Segments (14) des Audiosignals (12) in einen Spektralbereich, um ein komplexwertiges transformiertes Segment (24) zu erhalten, und Filtern (80) des komplexwertigen transformierten Segments (24) unter Verwendung einer komplexwertigen Maske (44), wobei die Vorrichtung konfiguriert ist zum Bestimmen der komplexwertigen Maske durch: Bestimmen einer reellwertigen Maske (34) auf der Basis des komplexwertigen transformierten Segments (24) unter Verwendung eines ersten neuronalen Netzwerks (30), und Bestimmen der komplexwertigen Maske (44) unter Verwendung eines zweiten neuronalen Netzwerks (40) durch Verwenden der reellwertigen Maske (34) und des komplexwertigen transformierten Segments (24) als Eingaben für das zweite neuronale Netzwerk (40).
Vorrichtung (10) gemäß Anspruch 1, wobei eine erste Schicht (47₁) des zweiten neuronalen Netzwerks (40) konfiguriert ist zum Bestimmen eines Ausgangsmerkmals aus einer Mehrzahl von Ausgangsmerkmalen der ersten Schicht auf der Basis von: einer Menge von komplexwertigen Spektralkoeffizienten aus einer Mehrzahl von komplexwertigen Spektralkoeffizienten des transformierten Segments (24), und einer Menge von reellwertigen Maskenkoeffizienten aus einer Mehrzahl von reellwertigen Maskenkoeffizienten der reellwertigen Maske (34).
Vorrichtung (10) gemäß einem der vorhergehenden Ansprüche, wobei das zweite neuronale Netzwerk (40) ein neuronales Faltungsencoder-Netzwerk (46) und ein neuronales Faltungsdecoder-Netzwerk (48) aufweist, die jeweils eine Mehrzahl von Faltungsschichten aufweisen.
Vorrichtung (10) gemäß Anspruch 3, wobei das zweite neuronale Netzwerk (40) eine komplexwertige mit Gate versehene rekurrente Einheit (50) aufweist, die zwischen dem neuronalen Faltungsencoder-Netzwerk (46) und dem neuronalen Faltungsdecoder-Netzwerk (48) angeordnet ist.
Vorrichtung (10) gemäß Anspruch 4, wobei die komplexwertige mit Gate versehene rekurrente Einheit (50) konfiguriert ist zum Bestimmen eines Ausgangsmerkmals der komplexwertigen mit Gate versehenen rekurrenten Einheit durch: Bestimmen eines Realteils des Ausgangsmerkmals durch Aussetzen eines Realteils eines oder mehrerer Eingangsmerkmale der komplexwertigen mit Gate versehenen rekurrenten Einheit gegenüber einer ersten reellwertigen mit Gate versehenen rekurrenten Einheit, und durch Aussetzen eines Imaginärteils des zugehörigen Eingangsmerkmals gegenüber einer zweiten reellwertigen mit Gate versehenen rekurrenten Einheit, und Bestimmen eines Imaginärteils des Ausgangsmerkmals durch Aussetzen des Imaginärteils des einen oder mehrerer Eingangsmerkmale gegenüber der ersten reellwertigen mit Gate versehenen rekurrenten Einheit und Aussetzen des Realteils des zugehörigen Eingangsmerkmals gegenüber der zweiten reellwertigen mit Gate versehenen rekurrenten Einheit.
Vorrichtung (10) gemäß Anspruch 5, wobei die komplexwertige mit Gate versehene rekurrente Einheit konfiguriert ist zum Bestimmen eines Ausgangsmerkmal der komplexwertigen mit Gate versehenen rekurrenten Einheit durch: Bestimmen eines Realteils des Ausgangsmerkmals durch Subtrahieren eines ersten Realwerts von einem zweiten Realwert und Bestimmen eines Imaginärteils des Ausgangsmerkmals durch Kombinieren eines dritten Realwerts und eines vierten Realwerts, wobei die komplexwertige mit Gate versehene rekurrente Einheit konfiguriert ist zum: Bestimmen des ersten Realwerts auf der Basis eines Imaginärteils eines oder mehrerer Eingangsmerkmale der komplexwertigen mit Gate versehenen rekurrenten Einheit unter Verwendung einer ersten reellwertigen mit Gate versehenen rekurrenten Einheit, Bestimmen des zweiten Realwerts auf der Basis eines Realteils des einen oder der mehreren Eingangsmerkmale der komplexwertigen mit Gate versehenen rekurrenten Einheit unter Verwendung einer zweiten reellwertigen mit Gate versehenen rekurrenten Einheit, Bestimmen des dritten Realwerts auf der Basis des Realteils des einen oder der mehreren Eingangsmerkmale der komplexwertigen mit Gate versehenen rekurrenten Einheit unter Verwendung der ersten reellwertigen mit Gate versehenen rekurrenten Einheit, und Bestimmen des vierten Realwerts auf der Basis des Imaginärteils des einen oder der mehreren Eingangsmerkmale der komplexwertigen mit Gate versehenen rekurrenten Einheit unter Verwendung der zweiten reellwertigen mit Gate versehenen rekurrenten Einheit.
Vorrichtung (10) gemäß einem der Ansprüche 3 bis 6, wobei das zweite neuronale Netzwerk (40) für jede der Faltungsschichten des neuronalen Faltungsencoder-Netzwerks (46) eine Auslassverbindung (59) aufweist, die die jeweilige Faltungsschicht des neuronalen Faltungsencoder-Netzwerks (46) mit einer der Faltungsschichten des neuronalen Faltungsdecoder-Netzwerks (48) verbindet, wobei deren Faltungsschicht mit der jeweiligen Faltungsschicht des neuronalen Faltungsencoder-Netzwerks (46) verbunden ist.
Vorrichtung (10) gemäß einem der Ansprüche 3 bis 7, wobei die Faltungsschichten des neuronalen Faltungsdecoder-Netzwerks (48) transponierte Faltungsschichten sind.
Vorrichtung (10) gemäß einem der Ansprüche 3 bis 8, wobei das zweite neuronale Netzwerk (40) eine erste vollständig verbundene Schicht (51₁), die zwischen dem neuronalen Faltungsencoder-Netzwerk (46) und der komplexwertigen mit Gate versehenen rekurrenten Einheit angeordnet ist, und eine zweite vollständig verbundene Schicht (51₂) aufweist, die zwischen der komplexwertigen mit Gate versehenen rekurrenten Einheit (50) und dem neuronalen Faltungsdecoder-Netzwerk (48) angeordnet ist.
Vorrichtung (10) gemäß einem der Ansprüche 3 bis 9, wobei die Faltungsschichten (47, 49) des zweiten neuronalen Netzwerks (40) konfiguriert sind zum Verwenden von komplexwertigen Gewichtungen zum Gewichten der jeweiligen Mengen von Eingangsmerkmalen der Faltungsschichten.
Vorrichtung (10) gemäß einem der Ansprüche 3 bis 10, wobei die Faltungsschichten (47, 49) konfiguriert ist zum Bestimmen jeweiliger Mengen von Ausgangsmerkmalen der Faltungsschichten unter Verwendung komplexwertiger parametrischer rektifizierender linearer Einheiten als Aktivierungsfunktionen.
Vorrichtung (10) gemäß einem der Ansprüche 3 bis 11, wobei eine Faltungsschicht der Mehrzahl von Faltungsschichten des neuronalen Faltungsencoder-Netzwerks (46) konfiguriert ist zum Bestimmen einer Menge von Ausgangsmerkmalen der Faltungsschicht durch: Falten (43) der Menge von Eingangsmerkmalen der Faltungsschicht unter Verwendung eines komplexwertigen Kerns, um die Menge von Ausgangsmerkmalen zu erhalten, Normalisieren (55) der Menge von Ausgangsmerkmalen, und Unterziehen (57) jedes Ausgangsmerkmals der normalisierten Menge von Ausgangsmerkmalen einer Aktivierungsfunktion.
Vorrichtung (10) gemäß einem der Ansprüche 3 bis 12, wobei eine Faltungsschicht der Mehrzahl von Faltungsschichten des neuronalen Faltungsdecoder-Netzwerks (48) konfiguriert ist zum Bestimmen einer Menge von Ausgangsmerkmalen der Faltungsschicht durch: Multiplizieren (43) jedes Elementes der Menge von Eingangsmerkmalen der Faltungsschicht mit einem komplexwertigen Kern, um die Menge von Ausgangsmerkmalen zu erhalten, Normalisieren (55) der Menge von Ausgangsmerkmalen und Unterziehen (57) jedes Ausgangsmerkmals der normalisierten Menge von Ausgangsmerkmalen einer Aktivierungsfunktion.
Vorrichtung (10) gemäß einem der vorhergehenden Ansprüche, wobei das erste neuronale Netzwerk (30) eine Faltungsschicht (33) als Eingangsschicht aufweist.
Vorrichtung (10) gemäß einem der vorhergehenden Ansprüche, wobei das erste neuronale Netzwerk (30) Folgendes aufweist: eine Mehrzahl von vollständig verbundenen Schichten (35), und eine mit Gate versehene rekurrente Einheit (36), die zwischen zwei der vollständig verbundenen Schichten (35₁, 35₂) angeordnet ist, wobei die beiden vollständig verbundenen Schichten konfiguriert sind zum Verwenden einer rektifizierenden linearen Einheit als Aktivierungsfunktion.
Vorrichtung (10) gemäß Anspruch 15, wobei die letzte der vollständig verbundenen Schichten (35₃) konfiguriert ist zum Verwenden einer Sigmoidaktivierungsfunktion.
Vorrichtung (10) gemäß einem der vorhergehenden Ansprüche, wobei das erste neuronale Netzwerk (30) konfiguriert ist zum Bestimmen der reellwertigen Maske (34) auf der Basis von Absolutwerten von Spektralkoeffizienten des transformierten Segments (24).
Vorrichtung (10) gemäß Anspruch 17, die konfiguriert ist zum Verwenden einer beschränkten Funktion zum Bestimmen der komplexwertigen Maske (44) auf der Basis einer Menge von Ausgangsmerkmalen des zweiten neuronalen Netzwerks (40), so dass die Absolutwerte der Koeffizienten der komplexwertigen Maske (44) begrenzt sind.
Vorrichtung (10) gemäß einem der vorhergehenden Ansprüche, die konfiguriert ist zum Unterziehen des gefilterten transformierten Segments (24) einer inversen Transformation vom Spektralbereich in den Zeitbereich, um ein gefiltertes zeitliches Segment zu erhalten, und zum Bestimmen des gefilterten Signals unter Verwendung des gefilterten zeitlichen Segments.
Vorrichtung (10) gemäß einem der vorhergehenden Ansprüche, die konfiguriert ist zum Bestimmen des gefilterten Signals auf der Basis einer Mehrzahl von zeitlichen Segmenten des Audiosignals, wobei die Mehrzahl von zeitlichen Segmenten das zeitliche Segment aufweist, wobei die zeitlichen Segmente überlappend oder nicht überlappend sind.
Vorrichtung (10) gemäß einem der vorhergehenden Ansprüche, wobei das Audiosignal ein rauschbehaftetes Sprachsignal aufweist, und wobei das gefilterte Signal das Sprachsignal mit einem höheren Signal-Rausch-Verhältnis im Vergleich zum Audiosignal aufweist.
Verfahren zum Verarbeiten eines Audiosignals (12), um ein gefiltertes Signal (82) zu erhalten, wobei das Verfahren ein Bestimmen des gefilterten Signals durch folgende Schritte aufweist: Transformieren (20) eines zeitlichen Segments des Audiosignals in einen Spektralbereich, um ein komplexwertiges transformiertes Segment (24) zu erhalten, und Filtern (80) des komplexwertigen transformierten Segments (24) unter Verwendung einer komplexwertigen Maske (44), wobei das Verfahren ein Bestimmen der komplexwertigen Maske (44) durch folgende Schritte aufweist: Bestimmen einer reellwertigen Maske (34) auf der Basis des komplexwertigen transformierten Segments (24) unter Verwendung eines ersten neuronalen Netzwerks (30), und Bestimmen der komplexwertigen Maske (44) unter Verwendung eines zweiten neuronalen Netzwerks (40) durch Verwenden der reellwertigen Maske (34) und des komplexwertigen transformierten Segments (24) als Eingaben für das zweite neuronale Netzwerk (40).
Computerprogramm zum Implementieren des Verfahrens gemäß Anspruch 22, wenn es auf einem Computer oder Signalprozessor ausgeführt wird.