DE102022126455A1 - System und verfahren für die verarbeitung eines audioeingangssignals - Google Patents

System und verfahren für die verarbeitung eines audioeingangssignals Download PDF

Info

Publication number
DE102022126455A1
DE102022126455A1 DE102022126455.6A DE102022126455A DE102022126455A1 DE 102022126455 A1 DE102022126455 A1 DE 102022126455A1 DE 102022126455 A DE102022126455 A DE 102022126455A DE 102022126455 A1 DE102022126455 A1 DE 102022126455A1
Authority
DE
Germany
Prior art keywords
channel
output
feature
input
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102022126455.6A
Other languages
English (en)
Inventor
Amos Schreibman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102022126455A1 publication Critical patent/DE102022126455A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone

Abstract

Ein System und ein Verfahren zum Verarbeiten eines Audioeingangssignals enthalten ein Mikrofon, einen Controller und eine Kommunikationsverbindung, die mit einem entfernten Lautsprecher gekoppelt sein kann. Das Mikrofon erfasst das Audioeingangssignal und übermittelt das Audioeingangssignal an den Controller und der Controller ist mit der Kommunikationsverbindung gekoppelt. Der Controller enthält ausführbaren Code, um über einen linearen Rauschminderungs-Filterungsalgorithmus auf der Grundlage des Audioeingangssignals eine erste Resultierende zu erzeugen und über einen nichtlinearen Nachfilterungsalgorithmus auf der Grundlage der ersten Resultierenden eine zweite Resultierende zu erzeugen. Auf der Grundlage der zweiten Resultierenden wird unter Nutzung eines Merkmalswiederherstellungsalgorithmus ein Audioausgangssignal erzeugt. Das Audioausgangssignal wird über die Kommunikationsverbindung an einen Lautsprecher übermittelt, der an einem entfernten Ort sein kann.

Description

  • EINLEITUNG
  • Sprachverarbeitungssysteme umfassen die Verwendung von Systemen des Typs Lautsprecher-Freihandtelefon wie etwa Smartphones, Videokonferenzsysteme, Laptops und Tablets. In einigen Systemen kann sich der Lautsprecher in einem geschlossenen Raum und in einer verhältnismäßig großen Entfernung von einem Mikrofon entfernt befinden. Derartige Anordnungen können Umgebungsrauschen, einschließlich Nebengeräuschen, Störungen und Nachhall, einführen. Derartige Anordnungen können zu akustischen Signalverarbeitungsherausforderungen führen, die die Schallqualität und ein zugeordnetes Signal-Rausch-Verhältnis (SNR) beeinträchtigen.
  • Sprachverarbeitungstechnologien wie etwa automatische Spracherkennung (ASR) und Telekonferenzen enthalten häufig Rauschminderungsstrategien und Rauschminderungssysteme, um den hörbaren Umgebungsrauschpegel zu verringern und die Sprachverständlichkeit zu verbessern. Rauschminderungssysteme können lineare Rauschminderungsalgorithmen, nichtlineare Nachfilterungsalgorithmen usw. enthalten. Die Leistungsfähigkeit linearer Rauschminderungsalgorithmen kann nicht ausreichen, um ein gewünschtes Signal-Rausch-Ziel (SNR-Ziel) zu erzielen. Ein nichtlinearer Nachfilterungsalgorithmus (PF), der mit einem linearen Rauschminderungsalgorithmus in Reihe geschaltet ist, kann Rauschminderungspegel verbessern, wobei es aber Abwägungen zwischen Restrauschen und Sprachstörpegeln gibt. Durch die Entfernung von Sprachmerkmalen aus dem Signal wegen spektraler Subtraktionsalgorithmen, die in einem PF-Module genutzt werden können, kann eine Klangverzerrung verursacht werden. Um ein Ziel-SNR bei minimaler Sprachverzerrung zu erreichen, erfordert ein derartiges System eine genaue Abstimmung, was schwierig zu erzielen sein kann.
  • Somit besteht ein Bedarf an einem verbesserten Verfahren und System für die Sprachverarbeitung, die Rauschminderungsstrategien enthalten, die hörbare Nebengeräuschpegel verringern, die Sprachverständlichkeit verbessern und eine Notwendigkeit einer genauen Abstimmung verringern.
  • ZUSAMMENFASSUNG
  • Die hier beschriebenen Konzepte schaffen Verfahren, Vorrichtungen und Systeme für die Sprachverarbeitung, die Rauschminderungsstrategien enthalten, um hörbare Nebengeräuschpegel zu verringern und die Sprachverständlichkeit zu verbessern.
  • Die Konzepte enthalten ein System zum Verarbeiten eines Audioeingangssignals, wobei das System ein Mikrofon, einen Controller und eine Kommunikationsverbindung, die mit einem entfernt befindlichen Audiolautsprecher gekoppelt sein kann, nutzt. Das Mikrofon ist dafür konfiguriert, das Audioeingangssignal zu erfassen und zu erzeugen und das Audioeingangssignal an den Controller zu übermitteln, und der Controller ist mit der Kommunikationsverbindung gekoppelt. Der Controller enthält ausführbaren Code zum Erzeugen einer ersten Resultierenden auf der Grundlage des Audioeingangssignals über einen linearen Rauschminderungs-Filterungsalgorithmus und zum Erzeugen einer zweiten Resultierenden auf der Grundlage der ersten Resultierenden über einen nichtlinearen Nachfilterungsalgorithmus. Auf der Grundlage der zweiten Resultierenden wird unter Nutzung eines Merkmalswiederherstellungsalgorithmus ein Audioausgangssignal erzeugt. Das Audioausgangssignal wird über die Kommunikationsverbindung an einen Lautsprecher übermittelt, der an einem entfernten Ort sein kann.
  • Ein Aspekt der Offenbarung enthält, dass der Merkmalswiederherstellungsalgorithmus ein Modul auf der Grundlage eines tiefen neuronalen Netzes (DNN-basiertes Modul) ist, das enthält: eine STFT (Kurzzeit-Fourier-Transformation); mehrere Faltungsschichten; eine erste LSTM-Schicht (Lang-Kurzzeit-Speicherschicht); eine zweite LSTM-Schicht; eine dichte Schicht; mehrere transponierte Faltungsschichten; und eine ISTFT-Schicht (Schicht für eine inverse Kurzzeit-Fourier-Transformation).
  • Ein anderer Aspekt der Offenbarung enthält, dass die STFT das Audioeingangssignal aus einem Amplitudenbereich in einen Frequenzbereich transformiert.
  • Ein anderer Aspekt der Offenbarung enthält, dass die STFT das Audioeingangssignal als eine 2-Kanal-Folge mit einem Realteil und mit einem Imaginärteil in den Frequenzbereich transformiert.
  • Ein anderer Aspekt der Offenbarung enthält, dass die mehreren Faltungsschichten eine erste Faltungsschicht mit einer 2-Kanal-Eingabe mit 256 Merkmalen und mit einer 32-Kanal-Ausgabe mit 128 Merkmalen; eine zweite Faltungsschicht mit einer 32-Kanal-Eingabe mit 128 Merkmalen und mit einer 64-Kanal-Ausgabe mit 64 Merkmalen; eine dritte Faltungsschicht mit einer 64-Kanal-Eingabe mit 64 Merkmalen und mit einer 128-Kanal-Ausgabe mit 32 Merkmalen; eine vierte Faltungsschicht mit einer 128-Kanal-Eingabe mit 32 Merkmalen und mit einer 128-Kanal-Ausgabe mit 16 Merkmalen; eine fünfte Faltungsschicht mit einer 128-Kanal-Eingabe mit 16 Merkmalen und mit einer 256-Kanal-Ausgabe mit 8 Merkmalen; und eine sechste Faltungsschicht mit einer 256-Kanal-Eingabe mit 8 Merkmalen und mit einer 256-Kanal-Ausgabe mit 4 Merkmalen sind.
  • Ein anderer Aspekt der Offenbarung enthält, dass die 256-Kanal-Ausgabe mit 4 Merkmalen, die von der sechsten Faltungsschicht ausgegeben wird, als eine Eingabe in die erste LSTM-Schicht bereitgestellt wird.
  • Ein anderer Aspekt der Offenbarung enthält, dass jede der mehreren Faltungsschichten einen Kern der Größe (2, 9) und eine Schrittweite der Größe (1, 2) aufweist.
  • Ein anderer Aspekt der Offenbarung enthält, dass eine Eingabe der ersten Faltungsschicht als eine Eingabe in die ISTFT bereitgestellt wird.
  • Ein anderer Aspekt der Offenbarung enthält, dass die Ausgabe der sechsten Faltungsschicht als Eingabe in die erste LSTM-Schicht bereitgestellt wird.
  • Ein anderer Aspekt der Offenbarung enthält, dass die erste LSTM-Schicht 256 Zustände aufweist.
  • Ein anderer Aspekt der Offenbarung enthält, dass die zweite LSTM-Schicht 256 Zustände aufweist.
  • Ein anderer Aspekt der Offenbarung enthält, dass die Ausgabe der zweiten LSTM-Schicht als Eingabe in eine dichte Schicht bereitgestellt wird.
  • Ein anderer Aspekt der Offenbarung enthält, dass die mehreren transponierten Faltungsschichten eine sechste transponierte Faltungsschicht mit einer 512-Kanal-Eingabe mit 4 Merkmalen und mit einer 256-Kanal-Ausgabe mit 8 Merkmalen; eine fünfte transponierte Faltungsschicht mit einer 512-Kanal-Eingabe mit 8 Merkmalen und mit einer 128-Kanal-Ausgabe mit 16 Merkmalen; eine vierte transponierte Faltungsschicht mit einer 256-Kanal-Eingabe mit 16 Merkmalen und mit einer 128-Kanal-Ausgabe mit 32 Merkmalen; eine dritte transponierte Faltungsschicht mit einer 256-Kanal-Eingabe mit 32 Merkmalen und mit einer 64-Kanal-Ausgabe mit 64 Merkmalen; eine zweite transponierte Faltungsschicht mit einer 128-Kanal-Eingabe mit 64 Merkmalen und mit einer 32-Kanal-Ausgabe mit 128 Merkmalen; und eine erste transponierte Faltungsschicht mit einer 64-Kanal-Eingabe mit 128 Merkmalen und mit einer 2-Kanal-Ausgabe mit 256 Merkmalen aufweisen.
  • Ein anderer Aspekt der Offenbarung enthält, dass die Ausgabe der dichten Schicht als Eingabe in die sechste transponierte Faltungsschicht bereitgestellt wird.
  • Ein anderer Aspekt der Offenbarung enthält, dass jede der mehreren transponierten Faltungsschichten einen Kern der Größe (2, 9) und eine Schrittweite der Größe (1, 2) aufweist.
  • Ein anderer Aspekt der Offenbarung enthält, dass die Ausgabe der ersten transponierten Faltungsschicht als eine Eingabe in die ISTFT bereitgestellt wird, um eine Merkmalswiederherstellung zu bewirken.
  • Ein anderer Aspekt der Offenbarung enthält, dass die Ausgabe der ersten Faltungsschicht als eine Eingabe in die erste transponierte Faltungsschicht bereitgestellt wird.
  • Ein anderer Aspekt der Offenbarung enthält, dass die Ausgabe der zweiten Faltungsschicht als eine Eingabe in die zweite transponierte Faltungsschicht bereitgestellt wird.
  • Ein anderer Aspekt der Offenbarung enthält, dass die Ausgabe der dritten Faltungsschicht als eine Eingabe in die dritte transponierte Faltungsschicht bereitgestellt wird.
  • Ein anderer Aspekt der Offenbarung enthält, dass die Ausgabe der vierten Faltungsschicht als eine Eingabe in die vierte transponierte Faltungsschicht bereitgestellt wird.
  • Ein anderer Aspekt der Offenbarung enthält, dass die Ausgabe der fünften Faltungsschicht als eine Eingabe in die fünfte transponierte Faltungsschicht bereitgestellt wird.
  • Ein anderer Aspekt der Offenbarung enthält, dass die Ausgabe der sechsten Faltungsschicht als eine Eingabe in die sechste transponierte Faltungsschicht bereitgestellt wird.
  • Ein anderer Aspekt der Offenbarung enthält, dass die ISTFT das transponierte Audioeingangssignal zusammen mit der Ausgabe der ersten transponierten Faltungsschicht aus einem Frequenzbereich in einen Amplitudenbereich transformiert, um das Audioausgangssignal zu erzeugen.
  • Ein anderer Aspekt der Offenbarung enthält ein Verfahren zum Verarbeiten eines Audioeingangssignals, das enthält, dass ein Audioeingangssignal über ein Mikrofon erfasst wird; dass das Audioeingangssignal einem linearen Rauschminderungs-Filterungsalgorithmus ausgesetzt wird, um eine erste Resultierende zu erzeugen; dass die erste Resultierende einem nichtlinearen Nachfilterungsalgorithmus ausgesetzt wird, um eine zweite Resultierende zu erzeugen; dass dadurch, dass die zweite Resultierende einem Merkmalswiederherstellungsalgorithmus ausgesetzt wird, ein Audioausgangssignal erzeugt wird; und dass ein Lautsprecher in Ansprechen auf das Audioausgangssignal gesteuert wird.
  • Ein anderer Aspekt der Offenbarung enthält ein System zum Verarbeiten einer Spracheingabe, das ein Mikrofon, einen Controller und einen Lautsprecher enthält, wobei das Mikrofon dafür konfiguriert ist, ein Spracheingangssignal zu erfassen und das Spracheingangssignal an den Controller zu übermitteln; und wobei der Controller mit dem Lautsprecher funktional verbunden ist. Der Controller enthält ausführbaren Code, um das Spracheingangssignal einem linearen Rauschminderungs-Filterungsalgorithmus auszusetzen, um eine erste Resultierende zu erzeugen; die erste Resultierende einem nichtlinearen Nachfilterungsalgorithmus auszusetzen, um eine zweite Resultierende zu erzeugen; dadurch, dass die zweite Resultierende einem Merkmalswiederherstellungsalgorithmus ausgesetzt wird, ein Audiosignal zu erzeugen; und den Lautsprecher in Ansprechen auf das Sprachausgangssignal zu steuern.
  • Die obige Zusammenfassung soll nicht jede mögliche Ausführungsform oder jeden Aspekt der vorliegenden Offenbarung repräsentieren. Vielmehr ist die vorstehende Zusammenfassung dafür bestimmt, beispielhaft einige der hier offenbarten neuen Aspekte und Merkmale darzustellen. Die obigen Merkmale und Vorteile und weitere Merkmale und Vorteile der vorliegenden Offenbarung gehen leicht aus der folgenden ausführlichen Beschreibung repräsentativer Ausführungsformen und Ausführungsarten der vorliegenden Offenbarung, wenn sie zusammen mit den beigefügten Zeichnungen und mit den Ansprüchen genommen wird, hervor.
  • Figurenliste
  • Es werden nun eine oder mehrere Ausführungsformen beispielhaft mit Bezug auf die beigefügten Zeichnungen beschrieben; es zeigen:
    • 1 schematisch ein Mikrofon, einen Controller und eine Kommunikationsverbindung, die mit einem entfernten Lautsprecher gekoppelt sein kann, gemäß der Offenbarung;
    • 2 schematisch Elemente einer Rauschminderungsroutine zum Verarbeiten eines Audioeingangssignals gemäß der Offenbarung.
    • 3 schematisch Elemente eines Merkmalswiederherstellungsalgorithmus, der ein Modul eines tiefen neuronalen Netzes (DNN-Module) zum Verarbeiten eines Audioeingangssignals als Teil einer Rauschminderungsroutine enthält, gemäß der Offenbarung.
    • 4 schematisch Elemente in Bezug auf ein Trainingsmodul zum Trainieren eines Moduls eines tiefen neuronalen Netzes (DNN-Moduls) zum Verarbeiten eines Audioeingangssignals gemäß der Offenbarung.
  • Die beigefügten Zeichnungen sind nicht notwendig maßstabsgerecht und können eine etwas vereinfachte Darstellung verschiedener bevorzugter Elemente der vorliegenden Offenbarung, wie sie hier offenbart ist, einschließlich z. B. spezifischer Dimensionen, Orientierungen, Orte und Formen, darstellen. Einzelheiten, die derartigen Elementen zugeordnet sind, werden teilweise durch die bestimmte beabsichtigte Anwendungs- und Verwendungsumgebung bestimmt.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Die Komponenten der offenbarten Ausführungsformen, wie sie hier beschrieben und dargestellt sind, können in einer Vielzahl verschiedener Konfigurationen angeordnet und ausgelegt sein. Somit soll die folgende ausführliche Beschreibung den Schutzumfang der wie beanspruchten Offenbarung nicht einschränken, sondern repräsentiert sie lediglich mögliche Ausführungsformen davon. Obwohl in der folgenden Beschreibung zahlreiche spezifische Einzelheiten dargelegt sind, um ein gründliches Verständnis der hier offenbarten Ausführungsformen zu schaffen, können einige Ausführungsformen außerdem ohne einige dieser Einzelheiten verwirklicht werden. Darüber hinaus ist bestimmtes technisches Material, das im verwandten Gebiet verstanden ist, zur Klarheit nicht ausführlich beschrieben, um eine unnötige Verdeckung der Offenbarung zu vermeiden. Darüber hinaus bezeichnen überall in den Zeichnungen einander entsprechende Bezugszeichen gleiche oder einander entsprechende Teile und Elemente. Darüber hinaus kann die Offenbarung, wie sie hier dargestellt und beschrieben ist, in Anwesenheit eines Elements, das hier nicht spezifisch offenbart ist, verwirklicht werden. Darüber hinaus soll irgendeine hier explizit oder implizit dargestellte Theorie keine Beschränkung auferlegen.
  • Wie der Begriff „System“ hier verwendet ist, kann er sich auf einen bzw. auf eine Kombination mechanischer und elektrischer Aktuatoren, Sensoren, Controller, anwendungsspezifischer integrierter Schaltungen (ASIC), Kombinationslogikschaltungen, Software, Firmware und/oder anderer Komponenten, die dafür ausgelegt sind, die beschriebene Funktionalität bereitzustellen, beziehen. Ausführungsformen können hier hinsichtlich funktionaler und/oder logischer Blogkomponenten und verschiedener Verarbeitungsschritte beschrieben sein. Es wird gewürdigt werden, dass derartige Blockkomponenten durch irgendeine Anzahl, Kombination oder Zusammenstellung mechanischer und elektrischer Hardware-, Software- und/oder Firmwarekomponenten, die dafür konfiguriert sind, die spezifizierten Funktionen und/oder Routinen auszuführen, verwirklicht werden können. Der Kürze halber können herkömmliche Komponenten und Techniken und andere funktionale Aspekte der Systeme (und der einzelnen Betriebskomponenten der Systeme) hier nicht ausführlich beschrieben sein. Darüber hinaus sollen die in den verschiedenen hier enthaltenen Figuren gezeigten Verbindungslinien beispielhafte Funktionsbeziehungen und/oder physikalische Kopplungen zwischen den verschiedenen Elementen repräsentieren. Es wird angemerkt, dass stattdessen viele alternative oder zusätzliche Funktionsbeziehungen oder physikalische Verbindungen vorhanden sein können.
  • Die Verwendung von Ordnungszahlen wie etwas erstes, zweites und drittes bedeutet nicht notwendig eine Rangordnung, sondern kann vielmehr zwischen mehreren Fällen einer Tätigkeit oder Struktur unterscheiden.
  • Nun anhand der Zeichnungen, die zur Veranschaulichung bestimmter beispielhafter Ausführungsformen und nicht zu deren Beschränkung gegeben sind, stellt 1 schematisch ein System 100 dar, das ein Mikrofon 20 und einen Controller 10, der in der Lage ist, über eine Kommunikationsverbindung 60 mit einem entfernt befindlichen Audiolautsprecher 70 zu kommunizieren, enthält. Gemäß einer Ausführungsform ist der entfernt befindliche Audiolautsprecher 70 an einem Ort außerhalb des Systems 100. Das System 100 enthält eine Rauschminderungsroutine 200, um ein Audioeingangssignal 15 dafür zu managen, hörbare Nebengeräuschpegel zu verringern und die Sprachverständlichkeit zu verbessern. Der Begriff „Sprachverständlichkeit“ bezieht sich auf die Sprachklarheit, d. h. auf den Grad, in dem Sprachschalle durch einen Hörer richtig identifiziert und verstanden werden können.
  • Das Mikrofon 20 kann irgendeine Vorrichtung sein, die einen Wandler enthält, der in der Lage ist, hörbaren Schall in ein elektrisches Signal in Form eines Audioeingangssignals 15 umzuwandeln. Die Kommunikationsverbindung 60 kann eine direkte verdrahtete Punkt-zu-Punkt-Verbindung, eine vernetzte Kommunikationsbusverbindung, eine verdrahtete Verbindung oder eine andere Kommunikationsverbindung sein.
  • Der Controller 10 enthält einen Empfänger 30, einen Prozessor 40 und einen Speicher 50, wobei der Speicher 50 eine Ausführungsform der Rauschminderungsroutine 200 enthält und eine Datenspeicherung bereitstellt.
  • Der Begriff „Controller“ und verwandte Begriffe wie etwa Mikrocontroller, Steuerung, Steuereinheit, Prozessor usw. beziehen sich auf eine oder verschiedene Kombinationen einer oder mehrerer anwendungsspezifischer integrierter Schaltungen (ASIC), frei programmierbarer logischer Anordnungen (FPGA), elektronischer Schaltungen, Zentraleinheiten, z. B. Mikroprozessoren und zugeordneter transitorischer und nichttransitorischer Speicherkomponenten in Form von Speicher- und Datenablagespeichervorrichtungen (nur Lesen, programmierbar nur Lesen, Schreiben-Lesen, Festplattenlaufwerk usw.). Die nichttransitorische Speicherkomponente ist der Lage, maschinenlesbare Anweisungen in Form eines oder mehrerer Software- oder Firmwareprogramme oder Software- oder Firmwareroutinen, einer oder mehrerer Kombinationslogikschaltungen, einer oder mehrerer Eingabe/- Ausgabe-Schaltungen und Eingabe/Ausgabe-Vorrichtungen, einer Signalaufbereitung, einer Pufferschaltungsanordnung und anderer Komponenten, auf die durch einen oder mehrere Prozessoren zugegriffen werden kann und die durch einen oder mehrere Prozessoren ausgeführt werden können, um eine beschriebene Funktionalität bereitzustellen, zu speichern. Die eine oder die mehreren Eingabe/Ausgabe-Schaltungen und Eingabe/Ausgabe-Vorrichtungen enthalten Analog/Digital-Umsetzer und zugehörige Vorrichtungen, die Eingaben von Sensoren überwachen, wobei derartige Eingaben mit einer voreingestellten Abtastfrequenz oder in Ansprechen auf ein Auslöseereignis überwacht werden. Software, Firmware, Programme, Anweisungen, Steuerroutinen, Code, Algorithmen und ähnliche Begriffe bedeuten durch einen Controller ausführbare Anweisungssätze einschließlich Kalibrierungen und Nachschlagetabellen. Jeder Controller führt eine oder mehrere Steuerroutinen aus, um gewünschte Funktionen bereitzustellen. Routinen können in regelmäßigen Abständen, z. B. alle 100 Mikrosekunden während des andauernden Betriebs, ausgeführt werden. Alternativ können Routinen in Ansprechen auf das Auftreten eines Auslöseereignisses ausgeführt werden. Die Kommunikation zwischen Controllern, Aktuatoren und/oder Sensoren und dem entfernt befindlichen Audiolautsprecher 70 kann unter Verwendung einer direktverdrahteten Punkt-zu-Punkt-Verbindung, einer vernetzten Kommunikationsbusverbindung, einer drahtlosen Verbindung oder einer anderen Kommunikationsverbindung erreicht werden. Die Kommunikation enthält das Austauschen von Datensignalen, einschließlich z. B. elektrischen Signalen, über ein leitfähiges Medium; elektromagnetischen Signalen über die Luft; optischen Signalen über Lichtwellenleiter; usw. Die Datensignale können diskrete, analoge und/oder digitalisierte analoge Signale, die Eingaben von Sensoren, Aktuatorbefehle und Kommunikation zwischen Controllern repräsentieren, enthalten.
  • Der Begriff „Signal“ bezieht sich auf einen physikalisch unterscheidbaren Indikator, der Informationen übermittelt, und kann eine geeignete Signalform (z. B. elektrisch, optisch, magnetisch, mechanisch oder elektromagnetisch) wie etwa DC, AC, Sinusschwingung, Dreieckschwingung, Rechteckschwingung, Vibration und dergleichen, die in der Lage ist, durch ein Medium zu laufen, sein.
  • 2 stellt schematisch Elemente der Rauschminderungsroutine 200 zum Verarbeiten des Audioeingangssignals 15 bereit, die einen linearen Rauschminderungsalgorithmus 210, einen nichtlinearen Nachfilteralgorithmus 240 und einen Merkmalswiederherstellungsalgorithmus 300 enthält.
  • Der lineare Rauschminderungsalgorithmus 210 enthält eine akustische Echounterdrückung (AEC) 220 und eine Strahlformung (BF) 230. Die AEC 220 ist eine digitale Signalverarbeitungstechnik zum Identifizieren und Unterdrücken akustischer Echos, die verringert werden, um als ein Algorithmus zu arbeiten. Die BF 230 ist eine digitale Signalverarbeitungstechnik, die räumliche Informationen verwendet, um die Umgebungsrauschleistung zu verringern, um somit das Leistungsverhältnis zwischen dem gewünschten Signal und dem Rauschen zu verbessern. Gemäß einer Ausführungsform und wie gezeigt ist, geht die AEC 220 der BF 230 voraus. Alternativ kann die BF 230 der AE 220 vorausgehen. Die akustische Echounterdrückung und Strahlformung sind akustische Signalverarbeitungstechniken, die dem erfahrenen Praktiker bekannt sind.
  • Der lineare Rauschminderungsalgorithmus 210 erzeugten ein erstes resultierendes Signal 235, das als Eingabe in den nichtlinearen Nachfilteralgorithmus (NLP-Algorithmus) 240 bereitgestellt wird. Der NLP-Algorithmus 240 verbessert den Rauschminderungspegel dadurch, dass er nichtlineare Filterung nutzt, um Restrauschen und Echos zu verringern. Die NLP ist eine akustische Signalverarbeitungstechnik, die dem erfahrenen Praktiker bekannt ist.
  • Der NLP-Algorithmus 240 erzeugt ein zweites resultierendes Signal 245, das als Eingabe in den Merkmalswiederherstellungsalgorithmus 300 bereitgestellt wird. Der Merkmalswiederherstellungsalgorithmus 300 erzeugt auf der Grundlage des zweiten resultierenden Signals 245 das Audioausgangssignal 55. Der DNN-basierte Merkmalswiederherstellungsalgorithmus 300 ist nach dem Nachfilterungsmodul angeordnet, um die Abstimmung zu vereinfachen und die Sprachqualität zu verbessern.
  • 3 stellt schematisch Elemente des Merkmalswiederherstellungsalgorithmus 300 für die Verarbeitung des Audioeingangssignals 15 als Teil der Rauschminderungsroutine 200 dar. Der Merkmalswiederherstellungsalgorithmus 300 ist aus einem Modul eines tiefen neuronalen Netzes (DNN-Modul), das eine Kurzzeit-Fourier-Transformations-Schicht (STFT-Schicht) 310, mehrere Faltungsschichten 320, eine erste Lang-Kurzzeit-Speicherschicht (LSTM-Schicht) 330, eine zweite LSTM-Schicht 332, eine dichte Schicht 340, mehrere transponierte Faltungsschichten 350 und eine ISTFT-Schicht 370 enthält, zusammengesetzt.
  • Die STFT- und die ISTFT-Schicht 310, 370 sind jeweils eine Folge von Fourier-Transformationen eines gefensterten Signals, das für Situationen, in denen Frequenzkomponenten eines Signals im Zeitverlauf variieren, zeitlokalisierte Frequenzinformationen bereitstellt. Ein RNN (rekurrentes neuronales Netz) ist eine Zeitreihenversion eines künstlichen neuronalen Netzes oder ANN, das dafür ausgelegt ist, Folgen von Daten wie etwa Schall zu verarbeiten. Ein RNN-basiertes DNN nutzt bei der Sprachverarbeitung starke Korrelationen zwischen der Sprachzeit und der Sprachfrequenz für die Rauschminderung und für die blinde Quellentrennung. Diese Fähigkeit kann für das Wiederherstellungsproblem nutzbar gemacht werden, was zu einer vereinfachten Abstimmung des Nachfiltermoduls bei niedrigeren Umgebungsrauschpegeln führt, um eine verbesserte Sprachqualität in Form der Sprachverständlichkeit zu erzielen.
  • Die erste und die zweite Lang-Kurzzeit-Speicherschicht (LSTM-Schicht) 330, 332 sind ein Typ eines rekurrenten neuronalen Netzes, das für Aufgaben wie etwa Text-zu-Sprache oder natürliche Sprachverarbeitung üblicherweise verwendet wird. Sie besitzen einen rekurrenten Zustand, der jedes Mal, wenn neue Daten durch das Netz zugeführt werden, aktualisiert wird. Auf diese Weise weisen die LSTM-Schichten einen Speicher auf.
  • Die STFT-Schicht 310 transformiert das Audioeingangssignal 15 in Form einer 2-Kanal-Folge mit einem Realteil und mit einem Imaginärteil aus einem Amplitudenbereich in einen Frequenzbereich.
  • Gemäß einer Ausführungsform enthalten die mehreren Faltungsschichten 320 eine erste Faltungsschicht 321 mit einer 2-Kanal-Eingabe mit 256 Merkmalen und mit einer 32-Kanal-Ausgabe mit 128 Merkmalen; eine zweite Faltungsschicht 322 mit einer 32-Kanal-Eingabe mit 128 Merkmalen und mit einer 64-Kanal-Ausgabe mit 64 Merkmalen; eine dritte Faltungsschicht 323 mit einer 64-Kanal-Eingabe mit 64 Merkmalen und mit einer 128-Kanal-Ausgabe mit 32 Merkmalen; eine vierte Faltungsschicht 324 mit einer 128-Kanal-Eingabe mit 32 Merkmalen und mit einer 128-Kanal-Ausgabe mit 16 Merkmalen; eine fünfte Faltungsschicht 325 mit einer 128-Kanal-Eingabe mit 16 Merkmalen und mit einer 256-Kanal-Ausgabe mit 8 Merkmalen; und eine sechste Faltungsschicht 326 mit einer 256-Kanal-Eingabe mit 8 Merkmalen und mit einer 256-Kanal-Ausgabe mit 4 Merkmalen.
  • Gemäß einer Ausführungsform weist jede der mehreren Faltungsschichten 320 einen Kern der Größe (2, 9) und eine Schrittweite der Größe (1, 2) auf. Der Kern ist ein Filter, das zum Extrahieren der Merkmale aus den Daten verwendet wird, und ist eine Matrix, die sich über die Eingangsdaten bewegt, mit einem Teilbereich der Eingangsdaten ein Skalarprodukt ausführt und eine Ausgabe als die Matrix von Skalarprodukten besitzt. Die Schrittweite steuert, wie das Filter um das Eingangsvolumen faltet.
  • Die 256-Kanal-Ausgabe mit 4 Merkmalen (327), die von der sechsten Faltungsschicht 326 ausgegeben wird, wird als eine Eingabe in die erste LSTM-Schicht 330 bereitgestellt, die 256 Zustände besitzt.
  • Eine Eingabe der ersten Faltungsschicht 321 wird als eine Eingabe in die ISTFT-Schicht 370 bereitgestellt.
  • Eine Ausgabe der ersten LSTM-Schicht 330 wird als Eingabe in die zweite LSTM-Schicht 332 bereitgestellt und eine Ausgabe der zweiten LSTM-Schicht 332 wird als Eingabe in die dichte Schicht 340 bereitgestellt.
  • Eine Ausgabe der dichten Schicht 340 wird als Eingabe (357) in die mehreren transponierten Faltungsschichten 350, spezifisch in eine sechste Faltungsschicht 326, bereitgestellt.
  • Die mehreren transponierten Faltungsschichten 350 enthalten eine sechste transponierte Faltungsschicht 356 mit einer 512-Kanal-Eingabe mit 4 Merkmalen und mit einer 256-Kanal-Ausgabe mit 8 Merkmalen; eine fünfte transponierte Faltungsschicht 355 mit einer 512-Kanal-Eingabe mit 8 Merkmalen und mit einer 128-Kanal-Ausgabe mit 16 Merkmalen; eine vierte transponierte Faltungsschicht 354 mit einer 256-Kanal-Eingabe mit 16 Merkmalen und mit einer 128-Kanal-Ausgabe mit 32 Merkmalen; eine dritte transponierte Faltungsschicht 353 mit einer 256-Kanal-Eingabe mit 32 Merkmalen und mit einer 64-Kanal-Ausgabe mit 64 Merkmalen; eine zweite transponierte Faltungsschicht 352 mit einer 128-Kanal-Eingabe mit 64 Merkmalen und mit einer 32-Kanal-Ausgabe mit 128 Merkmalen; und eine erste transponierte Faltungsschicht 351 mit einer 64-Kanal-Eingabe mit 128 Merkmalen und mit einer 2-Kanal-Ausgabe mit 256 Merkmalen.
  • Gemäß einer Ausführungsform weist jede der mehreren transponierten Faltungsschichten 350 einen Kern der Größe (2, 9) und eine Schrittweite der Größe (1, 2) auf.
  • Eine Ausgabe der ersten Faltungsschicht 321 wird als eine Eingabe in die erste transponierte Faltungsschicht 351 bereitgestellt.
  • Eine Ausgabe der zweiten Faltungsschicht 322 wird als eine Eingabe in die zweite transponierte Faltungsschicht 352 bereitgestellt.
  • Eine Ausgabe der dritten Faltungsschicht 323 wird als eine Eingabe in die dritte transponierte Faltungsschicht 353 bereitgestellt.
  • Eine Ausgabe der vierten Faltungsschicht 324 wird als eine Eingabe in die vierte transponierte Faltungsschicht 354 bereitgestellt.
  • Eine Ausgabe der fünften Faltungsschicht 325 wird als eine Eingabe in die fünfte transponierte Faltungsschicht 355 bereitgestellt.
  • Eine Ausgabe der sechsten Faltungsschicht 326 wird als eine Eingabe in die sechste transponierte Faltungsschicht 356 bereitgestellt.
  • Die Ausgabe der ersten transponierten Faltungsschicht 251 wird zu der Eingabe der ersten Faltungsschicht 321 addiert und die Summe wird als eine Eingabe in die ISTFT-Schicht 370 bereitgestellt, um beim Erzeugen des Audioausgangssignals 55 eine Merkmalswiederherstellung zu bewirken.
  • Es wird gewürdigt werden, dass die Anzahl der Faltungsschichten 320, die Anzahlen der Merkmale und Kanäle, die den einzelnen Faltungsschichten 320 zugeordnet sind, die Anzahl transponierter Faltungsschichten 350, die Anzahlen von Merkmalen und Kanälen, die den einzelnen transponierten Faltungsschichten 350 zugeordnet sind, die Kerngrößen und die Schrittweitengrößen, die Anzahl, der Typ und die Größe der RNN-Schichten (330, 332) und die Anzahl und die Größe der dichten Schicht (340) anwendungsspezifisch sind und auf der Grundlage von Faktoren in Bezug auf Rechengeschwindigkeit, Prozessorfähigkeiten, Schallqualität usw. gewählt werden.
  • 4 stellt schematisch Elemente in Bezug auf ein Trainingsmodul 400 zum Trainieren einer Ausführungsform des Moduls eines tiefen neuronalen Netzes (DNN-Moduls) des anhand von 3 beschriebenen Merkmalswiederherstellungsalgorithmus 300 zum Verarbeiten eines Audioeingangssignals 15 dar. Eingaben in das Trainingsmodul 400 enthalten ein Audioeingangssignal in Form von sauberer Sprache 411 und ein Audioeingangssignal in Form von Rauschen 412, z. B. weißem Rauschen, Straßenrauschen, Babbelrauschen usw., die beide in einem Amplitudenbereich bereitgestellt werden. Die saubere Sprache 411 und das Rauschen 412 werden in eine STFT-Schicht 410 eingegeben, die sie als transformierte saubere Sprache 411' und transformiertes Rauschen 412' in den Frequenzbereich umwandelt.
  • Die transformierte saubere Sprache 411' und das transformierte Rauschen 412' werden addiert, um verrauschte Sprache 415 zu bilden. Die verrauschte Sprache 415 und das transformierte Rauschen 412' werden in die NLP 420 eingegeben, die das Rauschminderungsniveau durch Nutzung nichtlinearer Filterung verbessert, um den Rauschpegel zu dämpfen. Ausgaben der NLP 420 enthalten ein Restrauschen 422 und eine Kombination verzerrter Sprache und des Restrauschens 424. Das Restrauschen 422 wird zu der transponierten sauberen Sprache 411' addiert, um eine erste Eingabe 426 zu bilden. Die erste Eingabe 426 in Form des zu der transformierten sauberen Sprache 411' addierten Restrauschens 422 und die Kombination der verzerrten Sprache und des Restrauschens 424 werden als Eingaben in den anhand von 3 beschriebenen Merkmalswiederherstellungsalgorithmus 300 bereitgestellt, um ein Training zu bewirken.
  • Diese Anordnung der Eingaben in das Trainingsmodul 400 bewirkt, dass der Merkmalswiederherstellungsalgorithmus 300 trainiert wird, um die fehlenden Sprachmerkmale wiederherzustellen, ohne die Rauschpegel zu beeinträchtigen. Das Restrauschsignal wird durch Verarbeiten des Rauschsignals in Übereinstimmung mit der verrauschter Sprachverarbeitung erzeugt. Die hier beschriebene Vorgehensweise des tiefen Lernens vereinheitlicht den Merkmalsextraktionsprozess über mehrere Schichten des neuronalen Netzes. Während des Trainingsprozesses werden die Parameter des neuronalen Netzes gelernt und daraufhin wird der Echtzeitschall in Echtzeit in das trainierte neuronale Netz zugeführt, um eine Sprachmerkmalswiederherstellung zu erzielen.
  • Die hier beschriebenen Konzepte schaffen ein System, das anstelle einer fehlerfrei abgestimmten PF ein Sprachmerkmals-Wiederherstellungsmodul nutzt. Das Merkmalswiederherstellungsmodul überwacht die Wiederherstellung der ursprünglichen Sprachqualität, was sowohl eine bessere Rauschminderung als auch eine bessere Stimmqualität, die durch bekannte Vorgehensweise auf andere Weise nicht erreicht werden können, ermöglicht. Im Fall einer fehlerfreien Wiederherstellung kann der PF dafür konfiguriert sein, den gewünschten Rauschpegel unabhängig von der addierten gewünschten Sprachverzerrung auszugeben.
  • Ausführungsformen gemäß der vorliegenden Offenbarung können als eine Vorrichtung, als ein Verfahren oder als ein Computerprogrammprodukt verkörpert werden. Dementsprechend kann die vorliegende Offenbarung die Form einer vollständigen Hardwareausführungsform, einer vollständigen Softwareausführungsform (einschließlich Firmware, residenter Software, Mikrocode usw.) oder einer Ausführungsform, die Software- und Hardwareaspekte kombiniert, die hier alle allgemein als ein „Modul“ oder „System“ bezeichnet sein können, annehmen. Darüber hinaus kann die vorliegende Offenbarung die Form eines Computerprogrammprodukts annehmen, das in einem konkreten Medium mit einem Ausdruck verkörpert ist, der einen durch einen Computer nutzbaren Programmcode aufweist, der in dem Medium verkörpert ist.
  • Der Ablaufplan und die Blockdiagramme in den Ablaufdiagrammen stellen die Architektur, die Funktionalität und den Betrieb möglicher Implementierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Offenbarung dar. Diesbezüglich kann jeder Block in dem Ablaufplan oder in den Blockdiagrammen ein Modul, einen Abschnitt oder einen Teil von Code, der einen oder mehrere ausführbare Anweisungen zum Implementieren der einen oder mehreren spezifizierten logischen Funktionen umfasst, repräsentieren. Außerdem wird angemerkt, dass jeder Block der Blockdiagramme und/oder Ablaufplandarstellungen und Kombinationen von Blöcken in den Blockdiagrammen und/oder Ablaufplandarstellungen durch hardwarebasierte Systeme mit dedizierten Funktionen, die die spezifizierten Funktionen oder Tätigkeiten ausführen, oder durch Kombinationen von Hardware mit dedizierten Funktionen und Computeranweisungen implementiert werden kann. Diese Computerprogrammanweisungen können außerdem in einem computerlesbaren Medium gespeichert sein, das einen Computer oder eine andere programmierbare Datenverarbeitungsvorrichtung anweisen kann, auf eine bestimmte Weise dafür zu fungieren, dass die in dem computerlesbaren Medium gespeicherten Anweisungen einen Herstellungsartikel herstellen, der einen Anweisungssatzsatz enthält, der die in dem Ablaufplan und/oder in dem einen oder den mehreren Blockdiagrammblöcken spezifizierte Funktion/Tätigkeit implementiert.
  • Die ausführliche Beschreibung und die Zeichnungen oder Figuren dienen zur Unterstützung und Beschreibung der vorliegenden Lehren, wobei der Schutzumfang der vorliegenden Lehren aber allein durch die Ansprüche definiert ist. Obwohl einige der besten Ausführungsarten und andere Ausführungsformen der vorliegenden Lehren ausführlich beschrieben worden sind, gibt es verschiedene alternative Entwürfe und Ausführungsformen, um die in den Ansprüchen definierten vorliegenden Lehren zu verwirklichen.

Claims (10)

  1. System zum Verarbeiten eines Audioeingangssignals, wobei das System umfasst: ein Mikrofon, einen Controller, einen Datenspeicher und eine Kommunikationsverbindung mit einem entfernt befindlichen Audiolautsprecher; wobei das Mikrofon dafür konfiguriert ist, das Audioeingangssignal zu erfassen und zu erzeugen und das Audioeingangssignal an den Controller zu übermitteln; wobei der Controller mit der Kommunikationsverbindung funktional verbunden ist; und wobei der Controller ausführbaren Code enthält zum: wobei der Datenspeicher Anweisungen enthält, die durch den Controller ausführbar sind, wobei die Anweisungen enthalten: Erzeugen einer ersten Resultierenden auf der Grundlage des Audioeingangssignals über einen linearen Rauschminderungs-Filterungsalgorithmus; Erzeugen einer zweiten Resultierenden auf der Grundlage der ersten Resultierenden über einen nichtlinearen Nachfilterungsalgorithmus; Erzeugen eines Audioausgangssignals auf der Grundlage der zweiten Resultierenden über einen Merkmalswiederherstellungsalgorithmus; und Übermitteln des Audioausgangssignals an den entfernt befindlichen Audiolautsprecher über die Kommunikationsverbindung.
  2. System nach Anspruch 1, wobei der Merkmalswiederherstellungsalgorithmus ein Modul auf der Grundlage eines tiefen neuronalen Netzes (DNN-basiertes Modul) umfasst, das enthält: eine STFT (Kurzzeit-Fourier-Transformation); mehrere Faltungsschichten; eine erste LSTM-Schicht (Lang-Kurzzeit-Speicherschicht); eine zweite LSTM-Schicht; eine dichte Schicht; mehrere transponierte Faltungsschichten; und eine inverse STFT (ISTFT).
  3. System nach Anspruch 2, wobei die STFT das Audioeingangssignal aus einem Amplitudenbereich in einen Frequenzbereich transformiert.
  4. System nach Anspruch 3, wobei die STFT das Audioeingangssignal mit einer 2-Kanal-Folge mit einem Realteil und mit einem Imaginärteil in den Frequenzbereich transformiert.
  5. System nach Anspruch 2, wobei die mehreren Faltungsschichten umfassen: eine erste Faltungsschicht mit einer 2-Kanal-Eingabe mit 256 Merkmalen und mit einer 32-Kanal-Ausgabe mit 128 Merkmalen; eine zweite Faltungsschicht mit einer 32-Kanal-Eingabe mit 128 Merkmalen und mit einer 64-Kanal-Ausgabe mit 64 Merkmalen; eine dritte Faltungsschicht mit einer 64-Kanal-Eingabe mit 64 Merkmalen und mit einer 128-Kanal-Ausgabe mit 32 Merkmalen; eine vierte Faltungsschicht mit einer 128-Kanal-Eingabe mit 32 Merkmalen und mit einer 128-Kanal-Ausgabe mit 16 Merkmalen; eine fünfte Faltungsschicht mit einer 128-Kanal-Eingabe mit 16 Merkmalen und mit einer 256-Kanal-Ausgabe mit 8 Merkmalen; und eine sechste Faltungsschicht mit einer 256-Kanal-Eingabe mit 8 Merkmalen und mit einer 256-Kanal-Ausgabe mit 4 Merkmalen.
  6. System nach Anspruch 5, wobei die 256-Kanal-Ausgabe mit 4 Merkmalen, die von der sechsten Faltungsschicht ausgegeben wird, als eine Eingabe in die erste LSTM-Schicht bereitgestellt wird.
  7. System nach Anspruch 5, wobei jede der mehreren Faltungsschichten einen Kern der Größe (2, 9) und eine Schrittweite der Größe (1, 2) aufweist.
  8. System nach Anspruch 5, wobei eine Ausgabe der ersten Faltungsschicht als eine Eingabe in die ISTFT bereitgestellt wird.
  9. System nach Anspruch 5, wobei die Ausgabe der sechsten Faltungsschicht als Eingabe in die erste LSTM-Schicht bereitgestellt wird.
  10. Verfahren zum Verarbeiten eines Audioeingangssignals, wobei das Verfahren umfasst: dass ein Audioeingangssignal über ein Mikrofon erfasst wird; dass das Audioeingangssignal einem linearen Rauschminderungs-Filterungsalgorithmus ausgesetzt wird, um eine erste Resultierende zu erzeugen; dass die erste Resultierende einem nichtlinearen Nachfilterungsalgorithmus ausgesetzt wird, um eine zweite Resultierende zu erzeugen; dass dadurch, dass die zweite Resultierende einem Merkmalswiederherstellungsalgorithmus ausgesetzt wird, ein Audioausgangssignal erzeugt wird; und dass ein Lautsprecher in Ansprechen auf das Audioausgangssignal gesteuert wird.
DE102022126455.6A 2022-02-03 2022-10-12 System und verfahren für die verarbeitung eines audioeingangssignals Pending DE102022126455A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/591,696 2022-02-03
US17/591,696 US11823703B2 (en) 2022-02-03 2022-02-03 System and method for processing an audio input signal

Publications (1)

Publication Number Publication Date
DE102022126455A1 true DE102022126455A1 (de) 2023-08-03

Family

ID=87160865

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102022126455.6A Pending DE102022126455A1 (de) 2022-02-03 2022-10-12 System und verfahren für die verarbeitung eines audioeingangssignals

Country Status (3)

Country Link
US (1) US11823703B2 (de)
CN (1) CN116597850A (de)
DE (1) DE102022126455A1 (de)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5742694A (en) * 1996-07-12 1998-04-21 Eatwell; Graham P. Noise reduction filter
JP4432823B2 (ja) * 2005-04-20 2010-03-17 ソニー株式会社 特定条件区間検出装置および特定条件区間検出方法
US10332520B2 (en) * 2017-02-13 2019-06-25 Qualcomm Incorporated Enhanced speech generation
CN108540338B (zh) * 2018-03-08 2021-08-31 西安电子科技大学 基于深度循环神经网络的应用层通信协议识别的方法
CN113870888A (zh) * 2021-09-24 2021-12-31 武汉大学 一种基于语音信号时域和频域的特征提取方法、装置、回声消除方法及装置

Also Published As

Publication number Publication date
US11823703B2 (en) 2023-11-21
US20230245673A1 (en) 2023-08-03
CN116597850A (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
DE112016007498B4 (de) Untersuchungseinrichtung und untersuchungsverfahren
DE60303338T2 (de) Orthogonales und kreisförmiges Gruppensystem von Mikrofonen und Verfahren zur Erkennung der dreidimensionalen Richtung einer Schallquelle mit diesem System
DE112016006218B4 (de) Schallsignal-Verbesserungsvorrichtung
DE2719973C2 (de)
DE102015119494B4 (de) Systeme und Verfahren zur Lärmbekämpfung in einem Fahrzeug
DE102018109246A1 (de) System zum Sammeln und Verarbeiten von Audio-Signalen
DE102008021362B3 (de) Verfahren und Vorrichtung zum Erkennen eines Zustandes einer zu untersuchenden geräuscherzeugenden Maschine
EP1379102A2 (de) Richtungshören bei binauraler Hörgeräteversorgung
DE112014003305T5 (de) Verfahren zum Verarbeiten eines akustischen Signals
DE112020006911T5 (de) Datenerzeugungsvorrichtung, System für maschinelles Lernen und Bearbeitungszustands-Schätzvorrichtung
DE102015222034A1 (de) Spracherkennungssystem und Spracherkennungsverfahren
DE112013006702T5 (de) Aktiv-Vibrations-/-Geräusch-Steuervorrichtung
EP2141941A2 (de) Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät
EP2545717A1 (de) Enthallen von signalen einer binauralen hörvorrichtung
DE202017106383U1 (de) Fühlbare Basswiedergabe
DE602005000897T2 (de) Eingangsschallprozessor
DE102014207437A1 (de) Spracherkennung mit einer Mehrzahl an Mikrofonen
DE102015221764A1 (de) Verfahren zum Angleichen von Mikrofonempfindlichkeiten
DE112021001228T5 (de) Signalverarbeitungsvorrichtung, signalverarbeitungsverfahren und programm
EP1981582B1 (de) Vorrichtung und computerprogramm zum erzeugen eines ansteuersignals für ein cochlea-implantat basierend auf einem audiosignal
DE102022126455A1 (de) System und verfahren für die verarbeitung eines audioeingangssignals
DE3929481A1 (de) Verfahren und vorrichtung zur vorbearbeitung von sprachsignalen
EP3152534A1 (de) Verfahren zum klassifizieren eines wasserobjekts, vorrichtung, sonar und wasserfahrzeug oder stationäre plattform
DE102005039621A1 (de) Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
DE112014006281T5 (de) Tonsammelvorrichtung, Korrekturverfahren für Eingangssignal von Tonsammelvorrichtung und Mobilgeräte-Informationssystem

Legal Events

Date Code Title Description
R012 Request for examination validly filed