DE112015004785B4 - Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal - Google Patents

Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal Download PDF

Info

Publication number
DE112015004785B4
DE112015004785B4 DE112015004785.9T DE112015004785T DE112015004785B4 DE 112015004785 B4 DE112015004785 B4 DE 112015004785B4 DE 112015004785 T DE112015004785 T DE 112015004785T DE 112015004785 B4 DE112015004785 B4 DE 112015004785B4
Authority
DE
Germany
Prior art keywords
speech
noisy
signal
audio signal
phase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112015004785.9T
Other languages
English (en)
Other versions
DE112015004785T5 (de
Inventor
Hakan Erdogan
John Hershey
Shinji Watanabe
Jonathan Le Roux
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112015004785T5 publication Critical patent/DE112015004785T5/de
Application granted granted Critical
Publication of DE112015004785B4 publication Critical patent/DE112015004785B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Abstract

Verfahren zum Umwandeln eines verrauschten Audiosignals (112, 412) in ein verbessertes Audiosignal (190, 490), umfassend die Schritte: Erfassen des verrauschten Audiosignals (112, 412) aus einer Umgebung (102, 402);Verarbeiten des verrauschten Audiosignals (112, 412) durch ein Verbesserungsnetzwerk (150, 450) aufweisend Netzwerkparameter (140, 440) zum gemeinsamen Herstellen einer Größenmaske (160, 460) und einer Phasenschätzung;Verwenden der Größenmaske (160, 460) und der Phasenschätzung zum Erhalten des verbesserten Audiosignals (190, 490), wobei die Schritte in einem Prozessor (100, 400) durchgeführt werden.

Description

  • [Technisches Gebiet]
  • Die Erfindung betrifft eine Audiosignalverarbeitung und insbesondere ein Verbessern von verrauschten Audiosprachsignalen unter Verwenden von Phasen der Signale.
  • [Technischer Hintergrund]
  • Bei Sprachverbesserung ist das Ziel, „verbesserte Sprache“ zu erhalten, welche eine verarbeitete Version der verrauschten Sprache ist, die in einem gewissem Sinn näher an der zu Grunde liegenden wahren „sauberen Sprache“ oder „Zielsprache“ liegt.
  • Man beachte, dass von sauberer Sprache angenommen wird, dass diese nur während eines Trainings verfügbar ist, und nicht während der realen Verwendung des Systems. Für ein Training kann saubere Sprache mit einem nahen Sprechmikrofon erhalten werden, während die zur gleichen Zeit aufgenommene verrauschte Sprache mit einem entfernten Feldmikrofon erhalten wird. Oder, wenn getrennte saubere Sprachsignale und Rauschsignale gegeben sind, kann man die Signale zusammenaddieren, um verrauschte Sprachsignale zu erhalten, wobei die sauberen und verrauschten Paare zusammen zum Training verwendet werden können.
  • Sprachverbesserung und Spracherkennung können als unterschiedliche, aber verwandte Probleme betrachtet werden. Ein gutes Sprachverbesserungssystem kann sicherlich als ein Eingabemodul in ein Spracherkennungssystem verwendet werden. Umgekehrt könnte Spracherkennung verwendet werden, um Sprachverbesserung zu verbessern, da die Erkennung zusätzliche Information enthält. Es ist jedoch nicht klar, wie ein Multi-Task rekurrentes neuronales Netzwerksystem gemeinsam für beides, die Verbesserungs- und Erkennungsaufgaben aufzubauen ist.
  • In diesem Dokument beziehen wir uns auf Sprachverbesserung als das Problem des Erhaltens von „verbesserter Sprache“ aus „verrauschter Sprache“. Auf der anderen Seite bezieht sich der Begriff Sprachtrennung auf ein Trennen von „Zielsprache“ aus Hintergrundsignalen, wo das Hintergrundsignal irgendein anderes Nicht-Sprachaudiosignal oder selbst ein anderes Nicht-Zielsprachsignal sein kann, welche nicht interessieren. Unsere Verwendung des Begriffs Sprachverbesserung umfasst auch Sprachtrennung, da wir die Kombination aller Hintergrundsignale als Rauschen berücksichtigen.
  • Bei Sprachtrennung und Sprachverbesserungsanwendungen geschieht ein Verarbeiten üblicherweise in einem Kurzzeit-Fouriertransformations (STFT, Short-Time Fourier Transform) Bereich. Die STFT erhält eine komplexe spektrotemporale (oder Zeit-Frequenz) Bereichsdarstellung des Signals. Die STFT des beobachteten verrauschten Signals kann als die Summe der STFT von dem Zielsprachsignal und der STFT des Rauschsignals geschrieben werden. Die STFT von Signalen ist komplex und die Aufsummierung liegt in dem komplexen Bereich. Bei herkömmlichen Verfahren wird die Phase jedoch ignoriert und es wird angenommen, dass die Größe der STFT des beobachteten Signals der Summe der Größen der STFT der Audioziel- und der Rauschsignale gleicht, was eine grobe Annahme ist. Deswegen lag der Blickpunkt im bekannten Stand der Technik auf der Größenvorhersage der „Zielsprache“ bei gegebenem verrauschten Sprachsignal als Eingabe. Während einer Wiederherstellung des Zeit-Bereichverbesserten Signals aus seiner STFT wird die Phase des verrauschten Signals als die geschätzte Phase von der STFT der verbesserten Sprache verwendet. Dies ist üblicherweise gerechtfertigt durch Angeben, dass der minimale mittlere quadratische Fehler (MMSE, Minimum Mean Square Error), der aus der Phase der verbesserten Sprache geschätzt wird, die Phase des verrauschten Signals ist. In dem Dokument „Single-channel speech separation with memory-enhanced recurrent neural networks“, Weninger, Felix; Eyben, Florian; Schuller, Björn, 2014 IEEE International Conference on Acoustics, Speech and Signal Processing, 2014, 3709-3713, wird die Nutzung eines Lang-Kurzzeitgedächtnis-Rekurrenten-Neuronalen-Netzwerks zur Sprachverbesserung vorgeschlagen, welche eine verbesserte Rauschreduzierung bei niedrigen Signal-Rausch-Verhältnissen ermöglicht und Erzeugung sehr weniger Artefakte bei höheren Signal-Rausch-Verhältnissen.
  • Die US 5 878 389 A beschreibt ein Verfahren und System zur Erzeugung einer Schätzung eines sauberen Sprachsignals, welches Zeittrajektorien von Kurzzeitparametern aus einem verrauschten Sprachsignal extrahiert, um eine Vielzahl von Frequenzkomponenten zu erhalten, die jeweils ein Betragsspektrum und ein Phasenspektrum aufweisen. Das Betragsspektrum wird dann komprimiert, gefiltert und anschließend dekomprimiert, um ein modifiziertes Betragsspektrum zu erhalten. [Zusammenfassung der Erfindung]
  • Die Ausführungsformen der Erfindung stellen ein Verfahren zum Umwandeln eines verrauschten Sprachsignals in verbesserte Sprachsignale bereit.
  • Die verrauschte Sprache wird von einem automatischen Spracherkennungs (ASR, Automatic Speech Recognition) System verarbeitet, um ASR-Merkmale herzustellen. Die ASR-Merkmale werden mit spektralen Merkmalen verrauschter Sprache kombiniert und an ein tiefenrekurrentes neuronales Netzwerk (DRNN, Deep Recurrent Neural Network) unter Verwenden von Netzwerkparametern weitergegeben, die während eines Trainingsprozesses erlernt werden, um eine Maske herzustellen, die zum Herstellen der verbesserten Sparache auf die verrauschte Sprache angewendet wird.
  • Die Sprache wird in einem Kurzzeit-Fouriertransformations (STFT, Short-Time Fourier Transform) Bereich verarbeitet. Obwohl es verschiedenste Verfahren zum Berechnen der Größe einer STFT der verbesserten bzw. verbesserten Sprache aus der verrauschten Sprache gibt, konzentrieren wir uns auf tiefenrekurrente neuronale Netzwerk (DRNN, Deep Recurrent Neural Network) basierte Ansätze. Diese Ansätze nutzen Merkmale, die aus einer STFT verrauschter Sprachsignale als einer Eingabe erhalten werden, um die Größe einer STFT des verbesserten Sprachsignals als die Ausgabe zu erhalten. Diese Signalmerkmale verrauschter Sprache können Größenspektrum, Leistungsspektrum oder deren Logarithmen sein, log-mel Filterbankmerkmale, die von einer STFT des verrauschten Signals erhalten werden, oder es können andere ähnliche spektrotemporale Merkmale verwendet werden.
  • In unserem rekurrenten neuronalen netzwerkbasierten System sagt das rekurrenten neuronale Netzwerk eine „Maske“ oder einen „Filter“ voraus, welcher eine STFT des verrauschten Sprachsignals direkt multipliziert, um eine STFT des verbesserten Signals zu erhalten. Die „Maske“ weist Werte zwischen Null und einem für jede Zeitfrequenzlinie (time-frequency bin) auf und ist idealerweise das Verhältnis von Sprachgröße dividiert durch die Summe der Größen von Sprach- und Rauschkomponenten. Diese „ideale Maske“ wird als die ideale Verhältnismaske bezeichnet, welche während einer realen Verwendung des Systems unbekannt ist, aber während eines Trainings erhältlich ist. Da die reellwertige Maske eine STFT des verrauschten Signals multipliziert, endet die verbesserte Sprache standardmäßig unter Verwenden der Phase einer STFT des verrauschten Signals. Wenn wir die Maske auf den Größenteil einer STFT des verrauschten Signals anwenden, nennen wir die Maske „Größenmaske“, um anzugeben, dass sie nur auf den Größenteil der Rauscheingabe angewendet wird.
  • Das neuronale Netzwerktraining wird durch Minimieren einer Zielfunktion durchgeführt, welche den Unterschied zwischen dem sauberen Sprachziel und der verbesserten Sprache quantifiziert, die unter Verwenden von Netzwerkparametern von dem Netzwerk erhalten wird. Die Trainingsprozedur zielt darauf ab, die Netzwerkparameter zu bestimmen, welche die Ausgabe des neuronalen Netzwerks ausmachen, die den sauberen Sprachzielen am nächsten kommt. Das Netzwerktraining wird typischerweise unter Verwenden des Rückwärtspropagierung durch Zeit (BPTT, BackPropagation Through Time) Algorithmus durchgeführt, welcher eine Berechnung des Gradienten der Zielfunktion hinsichtlich der Parameter des Netzwerks bei jeder Iteration erfordert.
  • Wir verwenden das tiefenrekurrente neuronale Netzwerk (DRNN, Deep Recurrent Neural Network), um Sprachverbesserungen durchzuführen. Das DRNN kann ein Lang-Kurzzeitspeicher (LSTM, Long Short-Term Memory) Netzwerk für Niederlatenz (online) Anwendung oder ein bidirektionales Lang-Kurzzeitspeichernetzwerk (BLSTM, Bidirectional Long Short-Term Memory) DRNN sein, wenn Latenz keine Rolle spielt. Das tiefenrekurrente neuronale Netzwerk kann auch aus anderen modernen RNN-Arten wie gegattertem (gated) RNN oder Uhrwerk (clockwork) RNN bestehen.
  • In einer anderen Ausführungsform werden die Größe und Phase des Audiosignals während des Schätzungsprozesses berücksichtigt. Eine phasenbeachtende Verarbeitung schließt einige wenige unterschiedliche Aspekte ein:
    • Verwenden von Phaseninformation in einer Zielfunktion beim Vorhersagen nur der Zielgröße in einer sogenannten phasensensitiven Signalannäherungs (PSA, Phase-sensitive Signal Approximation) Technik;
    • Vorhersagen von beidem, der Größe und der Phase des verbesserten Signals unter Verwenden von tiefenrekurrenten neuronalen Netzwerken, Anwenden geeigneter Zielfunktionen, die eine bessere Vorhersage von beidem, der Größe und der Phase, ermöglichen;
    • Verwenden aller Größen und Phasen von Mehrkanal(multi-channel)-Audiosignalen wie Mikrofonfeldern in einem tiefenrekurrenten neuronalen Netzwerk.
  • Es sollte beachtet werden, dass die Idee auf eine Verbesserung anderer Arten von Audiosignalen angewendet werden kann. Zum Beispiel können die Audiosignale Musiksignale einschließen, wo die Erkennungsaufgabe Musiktranskription ist, oder Tiergeräusche, wo die Erkennungsaufgabe sein könnte, Tiergeräusche in unterschiedliche Kategorien zu klassifizieren, und Umweltgeräusche, wo die Erkennungsaufgaben sein könnte, bestimmte geräuschabgebende Ereignisse und/oder Objekte zu erkennen und zu unterscheiden.
  • Figurenliste
    • [1] 1 ist der Flussdiagramm eines Verfahrens zum Umwandeln verrauschter Sprachsignale in verbesserte Sprachsignale unter Verwenden von ASR-Merkmalen;
    • [2] 2 ist Diagramm eines Flussdiagramms eines Trainingsprozesses des Verfahrens von 1;
    • [3] 3 ist ein Flussdiagramm eines gemeinsamen Spracherkennungs- und Verbesserungsverfahrens;
    • [4] 4 ist ein Flussdiagramm eines Verfahrens zum Umwandeln verrauschter Audiosignale in verbesserter Audiosignale durch Vorhersagen von Phaseninformation und Verwenden einer Größenmaske; und
    • [5] 5 ist ein Flussdiagramm eines Trainingsprozesses des Verfahrens von 4.
  • [Beschreibung von Ausführungsformen]
  • 1 zeigt ein Verfahren zum Umwandeln eines verrauschten Sprachsignals 112 in ein verbessertes Sprachsignal 190. Das bedeutet, dass die Umwandlung die verrauschte Sprache verbessert. Alle hier beschriebenen Sprach- und Audiosignale können einzelne oder Mehrfachkanäle sein, die von einem einzigen oder mehreren Mikrofon 101 aus einer Umgebung 102 erfasst werden, wobei die Umgebung zum Beispiel Audioeingaben von Quellen wie einer oder mehrerer Personen, Tieren, Musikinstrumenten und dergleichen aufweisen kann. Für unser Problem ist eine der Quellen unser „Audioziel“ (meist „Zielsprache“), wobei die anderen Audioquellen als Hintergrund berücksichtigt werden.
  • In dem Fall, in dem das Audiosignal Sprache ist, wird die verrauschte Sprache von einem automatischen Spracherkennungs (ASR, Automatic Speech Recognition) System 170 verarbeitet, um ASR-Merkmale 180 herzustellen, zum Beispiel in Form eines Ausrichtungsinformationsektors (alignment information vector). Die ASR kann von herkömmlicher Art sein. Die ASR-Merkmale, die mit Merkmalen einer STFT verrauschter Sprache kombiniert werden, werden von einem tiefenrekurrenten neuronalen Netzwerk (DRNN, Deep Recurrent Neural Network) 150 unter Verwenden von Netzwerkparametern 140 verarbeitet. Die Parameter können unter Verwenden eines nachstehend beschriebenen Trainingsprozesses erlernt werden.
  • Die DRNN stellt eine Maske 160 her. Dann wird die Maske während der Sprachschätzung 165 auf die verrauschte Sprache angewendet, um die verbesserte Sprache 191 herzustellen. Wie nachstehend beschrieben ist es möglich, die Verbesserungs- und Erkennungsschritte zu iterieren. Das bedeutet, das nachdem die verbesserte Sprache erhalten wird, die verbesserte Sprache verwendet werden kann, um ein besseres ASR-Ergebnis zu erzielen, welches wiederum als eine neue Eingabe während einer folgenden Iteration verwendet werden kann. Die Iteration kann fortgesetzt werden, bis eine Beendigungsbedingung erreicht wird, zum Beispiel eine vorherbestimmter Anzahl von Iterationen, oder bis ein Unterschied zwischen der aktuellen verbesserten Sprache und der verbesserten Sprache von der vorhergehenden Iteration kleiner als ein vorherbestimmter Schwellenwert ist.
  • Das Verfahren kann in einem Prozessor 100 durchgeführt werden, der über Busse mit einem Speicher und Eingabe/Ausgabe-Schnittstellen wie aus dem Stand der Technik bekannt verbunden ist.
  • 2 zeigt die Elemente des Trainingsprozesses. Hier werden die verrauschte Sprache und die dementsprechende saubere Sprache 111 in einer Datenbank 110 gespeichert. Es wird eine Zielfunktion (manchmal als „Kostenfunktion“ oder „Fehlerfunktion“ bezeichnet) bestimmt 120. Die Zielfunktion quantifiziert den Unterschied zwischen der verbesserten Sprache und der sauberen Sprache. Durch Minimieren der Zielfunktion während eines Trainings lernt das Netzwerk verbesserte Signale herzustellen, die den sauberen Signalen ähnlich sind. Die Zielfunktion zum Durchführen eines DRNN-Trainings 130 verwendet, um die Netzwerkparameter 140 zu bestimmen.
  • 3 zeigt die Elemente eines Verfahrens, das eine gemeinsame Erkennung und Verbesserung durchführt. Hier misst die gemeinsame Zielfunktion 320 den Unterschied zwischen den sauberen Sprachsignalen 111 und verbesserten Sprachsignalen 190 und Referenztext 113, das heißt erkannter Sprache, und dem hergestellten Erkennungsergebnis 355. In diesem Fall stellt das gemeinsame Erkennungs- und Verbesserungsnetzwerk 350 auch ein Erkennungsergebnis 355 her, welches auch bei dem Bestimmen 320 der gemeinsamen Zielfunktion verwendet wird. Das Erkennungsergebnis kann in der Form eines ASR-Zustands, Phonems oder Wortsequenzen und der gleichen vorliegen.
  • Die gemeinsame Zielfunktion ist eine gewichtete Summe von Verbesserungs- und Erkennungsaufgabenzielfunktionen. Die Verbesserungsaufgabe betreffend kann die Zielfunktion eine Maskenannäherung (MA, Mask Approximation), Größenspektrumsannäherung (MSA, Magnitude Spectrum Approximation) oder phasensensitive Spektrumsannäherung (PSA, Phase-sensitive Spectrum Approximation) sein. Die Erkennungsaufgabe betreffend kann die Zielfunktion einfach eine Kreuzentropiekostenfunktion sein, die Zustände oder Sprachlaute als die Zielklassen verwendet, oder möglicherweise eine Sequenzdiskriminierende Zielfunktion wie ein Minimalsprachlautfehler (MPE, Minimum Phone Error), erhöhte maximale gegenseitige Information (BMMI, Boosted Maximum Mutual Information), die unter Verwenden eines Hypothesengitters berechnet werden.
  • Wie durch gestrichelte Linien gezeigt können das Erkennungsergebnis 355 und die verbesserte Sprache 190 alternativ als zusätzliche Eingaben zu dem gemeinsamen Erkennungs- und Verbesserungsmodul 350 zurückgeführt werden.
  • 4 zeigt ein Verfahren, das ein Verbesserungsnetzwerk (DRNN, Deep Recurrent Neural Network) 150 verwendet, welches die geschätzte Phase 455 des verbesserten Audiosignals und eine Größenmaske 460 ausgibt, wobei es verrauschte Audiosignalmerkmale als Eingabe nimmt, die von beiden, seiner Größe und Phase 412 abgeleitet sind, und die vorhergesagte Phase 455 und die Größenmaske 460 verwendet, um das verbesserte Audiosignal 490 zu erhalten 465. Das verrauschte Audiosignal wird durch eines oder mehrere Mikrofone 401 aus einer Umgebung 402 erfasst. Das verbesserte Audiosignal 490 wird dann aus der Phase und der Größenmaske erhalten 465.
  • 5 zeigt den vergleichbaren Trainingsprozesses. In diesem Fall verwendet das Verbesserungsnetzwerk 450 eine phasensensitive Zielfunktion. Alle Audiosignale werden unter Verwenden der Größe und Phase der Signale verarbeitet, und die Zielfunktion 420 ist auch phasensensitiv, das heißt, die Zielfunktion verwendet komplexe Bereichsunterschiede. Die Phasenvorhersage und phasensensitive Zielfunktion verbessern das Signal-zu-Rausch-Verhältnis (SNR, signal-to-noise ratio) in dem verbesserten Audiosignal 490.
  • Einzelheiten
  • Sprachmodelle wurden in modellbasierte Sprachtrennungssysteme integriert. Vorwärtszuführende (feed forward) neuronale Netzwerke unterstützen im Gegensatz zu wahrscheinlichkeitstheoretischen Modellen einen Informationsfluss nur in eine Richtung, von Eingabe zu Ausgabe.
  • Die Erfindung basiert teilweise auf einer Erkennung dahingehend, dass einem Sprachverbesserungsnetzwerk Zustandssequenzen zugute kommen, und das Erkennungssystem Vorteile aus der Ausgabe des Sprachverbesserungssystem ziehen kann. Bei der Abwesenheit eines vollintegrierten Systems kann man sich ein System vorstellen, das zwischen Verbesserung und Erkennung wechselt, um Vorteile aus beiden Aufgaben zu erzielen.
  • Deshalb nutzen wir einen rauschrobusten Erkenner, der auf verrauschte Sprache während eines ersten Durchlaufs trainiert ist. Die erkannten Zustandssequenzen werden mit verrauschten Sprachmerkmalen kombiniert und als Eingabe in das rekurrente neuronale Netzwerk genutzt, das darauf trainiert ist, verbesserte Sprache wiederherzustellen.
  • Moderne Spracherkennungssysteme nutzen linguistische Information auf unterschiedlichen Stufen. Sprachmodelle finden die Wahrscheinlichkeit von Wortsequenzen. Wörter werden auf Phonemsequenzen unter Verwenden von handgemachten oder erlernten Lexikonnachschlagtabellen abgebildet. Phoneme werden als Dreizustand links-nach-rechts versteckte Marco-Modelle (HMMs, Hidden Markov Models) modelliert, wo jede Zustandsverteilung üblicherweise auf dem Kontext beruht, hauptsächlich darauf, welche Phoneme in dem linken und rechten Kontextfenster des Phonems existieren.
  • Die HMM-Zustände können über unterschiedliche Phone und Kontexte hinweg gebunden werden. Dies kann unter Verwenden eines Kontext-Abhängigkeitsbaums erreicht werden. Einbeziehung der Erkennungsausgabeinformation auf der Rahmenstufe kann unter Verwenden unterschiedlicher Stufen von linguistischer Einheitsausrichtung auf den interessierenden Rahmen getätigt werden.
  • Deshalb integrieren wir Spracherkennungs- und Verbesserungsprobleme. Eine Architektur nutzt Rahmenstufen ausgerichtete Statussequenzen- oder Rahmenstufen ausgerichtete Phonemsequenzeninformation, die von einem Spracherkenner für jeden Eingaberahmen empfangen wird, der zu verbessern ist. Die Ausrichtungsinformation können auch Wortstufenausrichtungen sein.
  • Die Ausrichtungsinformation wird als ein extra Merkmal bereitgestellt, das der Eingabe des LSTM-Netzwerks bereitgestellt wird. Wir können unterschiedliche Merkmalsarten der Ausrichtungsinformation nutzen. Zum Beispiel können wir eine 1-hot- Darstellung verwenden, um den Rahmenstufenzustand oder das Phonem anzugeben. Wenn dies für die kontextabhängigen Zustände getan wird, ergibt dies einen großen Vektor, welcher einer Erlernung Schwierigkeiten bereiten könnte. Wir können auch fortlaufende Merkmale verwenden, die von einer Mittelung spektraler Merkmale abgeleitet sind, berechnet aus den Trainingsdaten für jeden Status oder jedes Phonem. Dies ergibt eine kürzere Eingabedarstellung und stellt eine Art Ähnlichkeitserhaltungskodierung für jeden Zustand zur Verfügung. Wenn die Information in dem gleichen Bereich wie die verrauschte spektrale Eingabe liegt, dann kann dies für das Netzwerk beim Auffinden der Sprachverbesserungsmaske einfacher zu nutzen sein.
  • Ein anderer Aspekt der Erfindung besteht darin, eine Rückkopplung von zwei Systemen als eine Eingabe in die nächste Stufe zu haben. Diese Rückkopplung kann durch eine „interaktive Art und Weise“ durchgeführt werden, um die Leistungen weiter zu verbessern.
  • Beim Erlernen einer Mehrfach-Aufgabe besteht das Ziel darin, Strukturen aufzubauen, die zur gleichen Zeit nebenläufig „gute“ Merkmale für unterschiedliche Ziele lernen. Das Ziel besteht darin, eine Leistung getrennter Aufgaben durch Erlernen der Ziele zu verbessern.
  • Phasensensitive Zielfunktion zur Größenvorhersage
  • Wir beschreiben Verbesserungen von einer Zielfunktionen, die von dem BLSTM-DRNN 450 genutzt wird. Im Allgemeinen schätzt in dem Stand der Technik das Netzwerk einen Filter- oder Frequenzbereich, der auf das verrauschte Audiospektrum angewendet wird, um eine Schätzung des sauberen Sprachspektrums herzustellen. Die Zielfunktion bestimmt einen Fehler in dem Amplitudenspektrumsbereich zwischen der Audioschätzung und dem sauberen Audioziel. Die wiederhergestellte Audioschätzung behält die Phase des verrauschten Audiosignals.
  • Wenn jedoch eine verrauschte Phase verwendet wird, interagiert der Phasenfehler mit der Amplitude, und die beste Wiederherstellung im Sinne des SNR wird mit Amplituden erzielt, die sich von den sauberen Audioamplituden unterscheiden. Hier erwägen wir direkt unter Verwenden einer phasensensitiven Zielfunktion basierend auf dem Fehler in dem komplexen Spektrum, welches beides, Amplitude und Phasenfehler, enthält. Dies erlaubt es den geschätzten Amplituden, die Verwendung der verrauschten Phasen zu kompensieren.
  • Trennung mit Zeit-Frequenz-Masken
  • Zeit-Frequenz-Filterverfahren schätzen eine Filter- oder Maskenfunktion zum Multiplizieren mit einer Frequenzbereichsmerkmalsdarstellung des verrauschten Audios, um eine Schätzung des sauberen Audiosignals zu bilden. Wir definieren ein komplexes Kurzzeitspektrum des verrauchten Audios yf,t, des Rauschens nf,t und des Audios sf,t erhalten über eine diskrete Fouriertransformation von Fensterrahmen des Zeit-Bereich-Signals. Nachstehend vemeiden wir die Indizierung von f, t und berücksichtigen eine einzige Zeitfrequenzlinie (time frequency bin).
  • Unter der Annahme einer geschätzten Maskenfunktion α̂ wird das saubere Audio auf ŝ = ây geschätzt. Während eines Trainings werden die sauberen und verrauschten Audiosignale bereitgestellt, und eine Schätzung â = g(y|θ) für die Maskenfunktion wird mit Hilfe einer Verzerrungsmaßnahme trainiert, θ̂ = argminθD(â), bei welcher θ die Phase darstellt.
  • Es können mannigfaltige Zilefunktionen verwendet werden, beispielsweise Maskenschätzung (MA, Mask Approximation) und Signalschätzung (SA, Signal Approximation). Die MA-Zielfunktionen berechnen eine Zielmaske unter Verwenden von y und s, und messen dann den Fehler zwischen der geschätzten Maske und der Zielmaske als D ma ( a ^ ) = D ma ( a | | a ^ ) .
    Figure DE112015004785B4_0001
  • Die SA-Zielfunktionen messen den Fehler zwischen dem gefilterten Signal und das saubere Audioziel als D sa ( a ^ ) = D ma ( s | | a ^ y ) .
    Figure DE112015004785B4_0002
  • Mannigfaltige „ideale“ Masken wurden in MA-Ansätzen für α* verwendet. Die Übelichsten sind die sogenannte „ideale Binärmaske“ (IBM, Ideal Binary Mask) und die „ideale Verhältnismaske“ (IRM, Ideal Ratio Mask).
  • Mannigfaltigste Maskierungsfunktionen α zum Berechnen einer Audioschätzung ŝ = ay, deren Gleichung im Sinne von α, und Optimierungsbedingungen sind wie folgt. In der IBM ist δ(x) 1, wenn der Ausdruck x wahr ist und anderenfalls 0. Tabelle 2
    Zielmaske/Filter Gleichung Optimierungsprinzip
    IBM: αibm = δ(|s| > |n|), max SNR α ∈ {0, 1}
    IRM: a irm = | s | | s | + | n | ,
    Figure DE112015004785B4_0003
    max SNR θs = θn,
    „Wiener-ähnlich“ a wf = | s | 2 | s | 2 + | n | 2 ,
    Figure DE112015004785B4_0004
    max SNR, erwartete Leistung
    Idealamplitude αiaf = |s|/|y|, exaktes |ŝ|, max SNR θs = θy
    Phasensensitiver Filter αpsf = |s|/|y|cos(θ), max SNR, gegeben α ∈ ℝ
    Idealer komplexer Filter αicf = s/y, max SNR, gegeben α ∈ ℂ
  • Phasenvorhersage zur Quellentrennung und Verbesserung
  • Hier beschreiben wir Verfahren zum Vorhersagen der Phase zusammen mit der Größe bei Audioquellen Trennung und Audioquellen Verbesserungs Anwendungen. Der Aufbau schließt ein Verwenden eines neuronalen Netzwerks W zum durchführen der Vorhersage von Größe und Phase des Zielsignals ein. Wir nehmen ein (einen Satz von) gemischtes(n) (oder verrauschten) Signal(en) γ(τ) an, welches eine Summe des Zielsignals (oder Quelle) s*(τ) und anderer Hintergrundsignale aus unterschiedlichen Quellen ist. Wir gewinnen s*(τ) aus γ(τ). Gesetzt γt,f und s t , f
    Figure DE112015004785B4_0005
    bezeichnen die jeweiligen Kurzzeit-Fouriertransformationen von γ(τ) und s*(τ).
  • Naiver Ansatz
  • Bei einem naiven Ansatz ist | s ^ t , f s t , f | 2 ,
    Figure DE112015004785B4_0006
    wobei s t , f
    Figure DE112015004785B4_0007
    das saubere Audiosignal ist, welches während eines Trainings bekannt ist, und ŝt,f die Vorhersage des Netzwerks aus der größeren Phase des verrauschten Signals y = [yt,f]t,f∈B, das heißt [ s ^ t , f ] t , f B = f W ( y ) ,
    Figure DE112015004785B4_0008
    wobei W die Gewichte des Netzwerks sind, und B i der Ersatz aller Zeit-Frequenzin Indizes. Das Netzwerk kann ŝt,f in polarer Notatio als | s ^ t , f | e j θ t , f = r t , f e j θ t , f
    Figure DE112015004785B4_0009
    oder in komplexer Notation darstellen als Re ( s ^ t , f ) + j Im ( s ^ t , f ) = u t , f + j v t , f ,
    Figure DE112015004785B4_0010
    wobei Re und Im die reellen und imaginären Anteile sind.
  • Komplexer Filteransatz
  • Oft kann es besser sein, einen Filter zum Anwenden auf das verrauschte Audiosignal zu schätzen, da dann, wenn das Signal sauber ist, der Filter Eins (unity) werden kann, so dass das Eingabesignal die Schätzung des Ausgabesignals ist | a t , f e j θ t , f y t , f s t , f | 2 ,
    Figure DE112015004785B4_0011
    wobei αt,f eine reelle Zahl ist, die von dem Netzwerk geschätzt wird, die das Verhältnis zwischen den Amplituden des sauberen und verrauschten Signals darstellt. Wir schließen e j θ t , f
    Figure DE112015004785B4_0012
    ein, wobei Φt,f eine Schätzung von einem Unterschied zwischen Phasen des sauberen und verrauschten Signals ist. Wir können dies auch als einen komplexen Filter h t , f = a t , f e j θ t , f
    Figure DE112015004785B4_0013
    schreiben. Wenn die Eingabe annähernd sauber ist, dann ist αt,f nahe an Eins (unity), und Φt,f ist nahe an Null, so dass der komplexe Filter ht,f nahe an Eins (unity) liegt.
  • Kombinierender Ansatz
  • Der komplexe Filteransatz arbeitet am besten, wenn das Signal nahezu sauber ist, wenn das Signal aber sehr verrauscht ist, muss das System den Unterschied zwischen den verrauschten und den sauberen Signalen schätzen. In diesem Fall kann es besser sein, das saubere Signal direkt zu schätzen. Begründet dadurch können wir das Netzwerk mittels eines Soft-Gatters αt,f entscheiden lassen, welches Verfahren verwendet wird, welches eine andere Ausgabe des Netzwerks ist und Werte zwischen Null und Eins annimmt, und verwendet wird, um Linealkombinationen des naiven und komplexen Filteransatzes für jede Zeit-Frequenz-Ausgabe auszuwählen | ( α t , f a t , f e j θ t , f y t , f + ( 1 α t , f ) r t , f e j θ t , f ) s t , f | 2 ,
    Figure DE112015004785B4_0014
    wobei αt,f allgemein auf Einheit gesetzt wird, wenn das verrauschte Signal annähernd gleich dem sauberen Signal ist, und rt,f, θt,f die beste Schätzung der Amplitude und Phase des sauberen Signals des Netzwerks darstellt. In diesem Fall ist eine Ausgabe des Netzwerks [ α t , f , a t , f , ϕ t , f , r t , f , θ t , f ] t , f B = f W ( y ) ,
    Figure DE112015004785B4_0015
    wobei W die Gewichte in dem Netzwerk sind.
  • Vereinfachter kombinierender Ansatz
  • Der kombinierende Ansatz kann zu viele Parameter aufweisen, welche nicht gewünscht sein können. Wir können den kombinierenden Ansatz wie folgt vereinfachen. Bei αt,f = 1 gibt das Netzwerk die Eingabe direkt an die Ausgabe direkt weiter, so dass wir die Maske nicht schätzen müssen. Darum setzen wir die Maske auf Eins (unity), wenn αt,f = 1 ist, und vermeiden die Maskenparameter | ( α t , f y t , f + ( 1 α t , f ) r t , f e j θ t , f ) s t , f | 2 ,
    Figure DE112015004785B4_0016
    wobei wieder αt,f im Allgemeinen auf Eins (unity) gesetzt wird, wenn das verrauschte Signal annähernd gleich dem sauberen Signal ist, und wenn es nicht Eins (unity) ist, bestimmen wir ( 1 α t , f ) r t , f θ t , f ,
    Figure DE112015004785B4_0017
    was eine beste Schätzung des Netzwerks von dem Unterschied zwischen αt,fyt,f und s t , f
    Figure DE112015004785B4_0018
    ist. In diesem Fall ist die Ausgabe des Netzwerks [ α t , f , r t , f , θ t , f ] t , f B = f W ( y ) ,
    Figure DE112015004785B4_0019
    wobei W die Gewichte in dem Netzwerk sind. Man beachte, dass beide, der kombinierende Ansatz und der vereinfachte kombinierende Ansatz redundante Darstellungen sind, und es einen mehrfachen Parametersatz geben kann, der die gleiche Schätzung erzielt.

Claims (5)

  1. Verfahren zum Umwandeln eines verrauschten Audiosignals (112, 412) in ein verbessertes Audiosignal (190, 490), umfassend die Schritte:  Erfassen des verrauschten Audiosignals (112, 412) aus einer Umgebung (102, 402); Verarbeiten des verrauschten Audiosignals (112, 412) durch ein Verbesserungsnetzwerk (150, 450) aufweisend Netzwerkparameter (140, 440) zum gemeinsamen Herstellen einer Größenmaske (160, 460) und einer Phasenschätzung; Verwenden der Größenmaske (160, 460) und der Phasenschätzung zum Erhalten des verbesserten Audiosignals (190, 490), wobei die Schritte in einem Prozessor (100, 400) durchgeführt werden.
  2. Verfahren nach Anspruch 1, bei welchem das Verbesserungsnetzwerk (150) ein tiefenrekurrentes neuronales Netzwerk (DRNN) mit bidirektionalem Lang Kurzzeit Speicher (BLSTM) ist.
  3. Verfahren nach Anspruch 1, bei welchem das Verbesserungsnetzwerk (450) eine phasensensitive Zielfunktion (420) basierend auf einem Fehler in einem komplexen Spektrum verwendet, das einen Fehler in Amplitude und Phase des verrauschten Audiosignals (412) enthält.
  4. Verfahren nach Anspruch 1, bei welchem die Phasenschätzung (455) direkt von dem Verbesserungsnetzwerk (450) erhalten wird.
  5. Verfahren nach Anspruch 1, bei welchem die Phasenschätzung (455) gemeinsam mit einer Amplitude des verrauschten Audiosignals (412) unter Verwenden einer komplexwertigen Maske (460) erhalten wird.
DE112015004785.9T 2014-10-21 2015-10-08 Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal Active DE112015004785B4 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462066451P 2014-10-21 2014-10-21
US62/066,451 2014-10-21
US14/620,526 US9881631B2 (en) 2014-10-21 2015-02-12 Method for enhancing audio signal using phase information
US14/620,526 2015-02-12
PCT/JP2015/079241 WO2016063794A1 (en) 2014-10-21 2015-10-08 Method for transforming a noisy audio signal to an enhanced audio signal

Publications (2)

Publication Number Publication Date
DE112015004785T5 DE112015004785T5 (de) 2017-07-20
DE112015004785B4 true DE112015004785B4 (de) 2021-07-08

Family

ID=55749541

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112015004785.9T Active DE112015004785B4 (de) 2014-10-21 2015-10-08 Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal

Country Status (5)

Country Link
US (2) US9881631B2 (de)
JP (1) JP6415705B2 (de)
CN (1) CN107077860B (de)
DE (1) DE112015004785B4 (de)
WO (2) WO2016063794A1 (de)

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9620108B2 (en) 2013-12-10 2017-04-11 Google Inc. Processing acoustic sequences using long short-term memory (LSTM) neural networks that include recurrent projection layers
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
US10229672B1 (en) * 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
WO2017130089A1 (en) * 2016-01-26 2017-08-03 Koninklijke Philips N.V. Systems and methods for neural clinical paraphrase generation
US9799327B1 (en) 2016-02-26 2017-10-24 Google Inc. Speech recognition with attention-based recurrent neural networks
KR102151682B1 (ko) 2016-03-23 2020-09-04 구글 엘엘씨 다중채널 음성 인식을 위한 적응성 오디오 강화
US10249305B2 (en) 2016-05-19 2019-04-02 Microsoft Technology Licensing, Llc Permutation invariant training for talker-independent multi-talker speech separation
US10255905B2 (en) * 2016-06-10 2019-04-09 Google Llc Predicting pronunciations with word stress
US10387769B2 (en) 2016-06-30 2019-08-20 Samsung Electronics Co., Ltd. Hybrid memory cell unit and recurrent neural network including hybrid memory cell units
KR20180003123A (ko) 2016-06-30 2018-01-09 삼성전자주식회사 메모리 셀 유닛 및 메모리 셀 유닛들을 포함하는 순환 신경망
US10810482B2 (en) 2016-08-30 2020-10-20 Samsung Electronics Co., Ltd System and method for residual long short term memories (LSTM) network
US10224058B2 (en) * 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
CN106682217A (zh) * 2016-12-31 2017-05-17 成都数联铭品科技有限公司 一种基于自动信息筛选学习的企业二级行业分类方法
KR102692670B1 (ko) 2017-01-04 2024-08-06 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
JP6636973B2 (ja) * 2017-03-01 2020-01-29 日本電信電話株式会社 マスク推定装置、マスク推定方法およびマスク推定プログラム
US10709390B2 (en) 2017-03-02 2020-07-14 Logos Care, Inc. Deep learning algorithms for heartbeats detection
US10460727B2 (en) * 2017-03-03 2019-10-29 Microsoft Technology Licensing, Llc Multi-talker speech recognizer
US10276179B2 (en) 2017-03-06 2019-04-30 Microsoft Technology Licensing, Llc Speech enhancement with low-order non-negative matrix factorization
US10528147B2 (en) 2017-03-06 2020-01-07 Microsoft Technology Licensing, Llc Ultrasonic based gesture recognition
US10984315B2 (en) 2017-04-28 2021-04-20 Microsoft Technology Licensing, Llc Learning-based noise reduction in data produced by a network of sensors, such as one incorporated into loose-fitting clothing worn by a person
EP3625791A4 (de) * 2017-05-18 2021-03-03 Telepathy Labs, Inc. Auf künstlicher intelligenz basiertes text-zu-sprache-system und -verfahren
KR20200027475A (ko) 2017-05-24 2020-03-12 모듈레이트, 인크 음성 대 음성 변환을 위한 시스템 및 방법
US10381020B2 (en) * 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
WO2019014890A1 (zh) * 2017-07-20 2019-01-24 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
CN109427340A (zh) * 2017-08-22 2019-03-05 杭州海康威视数字技术股份有限公司 一种语音增强方法、装置及电子设备
CN108109619B (zh) * 2017-11-15 2021-07-06 中国科学院自动化研究所 基于记忆和注意力模型的听觉选择方法和装置
JP6827908B2 (ja) * 2017-11-15 2021-02-10 日本電信電話株式会社 音源強調装置、音源強調学習装置、音源強調方法、プログラム
US11557306B2 (en) 2017-11-23 2023-01-17 Harman International Industries, Incorporated Method and system for speech enhancement
US10546593B2 (en) 2017-12-04 2020-01-28 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
KR102420567B1 (ko) * 2017-12-19 2022-07-13 삼성전자주식회사 음성 인식 장치 및 방법
CN107845389B (zh) * 2017-12-21 2020-07-17 北京工业大学 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法
JP6872197B2 (ja) * 2018-02-13 2021-05-19 日本電信電話株式会社 音響信号生成モデル学習装置、音響信号生成装置、方法、及びプログラム
CN111742365B (zh) 2018-02-28 2023-04-18 罗伯特·博世有限公司 用于监控系统中的音频事件检测的系统和方法
US10699697B2 (en) * 2018-03-29 2020-06-30 Tencent Technology (Shenzhen) Company Limited Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition
US10699698B2 (en) * 2018-03-29 2020-06-30 Tencent Technology (Shenzhen) Company Limited Adaptive permutation invariant training with auxiliary information for monaural multi-talker speech recognition
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US11456003B2 (en) * 2018-04-12 2022-09-27 Nippon Telegraph And Telephone Corporation Estimation device, learning device, estimation method, learning method, and recording medium
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
US11756564B2 (en) 2018-06-14 2023-09-12 Pindrop Security, Inc. Deep neural network based speech enhancement
US11252517B2 (en) 2018-07-17 2022-02-15 Marcos Antonio Cantu Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility
WO2020018568A1 (en) * 2018-07-17 2020-01-23 Cantu Marcos A Assistive listening device and human-computer interface using short-time target cancellation for improved speech intelligibility
CN109036375B (zh) * 2018-07-25 2023-03-24 腾讯科技(深圳)有限公司 语音合成方法、模型训练方法、装置和计算机设备
CN110767244B (zh) * 2018-07-25 2024-03-29 中国科学技术大学 语音增强方法
CN109273021B (zh) * 2018-08-09 2021-11-30 厦门亿联网络技术股份有限公司 一种基于rnn的实时会议降噪方法及装置
CN109215674A (zh) * 2018-08-10 2019-01-15 上海大学 实时语音增强方法
US10726856B2 (en) * 2018-08-16 2020-07-28 Mitsubishi Electric Research Laboratories, Inc. Methods and systems for enhancing audio signals corrupted by noise
CN108899047B (zh) * 2018-08-20 2019-09-10 百度在线网络技术(北京)有限公司 音频信号的掩蔽阈值估计方法、装置及存储介质
US11100941B2 (en) * 2018-08-21 2021-08-24 Krisp Technologies, Inc. Speech enhancement and noise suppression systems and methods
CN112567459B (zh) * 2018-08-24 2023-12-12 三菱电机株式会社 声音分离装置、声音分离系统、声音分离方法以及存储介质
JP7167554B2 (ja) * 2018-08-29 2022-11-09 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
CN109841226B (zh) * 2018-08-31 2020-10-16 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
FR3085784A1 (fr) 2018-09-07 2020-03-13 Urgotech Dispositif de rehaussement de la parole par implementation d'un reseau de neurones dans le domaine temporel
JP7159767B2 (ja) * 2018-10-05 2022-10-25 富士通株式会社 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
CN109119093A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音降噪方法、装置、存储介质及移动终端
CN109522445A (zh) * 2018-11-15 2019-03-26 辽宁工程技术大学 一种融合CNNs与相位算法的音频分类检索方法
CN109256144B (zh) * 2018-11-20 2022-09-06 中国科学技术大学 基于集成学习与噪声感知训练的语音增强方法
JP7095586B2 (ja) * 2018-12-14 2022-07-05 富士通株式会社 音声補正装置および音声補正方法
EP3847646B1 (de) * 2018-12-21 2023-10-04 Huawei Technologies Co., Ltd. Audioverarbeitungsvorrichtung und verfahren zur klassifizierung von audioszenen
US11322156B2 (en) * 2018-12-28 2022-05-03 Tata Consultancy Services Limited Features search and selection techniques for speaker and speech recognition
CN109448751B (zh) * 2018-12-29 2021-03-23 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN109658949A (zh) * 2018-12-29 2019-04-19 重庆邮电大学 一种基于深度神经网络的语音增强方法
CN111696571A (zh) * 2019-03-15 2020-09-22 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
WO2020207593A1 (en) * 2019-04-11 2020-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, apparatus for determining a set of values defining characteristics of a filter, methods for providing a decoded audio representation, methods for determining a set of values defining characteristics of a filter and computer program
CN110047510A (zh) * 2019-04-15 2019-07-23 北京达佳互联信息技术有限公司 音频识别方法、装置、计算机设备及存储介质
EP3726529A1 (de) * 2019-04-16 2020-10-21 Fraunhofer Gesellschaft zur Förderung der Angewand Verfahren und vorrichtung zur bestimmung eines tiefenfilters
CN110148419A (zh) * 2019-04-25 2019-08-20 南京邮电大学 基于深度学习的语音分离方法
CN110534123B (zh) * 2019-07-22 2022-04-01 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
US11996108B2 (en) 2019-08-01 2024-05-28 Dolby Laboratories Licensing Corporation System and method for enhancement of a degraded audio signal
US11538485B2 (en) 2019-08-14 2022-12-27 Modulate, Inc. Generation and detection of watermark for real-time voice conversion
CN110503972B (zh) * 2019-08-26 2022-04-19 北京大学深圳研究生院 语音增强方法、系统、计算机设备及存储介质
CN110491406B (zh) * 2019-09-25 2020-07-31 电子科技大学 一种多模块抑制不同种类噪声的双噪声语音增强方法
CN110728989B (zh) * 2019-09-29 2020-07-14 东南大学 一种基于长短时记忆网络lstm的双耳语音分离方法
CN110992974B (zh) 2019-11-25 2021-08-24 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN111243612A (zh) * 2020-01-08 2020-06-05 厦门亿联网络技术股份有限公司 一种生成混响衰减参数模型的方法及计算系统
JP7264282B2 (ja) * 2020-01-16 2023-04-25 日本電信電話株式会社 音声強調装置、学習装置、それらの方法、およびプログラム
CN111429931B (zh) * 2020-03-26 2023-04-18 云知声智能科技股份有限公司 一种基于数据增强的降噪模型压缩方法及装置
CN111508516A (zh) * 2020-03-31 2020-08-07 上海交通大学 基于信道关联时频掩膜的语音波束形成方法
CN111583948B (zh) * 2020-05-09 2022-09-27 南京工程学院 一种改进的多通道语音增强系统和方法
CN111833896B (zh) * 2020-07-24 2023-08-01 北京声加科技有限公司 融合反馈信号的语音增强方法、系统、装置和存储介质
EP4226362A1 (de) 2020-10-08 2023-08-16 Modulate, Inc. Mehrstufiges adaptives system zur inhaltsmoderation
CN112420073B (zh) * 2020-10-12 2024-04-16 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备和存储介质
CN112133277B (zh) * 2020-11-20 2021-02-26 北京猿力未来科技有限公司 样本生成方法及装置
CN112309411B (zh) * 2020-11-24 2024-06-11 深圳信息职业技术学院 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统
CN112669870B (zh) * 2020-12-24 2024-05-03 北京声智科技有限公司 语音增强模型的训练方法、装置和电子设备
EP4298630A1 (de) * 2021-02-25 2024-01-03 Shure Acquisition Holdings, Inc. Derauschermaskenerzeugungssystem für tiefe neuronale netzwerke zur audioverarbeitung
CN113241083B (zh) * 2021-04-26 2022-04-22 华南理工大学 一种基于多目标异质网络的集成语音增强系统
CN113470685B (zh) * 2021-07-13 2024-03-12 北京达佳互联信息技术有限公司 语音增强模型的训练方法和装置及语音增强方法和装置
CN113450822B (zh) * 2021-07-23 2023-12-22 平安科技(深圳)有限公司 语音增强方法、装置、设备及存储介质
WO2023018905A1 (en) * 2021-08-12 2023-02-16 Avail Medsystems, Inc. Systems and methods for enhancing audio communications
CN113707168A (zh) * 2021-09-03 2021-11-26 合肥讯飞数码科技有限公司 一种语音增强方法、装置、设备及存储介质
US11849286B1 (en) 2021-10-25 2023-12-19 Chromatic Inc. Ear-worn device configured for over-the-counter and prescription use
CN114093379B (zh) * 2021-12-15 2022-06-21 北京荣耀终端有限公司 噪声消除方法及装置
US11950056B2 (en) 2022-01-14 2024-04-02 Chromatic Inc. Method, apparatus and system for neural network hearing aid
US20230306982A1 (en) 2022-01-14 2023-09-28 Chromatic Inc. System and method for enhancing speech of target speaker from audio signal in an ear-worn device using voice signatures
US11832061B2 (en) * 2022-01-14 2023-11-28 Chromatic Inc. Method, apparatus and system for neural network hearing aid
US11818547B2 (en) * 2022-01-14 2023-11-14 Chromatic Inc. Method, apparatus and system for neural network hearing aid
US12075215B2 (en) 2022-01-14 2024-08-27 Chromatic Inc. Method, apparatus and system for neural network hearing aid
CN114067820B (zh) * 2022-01-18 2022-06-28 深圳市友杰智新科技有限公司 语音降噪模型的训练方法、语音降噪方法和相关设备
CN115424628B (zh) * 2022-07-20 2023-06-27 荣耀终端有限公司 一种语音处理方法及电子设备
CN115295001B (zh) * 2022-07-26 2024-05-10 中国科学技术大学 一种基于渐进式融合校正网络的单通道语音增强方法
EP4333464A1 (de) 2022-08-09 2024-03-06 Chromatic Inc. Hörverlustverstärkung, die sprach- und geräuschuntersignale unterschiedlich verstärkt

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5878389A (en) 1995-06-28 1999-03-02 Oregon Graduate Institute Of Science & Technology Method and system for generating an estimated clean speech signal from a noisy speech signal

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2776848B2 (ja) * 1988-12-14 1998-07-16 株式会社日立製作所 雑音除去方法、それに用いるニューラルネットワークの学習方法
JPH1049197A (ja) * 1996-08-06 1998-02-20 Denso Corp 音声復元装置及び音声復元方法
JPH09160590A (ja) 1995-12-13 1997-06-20 Denso Corp 信号抽出装置
KR100341197B1 (ko) * 1998-09-29 2002-06-20 포만 제프리 엘 오디오 데이터로 부가 정보를 매립하는 방법 및 시스템
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US6732073B1 (en) 1999-09-10 2004-05-04 Wisconsin Alumni Research Foundation Spectral enhancement of acoustic signals to provide improved recognition of speech
DE19948308C2 (de) 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
US7243060B2 (en) * 2002-04-02 2007-07-10 University Of Washington Single channel sound separation
TWI223792B (en) * 2003-04-04 2004-11-11 Penpower Technology Ltd Speech model training method applied in speech recognition
US7660713B2 (en) * 2003-10-23 2010-02-09 Microsoft Corporation Systems and methods that detect a desired signal via a linear discriminative classifier that utilizes an estimated posterior signal-to-noise ratio (SNR)
JP2005249816A (ja) 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
GB0414711D0 (en) 2004-07-01 2004-08-04 Ibm Method and arrangment for speech recognition
US8117032B2 (en) 2005-11-09 2012-02-14 Nuance Communications, Inc. Noise playback enhancement of prerecorded audio for speech recognition operations
US7593535B2 (en) * 2006-08-01 2009-09-22 Dts, Inc. Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer
US8615393B2 (en) 2006-11-15 2013-12-24 Microsoft Corporation Noise suppressor for speech recognition
GB0704622D0 (en) 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
JP5156260B2 (ja) 2007-04-27 2013-03-06 ニュアンス コミュニケーションズ,インコーポレイテッド 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
EP2151822B8 (de) 2008-08-05 2018-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Verarbeitung eines Audiosignals zur Sprachverstärkung unter Anwendung einer Merkmalsextraktion
US8392185B2 (en) * 2008-08-20 2013-03-05 Honda Motor Co., Ltd. Speech recognition system and method for generating a mask of the system
US8645132B2 (en) 2011-08-24 2014-02-04 Sensory, Inc. Truly handsfree speech recognition in high noise environments
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9728184B2 (en) * 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
CN103489454B (zh) * 2013-09-22 2016-01-20 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN103531204B (zh) * 2013-10-11 2017-06-20 深港产学研基地 语音增强方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5878389A (en) 1995-06-28 1999-03-02 Oregon Graduate Institute Of Science & Technology Method and system for generating an estimated clean speech signal from a noisy speech signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WENINGER, Felix; EYBEN, Florian; SCHULLER, Björn.: Single-channel speech separation with memory-enhanced recurrent neural networks. In: 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014, 3709-3713. *

Also Published As

Publication number Publication date
WO2016063794A1 (en) 2016-04-28
US20160111107A1 (en) 2016-04-21
DE112015004785T5 (de) 2017-07-20
CN107077860A (zh) 2017-08-18
JP2017520803A (ja) 2017-07-27
WO2016063795A1 (en) 2016-04-28
CN107077860B (zh) 2021-02-09
US9881631B2 (en) 2018-01-30
JP6415705B2 (ja) 2018-10-31
US20160111108A1 (en) 2016-04-21

Similar Documents

Publication Publication Date Title
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
Michelsanti et al. Conditional generative adversarial networks for speech enhancement and noise-robust speaker verification
Zeghidour et al. End-to-end speech recognition from the raw waveform
Wang et al. Bridging the gap between monaural speech enhancement and recognition with distortion-independent acoustic modeling
Weninger et al. Single-channel speech separation with memory-enhanced recurrent neural networks
DE112009000805B4 (de) Rauschreduktion
Radfar et al. Single-channel speech separation using soft mask filtering
DE102019110272A1 (de) Neuronalnetzwerkbasierte zeit-frequenzmaskenschätzung und strahlformung zur sprachvorverarbeitung
CN110148420A (zh) 一种适用于噪声环境下的语音识别方法
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE112014004836B4 (de) Verfahren und System zum Verbessern eines verrauschten Eingangssignals
Heckmann et al. A hierarchical framework for spectro-temporal feature extraction
Yu et al. Adversarial network bottleneck features for noise robust speaker verification
Geng et al. End-to-end speech enhancement based on discrete cosine transform
Kim Collaborative deep learning for speech enhancement: A run-time model selection method using autoencoders
Elshamy et al. DNN-supported speech enhancement with cepstral estimation of both excitation and envelope
Michelsanti et al. On training targets and objective functions for deep-learning-based audio-visual speech enhancement
Agrawal et al. Unsupervised Raw Waveform Representation Learning for ASR.
Elshamy et al. DNN-based cepstral excitation manipulation for speech enhancement
Tufekci et al. Applied mel-frequency discrete wavelet coefficients and parallel model compensation for noise-robust speech recognition
CN115881157A (zh) 音频信号的处理方法及相关设备
Tan Convolutional and recurrent neural networks for real-time speech separation in the complex domain
Mohammadiha et al. Single-channel dynamic exemplar-based speech enhancement.
Shome et al. Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech
Hu Subspace and multitaper methods for speech enhancement

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0025300000

Ipc: G10L0021023200

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final