DE112017006486T5 - Online-enthallungsalgorithmus basierend auf gewichtetem vorhersagefehler für lärmbehaftete zeitvariante umgebungen - Google Patents

Online-enthallungsalgorithmus basierend auf gewichtetem vorhersagefehler für lärmbehaftete zeitvariante umgebungen Download PDF

Info

Publication number
DE112017006486T5
DE112017006486T5 DE112017006486.4T DE112017006486T DE112017006486T5 DE 112017006486 T5 DE112017006486 T5 DE 112017006486T5 DE 112017006486 T DE112017006486 T DE 112017006486T DE 112017006486 T5 DE112017006486 T5 DE 112017006486T5
Authority
DE
Germany
Prior art keywords
variance
signal
frequency domain
input signal
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112017006486.4T
Other languages
English (en)
Inventor
Saeed Mosayyebpour Kaskari
Francesco Nesta
Trausti Thormundsson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Synaptics Inc
Original Assignee
Synaptics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Synaptics Inc filed Critical Synaptics Inc
Publication of DE112017006486T5 publication Critical patent/DE112017006486T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

Systeme und Verfahren zur Verarbeitung von Mehrkanal-Audiosignalen beinhalten ein Empfangen eines Mehrkanal-Zeitbereich-Audioeingangs, Umwandeln des Eingangssignals in eine Vielzahl von k-beabstandeten unterabgetasteten Mehrkanal-Frequenzbereich-Teilbandsignalen, Puffern und Verzögern jedes Kanals, Sichern einer Teilmenge von Spektralrahmen für Vorhersagefilterschätzung bei jedem der Spektralrahmen, Schätzen einer Varianz des Frequenzbereichsignals bei jedem der Spektralrahmen, online erfolgendes adaptives Schätzen des Vorhersagefilters durch Verwenden eines Recursive-Least-Squares-(RLS-) Algorithmus, lineares Filtern jedes Kanals mittels des geschätzten Vorhersagefilters, nichtlineares Filtern des linear gefilterten Ausgangssignals, um Restwiderhall und die geschätzten Varianzen zu verringern, wodurch ein nichtlinear gefiltertes Ausgangssignal erzeugt wird, und Synthetisieren des nichtlinear gefilterten Ausgangssignals, um ein enthalltes Zeitbereich-Mehrkanal-Audiosignal zu rekonstruieren.

Description

  • VERWEIS AUF VERWANDTE ANMELDUNGEN
  • Diese Anmeldung beansprucht den Zeitrang und die Priorität der am 23. Dezember 2016 unter der Bezeichnung „ONLINE-ENTHALLUNGSALGORITHMUS BASIEREND AUF GEWICHTETEM VORHERSAGEFEHLER FÜR LÄRMBEHAFTETE ZEITVARIANTE UMGEBUNGEN“ eingereichten US-Provisional-Patentanmeldung Nr. 62/438,860 , welche hierin vollumfänglich in Bezug genommen wird.
  • TECHNISCHES GEBIET
  • Die vorliegende Anmeldung betrifft allgemein Audioverarbeitung und insbesondere Enthallung von Mehrkanal-Audiosignalen.
  • HINTERGRUND
  • Lösungen zur Verringerung von Widerhall sind auf dem Gebiet der Audiosignalverarbeitung bekannt. Viele herkömmliche Ansätze eignen sich nicht zur Verwendung in Echtzeitanwendungen. Beispielsweise kann eine Lösung zur Verringerung von Widerhall einen langen Puffer von Daten erfordern, um die Auswirkung von Widerhall auszugleichen oder um ein inverses Filter der Raumimpulsantworten (Room Impulse Responses, RIR) zu schätzen. Ansätze, die sich für Echtzeitanwendungen eignen, arbeiten in Umgebungen mit starkem Widerhall und besonders in hochgradig instationären Umgebungen nicht zufriedenstellend. Zudem erfordern solche Lösungen eine große Menge an Speicher und sind für viele Einrichtungen mit geringer Leistung nicht recheneffizient.
  • Eine herkömmliche Lösung basiert auf gewichtetem Vorhersagefehler (Weighted Prediction Error, WPE), wofür ein autoregressives Modell des Widerhallprozesses zugrunde gelegt wird, i.e. es wird zugrunde gelegt, dass die verhallte Komponente zu einer bestimmten Zeit aus früheren Proben verhallter Mikrofonsignale vorhergesagt werden kann. Das gewünschte Signal kann als der Vorhersagefehler des Modells geschätzt werden. Es wird eine festgelegte Verzögerung eingeführt, um eine Verzerrung der Kurzzeitkorrelation des Sprachsignals zu vermeiden. Dieser Algorithmus eignet sich nicht für Echtzeitverarbeitung und modelliert nicht explizit das Eingangssignal unter lärmbehafteten Bedingungen. Zudem weist das WPE-Verfahren eine hohe Komplexität auf und ist keine Online-Mehrfacheingang-Mehrfachausgang- (MIMO-) Lösung. Der WPE-Ansatz wurde für MIMO erweitert und zur Verwendung unter lärmbehafteten Bedingungen generalisiert. Solche Modifikationen eignen sich jedoch nicht für zeitvariante Umgebungen. Es wurden ferner Modifikationen für zeitvariante Umgebungen vorgeschlagen, die sowohl WPE für lineares Filtern als auch eine optimale Kombination der Strahlbildung und einem auf Wiener-Filtern basierenden nichtlinearen Filtern beinhalten. Derartige Vorschläge sind jedoch immer noch nicht in Echtzeit und eignen sich aufgrund ihrer hohen Komplexität nicht zur Verwendung in Einrichtungen mit geringer Leistung.
  • Allgemein weisen herkömmliche Verfahren Einschränkungen hinsichtlich der Komplexität und der Praktikabilität für die Verwendung in Online- und Echtzeitanwendungen auf. Im Unterschied zur Stapelverarbeitung wird eine Echtzeit- oder Onlineverarbeitung im gewerblichen Umfeld für viele praktische Anwendungen verwendet. Es besteht daher ein Bedarf an verbesserten Systemen und Verfahren zur Online- und Echtzeit- Enthallung.
  • KURZDARSTELLUNG
  • Offenbart werden Systeme und Verfahren, die Ausführungsformen für Online-Enthallung basierend auf gewichtetem Vorhersagefehler für lärmbehaftete zeitvariante Umgebungen beinhalten. In verschiedenen Ausführungsformen beinhaltet ein Verfahren zur Verarbeitung von Mehrkanal-Audiosignalen ein Empfangen eines Eingangssignals, das ein Zeitbereich-Mehrkanal-Audiosignal umfasst, Umwandeln des Eingangssignals in ein Frequenzbereich-Eingangssignal, das eine Vielzahl von k-beabstandeten unterabgetasteten Mehrkanal-Frequenzbereich-Teilbandsignalen umfasst, Puffern und Verzögern jedes Kanals des Frequenzbereich-Eingangssignals, Sichern einer Teilmenge von Spektralrahmen für Vorhersagefilterschätzung bei jedem der Spektralrahmen und Schätzen einer Varianz des Frequenzbereich-Eingangssignals bei jedem der Spektralrahmen, online erfolgendes adaptives Schätzen des Vorhersagefilters durch Verwenden eines Recursive-Least-Squares-(RLS-) Algorithmus. Das Verfahren beinhaltet ferner ein lineares Filtern jedes Kanals des Frequenzbereich-Eingangssignals mittels des geschätzten Vorhersagefilters, um ein linear gefiltertes Ausgangssignal zu erzeugen, nichtlineares Filtern des linear gefilterten Ausgangssignals, um Restwiderhall und die geschätzten Varianzen zu verringern, wodurch ein nichtlinear gefiltertes Ausgangssignal erzeugt wird, und Synthetisieren des nichtlinear gefilterten Ausgangssignals, um ein enthalltes Zeitbereich-Mehrkanal-Audiosignal zu rekonstruieren, wobei eine Anzahl an Ausgangskanälen gleich einer Anzahl an Eingangskanälen ist.
  • In verschiedenen Ausführungsformen kann das Verfahren ferner beinhalten, dass das Schätzen der Varianz des Frequenzbereich-Eingangssignals ferner ein Schätzen einer Klarsprachvarianz, Schätzen einer Geräuschvarianz und/oder Schätzen einer Restsprachvarianz umfasst. In verschiedenen Ausführungsformen kann das Verfahren ferner ein Verwenden eines adaptiven RLS-Algorithmus beinhalten, um das Vorhersagefilter bei jedem Rahmen unabhängig für jeden Frequenzabschnitt des Frequenzbereich-Eingangssignals durch Auferlegen einer dünnen Besetzung für eine Korrelationsmatrix zu schätzen.
  • In verschiedenen Ausführungsformen umfasst das Eingangssignal mindestens ein Zielsignal, und die nichtlineare Filterung berechnet ein verstärktes Sprachsignal für jedes Zielsignal, um Restwiderhall und Hintergrundgeräusche zu verringern. Der Varianzschätzungsprozess kann ein Schätzen einer neuen Klarsprachvarianz basierend auf einem früheren geschätzten Vorhersagefilter, Schätzen einer neuen Restwiderhallvarianz mittels einer festgelegten exponentiell abnehmenden Gewichtungsfunktion mit einem Abstimmparameter, um eine Audiolösung anzupassen, und Schätzen einer Geräuschvarianz mittels eines Einzelmikrofon-Geräuschvarianz-Schätzverfahrens beinhalten, um die Geräuschvarianz für jeden Kanal zu schätzen und dann einen Durchschnitt zu berechnen. Das Verfahren kann auch abrupte Änderungen erfassen, um das Vorhersagefilter und die Korrelationsmatrix im Falle einer Bewegung des Sprechers neu einzurichten.
  • In verschiedenen Ausführungsformen beinhaltet ein Audioverarbeitungssystem einen Audioeingang, ein Teilbandzerlegungsmodul, einen Puffer, einen Varianzschätzer, einen Vorhersagefilterschätzer, ein lineares Filter, ein nichtlineares Filter und einen Synthetisierer. Der Audioeingang ist betriebsfähig, ein Zeitbereich-Mehrkanal-Audiosignal zu empfangen. Das Teilbandzerlegungsmodul ist betriebsfähig, das Eingangssignal in ein Frequenzbereich-Eingangssignal umzuwandeln, das eine Vielzahl k-beabstandeter unterabgetasteter Mehrkanal-Frequenzbereich-Teilbandsignale umfasst. Der Puffer ist betriebsfähig, jeden Kanal des Frequenzbereich-Eingangssignals zu puffern und zu verzögern und dabei eine Teilmenge von Spektralrahmen für Vorhersagefilterschätzung bei jedem der Spektralrahmen zu sichern.
  • In verschiedenen Ausführungsformen ist der Varianzschätzer betriebsfähig, eine Varianz des Frequenzbereich-Eingangssignals bei jedem der Spektralrahmen zu schätzen. Der Varianzschätzer kann ferner betriebsfähig sein, eine Klarsprachvarianz, eine Geräuschvarianz und/oder eine Restsprachvarianz zu schätzen. Der Varianzschätzer kann ferner betriebsfähig sein, eine neue Klarsprachvarianz basierend auf einem früheren geschätzten Vorhersagefilter zu schätzen, eine neue Restwiderhallvarianz mittels einer festgelegten exponentiell abnehmenden Gewichtungsfunktion mit einem Abstimmparameter zu schätzen, um eine Audiolösung anzupassen, und eine Geräuschvarianz mittels eines Einzelmikrofon-Geräuschvarianz-Schätzverfahrens zu schätzen, um die Geräuschvarianz für jeden Kanal zu schätzen und dann einen Durchschnitt zu berechnen. Der Varianzschätzer kann ferner betriebsfähig sein, Änderungen aufgrund von Bewegung des Sprechers zu erfassen und das Vorhersagefilter und die Korrelationsmatrix neu einzurichten.
  • In einer oder mehreren Ausführungsformen ist der Vorhersagefilterschätzer betriebsfähig, das Vorhersagefilter durch Verwenden eines Recursive-Least-Square- (RLS-) Algorithmus online adaptiv zu schätzen. Das Vorhersagefilter kann ferner betriebsfähig sein, einen adaptiven RLS-Algorithmus zu verwenden, um das Vorhersagefilter bei jedem Rahmen unabhängig für jeden Frequenzabschnitt des Frequenzbereich-Eingangssignals durch Auferlegen einer dünnen Besetzung für eine Korrelationsmatrix zu schätzen.
  • In verschiedenen Ausführungsformen ist das lineare Filter betriebsfähig, jeden Kanal des Frequenzbereich-Eingangssignals mittels des geschätzten Vorhersagefilters linear zu filtern, um ein linear gefiltertes Ausgangssignal zu erzeugen. Das nichtlineare Filter ist betriebsfähig, das linear gefilterte Ausgangssignal nichtlinear zu filtern, um Restwiderhall und die geschätzten Varianzen zu verringern und dadurch ein nichtlinear gefiltertes Ausgangssignal zu erzeugen. In einer Ausführungsform umfasst das Zeitbereich-Mehrkanal-Audiosignal mindestens ein Zielsignal, und das nichtlineare Filter ist ferner betriebsfähig, ein verstärktes Sprachsignal für jedes Zielsignal zu berechnen und Restwiderhall und Hintergrundgeräusche zu verringern. Der Synthetisierer ist betriebsfähig, das nichtlinear gefilterte Ausgangssignal zu synthetisieren, um ein enthalltes Zeitbereich-Mehrkanal-Audiosignal zu rekonstruieren, wobei eine Anzahl an Ausgangskanälen gleich einer Anzahl an Eingangskanälen ist.
  • Der Umfang der Erfindung ist durch die Ansprüche definiert, die in diesem Abschnitt in Bezug genommen werden. Ein umfassenderes Verständnis von Ausführungsformen der Erfindung sowie eine Realisierung zusätzlicher Vorteile derselben werden dem Fachmann durch Betrachtung der nachfolgenden ausführlichen Beschreibung einer oder mehrerer Ausführungsformen vermittelt. Es wird ferner auf die beiliegenden Seiten mit den Zeichnungen Bezug genommen, welche zunächst kurz beschrieben werden.
  • Figurenliste
  • Aspekte der Offenbarung und deren Vorteile werden mit Bezugnahme auf die nachfolgenden Zeichnungen und die nachstehende ausführliche Beschreibung besser verständlich. Es ist zu beachten, dass gleiche Bezugszeichen verwendet werden, um in einer oder mehreren der Figuren veranschaulichte gleichartige Elemente zu bezeichnen, wobei die Darstellungen der Veranschaulichung von Ausführungsformen der vorliegenden Offenbarung und nicht deren Einschränkung dienen. Die Komponenten in den Zeichnungen sind nicht notwendigerweise maßstabsgetreu, vielmehr steht die klare Darstellung der Prinzipien der vorliegenden Offenbarung im Vordergrund.
    • 1 ist ein Blockdiagramm eines Sprachenthallungssystems gemäß einer Ausführungsform der vorliegenden Offenbarung.
    • 2 ist ein Blockdiagramm eines Sprachenthallung beinhaltenden Audioverarbeitungssystems gemäß einer Ausführungsform der vorliegenden Offenbarung.
    • 3 veranschaulicht einen Puffer mit Verzögerung gemäß einer Ausführungsform der vorliegenden Offenbarung.
    • 4 ist ein Flussdiagramm zum Bestimmen von Varianzen gemäß einer Ausführungsform der vorliegenden Offenbarung.
    • 5 ist ein Blockdiagramm eines Audioverarbeitungssystems gemäß einer Ausführungsform der vorliegenden Offenbarung.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Gemäß verschiedenen Ausführungsformen der vorliegenden Offenbarung werden Systeme und Verfahren zur Enthallung von Mehrkanal-Audiosignalen bereitgestellt.
  • Allgemein weisen herkömmliche Verfahren Einschränkungen hinsichtlich der Komplexität und der Praktikabilität für die Verwendung in Online- und Echtzeitanwendungen auf. Im Unterschied zur Stapelverarbeitung wird inzwischen eine Echtzeit- oder Onlineverarbeitung im gewerblichen Umfeld für viele praktische Anwendungen verwendet. Für diese Anwendungen wurden adaptive Online-Algorithmen entwickelt, wie beispielsweise ein Recursive-Least-Squares- (RLS-) Verfahren zum Entwickeln des adaptiven WPE-Ansatzes, oder ein Kalman-Filter-Ansatz, bei dem ein Mehrmikrofon-Algorithmus, der gleichzeitig das Klarsprachsignal und das zeitvariante Akustiksystem schätzt, verwendet wird. Das rekursive Erwartungs-Maximierungs-Schema wird eingesetzt, um sowohl das Klarsprachsignal als auch das Akustiksystem online zu erhalten. Die Verfahren arbeiten jedoch unter hochgradig instationären Bedingungen weder mit den RLS-basierten noch den den Kalman-Filter-basierten Algorithmen besonders gut. Zudem sind der Rechenaufwand und die Speichernutzung sowohl für Kalman- als auch RLS-Algorithmen für viele Anwendungen unverhältnismäßig hoch. Ferner sind trotz ihrer schnellen Konvergenz in Richtung der stabilen Lösung die Algorithmen unter Umständen zu empfindlich für abrupte Änderungen und können eine Änderungserfassungseinrichtung erfordern, um die Korrelationsmatrizes und Filter auf ihre Ausgangswerte zurückzusetzen.
  • Offenbart sind vorliegend Online-Mehrfacheingang-Mehrfachausgang- (MIMO-) Ausführungsformen zur Enthallung mittels des Teilbandbereichs. In verschiedenen Ausführungsformen werden Mehrkanal-Linearvorhersagefilter, die zum blinden Verkürzen der Raumimpulsantworten (RIRs) zwischen einer Menge einer unbekannten Anzahl an Quellen und Mikrofonen geeignet sind, online geschätzt. In einer Ausführungsform wird für schnelle Konvergenz ein RLS-Algorithmus verwendet. Einige Ansätze, die RLS verwenden, können jedoch durch hohen Rechenaufwand gekennzeichnet sein. In verschiedenen Umgebungen können geringer Rechenaufwand und geringer Speicherverbrauch erwünscht sein. In verschiedenen Ausführungsformen vorliegend offenbarter Systeme und Verfahren werden die Speichernutzung und der Rechenaufwand durch Auferlegen einer dünnen Besetzung für eine Korrelationsmatrix verringert. In einer Ausführungsform wird ein neues Verfahren zum Identifizieren der Bewegung eines Sprechers oder einer Audioquelle in zeitvarianten Umgebungen vorgeschlagen, welches eine Neuinitialisierung der Vorhersagefilter und ein Verbessern der Konvergenzgeschwindigkeit in zeitvarianten Umgebungen beinhaltet.
  • In verschiedenen realen Umgebungen kann eine Sprachquelle mit Umgebungsgeräuschen bzw. -lärm vermischt sein. Ein aufgezeichnetes Sprachsignal beinhaltet typischerweise ungewollte Geräusche, welche die Sprachverständlichkeit für Sprachanwendungen wie beispielsweise Voice-over-IP- (VoIP-) Kommunikation verschlechtern kann und die Leistungsfähigkeit von Spracherkennung in Einrichtungen wie beispielsweise Telefonen, Laptops und sprachgesteuerten Geräten verschlechtern kann. Eine Herangehensweise an das Problem der Geräuschinterferenz besteht darin, eine Mikrofonanordnung und Strahlbildungsalgorithmen zu verwenden, welche die Raumdiversität von Geräuschquellen ausnutzen können, um gewünschte Quellensignale zu erfassen oder zu extrahieren und ungewollte Interferenz zu unterdrücken. Strahlbildung repräsentiert eine Klasse solcher Mehrkanal-Signalverarbeitungsalgorithmen und schlägt eine räumliche Filterung vor, die einen Strahl erhöhter Empfindlichkeit auf gewünschte Quellenstandorte richtet, während sie anderen Standorten entstammende Signale unterdrückt.
  • In Innenraumumgebungen können die Geräuschunterdrückungsansätze wirksamer sein, da sich die Signalquelle näher an den Mikrofonen befindet, was als ein Nahfeldszenario bezeichnet werden kann. Mit wachsender Entfernung zwischen Quelle und Mikrofonen kann die Geräuschunterdrückung jedoch komplizierter sein.
  • Gemäß 1 befindet sich eine Signalquelle 110, beispielsweise ein menschlicher Sprecher, in einiger Entfernung zu einer Anordnung aus Mikrofonen 120 in einer Umgebung 102 wie beispielsweise einem Raum. Die Mikrofonanordnung 120 fängt ein gewünschtes Signal 104 ein, das auf einem direkten Weg zwischen der Signalquelle 110 und der Mikrofonanordnung 120 empfangen wird. Die Mikrofonanordnung 120 fängt zudem Geräusche aus Geräuschquellen 130 ein, welche Geräuschinterferenz 140 und Signalreflexionen 150 von Wänden, der Decke und/oder anderen Objekten in der Umgebung 102 beinhalten.
  • Die Leistungsfähigkeit vieler mit Mikrofonanordnungen arbeitender Verarbeitungstechniken, beispielsweise Schallquellenlokalisierung, Strahlbildung und automatische Spracherkennung (Automatic Speech Recognition, ASR) kann in verhallten Umgebungen empfindlich verschlechtert werden, wie in 1 veranschaulicht. Beispielsweise kann Widerhall die Zeit- und Spektraleigenschaften des Direktschalls verwischen. Sprachverstärkung in einer lärmbehafteten verhallten Umgebung muss gegebenenfalls Sprachsignale, die gefärbt und instationär sind, Geräuschsignale, die sich im Zeitverlauf dramatisch ändern können, und eine Impulsantwort eines akustischen Kanals bewältigen, die lang sein und/oder eine Nicht-Minimalphase aufweisen kann. In verschiedenen Anwendungen hängt die Länge der Impulsantwort von der Widerhallzeit ab und viele Verfahren funktionieren unter Umständen nicht bei langen Widerhallzeiten. Vorliegend werden Systeme und Verfahren zur geräuschrobusten Mehrkanal-Sprachenthallung offenbart, welche die Auswirkung von Widerhall verringern und dabei eine Mehrkanalschätzung des enthallten Sprachsignals erzeugen.
  • Herkömmliche Verfahren zur Behandlung von Widerhall weisen Einschränkungen auf, welche die Verfahren für viele Anwendungen ungeeignet machen. Beispielsweise kann aufgrund des Rechenaufwands ein Algorithmus für viele Fälle in der Realität unpraktisch sein, in denen eine Verarbeitung online und in Echtzeit erforderlich ist. Solche Algorithmen können auch einen hohen Speicherverbrauch erfordern, welcher sich für eingebettete Einrichtungen, die speichereffiziente Algorithmen benötigen, nicht eignet. In einer realen Umgebung sind die verhallten Sprachsignale üblicherweise mit instationären aktiven Hintergrundgeräuschen belastet, welche die Leistungsfähigkeit von Enthallungsalgorithmen, welche die instationären Geräusche in ihrem Modell nicht explizit berücksichtigen, stark verschlechtern. Viele Enthallungsverfahren verwenden Stapelansätze, die eine große Menge an Eingangsdaten erfordern, um in einer guten Leistungsfähigkeit zu resultieren. In Anwendungen wie beispielsweise VoIP und Hörhilfen ist jedoch E/A-Latenz nicht wünschenswert.
  • Viele herkömmliche Enthallungsverfahren erzeugen eine kleinere Anzahl an enthallten Signalen als Mikrofone in einer Eingangsmikrofonanordnung und bewahren nicht die Eintreffzeitdifferenzen (Time Differences of Arrival, TDOAs) an verschiedenen Mikrofonpositionen. In einigen Anwendungen können jedoch Quellenlokalisierungsalgorithmen explizit oder implizit auf TDOAs an Mikrofonpositionen basieren. Zu weiteren Nachteilen herkömmlicher Enthallungsverfahren können Algorithmen, die eine Kenntnis der Anzahl der Schallquellen erfordern, und Verfahren zählen, die nicht schnell konvergieren, wodurch der Algorithmus auf neue Änderungen langsam reagiert.
  • Die vorliegend offenbarten Ausführungsformen richten sich auf Einschränkungen herkömmlicher Systeme und stellen dadurch Lösungen zur Verwendung in verschiedenen gewerblichen Anwendungen bereit. In einer Ausführungsform gewährleistet ein Algorithmus schnelle Konvergenz ohne Latenz, wodurch er für Anwendungen wie VoIP wünschenswert wird. Ein Blindverfahren verwendet Mehrkanal-Eingangssignale zum Verkürzen einer MIMO-RIR zwischen einer Menge einer unbekannten Anzahl an Quellen. Es werden Teilbandbereich-Mehrkanal-Linearvorhersagefilter verwendet und der Algorithmus schätzt das Filter für jedes Frequenzband unabhängig. Ein Vorteil dieses Verfahrens besteht darin, dass es TDOAs an Mikrofonpositionen sowie die Linearbeziehung zwischen Quellen und Mikrofonen bewahren kann, was von Vorteil ist, wenn zur Lokalisierung und Verringerung der Geräusche und Interferenz weitere Verarbeitung erforderlich ist. Zudem kann der Algorithmus durch Schätzen des Vorhersagefilters für jedes Mikrofon einzeln so viele enthallte Signale wie Mikrofone erzeugen. Additive Hintergrundgeräusche können ebenfalls in dem Modell berücksichtigt werden, um das Vorhersagefilter online mittels eines adaptiven Algorithmus adaptiv zu schätzen. Auf diese Weise kann der Algorithmus die Leistungsspektraldichte (Power Spectral Density, PSD) der Geräusche adaptiv schätzen.
  • Ausführungsformen der vorliegenden Offenbarung weisen zahlreiche Vorteile gegenüber herkömmlichen Ansätzen auf. Verschiedene Ausführungsformen gewährleisten Echtzeitenthallung ohne Latenz. Ein MIMO-Algorithmus wird offenbart, so dass dieser in einfacher Weise mit anderen Mehrkanal-Signalverarbeitungsblöcken integriert werden kann, z.B. zur Geräuschverringerung oder Quellenstandortbestimmung. Vorliegend offenbarte Ausführungsformen sind speicher- und recheneffizient und erfordern weniger MIPS. Die Lösungen sind robust gegenüber zeitvarianten Umgebungen und schnell zu konvergieren. In verschiedenen Ausführungsformen kann nichtlineares Filtern übersprungen werden, um die Geräusche und den Restwiderhall weiter zu verringern, wodurch der Algorithmus lineare Verarbeitung bereitstellen kann, die für einige Anwendungen, welche die Linearität erfordern, kritisch sein kann. Die Lösungen sind robust gegenüber instationären Geräuschen und können unter stark verhallten Bedingungen eine gute Leistung erbringen. Die Lösungen können sowohl Einzelkanal- als auch Mehrkanallösungen sein und können im Falle mehr als einer Quelle erweitert werden.
  • Nachstehend werden Ausführungsformen der vorliegenden Offenbarung beschrieben. Wie in 1 veranschaulicht, kann ein Sprachenthallungssystem 100 die von der Mikrofonanordnung 120 kommenden Signale verarbeiten und ein Ausgangssignal erzeugen, z.B. verstärkte Sprachsignale, die für verschiedene Zwecke wie vorliegend beschrieben von Nutzen sind. Gemäß 2 wird ein Sprachenthallung beinhaltendes Audioverarbeitungssystem gemäß einer Ausführungsform der vorliegenden Offenbarung beschrieben. Ein System 200 beinhaltet ein Teilbandzerlegungsmodul 210, einen Puffer 220, eine Varianzschätzungskomponente 230, ein Vorhersagefilter 240, ein lineares Filter 250, ein nichtlineares Filter 260 und einen Synthetisierer 270.
  • Von einer Anordnung aus Mikrofonen empfangene Audiosignale 202 werden an das Teilbandzerlegungsmodul 210 bereitgestellt, welches eine Teilbandanalyse durchführt, um Zeitbereichsignale in Teilbandrahmen umzuwandeln. Der Puffer 220 speichert die letzten Lk Rahmen von Teilbandsignalen für alle Kanäle (die Anzahl vergangener Rahmen ist teilbandabhängig). Die Varianzsschätzungskomponente 230 schätzt die Varianz des aktuellen Rahmens, die zur Vorhersagefilterschätzung und nichtlinearen Filterung verwendet werden soll. Die Vorhersagefilter-Schätzungskomponente 240 verwendet einen adaptiven Online-Ansatz, der schnell zu konvergieren ist. Die Linearfilterkomponente 250 verringert den Großteil des Widerhalls. Die Nichtlinearfilterkomponente 260 verringert den Restwiderhall und die Restgeräusche. Der Synthetisierer 270 wandelt die verstärkten Teilbandbereichsignale in Zeitbereichsignale um.
  • Im Betrieb empfängt die Mikrofonanordnung 202 eine Vielzahl von Eingangssignalen. Es sei zugrunde gelegt, dass das Eingangssignal für den i-ten Kanal mit xi[n] bezeichnet ist, wobei i= 1 ... M, wobei M die Anzahl an Mikrofonen ist, die eine Anzahl verschiedener Audioquellen Ns erfassen. Dann kann das Eingangssignal modelliert werden als x i [ n ] = j = 0 h i [ j ] s [ n j ] + v i [ n ] i = 1, , M
    Figure DE112017006486T5_0001
    wobei
    • s[n]→[s1[n]...sN S [n]]T ein Vektor aller Quellen (Klarsprache) ist
    • hi[n]→[hi1[n]...hiN S [n]] die Raumimpulsantwort (RIR) zwischen dem i-ten Mikrofon und jeder Quelle ist
    • νi[n]→ die Hintergrundgeräusche für das i-te Mikrofon sind
  • Das empfangene Signal kann im Kurzzeit-Fourier-Transformations- (Short-Time-Fourier-Transformation-, STFT-) Bereich näherungsweise modelliert werden als X i ( l , k ) l ' = 0 L i 1 H i ( l ' , k ) S ( l l ' , k ) + v i ( l , k ) i = 1, , M
    Figure DE112017006486T5_0002
    wobei Li die Länge der RIR im STFT-Bereich ist, l der Rahmenindex ist und k der Frequenzabschnittindex ist. Das i-te empfangene Eingangssignal kann in den frühen Reflexionsteil (gewünschtes Signal) und den späten Widerhallteil getrennt werden als X i ( l , k ) l ' = 0 D 1 H i ( l ' , k ) S ( l l ' , k ) + l ' = D L i 1 H i ( l ' , k ) S ( l l ' , k ) + v i ( l , k ) i = 1, , M Y i ( l , k ) + R i ( l , k ) + v i ( l , k )
    Figure DE112017006486T5_0003
    wobei D die Abgreiflänge der frühen Reflexionen ist. Ziel ist es, den ersten Term in (3) (CYi(l,k)) durch Verkürzen des zweiten Terms (Ri(l,k)) zum späten Widerhall und des dritten Terms (Vi(l,k)) unter lärmbehafteten Bedingungen zu extrahieren.
  • In einer oder mehreren Ausführungsformen werden zum Schätzen des späten Widerhallteils die späten Reflexionen der RIR zusammen mit dem Quellensignal geschätzt. Zur Vereinfachung dieser Aufgabe wird die Enthallung durch Umwandlung von (3) in ein leichteres autoregressives Mehrkanalmodell wie nachstehend angegeben durchgeführt. X i ( l , k ) l ' = 0 D 1 H i ( l ' , k ) S ( l l ' , k ) + l ' = D L i 1 W i ( l ' , k ) X ( l l ' , k ) + v i ( l , k ) i = 1, , M Y i ( l , k ) + R i ( l , k ) + v i ( l , k )      i = 1, , M
    Figure DE112017006486T5_0004
    In (4) ist der einzige unbekannte Parameter, der geschätzt werden muss, das Vorhersagefilter ( W i ( l ' , k ) = [ W i 1 ( l ' , k ) , , W i M ( l ' , k ] T ,   M × 1  Vektor und X ( l l ' , k ) = [ X 1 ( l l ' , k ) , , X M ( l l ' , k ) ] T ,   M × 1  Vektor ) .
    Figure DE112017006486T5_0005
  • In einer oder mehreren Ausführungsformen wird zum Schätzen des Vorhersagefilters der Maximum-Likelihood- (ML-) Ansatz verwendet. In einer Ausführungsform basiert das Vorhersagefilter auf den folgenden Annahmen: (1) das empfangene Sprachsignal weist eine Gaußsche Wahrscheinlichkeitsdichtefunktion (Gaussian Probability Density Function (pdf) auf und der Klarteil der empfangenen Sprache weist bei der zeitvarianten Varianz einen Mittelwert von Null auf. Zudem wird angenommen, dass die Geräusche einen Mittelwert von Null aufweisen; (2) bei den Rahmen des Eingangssignals handelt es sich um unabhängige zufällige Variable; und (3) die RIRs ändern sich nicht oder nur langsam.
  • Unter Berücksichtigung der vorstehenden Annahmen kann die pdf des Eingangssignals für T Rahmen geschrieben werden wie folgt: X ¯ i ( k ) = { X i ( l , k ) | l = 0,1, , T 1 } X ¯ ( k ) = [ X ¯ 1 ( k ) , X ¯ 2 ( k ) , , X ¯ M ( k ) ] T ist  M × 1  Vektor X ( l , k ) = [ X 1 ( l , k ) , X 2 ( l , k ) , , X M ( l , k ) ] T ist  M × 1  Vektor             X ¯ ( k ) : l = 0 T 1 1 2 π | ( l , k ) | exp ( ( X ( l , k ) μ ( l , k ) ) H ( l , k ) 1 ( X ( l , k ) μ ( l , k ) ) 2 )
    Figure DE112017006486T5_0006
    Wobei µ(l,k) der Mittelwert ist und Σ(l, k) die MxM Raumkorrelationsmatrix ist.
  • Wie vorstehend erwähnt, wird das ML-Verfahren verwendet, um das Vorhersagefilter zu schätzen und somit wird die ML-Funktion unter Verwendung des Logarithmus der pdf in (5) als die zu maximierende Kostenfunktion betrachtet. L ( X ¯ ( k ) | W ( l , k ) )  ist die Kostenfunktion  L ( X ¯ ( k ) ,   W ( l , k ) ) = c l = 0 T 1 { Log | ( l , k ) | + ( ( X ( l , k ) μ ( l , k ) ) H ( l , k ) 1 ( X ( l , k ) µ ( l , k ) ) ) }
    Figure DE112017006486T5_0007
  • Gemäß den obigen Annahmen kann der Mittelwert näherungsweise erhalten werden als μ i ( l , k ) 0 + l ' = D L i 1 W i ( l ' , k ) H X ( l l ' , k ) + 0 μ ( l , k ) = [ μ 1 ( l , k ) μ M ( l , k ) ] T
    Figure DE112017006486T5_0008
  • Um das Vorhersagefilter online praktisch schätzen zu können, wird ferner angenommen, dass eine Annäherung an das Korrelationsfilter durch eine skalierte Identitätsmatrix wie folgt erfolgen kann: ( l , k ) = σ ( l , k ) [ 1 0 0 . 0 0 1 . . . 0 . . 0 0 . . 0 1 0 0 . 0 0 1 ] ( M × M ) = σ ( l , k ) I M
    Figure DE112017006486T5_0009
    Die Varianz skala σ(l,k) kann nun erhalten werden als σ ( l , k ) = σ c ( l , k ) + σ w i d e r h ( l , k ) + σ g e r ( l , k ) σ c ( l , k ) = j = 1 N s σ j s ( l , k )
    Figure DE112017006486T5_0010
    Wobei σ j s ( l , k )
    Figure DE112017006486T5_0011
    σwiderh, und σger(l,k) die Varianz des j-ten Quellensignals, die Restwiderhallvarianz bzw. die Geräuschvarianz sind.
  • Gleichung (6) kann für den Fall eines Einzelkanals mittels (8) als Optimierungsproblem eines gewichteten mittleren quadratischen Fehlers (Mean Square Error, MSE) vereinfacht werden: M S E ( k ) = C ( k ) = l = 0 T 1 e 2 ( l , k ) σ ( l , k ) e ( l , k ) = X 1 ( l , K ) l ' = D L i 1 W 1 * ( l ' , k ) X 1 ( l l ' , k )  für ein einziges Mikrofon
    Figure DE112017006486T5_0012
    wobei e(l,k) das Fehlersignal ist.
  • In einer oder mehreren Ausführungsformen wird zum online erfolgenden Schätzen des Vorhersagefilters die MSE-Kostenfunktion durch Auswählen des Vorhersagefilters W1(l',k) minimiert, wobei das Filter mit neu eintreffenden Daten aktualisiert wird. In dieser Ausführungsform wird das Recursive-Least-Squares- (RLS-) Filter verwendet, um das Vorhersagefilter zu schätzen. Hierfür wird die Kostenfunktion mittels eines Faktors für das Vergessen (0 < λ ≤ 1) geändert in C ( k ) = l = 0 T 1 λ T l e 2 ( l , k ) σ ( l , k )
    Figure DE112017006486T5_0013
  • Ein Ziel besteht darin, die vorstehende Kostenfunktion effizient zu minimieren und sowohl die Geräusche als auch den Widerhall zu verringern. Nachfolgend wird ein zum Erreichen dieses Ziels vorgeschlagenes System beschrieben, welches in der Ausführungsform der 2 gezeigt ist.
  • Wie in 2 gezeigt, werden die Eingangssignale 202 zunächst durch das Teilbandzerlegungsmodul 210 in den Teilband-Frequenzbereich wie in (4) angegeben umgewandelt. Da die Widerhallzeit frequenzabhängig ist und die Länge der RIRs für verschiedene Mikrofone annähernd gleich ist, wird angenommen, dass die Anzahl der Abgriffe des Vorhersagefilters vom Kanal unabhängig, aber von der Frequenz abhängig ist. Daher wird Li in (4) durch Lk ersetzt als X i ( l , k ) l ' = 0 D 1 H i ( l ' , k ) S ( l l ' , k ) + l ' = D L k 1 W i ( l ' , k ) H X ( l l ' , k ) + v i ( l , k ) i = 1, , M Y i ( l , k ) + Z i ( l , k ) + v i ( l , k )      i = 1, , M
    Figure DE112017006486T5_0014
  • Um den Speicherverbrauch zu verringern und die Leistungsfähigkeit des Systems zu verbessern, wird für höhere Frequenzabschnitte eine kleinere Länge und für niedrigere Frequenzabschnitte eine größere Länge verwendet.
  • Nach der Teilbandzerlegung 220 wird das Eingangssignal für jedes Mikrofon an den Puffer mit Verzögerung 230 bereitgestellt, von dem eine Ausführungsform in 3 für den Rahmen l und den Frequenzabschnitt k gezeigt ist. Die Puffergröße für den k-ten Frequenzabschnitt ist Lk . Wie aus dieser Figur hervorgeht, werden die letzten Lk Rahmen des Signals mit einer Verzögerung von D für jeden Kanal in diesem Puffer behalten.
  • Die endgültige Kostenfunktion zur RLS-Filteraktualisierung in (11) weist eine Varianz von σ(l,k) auf, welche durch den Varianzschätzer 230 geschätzt wird. Gemäß (9) weist die Varianz drei Komponenten auf.
  • Gemäß 4 wird ein Verfahren 400 zum effizienten Schätzen jeder Komponente beschrieben. In Schritt 402 werden die Varianzen für frühe Reflexionen geschätzt. In einer Ausführungsform wird der späte Widerhall vom Spracheingang abgezogen und dann über sämtliche Kanäle gemittelt. σ c ( l , k ) = 1 M i = 1 M | X i ( l , k ) l ' = D L k 1 W i ( l ' , k ) H X ( l l ' , k ) | 2
    Figure DE112017006486T5_0015
    wobei für den späten Widerhall das aktuelle Vorhersagefilter verwendet wird.
  • In Schritt 404 werden die Varianzen für Restwiderhall geschätzt. Aus (12) kann diese Varianz mittels der folgenden Gleichung geschätzt werden: σ w i d e r h ( l , k ) = 1 M l ' = 0 L 1 W ˜ l ( l ' , k ) m = 0 M 1 | X m ( l D l ' , k ) | 2
    Figure DE112017006486T5_0016
  • Wobei W̃l(l',k) die Gewichtungen des späten Restwiderhalls für den l-ten Rahmen darstellt, bei welchen es sich um einen unbekannten Parameter handelt. In einer Ausführungsform werden die Gewichtungen des Restwiderhalls online geschätzt wie folgt: initialisiere    W ˜ 0 ( l , k ) = w 0 M L k V e r s t ä r l ( l ' , k ) = W ˜ l 1 ( l ' , k ) M σ ( l , k ) m = 0 M 1 | X m ( l D l ' , k ) | 2 W ˜ l ( l ' , k ) = β W ˜ l 1 ( l ' , k ) + V e r s t ä r l ( l ' , k ) m = 0 M 1 | Y m ( l , k ) | 2 max { m = 0 M 1 | X m ( l D l ' , k ) | 2 ε }
    Figure DE112017006486T5_0017
  • Wobei β und w0 der Faktor für das Vergessen (sehr nahe an Eins) und eine Zahl zur Restgewichtungsinitialisierung sind. ε ist eine sehr kleine Zahl, um Division durch Null zu verhindern. Dieser Ansatz gewährleistet gute Leistungsfähigkeit in verschiedenen verhallten Umgebungen, weist jedoch abhängig von der Implementierung einige Nachteile auf. Erstens macht sie das Verfahren aufwändiger, um die unbekannten Gewichtungen des Restwiderhalls für die Varianzschätzung zu schätzen. Zweitens kann zusätzlicher Speicher erforderlich sein, was für viele Einrichtungen mit kleinem Speicher (z.B. Mobiltelefone) nicht wünschenswert ist. Drittens eignet sich der Ansatz für statische Umgebungen, und die Leistungsfähigkeit kann in Umgebungen mit schneller Zeitvarianz abfallen.
  • Um diese Probleme zu lösen, verwendet ein alternativer Ansatz eine festgelegte Gewichtung des Restwiderhalls mit einer exponentiell abnehmenden Funktion wie nachstehend angegeben: R ( l ' ) = l ' b 2 e ( l ' 2 2 b 2 ) l ' = 0, L k ' R ( l ' ) = 0 l ' = L k ' + 1, , L k W ˜ l ( l ' , k ) = η L k L k ' j = 0 L k L k ' 1 R ( l ' j )
    Figure DE112017006486T5_0018
  • Wobei b und η der Rayleigh-Verteilungsparameter bzw. eine kleine Zahl in der Größenordnung von 0,01 sind. Abhängig von der Anzahl der Abgriffe Lk können die Gewichtungen des Restwiderhalls wie eine Gaußsche pdf aussehen. Versuchsergebnisse haben gezeigt, dass dieser alternative Ansatz im Vergleich nur geringfügig suboptimal ist, jedoch in zeitvarianten Umgebungen einen geringeren Rechenaufwand und eine schnellere Konvergenz aufweist.
  • In Schritt 406 wird die Geräuschvarianz συ(l,k) mittels eines effizienten Echtzeit-Einzelkanal-Verfahrens geschätzt und die Geräuschvarianzschätzungen werden über alle Kanäle gemittelt, um einen einzigen Wert für die Geräuschvarianz συ(l,k) zu erhalten.
  • Unter erneuter Bezugnahme auf 2 wird der Ausgang der Varianzschätzungskomponente 230 an die Vorhersagefilter-Schätzungskomponente 240 bereitgestellt. Die Vorhersagefilter-Schätzungskomponente 240 verarbeitet die Signale basierend auf einer Maximierung der Logarithmus-pdf des empfangenen Spektrums, d.h. mittels des Maximum-Likelihood- (ML-) Algorithmus, und bei der pdf handelt es sich um eine Gaußglocke mit dem Mittelwert und der Varianz wie in (7) bis (9) angegeben.
  • Ein Schreiben des Mittelwerts µi(l, k) in (7) in Vektorform liefert: X ¯ ( l , k ) = [ X 1 ( l D , k ) , , X 1 ( l D L k + 1, k ) , , X M ( l D , k ) , , X M ( l D L k + 1, k ) ] T W i ( k ) = [ w 1 i ( 0, k ) , , w 1 i ( L k 1, k ) , , w M i ( 0, k ) , w M i ( L k 1, k ) ] T μ i ( l , k ) = X ¯ ( l , k ) T W i * ( k )
    Figure DE112017006486T5_0019
  • Wobei w i l ( k )
    Figure DE112017006486T5_0020
    das Vorhersagefilter für das Frequenzband k und den i-ten Kanal ist. Der Fehler in (11) kann geschrieben werden als: e i ( l , k ) = X i ( l , k ) m = 1 M l ' = 0 L k 1 X m ( l D l ' , k ) w m i * ( l ' , k )
    Figure DE112017006486T5_0021
  • In einer Ausführungsform sollten zum online erfolgenden Schätzen von w i l ( k )
    Figure DE112017006486T5_0022
    für den l-ten Rahmen die Vorhersagefilter Wi (k) durch Nullwerte für alle Frequenzen und Kanäle initialisiert werden und dann die Steigung der Kostenfunktion in (11), bei welcher es sich um einen Vektor aus Lk*M Zahlen handelt, berechnet werden. Die Aktualisierungsregel mittels des RLS-Algorithmus kann wie folgt zusammengefasst werden: initialisiere w m ( 0, k ) = 0  und  Φ ( 0, k ) = γ I M γ  ist Regulierungsfaktor RLS w e r s t ( k ) = Φ ( l 1, k ) X ¯ ( l , k ) λ σ ( l , k ) + X ¯ H ( l , k ) Φ ( l 1, k ) X ¯ ( l , k ) W i ( l ) ( k ) = W i ( l 1 ) ( k ) + RLS w e r s t ( k ) e i * ( l , k ) Φ ( l , k ) = Φ ( l 1, k ) RLS w e r s t ( k ) X ¯ H ( l , k ) Φ ( l 1, k ) λ
    Figure DE112017006486T5_0023
    wobei Φ(l,k) eine (LkM×LkM) Korrelationsmatrix ist.
  • In dieser Ausführungsform weist der RLS-Algorithmus eine schnelle Konvergenzrate auf und übertrifft grundsätzlich andere adaptive Algorithmen, jedoch weist er abhängig von der Anwendung zwei Nachteile auf. Erstens sind bei diesem Algorithmus sowohl die Vorhersagefilter als auch die Korrelationsmatrix die unbekannten Parameter. Bei der Korrelationsmatrix handelt es sich um eine komplexe Matrix, die K×(LkM×LkM) komplexe Zahlen für K Frequenzbänder aufweist. Dies kann eine relativ hohe Speichermenge erfordern, so dass sich der RLS-Algorithmus unter Umständen für bestimmte Anwendungen, die geringen Speicher erfordern, nicht eignet. Auch kann der Rechenaufwand dieses Algorithmus für solche Anwendungen unverhältnismäßig hoch sein. Zweitens kann der RLS-Algorithmus durch vorteilhafte Nutzung der Korrelationsmatrix effizient zur exakten Lösung konvergieren. Unter zeitvarianten Bedingungen kann dies jedoch Leistungsprobleme verursachen, da der Algorithmus mehr Zeit benötigt, um abrupte Änderungen nachzuverfolgen. Nachfolgend werden Ausführungsformen offenbart, die Lösungen für beide Probleme bereitstellen.
  • In einer Ausführungsform wird die Komplexität des RLS-Algorithmus verringert. Die in (19) angegebene Korrelationsmatrix kann auch geschrieben werden wie folgt: Φ ( l , k ) = ( X ¯ ( l , k ) X ¯ H ( l , k ) σ ( l , k ) + λ Φ ( l 1, k ) 1 ) 1
    Figure DE112017006486T5_0024
    Rechnerisch besteht der Hauptteil der Aktualisierung für die Korrelationsmatrix in (20) in X(l,k) X H(l,k). Es ist zu beachten, dass die Korrelationsmatrix auf ihrer Hauptdiagonalen reelle Werte aufweist und eine symmetrische Matrixform wie nachstehend für den Fall von zwei Kanälen (M = 2) angegeben aufweist: Φ ( l , k ) = [ A L k × L k C L k × L k C L k × L k H B L k × L k ]  für zwei Kanäle  M = 2
    Figure DE112017006486T5_0025
  • In (21) ist zu beachten, dass die maßgeblichsten Komponenten von Φ(l,k) die Hauptdiagonale von AL K×L K , BL K×L K und CL K×L K , sind. Die anderen Komponenten haben Amplituden nahe Null. Durch Beibehalten dieser Diagonalen, welche für die Matrizen AL K×L K , BL K×L K reellwertig und für CL K×L K , komplexwertig sind, würde die Leistungsfähigkeit des RLS-Algorithmus die Ergebnisse nicht signifikant beeinflussen. In einer Ausführungsform wird die Korrelationsmatrix durch Beibehalten der Werte der Diagonalen wie vorstehend behandelt und Nullsetzen der übrigen Komponenten dünner besetzt. Beispielsweise wird für den Fall zweier Kanäle (M = 2) dieses Verfahren die Anzahl der Komponenten von Φ(l,k) für alle Frequenzen von 4 k = 1 K L k 2  auf    3 k = 1 K L k
    Figure DE112017006486T5_0026
    verringern. Die meisten Komponenten sind, wie vorstehend erwähnt, nun reellwertig, was nicht nur die Menge an genutztem Speicher senkt, sondern auch die zahlenmäßige Komplexität verringert, da die Matrix dünner besetzt ist und die Anzahl der Multiplikationen verringert ist.
  • In einer weiteren Ausführungsform wird die Leistungsfähigkeit des RLS-Algorithmus in zeitvarianten Umgebungen verbessert. Ein adaptiver Online-Algorithmus, der einen RLS-Algorithmus einsetzt, um den adaptiven WPE-Ansatz zu entwickeln, ist im Dokument T. Yoshioka, H. Tachibana, T. Nakatani, M. Miyoshi „Adaptive dereverberation of speech signals with speaker-position change detection“ Proc. Int. Conf. Acoust., Speech, Signal Process. (2009), S. 3733-3736 beschrieben, welches hierin in Bezug genommen wird. Wie in dieser Schrift gezeigt, verstärkt der RLS-Algorithmus die Signale nach jeder abrupten Änderung. Zur Verbesserung der Leistungsfähigkeit der in dieser Schrift beschriebenen Erfassung wird ein binärer Puffer der Länge Nf für jeden Kanal verwendet, der durch Nullen initialisiert wird. Dieser Puffer enthält dann eine binäre Entscheidung für die letzten Nf Rahmen einschließlich des aktuellen Rahmens. Um diesen Puffer bei jedem Rahmen zu aktualisieren, wird die Anzahl an Frequenzen mit negativem Wert für ei(l,k) in (18) (bezeichnet als Fi für jeden Kanal i = 1, ..., M) gezählt. Fi wird mit einem Grenzwert τ1 verglichen. Falls Fi > τ1, wird der Puffer mit Eins aktualisiert, andernfalls wird er auf Null gesetzt. Falls die Anzahl an Einsen dieses Puffers für irgendeinen Kanal einen Grenzwert τ2 überschritten hat, wird eine abrupte Änderung identifiziert. Nach erfolgter Erfassung werden das Vorhersagefilter und die Korrelationsmatrix des RLS-Verfahrens wie vorstehend behandelt auf ihre Ausgangswerte zurückgesetzt.
  • Nach dem Schätzen des Vorhersagefilters in 240 wird das Eingangssignal in jedem Kanal durch das lineare Filter 250 gefiltert. In einer Ausführungsform werden die Vorhersagefilter berechnet wie folgt: Y ˜ i ( l , k ) = X i ( l , k ) m = 1 M l ' = 0 L k 1 X m ( l D l ' , k ) w m i * ( l 1 ) ( l ' , k )
    Figure DE112017006486T5_0027
    Nach der linearen Filterung wird nichtlineare Filterung 260 durchgeführt als Z i ( l , k ) = Y ˜ i ( l , k ) σ c ( l , k ) σ ( l , k )
    Figure DE112017006486T5_0028
    Wenn das verstärkte Sprachsignal für die j-te Quelle Y ^ i ( j ) ( l , k )
    Figure DE112017006486T5_0029
    mittels der nichtlinearen Filterung berechnet werden soll, dann wird Y ^ i ( j ) ( l , k )
    Figure DE112017006486T5_0030
    berechnet als Y ^ i ( j ) ( l , k ) = Y ^ i ( j ) ( l , k ) σ j s ( l , k ) σ c ( l , k )
    Figure DE112017006486T5_0031
    Wobei σ j s ( l , k )
    Figure DE112017006486T5_0032
    die entsprechende Varianz für die j-te Quelle wie in (9) angegeben ist, die mittels Quellentrennverfahren wie im Dokument M. Togami, Y. Kawaguchi, R. Takeda, Y. Obuchi, and N. Nukaga, „Optimized speech dereverberation from probabilistic perspective for time varying acoustic transfer function,“ IEEE Trans. Audio, Speech, Lang. Process., Bd. 21, Nr. 7, S. 1369-1380, Jul. 2013 angegeben berechnet werden kann.
  • Nach Anwenden der Filterung wird das verstärkte Sprachspektrum für jedes Band vom Frequenzbereich in den Zeitbereich umgewandelt durch Anwenden der Überlappungs-Addiermethode gefolgt von einer inversen Kurzzeit-Schnell-Fourier-Transformation (Inverse Short Time Fast Fourier Transform, ISTFT).
  • Die vorliegend beschriebenen Ausführungsformen sind für einen Betrieb mit dem Speicher und den MIPS-Einschränkungen eines digitalen Signalprozessors oder anderer kleinerer Plattformen konfiguriert, für welche bekannte Berechnungsmethoden typischerweise nicht praktikabel sind. Die vorliegende Offenbarung stellt daher eine robuste Enthallung bereit, die sich zur Verwendung in Sprachsteuerungsanwendungen für den Konsumelektronikmarkt und andere verwandte Anwendungen eignet. Beispielsweise können mit den vorliegend beschriebenen Systemen die Sprachsteuerung von Heimgeräten wie beispielsweise Smart-TVs, welche Sprachbefehle verwenden, Sprachsteuerungsanwendungen in der Automobilindustrie und andere potentielle Anwendungen implementiert werden. Mittels der vorliegend beschriebenen Ausführungsformen kann automatisierte Spracherkennung eine hohe Leistungsfähigkeit auf einer kostengünstigen Einrichtung erzielen, welche in der Lage ist, instationäre interferierende Geräusche zu unterdrücken, wenn der interessierende Sprecher weit von den Mikrofonen entfernt ist.
  • 5 ist ein Diagramm eines Audioverarbeitungssystems zur Verarbeitung von Audiodaten gemäß einer beispielhaften Implementierung der vorliegenden Offenbarung. Das Audioverarbeitungssystem 510 entspricht grundsätzlich der Architektur der 2 und kann jegliche vorliegend bereits beschriebene Funktionalität verwenden. Das Audioverarbeitungssystem 510 kann in Hardware oder als eine Kombination aus Hardware und Software implementiert sein und kann für einen Betrieb auf einem digitalen Signalprozessor, einem Universalrechner oder einer anderen geeigneten Plattform konfiguriert sein.
  • Wie in 5 gezeigt, beinhaltet das Audioverarbeitungssystem 510 einen Speicher 520 und einen Prozessor 540. Zudem beinhaltet das Audioverarbeitungssystem 510 ein Teilbandzerlegungsmodul 522, ein Puffer- und Verzögerungsmodul 524, ein Varianzschätzungsmodul 526, ein Vorhersagefilter-Schätzungsmodul 528, ein Linearfiltermodul 530, ein Nichtlinearfiltermodul 532 und ein Synthesemodul 534, die teilweise oder vollständig im Speicher 520 gespeichert sein können. Ebenfalls in 5 gezeigt sind Audioeingänge 560, beispielsweise eine Mikrofonanordnung oder ein anderer Audioeingang, und ein Analog-Digital-Wandler 550. Der Analog-Digital-Wandler 550 ist betriebsfähig, die Audioeingänge zu empfangen und die Audiosignale dem Prozessor 540 zur Verarbeitung wie vorliegend beschrieben bereitzustellen. In verschiedenen Ausführungsformen kann das Audioverarbeitungssystem 510 zudem einen Digital-AnalogWandler 570 und Audioausgänge 590 wie beispielsweise einen oder mehrere Lautsprecher beinhalten.
  • In einigen Ausführungsformen kann der Prozessor 540 im Speicher 520 gespeicherte maschinenlesbare Anweisungen (z.B. Software, Firmware oder andere Anweisungen) ausführen. Diesbezüglich kann der Prozessor 540 jegliche der verschiedenen vorliegend beschriebenen Arbeitsschritte, Prozesse und Methoden durchführen. In weiteren Ausführungsformen kann der Prozessor 540 durch spezielle Hardware-Komponenten ersetzt und/oder ergänzt werden, um jegliche gewünschte Kombination der verschiedenen vorliegend beschriebenen Techniken durchzuführen. Der Speicher 520 kann als maschinenlesbares Medium implementiert sein, das verschiedene maschinenlesbare Anweisungen und Daten enthält. Beispielsweise kann in einigen Ausführungsformen der Speicher 520 ein Betriebssystem und eine oder mehrere Anwendungen als maschinenlesbare Anweisungen enthalten, die durch den Prozessor 540 gelesen und ausgeführt werden können, um die verschiedenen vorliegend beschriebenen Methoden durchzuführen. In einigen Ausführungsformen kann der Speicher 520 als nichtflüchtiger Speicher (z.B. Flashspeicher, Festplatte, Solid-State-Speicher oder andere nicht-transiente maschinenlesbare Medien), flüchtiger Speicher oder als Kombinationen aus diesen implementiert sein.
  • In der veranschaulichten Ausführungsform werden die Module 522 bis 534 durch den Prozessor 540 gesteuert. Das Teilbandzerlegungsmodul 522 ist betriebsfähig, eine Vielzahl von Audiosignalen einschließlich eines Ziel-Audiosignals zu empfangen und jedes der empfangenen Signale in den Teilband-Frequenzbereich umzuwandeln. Der Puffer mit Verzögerung 524 ist betriebsfähig, die Vielzahl von Teilband-Frequenzbereichsignalen zu empfangen, und erzeugt eine Vielzahl gepufferter Ausgänge. Das Varianzschätzungsmodul 526 ist betriebsfähig, Varianzkomponenten für die Kostenfunktion für das RLS-Filter wie vorliegend beschrieben zu schätzen. Das Vorhersagefilter-Schätzungsmodul 528 ist betriebsfähig, einen adaptiven Online-Ansatz, der schnelle Konvergenz aufweist, gemäß den vorliegend beschriebenen Ausführungsformen zu verwenden. Das lineare Filtermodul 530 ist betriebsfähig, den Anteil des Widerhalls zu verringern, insbesondere des späten Widerhalls, der durch lineare Filterung verringert werden kann. Das nichtlineare Filtermodul 532 ist betriebsfähig, den Restwiderhall und Restgeräusche aus dem Mehrkanal-Audiosignal zu verringern. Das Synthesemodul 534 ist betriebsfähig, das verstärkte Teilbandbereichsignal in den Zeitbereich umzuwandeln.
  • Die durch das Audioverarbeitungssystem 510 repräsentierte Lösung weist verschiedene Vorteile auf. Erstens stellt die Lösung einen allgemeinen Rahmen bereit, der an viele Szenarien angepasst und auf die spezifischen Hardware-Einschränkungen der Datenverarbeitungsumgebung zugeschnitten werden kann, in der er implementiert wird. Die vorliegende Lösung ist in der Lage, mit Online-Verarbeitung zu laufen, und liefert dabei eine Leistung, die mit aktuellen, komplexeren Offline-Lösungen vergleichbar ist. Beispielsweise ist es möglich, hochgradig verhallte Quellen selbst bei Verwendung von nur zwei Mikrofonen zu trennen, wenn die Entfernung zwischen Mikrofon und Quelle groß ist. In einigen Implementierungen kann das Audioverarbeitungssystem 510 dafür konfiguriert sein, selektiv eine Quelle des Ziel-Audiosignals zu erkennen, die relativ zu dem selektiven Audioverarbeitungssystem 510 in Bewegung ist.
  • Die vorliegende Offenbarung soll nicht die vorliegende Erfindung auf die offenbarten exakten Formen oder besonderen Gebiete der Verwendung einschränken. Es ist somit denkbar, dass verschiedene alternative Ausführungsformen und/oder Modifikationen der vorliegenden Offenbarung, ob vorliegend explizit beschrieben oder implizit umfasst, vor dem Hintergrund der Offenbarung möglich sind. Mit der Beschreibung der Ausführungsformen der vorliegenden Offenbarung erkennt der Fachmann, dass Änderungen in Form und Einzelheiten vorgenommen werden können, ohne vom Umfang der vorliegenden Offenbarung abzuweichen. Die vorliegende Offenbarung wird somit nur durch die Ansprüche eingeschränkt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 62438860 [0001]

Claims (18)

  1. Verfahren zum Verarbeiten von Mehrkanal-Audiosignalen, umfassend: Empfangen eines Eingangssignals, das ein Zeitbereich-Mehrkanal-Audiosignal umfasst, Umwandeln des Eingangssignals in ein Frequenzbereich-Eingangssignal, das eine Vielzahl von k-beabstandeten unterabgetasteten Mehrkanal-Frequenzbereich-Teilbandsignalen umfasst, Puffern und Verzögern jedes Kanals des Frequenzbereich-Eingangssignals, Sichern einer Teilmenge von Spektralrahmen für Vorhersagefilterschätzung bei jedem der Spektralrahmen, Schätzen einer Varianz des Frequenzbereich-Eingangssignals bei jedem der Spektralrahmen, online erfolgendes adaptives Schätzen des Vorhersagefilters durch Verwenden eines Recursive-Least-Squares- (RLS-) Algorithmus, lineares Filtern jedes Kanals des Frequenzbereich-Eingangssignals mittels des geschätzten Vorhersagefilters, um ein linear gefiltertes Ausgangssignal zu erzeugen, nichtlineares Filtern des linear gefilterten Ausgangssignals, um Restwiderhall und die geschätzten Varianzen zu verringern, wodurch ein nichtlinear gefiltertes Ausgangssignal erzeugt wird, und Synthetisieren des nichtlinear gefilterten Ausgangssignals, um ein enthalltes Zeitbereich-Mehrkanal-Audiosignal zu rekonstruieren, wobei eine Anzahl an Ausgangskanälen gleich einer Anzahl an Eingangskanälen ist.
  2. Verfahren nach Anspruch 1, wobei das Schätzen der Varianz des Frequenzbereich-Eingangssignals ferner ein Schätzen einer Klarsprachvarianz umfasst.
  3. Verfahren nach Anspruch 2, wobei das Schätzen der Varianz des Frequenzbereich-Eingangssignals ferner ein Schätzen einer Geräuschvarianz umfasst.
  4. Verfahren nach Anspruch 3, wobei das Schätzen der Varianz des Frequenzbereich-Eingangssignals ferner ein Schätzen einer Restsprachvarianz umfasst.
  5. Verfahren nach Anspruch 1, wobei das adaptive Schätzen ferner ein Verwenden eines adaptiven RLS-Algorithmus umfasst, um das Vorhersagefilter bei jedem Rahmen unabhängig für jeden Frequenzabschnitt des Frequenzbereich-Eingangssignals durch Auferlegen einer dünnen Besetzung für eine Korrelationsmatrix zu schätzen.
  6. Verfahren nach Anspruch 1, wobei das Eingangssignal mindestens ein Zielsignal umfasst und wobei die nichtlineare Filterung für jedes Zielsignal ein verstärktes Sprachsignal berechnet.
  7. Verfahren nach Anspruch 6, wobei die nichtlineare Filterung Restwiderhall und Hintergrundgeräusche verringert.
  8. Verfahren nach Anspruch 1, wobei das Schätzen der Varianz des Frequenzbereich-Eingangssignals ferner Folgendes umfasst: Schätzen einer neuen Klarsprachvarianz basierend auf einem früheren geschätzten Vorhersagefilter, Schätzen einer neuen Restwiderhallvarianz mittels einer festgelegten exponentiell abnehmenden Gewichtungsfunktion mit einem Abstimmparameter, um eine Audiolösung anzupassen, und Schätzen einer Geräuschvarianz mittels eines Einzelmikrofon-Geräuschvarianz-Schätzverfahrens, um die Geräuschvarianz für jeden Kanal zu schätzen, und dann Berechnen eines Durchschnitts.
  9. Verfahren nach Anspruch 8, ferner umfassend ein Erfassen abrupter Änderungen, um das Vorhersagefilter und die Korrelationsmatrix im Falle einer Bewegung des Sprechers neu einzurichten.
  10. Audioverarbeitungssystem, umfassend: einen Audioeingang, der betriebsfähig ist, ein Zeitbereich-Mehrkanal-Audiosignal zu empfangen, ein Teilbandzerlegungsmodul, das betriebsfähig ist, das Eingangssignal in ein Frequenzbereich-Eingangssignal umzuwandeln, das eine Vielzahl k-beabstandeter unterabgetasteter Mehrkanal-Frequenzbereich-Teilbandsignale umfasst, einen Puffer, der betriebsfähig ist, jeden Kanal des Frequenzbereich-Eingangssignals zu puffern und zu verzögern und dabei eine Teilmenge von Spektralrahmen für Vorhersagefilterschätzung bei jedem der Spektralrahmen zu sichern, einen Varianzschätzer, der betriebsfähig ist, eine Varianz des Frequenzbereich-Eingangssignals bei jedem der Spektralrahmen zu schätzen, einen Vorhersagefilterschätzer, der betriebsfähig ist, das Vorhersagefilter durch Verwenden eines Recursive-Least-Square- (RLS-) Algorithmus online adaptiv zu schätzen, ein lineares Filter, das betriebsfähig ist, jeden Kanal des Frequenzbereich-Eingangssignals mittels des geschätzten Vorhersagefilters linear zu filtern, um ein linear gefiltertes Ausgangssignal zu erzeugen, ein nichtlineares Filter, das betriebsfähig ist, das linear gefilterte Ausgangssignal nichtlinear zu filtern, um Restwiderhall und die geschätzten Varianzen zu verringern und dadurch ein nichtlinear gefiltertes Ausgangssignal zu erzeugen, und einen Synthetisierer, der betriebsfähig ist, das nichtlinear gefilterte Ausgangssignal zu synthetisieren, um ein enthalltes Zeitbereich-Mehrkanal-Audiosignal zu rekonstruieren, wobei eine Anzahl an Ausgangskanälen gleich einer Anzahl an Eingangskanälen ist.
  11. Audioverarbeitungssystem nach Anspruch 10, wobei der Varianzschätzer ferner betriebsfähig ist, eine Klarsprachvarianz zu schätzen.
  12. Audioverarbeitungssystem nach Anspruch 11, wobei der Varianzschätzer ferner betriebsfähig ist, eine Geräuschvarianz zu schätzen.
  13. Audioverarbeitungssystem nach Anspruch 12, wobei der Varianzschätzer ferner betriebsfähig ist, eine Restsprachvarianz zu schätzen.
  14. Audioverarbeitungssystem nach Anspruch 10, wobei der Vorhersagefilterschätzer ferner betriebsfähig ist, einen adaptiven RLS-Algorithmus zu verwenden, um das Vorhersagefilter bei jedem Rahmen unabhängig für jeden Frequenzabschnitt des Frequenzbereich-Eingangssignals durch Auferlegen einer dünnen Besetzung für eine Korrelationsmatrix zu schätzen.
  15. Audioverarbeitungssystem nach Anspruch 10, wobei das Zeitbereich-Mehrkanal-Audiosignal mindestens ein Zielsignal umfasst und wobei das nichtlineare Filter ferner betriebsfähig ist, für jedes Zielsignal ein verstärktes Sprachsignal zu berechnen.
  16. Audioverarbeitungssystem nach Anspruch 15, wobei das nichtlineare Filter betriebsfähig ist, Restwiderhall und Hintergrundgeräusche zu verringern.
  17. Audioverarbeitungssystem nach Anspruch 10, wobei der Varianzschätzer ferner betriebsfähig ist, um: eine neue Klarsprachvarianz basierend auf einem früheren geschätzten Vorhersagefilter zu schätzen, eine neue Restwiderhallvarianz mittels einer festgelegten exponentiell abnehmenden Gewichtungsfunktion mit einem Abstimmparameter zu schätzen, um eine Audiolösung anzupassen, und eine Geräuschvarianz mittels eines Einzelmikrofon-Geräuschvarianz-Schätzverfahrens zu schätzen, um die Geräuschvarianz für jeden Kanal zu schätzen, und dann Berechnen eines Durchschnitts.
  18. Audioverarbeitungssystem nach Anspruch 10, wobei der Varianzschätzer ferner betriebsfähig ist, Änderungen aufgrund von Bewegung des Sprechers zu erfassen und das Vorhersagefilter und die Korrelationsmatrix neu einzurichten.
DE112017006486.4T 2016-12-23 2017-12-22 Online-enthallungsalgorithmus basierend auf gewichtetem vorhersagefehler für lärmbehaftete zeitvariante umgebungen Pending DE112017006486T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662438860P 2016-12-23 2016-12-23
US62/438,860 2016-12-23
PCT/US2017/068362 WO2018119470A1 (en) 2016-12-23 2017-12-22 Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments

Publications (1)

Publication Number Publication Date
DE112017006486T5 true DE112017006486T5 (de) 2019-09-12

Family

ID=62627432

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017006486.4T Pending DE112017006486T5 (de) 2016-12-23 2017-12-22 Online-enthallungsalgorithmus basierend auf gewichtetem vorhersagefehler für lärmbehaftete zeitvariante umgebungen

Country Status (5)

Country Link
US (1) US10446171B2 (de)
JP (1) JP7175441B2 (de)
CN (1) CN110100457B (de)
DE (1) DE112017006486T5 (de)
WO (1) WO2018119470A1 (de)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9826306B2 (en) 2016-02-22 2017-11-21 Sonos, Inc. Default playback device designation
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN107316649B (zh) * 2017-05-15 2020-11-20 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法及装置
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) * 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
KR102076760B1 (ko) * 2018-09-19 2020-02-12 한양대학교 산학협력단 다채널 마이크를 이용한 칼만필터 기반의 다채널 입출력 비선형 음향학적 반향 제거 방법
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11222651B2 (en) * 2019-06-14 2022-01-11 Robert Bosch Gmbh Automatic speech recognition system addressing perceptual-based adversarial audio attacks
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
WO2021022390A1 (zh) * 2019-08-02 2021-02-11 锐迪科微电子(上海)有限公司 主动降噪系统和方法及存储介质
CN110718230B (zh) * 2019-08-29 2021-12-17 云知声智能科技股份有限公司 一种消除混响的方法和系统
CN110738684A (zh) * 2019-09-12 2020-01-31 昆明理工大学 一种基于相关滤波融合卷积残差学习的目标跟踪方法
CN110660405B (zh) * 2019-09-24 2022-09-23 度小满科技(北京)有限公司 一种语音信号的提纯方法及装置
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN111220974B (zh) * 2019-12-10 2023-03-24 西安宁远电子电工技术有限公司 一种低复杂度的基于调频步进脉冲信号的频域拼接方法
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111599374B (zh) * 2020-04-16 2023-04-18 云知声智能科技股份有限公司 一种单通道语音去混响方法及装置
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN112565119B (zh) * 2020-11-30 2022-09-27 西北工业大学 一种基于时变混合信号盲分离的宽带doa估计方法
CN112653979A (zh) * 2020-12-29 2021-04-13 苏州思必驰信息科技有限公司 自适应去混响方法和装置
WO2022168230A1 (ja) * 2021-02-04 2022-08-11 日本電信電話株式会社 残響除去装置、パラメータ推定装置、残響除去方法、パラメータ推定方法、プログラム
CN113160842B (zh) * 2021-03-06 2024-04-09 西安电子科技大学 一种基于mclp的语音去混响方法及系统
CN113299301A (zh) * 2021-04-21 2021-08-24 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于语音处理的装置
CN113393853B (zh) * 2021-04-29 2023-02-03 青岛海尔科技有限公司 混合声信号的处理方法及装置、存储介质及电子装置
CN113571076A (zh) * 2021-06-16 2021-10-29 北京小米移动软件有限公司 信号处理方法、装置、电子设备和存储介质
CN114813129B (zh) * 2022-04-30 2024-03-26 北京化工大学 基于wpe与emd的滚动轴承声信号故障诊断方法
CN114792524B (zh) * 2022-06-24 2022-09-06 腾讯科技(深圳)有限公司 音频数据处理方法、装置、程序产品、计算机设备和介质
CN116047413B (zh) * 2023-03-31 2023-06-23 长沙东玛克信息科技有限公司 一种封闭混响环境下的音频精准定位方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7167568B2 (en) 2002-05-02 2007-01-23 Microsoft Corporation Microphone array signal enhancement
DE10351793B4 (de) * 2003-11-06 2006-01-12 Herbert Buchner Adaptive Filtervorrichtung und Verfahren zum Verarbeiten eines akustischen Eingangssignals
US7352858B2 (en) 2004-06-30 2008-04-01 Microsoft Corporation Multi-channel echo cancellation with round robin regularization
US8180068B2 (en) * 2005-03-07 2012-05-15 Toa Corporation Noise eliminating apparatus
US8467538B2 (en) 2008-03-03 2013-06-18 Nippon Telegraph And Telephone Corporation Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
US8036767B2 (en) * 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
DK2046073T3 (en) 2007-10-03 2017-05-22 Oticon As Hearing aid system with feedback device for predicting and canceling acoustic feedback, method and application
GB2459512B (en) * 2008-04-25 2012-02-15 Tannoy Ltd Control system for a transducer array
JP5113794B2 (ja) * 2009-04-02 2013-01-09 日本電信電話株式会社 適応マイクロホンアレイ残響抑圧装置、適応マイクロホンアレイ残響抑圧方法及びプログラム
US8553898B2 (en) 2009-11-30 2013-10-08 Emmet Raftery Method and system for reducing acoustical reverberations in an at least partially enclosed space
JP5774138B2 (ja) * 2012-01-30 2015-09-02 三菱電機株式会社 残響抑圧装置
JP5897343B2 (ja) * 2012-02-17 2016-03-30 株式会社日立製作所 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム
FR2992459B1 (fr) * 2012-06-26 2014-08-15 Parrot Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite.
JP6337274B2 (ja) 2012-07-02 2018-06-06 パナソニックIpマネジメント株式会社 能動騒音低減装置および能動騒音低減方法
KR101401120B1 (ko) 2012-12-28 2014-05-29 한국항공우주연구원 신호 처리 장치 및 방법
US9654894B2 (en) * 2013-10-31 2017-05-16 Conexant Systems, Inc. Selective audio source enhancement

Also Published As

Publication number Publication date
US10446171B2 (en) 2019-10-15
WO2018119470A1 (en) 2018-06-28
CN110100457A (zh) 2019-08-06
JP7175441B2 (ja) 2022-11-21
CN110100457B (zh) 2021-07-30
JP2020503552A (ja) 2020-01-30
US20180182410A1 (en) 2018-06-28

Similar Documents

Publication Publication Date Title
DE112017006486T5 (de) Online-enthallungsalgorithmus basierend auf gewichtetem vorhersagefehler für lärmbehaftete zeitvariante umgebungen
DE102017102134B4 (de) Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
US10038795B2 (en) Robust acoustic echo cancellation for loosely paired devices based on semi-blind multichannel demixing
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE112009001003B4 (de) Geräuschunterdrückungssystem mit zwei Mikrophonen
DE112009000805B4 (de) Rauschreduktion
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
Krueger et al. Model-based feature enhancement for reverberant speech recognition
DE102012107952A1 (de) Rauschreduzierung für Dual-Mikrofon-Kommunikationsgeräte
US11373667B2 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
US20110044462A1 (en) Signal enhancement device, method thereof, program, and recording medium
DE102014100407A1 (de) Geräuschminderungsvorrichtungen und Geräuschminderungsverfahren
US10818302B2 (en) Audio source separation
DE102014002899A1 (de) Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung
DE60312374T2 (de) Verfahren und system zur trennung von mehreren akustischen signalen erzeugt durch eine mehrzahl akustischer quellen
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell
EP3065417B1 (de) Verfahren zur unterdrückung eines störgeräusches in einem akustischen system
CN101322183B (zh) 信号失真消除装置、方法
DE102018117557A1 (de) Adaptives nachfiltern
DE102019102414B4 (de) Verfahren und System zur Detektion von Reibelauten in Sprachsignalen
DE112017007051B4 (de) Signalverarbeitungsvorrichtung
DE102018117558A1 (de) Adaptives nachfiltern
DE60000333T2 (de) System und verfahren zum verarbeiten von antennensignalen
DE102014221765A1 (de) Auf extern bestimmtem SNR basierte Modifizierer für interne MMSE-Berechnungen

Legal Events

Date Code Title Description
R081 Change of applicant/patentee

Owner name: SYNAPTICS INCORPORATED, SAN JOSE, US

Free format text: FORMER OWNER: SYNAPTICS, INC., SAN JOSE, CALIF., US

R082 Change of representative

Representative=s name: PATENTANWAELTE BRESSEL UND PARTNER MBB, DE