DE112017006486T5

DE112017006486T5 - Online-enthallungsalgorithmus basierend auf gewichtetem vorhersagefehler für lärmbehaftete zeitvariante umgebungen

Info

Publication number: DE112017006486T5
Application number: DE112017006486.4T
Authority: DE
Inventors: Saeed Mosayyebpour Kaskari; Francesco Nesta; Trausti Thormundsson
Original assignee: Synaptics Inc
Current assignee: Synaptics Inc
Priority date: 2016-12-23
Filing date: 2017-12-22
Publication date: 2019-09-12
Also published as: US10446171B2; WO2018119470A1; CN110100457A; JP7175441B2; CN110100457B; JP2020503552A; US20180182410A1

Abstract

Systeme und Verfahren zur Verarbeitung von Mehrkanal-Audiosignalen beinhalten ein Empfangen eines Mehrkanal-Zeitbereich-Audioeingangs, Umwandeln des Eingangssignals in eine Vielzahl von k-beabstandeten unterabgetasteten Mehrkanal-Frequenzbereich-Teilbandsignalen, Puffern und Verzögern jedes Kanals, Sichern einer Teilmenge von Spektralrahmen für Vorhersagefilterschätzung bei jedem der Spektralrahmen, Schätzen einer Varianz des Frequenzbereichsignals bei jedem der Spektralrahmen, online erfolgendes adaptives Schätzen des Vorhersagefilters durch Verwenden eines Recursive-Least-Squares-(RLS-) Algorithmus, lineares Filtern jedes Kanals mittels des geschätzten Vorhersagefilters, nichtlineares Filtern des linear gefilterten Ausgangssignals, um Restwiderhall und die geschätzten Varianzen zu verringern, wodurch ein nichtlinear gefiltertes Ausgangssignal erzeugt wird, und Synthetisieren des nichtlinear gefilterten Ausgangssignals, um ein enthalltes Zeitbereich-Mehrkanal-Audiosignal zu rekonstruieren.

Description

VERWEIS AUF VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht den Zeitrang und die Priorität der am 23. Dezember 2016 unter der Bezeichnung „ONLINE-ENTHALLUNGSALGORITHMUS BASIEREND AUF GEWICHTETEM VORHERSAGEFEHLER FÜR LÄRMBEHAFTETE ZEITVARIANTE UMGEBUNGEN“ eingereichten US-Provisional-Patentanmeldung Nr. 62/438,860 , welche hierin vollumfänglich in Bezug genommen wird.
TECHNISCHES GEBIET
Die vorliegende Anmeldung betrifft allgemein Audioverarbeitung und insbesondere Enthallung von Mehrkanal-Audiosignalen.
HINTERGRUND
Lösungen zur Verringerung von Widerhall sind auf dem Gebiet der Audiosignalverarbeitung bekannt. Viele herkömmliche Ansätze eignen sich nicht zur Verwendung in Echtzeitanwendungen. Beispielsweise kann eine Lösung zur Verringerung von Widerhall einen langen Puffer von Daten erfordern, um die Auswirkung von Widerhall auszugleichen oder um ein inverses Filter der Raumimpulsantworten (Room Impulse Responses, RIR) zu schätzen. Ansätze, die sich für Echtzeitanwendungen eignen, arbeiten in Umgebungen mit starkem Widerhall und besonders in hochgradig instationären Umgebungen nicht zufriedenstellend. Zudem erfordern solche Lösungen eine große Menge an Speicher und sind für viele Einrichtungen mit geringer Leistung nicht recheneffizient.
Eine herkömmliche Lösung basiert auf gewichtetem Vorhersagefehler (Weighted Prediction Error, WPE), wofür ein autoregressives Modell des Widerhallprozesses zugrunde gelegt wird, i.e. es wird zugrunde gelegt, dass die verhallte Komponente zu einer bestimmten Zeit aus früheren Proben verhallter Mikrofonsignale vorhergesagt werden kann. Das gewünschte Signal kann als der Vorhersagefehler des Modells geschätzt werden. Es wird eine festgelegte Verzögerung eingeführt, um eine Verzerrung der Kurzzeitkorrelation des Sprachsignals zu vermeiden. Dieser Algorithmus eignet sich nicht für Echtzeitverarbeitung und modelliert nicht explizit das Eingangssignal unter lärmbehafteten Bedingungen. Zudem weist das WPE-Verfahren eine hohe Komplexität auf und ist keine Online-Mehrfacheingang-Mehrfachausgang- (MIMO-) Lösung. Der WPE-Ansatz wurde für MIMO erweitert und zur Verwendung unter lärmbehafteten Bedingungen generalisiert. Solche Modifikationen eignen sich jedoch nicht für zeitvariante Umgebungen. Es wurden ferner Modifikationen für zeitvariante Umgebungen vorgeschlagen, die sowohl WPE für lineares Filtern als auch eine optimale Kombination der Strahlbildung und einem auf Wiener-Filtern basierenden nichtlinearen Filtern beinhalten. Derartige Vorschläge sind jedoch immer noch nicht in Echtzeit und eignen sich aufgrund ihrer hohen Komplexität nicht zur Verwendung in Einrichtungen mit geringer Leistung.
Allgemein weisen herkömmliche Verfahren Einschränkungen hinsichtlich der Komplexität und der Praktikabilität für die Verwendung in Online- und Echtzeitanwendungen auf. Im Unterschied zur Stapelverarbeitung wird eine Echtzeit- oder Onlineverarbeitung im gewerblichen Umfeld für viele praktische Anwendungen verwendet. Es besteht daher ein Bedarf an verbesserten Systemen und Verfahren zur Online- und Echtzeit- Enthallung.
KURZDARSTELLUNG
Offenbart werden Systeme und Verfahren, die Ausführungsformen für Online-Enthallung basierend auf gewichtetem Vorhersagefehler für lärmbehaftete zeitvariante Umgebungen beinhalten. In verschiedenen Ausführungsformen beinhaltet ein Verfahren zur Verarbeitung von Mehrkanal-Audiosignalen ein Empfangen eines Eingangssignals, das ein Zeitbereich-Mehrkanal-Audiosignal umfasst, Umwandeln des Eingangssignals in ein Frequenzbereich-Eingangssignal, das eine Vielzahl von k-beabstandeten unterabgetasteten Mehrkanal-Frequenzbereich-Teilbandsignalen umfasst, Puffern und Verzögern jedes Kanals des Frequenzbereich-Eingangssignals, Sichern einer Teilmenge von Spektralrahmen für Vorhersagefilterschätzung bei jedem der Spektralrahmen und Schätzen einer Varianz des Frequenzbereich-Eingangssignals bei jedem der Spektralrahmen, online erfolgendes adaptives Schätzen des Vorhersagefilters durch Verwenden eines Recursive-Least-Squares-(RLS-) Algorithmus. Das Verfahren beinhaltet ferner ein lineares Filtern jedes Kanals des Frequenzbereich-Eingangssignals mittels des geschätzten Vorhersagefilters, um ein linear gefiltertes Ausgangssignal zu erzeugen, nichtlineares Filtern des linear gefilterten Ausgangssignals, um Restwiderhall und die geschätzten Varianzen zu verringern, wodurch ein nichtlinear gefiltertes Ausgangssignal erzeugt wird, und Synthetisieren des nichtlinear gefilterten Ausgangssignals, um ein enthalltes Zeitbereich-Mehrkanal-Audiosignal zu rekonstruieren, wobei eine Anzahl an Ausgangskanälen gleich einer Anzahl an Eingangskanälen ist.
In verschiedenen Ausführungsformen kann das Verfahren ferner beinhalten, dass das Schätzen der Varianz des Frequenzbereich-Eingangssignals ferner ein Schätzen einer Klarsprachvarianz, Schätzen einer Geräuschvarianz und/oder Schätzen einer Restsprachvarianz umfasst. In verschiedenen Ausführungsformen kann das Verfahren ferner ein Verwenden eines adaptiven RLS-Algorithmus beinhalten, um das Vorhersagefilter bei jedem Rahmen unabhängig für jeden Frequenzabschnitt des Frequenzbereich-Eingangssignals durch Auferlegen einer dünnen Besetzung für eine Korrelationsmatrix zu schätzen.
In verschiedenen Ausführungsformen umfasst das Eingangssignal mindestens ein Zielsignal, und die nichtlineare Filterung berechnet ein verstärktes Sprachsignal für jedes Zielsignal, um Restwiderhall und Hintergrundgeräusche zu verringern. Der Varianzschätzungsprozess kann ein Schätzen einer neuen Klarsprachvarianz basierend auf einem früheren geschätzten Vorhersagefilter, Schätzen einer neuen Restwiderhallvarianz mittels einer festgelegten exponentiell abnehmenden Gewichtungsfunktion mit einem Abstimmparameter, um eine Audiolösung anzupassen, und Schätzen einer Geräuschvarianz mittels eines Einzelmikrofon-Geräuschvarianz-Schätzverfahrens beinhalten, um die Geräuschvarianz für jeden Kanal zu schätzen und dann einen Durchschnitt zu berechnen. Das Verfahren kann auch abrupte Änderungen erfassen, um das Vorhersagefilter und die Korrelationsmatrix im Falle einer Bewegung des Sprechers neu einzurichten.
In verschiedenen Ausführungsformen beinhaltet ein Audioverarbeitungssystem einen Audioeingang, ein Teilbandzerlegungsmodul, einen Puffer, einen Varianzschätzer, einen Vorhersagefilterschätzer, ein lineares Filter, ein nichtlineares Filter und einen Synthetisierer. Der Audioeingang ist betriebsfähig, ein Zeitbereich-Mehrkanal-Audiosignal zu empfangen. Das Teilbandzerlegungsmodul ist betriebsfähig, das Eingangssignal in ein Frequenzbereich-Eingangssignal umzuwandeln, das eine Vielzahl k-beabstandeter unterabgetasteter Mehrkanal-Frequenzbereich-Teilbandsignale umfasst. Der Puffer ist betriebsfähig, jeden Kanal des Frequenzbereich-Eingangssignals zu puffern und zu verzögern und dabei eine Teilmenge von Spektralrahmen für Vorhersagefilterschätzung bei jedem der Spektralrahmen zu sichern.
In verschiedenen Ausführungsformen ist der Varianzschätzer betriebsfähig, eine Varianz des Frequenzbereich-Eingangssignals bei jedem der Spektralrahmen zu schätzen. Der Varianzschätzer kann ferner betriebsfähig sein, eine Klarsprachvarianz, eine Geräuschvarianz und/oder eine Restsprachvarianz zu schätzen. Der Varianzschätzer kann ferner betriebsfähig sein, eine neue Klarsprachvarianz basierend auf einem früheren geschätzten Vorhersagefilter zu schätzen, eine neue Restwiderhallvarianz mittels einer festgelegten exponentiell abnehmenden Gewichtungsfunktion mit einem Abstimmparameter zu schätzen, um eine Audiolösung anzupassen, und eine Geräuschvarianz mittels eines Einzelmikrofon-Geräuschvarianz-Schätzverfahrens zu schätzen, um die Geräuschvarianz für jeden Kanal zu schätzen und dann einen Durchschnitt zu berechnen. Der Varianzschätzer kann ferner betriebsfähig sein, Änderungen aufgrund von Bewegung des Sprechers zu erfassen und das Vorhersagefilter und die Korrelationsmatrix neu einzurichten.
In einer oder mehreren Ausführungsformen ist der Vorhersagefilterschätzer betriebsfähig, das Vorhersagefilter durch Verwenden eines Recursive-Least-Square- (RLS-) Algorithmus online adaptiv zu schätzen. Das Vorhersagefilter kann ferner betriebsfähig sein, einen adaptiven RLS-Algorithmus zu verwenden, um das Vorhersagefilter bei jedem Rahmen unabhängig für jeden Frequenzabschnitt des Frequenzbereich-Eingangssignals durch Auferlegen einer dünnen Besetzung für eine Korrelationsmatrix zu schätzen.
In verschiedenen Ausführungsformen ist das lineare Filter betriebsfähig, jeden Kanal des Frequenzbereich-Eingangssignals mittels des geschätzten Vorhersagefilters linear zu filtern, um ein linear gefiltertes Ausgangssignal zu erzeugen. Das nichtlineare Filter ist betriebsfähig, das linear gefilterte Ausgangssignal nichtlinear zu filtern, um Restwiderhall und die geschätzten Varianzen zu verringern und dadurch ein nichtlinear gefiltertes Ausgangssignal zu erzeugen. In einer Ausführungsform umfasst das Zeitbereich-Mehrkanal-Audiosignal mindestens ein Zielsignal, und das nichtlineare Filter ist ferner betriebsfähig, ein verstärktes Sprachsignal für jedes Zielsignal zu berechnen und Restwiderhall und Hintergrundgeräusche zu verringern. Der Synthetisierer ist betriebsfähig, das nichtlinear gefilterte Ausgangssignal zu synthetisieren, um ein enthalltes Zeitbereich-Mehrkanal-Audiosignal zu rekonstruieren, wobei eine Anzahl an Ausgangskanälen gleich einer Anzahl an Eingangskanälen ist.
Der Umfang der Erfindung ist durch die Ansprüche definiert, die in diesem Abschnitt in Bezug genommen werden. Ein umfassenderes Verständnis von Ausführungsformen der Erfindung sowie eine Realisierung zusätzlicher Vorteile derselben werden dem Fachmann durch Betrachtung der nachfolgenden ausführlichen Beschreibung einer oder mehrerer Ausführungsformen vermittelt. Es wird ferner auf die beiliegenden Seiten mit den Zeichnungen Bezug genommen, welche zunächst kurz beschrieben werden.
Figurenliste
Aspekte der Offenbarung und deren Vorteile werden mit Bezugnahme auf die nachfolgenden Zeichnungen und die nachstehende ausführliche Beschreibung besser verständlich. Es ist zu beachten, dass gleiche Bezugszeichen verwendet werden, um in einer oder mehreren der Figuren veranschaulichte gleichartige Elemente zu bezeichnen, wobei die Darstellungen der Veranschaulichung von Ausführungsformen der vorliegenden Offenbarung und nicht deren Einschränkung dienen. Die Komponenten in den Zeichnungen sind nicht notwendigerweise maßstabsgetreu, vielmehr steht die klare Darstellung der Prinzipien der vorliegenden Offenbarung im Vordergrund.

1 ist ein Blockdiagramm eines Sprachenthallungssystems gemäß einer Ausführungsform der vorliegenden Offenbarung.
2 ist ein Blockdiagramm eines Sprachenthallung beinhaltenden Audioverarbeitungssystems gemäß einer Ausführungsform der vorliegenden Offenbarung.
3 veranschaulicht einen Puffer mit Verzögerung gemäß einer Ausführungsform der vorliegenden Offenbarung.
4 ist ein Flussdiagramm zum Bestimmen von Varianzen gemäß einer Ausführungsform der vorliegenden Offenbarung.
5 ist ein Blockdiagramm eines Audioverarbeitungssystems gemäß einer Ausführungsform der vorliegenden Offenbarung.

AUSFÜHRLICHE BESCHREIBUNG
Gemäß verschiedenen Ausführungsformen der vorliegenden Offenbarung werden Systeme und Verfahren zur Enthallung von Mehrkanal-Audiosignalen bereitgestellt.
Allgemein weisen herkömmliche Verfahren Einschränkungen hinsichtlich der Komplexität und der Praktikabilität für die Verwendung in Online- und Echtzeitanwendungen auf. Im Unterschied zur Stapelverarbeitung wird inzwischen eine Echtzeit- oder Onlineverarbeitung im gewerblichen Umfeld für viele praktische Anwendungen verwendet. Für diese Anwendungen wurden adaptive Online-Algorithmen entwickelt, wie beispielsweise ein Recursive-Least-Squares- (RLS-) Verfahren zum Entwickeln des adaptiven WPE-Ansatzes, oder ein Kalman-Filter-Ansatz, bei dem ein Mehrmikrofon-Algorithmus, der gleichzeitig das Klarsprachsignal und das zeitvariante Akustiksystem schätzt, verwendet wird. Das rekursive Erwartungs-Maximierungs-Schema wird eingesetzt, um sowohl das Klarsprachsignal als auch das Akustiksystem online zu erhalten. Die Verfahren arbeiten jedoch unter hochgradig instationären Bedingungen weder mit den RLS-basierten noch den den Kalman-Filter-basierten Algorithmen besonders gut. Zudem sind der Rechenaufwand und die Speichernutzung sowohl für Kalman- als auch RLS-Algorithmen für viele Anwendungen unverhältnismäßig hoch. Ferner sind trotz ihrer schnellen Konvergenz in Richtung der stabilen Lösung die Algorithmen unter Umständen zu empfindlich für abrupte Änderungen und können eine Änderungserfassungseinrichtung erfordern, um die Korrelationsmatrizes und Filter auf ihre Ausgangswerte zurückzusetzen.
Offenbart sind vorliegend Online-Mehrfacheingang-Mehrfachausgang- (MIMO-) Ausführungsformen zur Enthallung mittels des Teilbandbereichs. In verschiedenen Ausführungsformen werden Mehrkanal-Linearvorhersagefilter, die zum blinden Verkürzen der Raumimpulsantworten (RIRs) zwischen einer Menge einer unbekannten Anzahl an Quellen und Mikrofonen geeignet sind, online geschätzt. In einer Ausführungsform wird für schnelle Konvergenz ein RLS-Algorithmus verwendet. Einige Ansätze, die RLS verwenden, können jedoch durch hohen Rechenaufwand gekennzeichnet sein. In verschiedenen Umgebungen können geringer Rechenaufwand und geringer Speicherverbrauch erwünscht sein. In verschiedenen Ausführungsformen vorliegend offenbarter Systeme und Verfahren werden die Speichernutzung und der Rechenaufwand durch Auferlegen einer dünnen Besetzung für eine Korrelationsmatrix verringert. In einer Ausführungsform wird ein neues Verfahren zum Identifizieren der Bewegung eines Sprechers oder einer Audioquelle in zeitvarianten Umgebungen vorgeschlagen, welches eine Neuinitialisierung der Vorhersagefilter und ein Verbessern der Konvergenzgeschwindigkeit in zeitvarianten Umgebungen beinhaltet.
In verschiedenen realen Umgebungen kann eine Sprachquelle mit Umgebungsgeräuschen bzw. -lärm vermischt sein. Ein aufgezeichnetes Sprachsignal beinhaltet typischerweise ungewollte Geräusche, welche die Sprachverständlichkeit für Sprachanwendungen wie beispielsweise Voice-over-IP- (VoIP-) Kommunikation verschlechtern kann und die Leistungsfähigkeit von Spracherkennung in Einrichtungen wie beispielsweise Telefonen, Laptops und sprachgesteuerten Geräten verschlechtern kann. Eine Herangehensweise an das Problem der Geräuschinterferenz besteht darin, eine Mikrofonanordnung und Strahlbildungsalgorithmen zu verwenden, welche die Raumdiversität von Geräuschquellen ausnutzen können, um gewünschte Quellensignale zu erfassen oder zu extrahieren und ungewollte Interferenz zu unterdrücken. Strahlbildung repräsentiert eine Klasse solcher Mehrkanal-Signalverarbeitungsalgorithmen und schlägt eine räumliche Filterung vor, die einen Strahl erhöhter Empfindlichkeit auf gewünschte Quellenstandorte richtet, während sie anderen Standorten entstammende Signale unterdrückt.
In Innenraumumgebungen können die Geräuschunterdrückungsansätze wirksamer sein, da sich die Signalquelle näher an den Mikrofonen befindet, was als ein Nahfeldszenario bezeichnet werden kann. Mit wachsender Entfernung zwischen Quelle und Mikrofonen kann die Geräuschunterdrückung jedoch komplizierter sein.
Gemäß 1 befindet sich eine Signalquelle 110, beispielsweise ein menschlicher Sprecher, in einiger Entfernung zu einer Anordnung aus Mikrofonen 120 in einer Umgebung 102 wie beispielsweise einem Raum. Die Mikrofonanordnung 120 fängt ein gewünschtes Signal 104 ein, das auf einem direkten Weg zwischen der Signalquelle 110 und der Mikrofonanordnung 120 empfangen wird. Die Mikrofonanordnung 120 fängt zudem Geräusche aus Geräuschquellen 130 ein, welche Geräuschinterferenz 140 und Signalreflexionen 150 von Wänden, der Decke und/oder anderen Objekten in der Umgebung 102 beinhalten.
Die Leistungsfähigkeit vieler mit Mikrofonanordnungen arbeitender Verarbeitungstechniken, beispielsweise Schallquellenlokalisierung, Strahlbildung und automatische Spracherkennung (Automatic Speech Recognition, ASR) kann in verhallten Umgebungen empfindlich verschlechtert werden, wie in 1 veranschaulicht. Beispielsweise kann Widerhall die Zeit- und Spektraleigenschaften des Direktschalls verwischen. Sprachverstärkung in einer lärmbehafteten verhallten Umgebung muss gegebenenfalls Sprachsignale, die gefärbt und instationär sind, Geräuschsignale, die sich im Zeitverlauf dramatisch ändern können, und eine Impulsantwort eines akustischen Kanals bewältigen, die lang sein und/oder eine Nicht-Minimalphase aufweisen kann. In verschiedenen Anwendungen hängt die Länge der Impulsantwort von der Widerhallzeit ab und viele Verfahren funktionieren unter Umständen nicht bei langen Widerhallzeiten. Vorliegend werden Systeme und Verfahren zur geräuschrobusten Mehrkanal-Sprachenthallung offenbart, welche die Auswirkung von Widerhall verringern und dabei eine Mehrkanalschätzung des enthallten Sprachsignals erzeugen.
Herkömmliche Verfahren zur Behandlung von Widerhall weisen Einschränkungen auf, welche die Verfahren für viele Anwendungen ungeeignet machen. Beispielsweise kann aufgrund des Rechenaufwands ein Algorithmus für viele Fälle in der Realität unpraktisch sein, in denen eine Verarbeitung online und in Echtzeit erforderlich ist. Solche Algorithmen können auch einen hohen Speicherverbrauch erfordern, welcher sich für eingebettete Einrichtungen, die speichereffiziente Algorithmen benötigen, nicht eignet. In einer realen Umgebung sind die verhallten Sprachsignale üblicherweise mit instationären aktiven Hintergrundgeräuschen belastet, welche die Leistungsfähigkeit von Enthallungsalgorithmen, welche die instationären Geräusche in ihrem Modell nicht explizit berücksichtigen, stark verschlechtern. Viele Enthallungsverfahren verwenden Stapelansätze, die eine große Menge an Eingangsdaten erfordern, um in einer guten Leistungsfähigkeit zu resultieren. In Anwendungen wie beispielsweise VoIP und Hörhilfen ist jedoch E/A-Latenz nicht wünschenswert.
Viele herkömmliche Enthallungsverfahren erzeugen eine kleinere Anzahl an enthallten Signalen als Mikrofone in einer Eingangsmikrofonanordnung und bewahren nicht die Eintreffzeitdifferenzen (Time Differences of Arrival, TDOAs) an verschiedenen Mikrofonpositionen. In einigen Anwendungen können jedoch Quellenlokalisierungsalgorithmen explizit oder implizit auf TDOAs an Mikrofonpositionen basieren. Zu weiteren Nachteilen herkömmlicher Enthallungsverfahren können Algorithmen, die eine Kenntnis der Anzahl der Schallquellen erfordern, und Verfahren zählen, die nicht schnell konvergieren, wodurch der Algorithmus auf neue Änderungen langsam reagiert.
Die vorliegend offenbarten Ausführungsformen richten sich auf Einschränkungen herkömmlicher Systeme und stellen dadurch Lösungen zur Verwendung in verschiedenen gewerblichen Anwendungen bereit. In einer Ausführungsform gewährleistet ein Algorithmus schnelle Konvergenz ohne Latenz, wodurch er für Anwendungen wie VoIP wünschenswert wird. Ein Blindverfahren verwendet Mehrkanal-Eingangssignale zum Verkürzen einer MIMO-RIR zwischen einer Menge einer unbekannten Anzahl an Quellen. Es werden Teilbandbereich-Mehrkanal-Linearvorhersagefilter verwendet und der Algorithmus schätzt das Filter für jedes Frequenzband unabhängig. Ein Vorteil dieses Verfahrens besteht darin, dass es TDOAs an Mikrofonpositionen sowie die Linearbeziehung zwischen Quellen und Mikrofonen bewahren kann, was von Vorteil ist, wenn zur Lokalisierung und Verringerung der Geräusche und Interferenz weitere Verarbeitung erforderlich ist. Zudem kann der Algorithmus durch Schätzen des Vorhersagefilters für jedes Mikrofon einzeln so viele enthallte Signale wie Mikrofone erzeugen. Additive Hintergrundgeräusche können ebenfalls in dem Modell berücksichtigt werden, um das Vorhersagefilter online mittels eines adaptiven Algorithmus adaptiv zu schätzen. Auf diese Weise kann der Algorithmus die Leistungsspektraldichte (Power Spectral Density, PSD) der Geräusche adaptiv schätzen.
Ausführungsformen der vorliegenden Offenbarung weisen zahlreiche Vorteile gegenüber herkömmlichen Ansätzen auf. Verschiedene Ausführungsformen gewährleisten Echtzeitenthallung ohne Latenz. Ein MIMO-Algorithmus wird offenbart, so dass dieser in einfacher Weise mit anderen Mehrkanal-Signalverarbeitungsblöcken integriert werden kann, z.B. zur Geräuschverringerung oder Quellenstandortbestimmung. Vorliegend offenbarte Ausführungsformen sind speicher- und recheneffizient und erfordern weniger MIPS. Die Lösungen sind robust gegenüber zeitvarianten Umgebungen und schnell zu konvergieren. In verschiedenen Ausführungsformen kann nichtlineares Filtern übersprungen werden, um die Geräusche und den Restwiderhall weiter zu verringern, wodurch der Algorithmus lineare Verarbeitung bereitstellen kann, die für einige Anwendungen, welche die Linearität erfordern, kritisch sein kann. Die Lösungen sind robust gegenüber instationären Geräuschen und können unter stark verhallten Bedingungen eine gute Leistung erbringen. Die Lösungen können sowohl Einzelkanal- als auch Mehrkanallösungen sein und können im Falle mehr als einer Quelle erweitert werden.
Nachstehend werden Ausführungsformen der vorliegenden Offenbarung beschrieben. Wie in 1 veranschaulicht, kann ein Sprachenthallungssystem 100 die von der Mikrofonanordnung 120 kommenden Signale verarbeiten und ein Ausgangssignal erzeugen, z.B. verstärkte Sprachsignale, die für verschiedene Zwecke wie vorliegend beschrieben von Nutzen sind. Gemäß 2 wird ein Sprachenthallung beinhaltendes Audioverarbeitungssystem gemäß einer Ausführungsform der vorliegenden Offenbarung beschrieben. Ein System 200 beinhaltet ein Teilbandzerlegungsmodul 210, einen Puffer 220, eine Varianzschätzungskomponente 230, ein Vorhersagefilter 240, ein lineares Filter 250, ein nichtlineares Filter 260 und einen Synthetisierer 270.
Von einer Anordnung aus Mikrofonen empfangene Audiosignale 202 werden an das Teilbandzerlegungsmodul 210 bereitgestellt, welches eine Teilbandanalyse durchführt, um Zeitbereichsignale in Teilbandrahmen umzuwandeln. Der Puffer 220 speichert die letzten L_k Rahmen von Teilbandsignalen für alle Kanäle (die Anzahl vergangener Rahmen ist teilbandabhängig). Die Varianzsschätzungskomponente 230 schätzt die Varianz des aktuellen Rahmens, die zur Vorhersagefilterschätzung und nichtlinearen Filterung verwendet werden soll. Die Vorhersagefilter-Schätzungskomponente 240 verwendet einen adaptiven Online-Ansatz, der schnell zu konvergieren ist. Die Linearfilterkomponente 250 verringert den Großteil des Widerhalls. Die Nichtlinearfilterkomponente 260 verringert den Restwiderhall und die Restgeräusche. Der Synthetisierer 270 wandelt die verstärkten Teilbandbereichsignale in Zeitbereichsignale um.
Im Betrieb empfängt die Mikrofonanordnung 202 eine Vielzahl von Eingangssignalen. Es sei zugrunde gelegt, dass das Eingangssignal für den i-ten Kanal mit x_i[n] bezeichnet ist, wobei i= 1 ... M, wobei M die Anzahl an Mikrofonen ist, die eine Anzahl verschiedener Audioquellen N_s erfassen. Dann kann das Eingangssignal modelliert werden als $\begin{matrix} x_{i} [n] = \sum_{j = 0}^{\infty} h_{i} [j] s [n - j] + v_{i} [n] & i = 1, \dots, M \end{matrix}$
wobei

s[n]→[s₁[n]...s_N
S[n]]^T ein Vektor aller Quellen (Klarsprache) ist
h_i[n]→[h_i1[n]...h_iN
S[n]] die Raumimpulsantwort (RIR) zwischen dem i-ten Mikrofon und jeder Quelle ist
ν_i[n]→ die Hintergrundgeräusche für das i-te Mikrofon sind

Das empfangene Signal kann im Kurzzeit-Fourier-Transformations- (Short-Time-Fourier-Transformation-, STFT-) Bereich näherungsweise modelliert werden als $\begin{matrix} X_{i} (l, k) \approx \sum_{l' = 0}^{L_{i} - 1} H_{i} (l', k) S (l - l', k) + v_{i} (l, k) & i = 1, \dots, M \end{matrix}$
wobei Li die Länge der RIR im STFT-Bereich ist, l der Rahmenindex ist und k der Frequenzabschnittindex ist. Das i-te empfangene Eingangssignal kann in den frühen Reflexionsteil (gewünschtes Signal) und den späten Widerhallteil getrennt werden als $\begin{array}{l} X_{i} (l, k) & \approx \sum_{l' = 0}^{D - 1} H_{i} (l', k) S (l - l', k) + \sum_{l' = D}^{L_{i} - 1} H_{i} (l', k) S (l - l', k) + v_{i} (l, k) & i = 1, \dots, M \\ \approx Y_{i} (l, k) + R_{i} (l, k) + v_{i} (l, k) \end{array}$
wobei D die Abgreiflänge der frühen Reflexionen ist. Ziel ist es, den ersten Term in (3) (^CY_i(l,k)) durch Verkürzen des zweiten Terms (R_i(l,k)) zum späten Widerhall und des dritten Terms (V_i(l,k)) unter lärmbehafteten Bedingungen zu extrahieren.
In einer oder mehreren Ausführungsformen werden zum Schätzen des späten Widerhallteils die späten Reflexionen der RIR zusammen mit dem Quellensignal geschätzt. Zur Vereinfachung dieser Aufgabe wird die Enthallung durch Umwandlung von (3) in ein leichteres autoregressives Mehrkanalmodell wie nachstehend angegeben durchgeführt. $\begin{array}{l} X_{i} (l, k) & \approx \sum_{l' = 0}^{D - 1} H_{i} (l', k) S (l - l', k) + \sum_{l' = D}^{L_{i} - 1} W_{i} (l', k) X (l - l', k) + v_{i} (l, k) & i = 1, \dots, M \\ \approx Y_{i} (l, k) + R_{i} (l, k) + v_{i} (l, k) i = 1, \dots, M \end{array}$
In (4) ist der einzige unbekannte Parameter, der geschätzt werden muss, das Vorhersagefilter $\begin{array}{l} (W_{i} (l', k) = {[W_{i 1} (l', k), \dots, W_{i M} (l', k]}^{T}, M \times 1 Vektor und \\ X (l - l', k) = {[X_{1} (l - l', k), \dots, X_{M} (l - l', k)]}^{T}, M \times 1 Vektor) . \end{array}$
In einer oder mehreren Ausführungsformen wird zum Schätzen des Vorhersagefilters der Maximum-Likelihood- (ML-) Ansatz verwendet. In einer Ausführungsform basiert das Vorhersagefilter auf den folgenden Annahmen: (1) das empfangene Sprachsignal weist eine Gaußsche Wahrscheinlichkeitsdichtefunktion (Gaussian Probability Density Function (pdf) auf und der Klarteil der empfangenen Sprache weist bei der zeitvarianten Varianz einen Mittelwert von Null auf. Zudem wird angenommen, dass die Geräusche einen Mittelwert von Null aufweisen; (2) bei den Rahmen des Eingangssignals handelt es sich um unabhängige zufällige Variable; und (3) die RIRs ändern sich nicht oder nur langsam.
Unter Berücksichtigung der vorstehenden Annahmen kann die pdf des Eingangssignals für T Rahmen geschrieben werden wie folgt: $\begin{array}{l} {\bar{X}}_{i} (k) = {X_{i} (l, k) | l = 0,1, \dots, T - 1} \\ \begin{matrix} \bar{X} (k) = {[{\bar{X}}_{1} (k), {\bar{X}}_{2} (k), \dots, {\bar{X}}_{M} (k)]}^{T} & ist M \times \end{matrix} 1 Vektor \\ \begin{matrix} X (l, k) = {[X_{1} (l, k), X_{2} (l, k), \dots, X_{M} (l, k)]}^{T} & ist M \times 1 Vektor \end{matrix} \\ \bar{X} (k) : \prod_{l = 0}^{T - 1} \frac{1}{\sqrt{2 π | \sum (l, k) |}} exp (- \frac{{(X (l, k) - μ (l, k))}^{H} \sum {(l, k)}^{- 1} (X (l, k) - μ (l, k))}{2}) \end{array}$
Wobei µ(l,k) der Mittelwert ist und Σ(l, k) die MxM Raumkorrelationsmatrix ist.
Wie vorstehend erwähnt, wird das ML-Verfahren verwendet, um das Vorhersagefilter zu schätzen und somit wird die ML-Funktion unter Verwendung des Logarithmus der pdf in (5) als die zu maximierende Kostenfunktion betrachtet. $\begin{array}{l} L (\bar{X} (k) | W (l, k)) ist die Kostenfunktion \\ L (\bar{X} (k), W (l, k)) = c - \sum_{l = 0}^{T - 1} {Log | \sum (l, k) | + ({(X (l, k) - μ (l, k))}^{H} \sum {(l, k)}^{- 1} (X (l, k) - µ (l, k)))} \end{array}$
Gemäß den obigen Annahmen kann der Mittelwert näherungsweise erhalten werden als $\begin{array}{l} μ_{i} (l, k) \approx 0 + \sum_{l' = D}^{L_{i} - 1} W_{i} {(l', k)}^{H} X (l - l', k) + 0 \\ μ (l, k) = {[μ_{1} (l, k) \dots μ_{M} (l, k)]}^{T} \end{array}$
Um das Vorhersagefilter online praktisch schätzen zu können, wird ferner angenommen, dass eine Annäherung an das Korrelationsfilter durch eine skalierte Identitätsmatrix wie folgt erfolgen kann: $\sum (l, k) = σ (l, k) {[\begin{array}{l} 1 & 0 & 0 & . & 0 \\ 0 & 1 & . & . & . \\ 0 & . & . & 0 & 0 \\ . & . & 0 & 1 & 0 \\ 0 & . & 0 & 0 & 1 \end{array}]}_{(M \times M)} = σ (l, k) I_{M}$
Die Varianz skala σ(l,k) kann nun erhalten werden als $\begin{array}{l} σ (l, k) = σ_{c} (l, k) + σ_{w i d e r h} (l, k) + σ_{g e r} (l, k) \\ σ_{c} (l, k) = \sum_{j = 1}^{N_{s}} σ_{j}^{s} (l, k) \end{array}$
Wobei $σ_{j}^{s} (l, k)$
σ_widerh, und σ_ger(l,k) die Varianz des j-ten Quellensignals, die Restwiderhallvarianz bzw. die Geräuschvarianz sind.
Gleichung (6) kann für den Fall eines Einzelkanals mittels (8) als Optimierungsproblem eines gewichteten mittleren quadratischen Fehlers (Mean Square Error, MSE) vereinfacht werden: $\begin{array}{l} M S E (k) = C (k) = \sum_{l = 0}^{T - 1} \frac{e^{2} (l, k)}{σ (l, k)} \\ e (l, k) = X_{1} (l, K) - \sum_{l' = D}^{L_{i} - 1} W_{1}^{*} (l', k) X_{1} (l - l', k) für ein einziges Mikrofon \end{array}$
wobei e(l,k) das Fehlersignal ist.
In einer oder mehreren Ausführungsformen wird zum online erfolgenden Schätzen des Vorhersagefilters die MSE-Kostenfunktion durch Auswählen des Vorhersagefilters W₁(l',k) minimiert, wobei das Filter mit neu eintreffenden Daten aktualisiert wird. In dieser Ausführungsform wird das Recursive-Least-Squares- (RLS-) Filter verwendet, um das Vorhersagefilter zu schätzen. Hierfür wird die Kostenfunktion mittels eines Faktors für das Vergessen (0 < λ ≤ 1) geändert in $C (k) = \sum_{l = 0}^{T - 1} λ^{T - l} \frac{e^{2} (l, k)}{σ (l, k)}$
Ein Ziel besteht darin, die vorstehende Kostenfunktion effizient zu minimieren und sowohl die Geräusche als auch den Widerhall zu verringern. Nachfolgend wird ein zum Erreichen dieses Ziels vorgeschlagenes System beschrieben, welches in der Ausführungsform der 2 gezeigt ist.
Wie in 2 gezeigt, werden die Eingangssignale 202 zunächst durch das Teilbandzerlegungsmodul 210 in den Teilband-Frequenzbereich wie in (4) angegeben umgewandelt. Da die Widerhallzeit frequenzabhängig ist und die Länge der RIRs für verschiedene Mikrofone annähernd gleich ist, wird angenommen, dass die Anzahl der Abgriffe des Vorhersagefilters vom Kanal unabhängig, aber von der Frequenz abhängig ist. Daher wird L_i in (4) durch L_k ersetzt als $\begin{array}{l} X_{i} (l, k) & \approx \sum_{l' = 0}^{D - 1} H_{i} (l', k) S (l - l', k) + \sum_{l' = D}^{L_{k} - 1} W_{i} {(l', k)}^{H} X (l - l', k) + v_{i} (l, k) & i = 1, \dots, M \\ \approx Y_{i} (l, k) + Z_{i} (l, k) + v_{i} (l, k) i = 1, \dots, M \end{array}$
Um den Speicherverbrauch zu verringern und die Leistungsfähigkeit des Systems zu verbessern, wird für höhere Frequenzabschnitte eine kleinere Länge und für niedrigere Frequenzabschnitte eine größere Länge verwendet.
Nach der Teilbandzerlegung 220 wird das Eingangssignal für jedes Mikrofon an den Puffer mit Verzögerung 230 bereitgestellt, von dem eine Ausführungsform in 3 für den Rahmen l und den Frequenzabschnitt k gezeigt ist. Die Puffergröße für den k-ten Frequenzabschnitt ist L_k . Wie aus dieser Figur hervorgeht, werden die letzten L_k Rahmen des Signals mit einer Verzögerung von D für jeden Kanal in diesem Puffer behalten.
Die endgültige Kostenfunktion zur RLS-Filteraktualisierung in (11) weist eine Varianz von σ(l,k) auf, welche durch den Varianzschätzer 230 geschätzt wird. Gemäß (9) weist die Varianz drei Komponenten auf.
Gemäß 4 wird ein Verfahren 400 zum effizienten Schätzen jeder Komponente beschrieben. In Schritt 402 werden die Varianzen für frühe Reflexionen geschätzt. In einer Ausführungsform wird der späte Widerhall vom Spracheingang abgezogen und dann über sämtliche Kanäle gemittelt. $σ^{c} (l, k) = \frac{1}{M} {\sum_{i = 1}^{M} | X_{i} (l, k) - \sum_{l' = D}^{L_{k} - 1} W_{i} {(l', k)}^{H} X (l - l', k) |}^{2}$
wobei für den späten Widerhall das aktuelle Vorhersagefilter verwendet wird.
In Schritt 404 werden die Varianzen für Restwiderhall geschätzt. Aus (12) kann diese Varianz mittels der folgenden Gleichung geschätzt werden: $σ_{w i d e r h} (l, k) = \frac{1}{M} \sum_{l' = 0}^{L - 1} {\tilde{W}}_{l} (l', k) \sum_{m = 0}^{M - 1} {| X_{m} (l - D - l', k) |}^{2}$
Wobei W̃_l(l',k) die Gewichtungen des späten Restwiderhalls für den l-ten Rahmen darstellt, bei welchen es sich um einen unbekannten Parameter handelt. In einer Ausführungsform werden die Gewichtungen des Restwiderhalls online geschätzt wie folgt: $\begin{array}{l} initialisiere \to_{\tilde{W} 0} (l, k) = \frac{w_{0}}{M L_{k}} \\ V e r s t ä r_{l} (l', k) = \frac{{\tilde{W}}_{l - 1} (l', k)}{M σ (l, k)} \sum_{m = 0}^{M - 1} {| X_{m} (l - D - l', k) |}^{2} \\ {\tilde{W}}_{l} (l', k) = β {\tilde{W}}_{l - 1} (l', k) + \frac{V e r s t ä r_{l} (l', k) \sum_{m = 0}^{M - 1} {| Y_{m} (l, k) |}^{2}}{max {\sum_{m = 0}^{M - 1} {| X_{m} (l - D - l', k) |}^{2} ε}} \end{array}$
Wobei β und w₀ der Faktor für das Vergessen (sehr nahe an Eins) und eine Zahl zur Restgewichtungsinitialisierung sind. ε ist eine sehr kleine Zahl, um Division durch Null zu verhindern. Dieser Ansatz gewährleistet gute Leistungsfähigkeit in verschiedenen verhallten Umgebungen, weist jedoch abhängig von der Implementierung einige Nachteile auf. Erstens macht sie das Verfahren aufwändiger, um die unbekannten Gewichtungen des Restwiderhalls für die Varianzschätzung zu schätzen. Zweitens kann zusätzlicher Speicher erforderlich sein, was für viele Einrichtungen mit kleinem Speicher (z.B. Mobiltelefone) nicht wünschenswert ist. Drittens eignet sich der Ansatz für statische Umgebungen, und die Leistungsfähigkeit kann in Umgebungen mit schneller Zeitvarianz abfallen.
Um diese Probleme zu lösen, verwendet ein alternativer Ansatz eine festgelegte Gewichtung des Restwiderhalls mit einer exponentiell abnehmenden Funktion wie nachstehend angegeben: $\begin{array}{l} R (l') = \frac{l'}{b^{2}} e^{(\frac{- l'^{2}}{2 b^{2}})} & l' = 0, \dots L_{k}^{'} \\ R (l') = 0 & l' = L_{k}^{'} + 1, \dots, L_{k} \\ {\tilde{W}}_{l} (l', k) = \frac{η}{L_{k} - L_{k}^{'}} & \sum_{j = 0}^{L_{k} - L_{k}^{'} - 1} R (l' - j) \end{array}$
Wobei b und η der Rayleigh-Verteilungsparameter bzw. eine kleine Zahl in der Größenordnung von 0,01 sind. Abhängig von der Anzahl der Abgriffe L_k können die Gewichtungen des Restwiderhalls wie eine Gaußsche pdf aussehen. Versuchsergebnisse haben gezeigt, dass dieser alternative Ansatz im Vergleich nur geringfügig suboptimal ist, jedoch in zeitvarianten Umgebungen einen geringeren Rechenaufwand und eine schnellere Konvergenz aufweist.
In Schritt 406 wird die Geräuschvarianz σ^υ(l,k) mittels eines effizienten Echtzeit-Einzelkanal-Verfahrens geschätzt und die Geräuschvarianzschätzungen werden über alle Kanäle gemittelt, um einen einzigen Wert für die Geräuschvarianz σ^υ(l,k) zu erhalten.
Unter erneuter Bezugnahme auf 2 wird der Ausgang der Varianzschätzungskomponente 230 an die Vorhersagefilter-Schätzungskomponente 240 bereitgestellt. Die Vorhersagefilter-Schätzungskomponente 240 verarbeitet die Signale basierend auf einer Maximierung der Logarithmus-pdf des empfangenen Spektrums, d.h. mittels des Maximum-Likelihood- (ML-) Algorithmus, und bei der pdf handelt es sich um eine Gaußglocke mit dem Mittelwert und der Varianz wie in (7) bis (9) angegeben.
Ein Schreiben des Mittelwerts µ_i(l, k) in (7) in Vektorform liefert: $\begin{array}{l} \bar{X} (l, k) = {[X_{1} (l - D, k), \dots, X_{1} (l - D - L_{k} + 1, k), \dots, X_{M} (l - D, k), \dots, X_{M} (l - D - L_{k} + 1, k)]}^{T} \\ W_{i} (k) = {[w_{1}^{i} (0, k), \dots, w_{1}^{i} (L_{k} - 1, k), \dots, w_{M}^{i} (0, k), w_{M}^{i} (L_{k} - 1, k)]}^{T} \\ μ_{i} (l, k) = \bar{X} {(l, k)}^{T} W_{i} * (k) \end{array}$
Wobei $w_{i}^{l} (k)$
das Vorhersagefilter für das Frequenzband k und den i-ten Kanal ist. Der Fehler in (11) kann geschrieben werden als: $e_{i} (l, k) = X_{i} (l, k) - \sum_{m = 1}^{M} \sum_{l' = 0}^{L_{k} - 1} X_{m} (l - D - l', k) w_{m}^{i} * (l', k)$
In einer Ausführungsform sollten zum online erfolgenden Schätzen von $w_{i}^{l} (k)$
für den l-ten Rahmen die Vorhersagefilter W_i (k) durch Nullwerte für alle Frequenzen und Kanäle initialisiert werden und dann die Steigung der Kostenfunktion in (11), bei welcher es sich um einen Vektor aus L_k*M Zahlen handelt, berechnet werden. Die Aktualisierungsregel mittels des RLS-Algorithmus kann wie folgt zusammengefasst werden: $\begin{array}{l} \begin{matrix} initialisiere \to w_{m} (0, k) = 0 und Φ (0, k) = γ I_{M} & γ ist Regulierungsfaktor \end{matrix} \\ {RLS}_{w e r s t} (k) = \frac{Φ (l - 1, k) \bar{X} (l, k)}{λ σ (l, k) + {\bar{X}}^{H} (l, k) Φ (l - 1, k) \bar{X} (l, k)} \\ W_{i}^{(l)} (k) = W_{i}^{(l - 1)} (k) + {RLS}_{w e r s t} (k) e_{i}^{*} (l, k) \\ Φ (l, k) = \frac{Φ (l - 1, k) - {RLS}_{w e r s t} (k) {\bar{X}}^{H} (l, k) Φ (l - 1, k)}{λ} \end{array}$
wobei Φ(l,k) eine (L_kM×L_kM) Korrelationsmatrix ist.
In dieser Ausführungsform weist der RLS-Algorithmus eine schnelle Konvergenzrate auf und übertrifft grundsätzlich andere adaptive Algorithmen, jedoch weist er abhängig von der Anwendung zwei Nachteile auf. Erstens sind bei diesem Algorithmus sowohl die Vorhersagefilter als auch die Korrelationsmatrix die unbekannten Parameter. Bei der Korrelationsmatrix handelt es sich um eine komplexe Matrix, die K×(L_kM×L_kM) komplexe Zahlen für K Frequenzbänder aufweist. Dies kann eine relativ hohe Speichermenge erfordern, so dass sich der RLS-Algorithmus unter Umständen für bestimmte Anwendungen, die geringen Speicher erfordern, nicht eignet. Auch kann der Rechenaufwand dieses Algorithmus für solche Anwendungen unverhältnismäßig hoch sein. Zweitens kann der RLS-Algorithmus durch vorteilhafte Nutzung der Korrelationsmatrix effizient zur exakten Lösung konvergieren. Unter zeitvarianten Bedingungen kann dies jedoch Leistungsprobleme verursachen, da der Algorithmus mehr Zeit benötigt, um abrupte Änderungen nachzuverfolgen. Nachfolgend werden Ausführungsformen offenbart, die Lösungen für beide Probleme bereitstellen.
In einer Ausführungsform wird die Komplexität des RLS-Algorithmus verringert. Die in (19) angegebene Korrelationsmatrix kann auch geschrieben werden wie folgt: $Φ (l, k) = {(\frac{\bar{X} (l, k) {\bar{X}}^{H} (l, k)}{σ (l, k)} + λ Φ {(l - 1, k)}^{- 1})}^{- 1}$
Rechnerisch besteht der Hauptteil der Aktualisierung für die Korrelationsmatrix in (20) in X(l,k) X ^H(l,k). Es ist zu beachten, dass die Korrelationsmatrix auf ihrer Hauptdiagonalen reelle Werte aufweist und eine symmetrische Matrixform wie nachstehend für den Fall von zwei Kanälen (M = 2) angegeben aufweist: $Φ (l, k) = [\begin{matrix} A_{L_{k} \times L_{k}} & C_{L_{k} \times L_{k}} \\ C_{L_{k} \times L_{k}}^{H} & B_{L_{k} \times L_{k}} \end{matrix}] für zwei Kanäle M = 2$
In (21) ist zu beachten, dass die maßgeblichsten Komponenten von Φ(l,k) die Hauptdiagonale von A_L
K×L
K, B_L
K×L
K und C_L
K×L
K, sind. Die anderen Komponenten haben Amplituden nahe Null. Durch Beibehalten dieser Diagonalen, welche für die Matrizen A_L
K×L
K, B_L
K×L
K reellwertig und für C_L
K×L
K, komplexwertig sind, würde die Leistungsfähigkeit des RLS-Algorithmus die Ergebnisse nicht signifikant beeinflussen. In einer Ausführungsform wird die Korrelationsmatrix durch Beibehalten der Werte der Diagonalen wie vorstehend behandelt und Nullsetzen der übrigen Komponenten dünner besetzt. Beispielsweise wird für den Fall zweier Kanäle (M = 2) dieses Verfahren die Anzahl der Komponenten von Φ(l,k) für alle Frequenzen von $4 {\sum_{k = 1}^{K} L_{k}^{2}}_{auf} 3 \sum_{k = 1}^{K} L_{k}$
verringern. Die meisten Komponenten sind, wie vorstehend erwähnt, nun reellwertig, was nicht nur die Menge an genutztem Speicher senkt, sondern auch die zahlenmäßige Komplexität verringert, da die Matrix dünner besetzt ist und die Anzahl der Multiplikationen verringert ist.
In einer weiteren Ausführungsform wird die Leistungsfähigkeit des RLS-Algorithmus in zeitvarianten Umgebungen verbessert. Ein adaptiver Online-Algorithmus, der einen RLS-Algorithmus einsetzt, um den adaptiven WPE-Ansatz zu entwickeln, ist im Dokument T. Yoshioka, H. Tachibana, T. Nakatani, M. Miyoshi „Adaptive dereverberation of speech signals with speaker-position change detection“ Proc. Int. Conf. Acoust., Speech, Signal Process. (2009), S. 3733-3736 beschrieben, welches hierin in Bezug genommen wird. Wie in dieser Schrift gezeigt, verstärkt der RLS-Algorithmus die Signale nach jeder abrupten Änderung. Zur Verbesserung der Leistungsfähigkeit der in dieser Schrift beschriebenen Erfassung wird ein binärer Puffer der Länge N_f für jeden Kanal verwendet, der durch Nullen initialisiert wird. Dieser Puffer enthält dann eine binäre Entscheidung für die letzten N_f Rahmen einschließlich des aktuellen Rahmens. Um diesen Puffer bei jedem Rahmen zu aktualisieren, wird die Anzahl an Frequenzen mit negativem Wert für e_i(l,k) in (18) (bezeichnet als F_i für jeden Kanal i = 1, ..., M) gezählt. F_i wird mit einem Grenzwert τ₁ verglichen. Falls F_i > τ₁, wird der Puffer mit Eins aktualisiert, andernfalls wird er auf Null gesetzt. Falls die Anzahl an Einsen dieses Puffers für irgendeinen Kanal einen Grenzwert τ₂ überschritten hat, wird eine abrupte Änderung identifiziert. Nach erfolgter Erfassung werden das Vorhersagefilter und die Korrelationsmatrix des RLS-Verfahrens wie vorstehend behandelt auf ihre Ausgangswerte zurückgesetzt.
Nach dem Schätzen des Vorhersagefilters in 240 wird das Eingangssignal in jedem Kanal durch das lineare Filter 250 gefiltert. In einer Ausführungsform werden die Vorhersagefilter berechnet wie folgt: ${\tilde{Y}}_{i} (l, k) = X_{i} (l, k) - \sum_{m = 1}^{M} \sum_{l' = 0}^{L_{k - 1}} X_{m} (l - D - l', k) w_{m}^{i} {^{*}}^{(l - 1)} (l', k)$
Nach der linearen Filterung wird nichtlineare Filterung 260 durchgeführt als $Z_{i} (l, k) = \frac{{\tilde{Y}}_{i} (l, k) σ^{c} (l, k)}{σ (l, k)}$
Wenn das verstärkte Sprachsignal für die j-te Quelle ${\hat{Y}}_{i}^{(j)} (l, k)$
mittels der nichtlinearen Filterung berechnet werden soll, dann wird ${\hat{Y}}_{i}^{(j)} (l, k)$
berechnet als ${\hat{Y}}_{i}^{(j)} (l, k) = \frac{{\hat{Y}}_{i}^{(j)} (l, k) σ_{j}^{s} (l, k)}{σ^{c} (l, k)}$
Wobei $σ_{j}^{s} (l, k)$
die entsprechende Varianz für die j-te Quelle wie in (9) angegeben ist, die mittels Quellentrennverfahren wie im Dokument M. Togami, Y. Kawaguchi, R. Takeda, Y. Obuchi, and N. Nukaga, „Optimized speech dereverberation from probabilistic perspective for time varying acoustic transfer function,“ IEEE Trans. Audio, Speech, Lang. Process., Bd. 21, Nr. 7, S. 1369-1380, Jul. 2013 angegeben berechnet werden kann.
Nach Anwenden der Filterung wird das verstärkte Sprachspektrum für jedes Band vom Frequenzbereich in den Zeitbereich umgewandelt durch Anwenden der Überlappungs-Addiermethode gefolgt von einer inversen Kurzzeit-Schnell-Fourier-Transformation (Inverse Short Time Fast Fourier Transform, ISTFT).
Die vorliegend beschriebenen Ausführungsformen sind für einen Betrieb mit dem Speicher und den MIPS-Einschränkungen eines digitalen Signalprozessors oder anderer kleinerer Plattformen konfiguriert, für welche bekannte Berechnungsmethoden typischerweise nicht praktikabel sind. Die vorliegende Offenbarung stellt daher eine robuste Enthallung bereit, die sich zur Verwendung in Sprachsteuerungsanwendungen für den Konsumelektronikmarkt und andere verwandte Anwendungen eignet. Beispielsweise können mit den vorliegend beschriebenen Systemen die Sprachsteuerung von Heimgeräten wie beispielsweise Smart-TVs, welche Sprachbefehle verwenden, Sprachsteuerungsanwendungen in der Automobilindustrie und andere potentielle Anwendungen implementiert werden. Mittels der vorliegend beschriebenen Ausführungsformen kann automatisierte Spracherkennung eine hohe Leistungsfähigkeit auf einer kostengünstigen Einrichtung erzielen, welche in der Lage ist, instationäre interferierende Geräusche zu unterdrücken, wenn der interessierende Sprecher weit von den Mikrofonen entfernt ist.
5 ist ein Diagramm eines Audioverarbeitungssystems zur Verarbeitung von Audiodaten gemäß einer beispielhaften Implementierung der vorliegenden Offenbarung. Das Audioverarbeitungssystem 510 entspricht grundsätzlich der Architektur der 2 und kann jegliche vorliegend bereits beschriebene Funktionalität verwenden. Das Audioverarbeitungssystem 510 kann in Hardware oder als eine Kombination aus Hardware und Software implementiert sein und kann für einen Betrieb auf einem digitalen Signalprozessor, einem Universalrechner oder einer anderen geeigneten Plattform konfiguriert sein.
Wie in 5 gezeigt, beinhaltet das Audioverarbeitungssystem 510 einen Speicher 520 und einen Prozessor 540. Zudem beinhaltet das Audioverarbeitungssystem 510 ein Teilbandzerlegungsmodul 522, ein Puffer- und Verzögerungsmodul 524, ein Varianzschätzungsmodul 526, ein Vorhersagefilter-Schätzungsmodul 528, ein Linearfiltermodul 530, ein Nichtlinearfiltermodul 532 und ein Synthesemodul 534, die teilweise oder vollständig im Speicher 520 gespeichert sein können. Ebenfalls in 5 gezeigt sind Audioeingänge 560, beispielsweise eine Mikrofonanordnung oder ein anderer Audioeingang, und ein Analog-Digital-Wandler 550. Der Analog-Digital-Wandler 550 ist betriebsfähig, die Audioeingänge zu empfangen und die Audiosignale dem Prozessor 540 zur Verarbeitung wie vorliegend beschrieben bereitzustellen. In verschiedenen Ausführungsformen kann das Audioverarbeitungssystem 510 zudem einen Digital-AnalogWandler 570 und Audioausgänge 590 wie beispielsweise einen oder mehrere Lautsprecher beinhalten.
In einigen Ausführungsformen kann der Prozessor 540 im Speicher 520 gespeicherte maschinenlesbare Anweisungen (z.B. Software, Firmware oder andere Anweisungen) ausführen. Diesbezüglich kann der Prozessor 540 jegliche der verschiedenen vorliegend beschriebenen Arbeitsschritte, Prozesse und Methoden durchführen. In weiteren Ausführungsformen kann der Prozessor 540 durch spezielle Hardware-Komponenten ersetzt und/oder ergänzt werden, um jegliche gewünschte Kombination der verschiedenen vorliegend beschriebenen Techniken durchzuführen. Der Speicher 520 kann als maschinenlesbares Medium implementiert sein, das verschiedene maschinenlesbare Anweisungen und Daten enthält. Beispielsweise kann in einigen Ausführungsformen der Speicher 520 ein Betriebssystem und eine oder mehrere Anwendungen als maschinenlesbare Anweisungen enthalten, die durch den Prozessor 540 gelesen und ausgeführt werden können, um die verschiedenen vorliegend beschriebenen Methoden durchzuführen. In einigen Ausführungsformen kann der Speicher 520 als nichtflüchtiger Speicher (z.B. Flashspeicher, Festplatte, Solid-State-Speicher oder andere nicht-transiente maschinenlesbare Medien), flüchtiger Speicher oder als Kombinationen aus diesen implementiert sein.
In der veranschaulichten Ausführungsform werden die Module 522 bis 534 durch den Prozessor 540 gesteuert. Das Teilbandzerlegungsmodul 522 ist betriebsfähig, eine Vielzahl von Audiosignalen einschließlich eines Ziel-Audiosignals zu empfangen und jedes der empfangenen Signale in den Teilband-Frequenzbereich umzuwandeln. Der Puffer mit Verzögerung 524 ist betriebsfähig, die Vielzahl von Teilband-Frequenzbereichsignalen zu empfangen, und erzeugt eine Vielzahl gepufferter Ausgänge. Das Varianzschätzungsmodul 526 ist betriebsfähig, Varianzkomponenten für die Kostenfunktion für das RLS-Filter wie vorliegend beschrieben zu schätzen. Das Vorhersagefilter-Schätzungsmodul 528 ist betriebsfähig, einen adaptiven Online-Ansatz, der schnelle Konvergenz aufweist, gemäß den vorliegend beschriebenen Ausführungsformen zu verwenden. Das lineare Filtermodul 530 ist betriebsfähig, den Anteil des Widerhalls zu verringern, insbesondere des späten Widerhalls, der durch lineare Filterung verringert werden kann. Das nichtlineare Filtermodul 532 ist betriebsfähig, den Restwiderhall und Restgeräusche aus dem Mehrkanal-Audiosignal zu verringern. Das Synthesemodul 534 ist betriebsfähig, das verstärkte Teilbandbereichsignal in den Zeitbereich umzuwandeln.
Die durch das Audioverarbeitungssystem 510 repräsentierte Lösung weist verschiedene Vorteile auf. Erstens stellt die Lösung einen allgemeinen Rahmen bereit, der an viele Szenarien angepasst und auf die spezifischen Hardware-Einschränkungen der Datenverarbeitungsumgebung zugeschnitten werden kann, in der er implementiert wird. Die vorliegende Lösung ist in der Lage, mit Online-Verarbeitung zu laufen, und liefert dabei eine Leistung, die mit aktuellen, komplexeren Offline-Lösungen vergleichbar ist. Beispielsweise ist es möglich, hochgradig verhallte Quellen selbst bei Verwendung von nur zwei Mikrofonen zu trennen, wenn die Entfernung zwischen Mikrofon und Quelle groß ist. In einigen Implementierungen kann das Audioverarbeitungssystem 510 dafür konfiguriert sein, selektiv eine Quelle des Ziel-Audiosignals zu erkennen, die relativ zu dem selektiven Audioverarbeitungssystem 510 in Bewegung ist.
Die vorliegende Offenbarung soll nicht die vorliegende Erfindung auf die offenbarten exakten Formen oder besonderen Gebiete der Verwendung einschränken. Es ist somit denkbar, dass verschiedene alternative Ausführungsformen und/oder Modifikationen der vorliegenden Offenbarung, ob vorliegend explizit beschrieben oder implizit umfasst, vor dem Hintergrund der Offenbarung möglich sind. Mit der Beschreibung der Ausführungsformen der vorliegenden Offenbarung erkennt der Fachmann, dass Änderungen in Form und Einzelheiten vorgenommen werden können, ohne vom Umfang der vorliegenden Offenbarung abzuweichen. Die vorliegende Offenbarung wird somit nur durch die Ansprüche eingeschränkt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62438860 [0001]

Claims

Verfahren zum Verarbeiten von Mehrkanal-Audiosignalen, umfassend: Empfangen eines Eingangssignals, das ein Zeitbereich-Mehrkanal-Audiosignal umfasst, Umwandeln des Eingangssignals in ein Frequenzbereich-Eingangssignal, das eine Vielzahl von k-beabstandeten unterabgetasteten Mehrkanal-Frequenzbereich-Teilbandsignalen umfasst, Puffern und Verzögern jedes Kanals des Frequenzbereich-Eingangssignals, Sichern einer Teilmenge von Spektralrahmen für Vorhersagefilterschätzung bei jedem der Spektralrahmen, Schätzen einer Varianz des Frequenzbereich-Eingangssignals bei jedem der Spektralrahmen, online erfolgendes adaptives Schätzen des Vorhersagefilters durch Verwenden eines Recursive-Least-Squares- (RLS-) Algorithmus, lineares Filtern jedes Kanals des Frequenzbereich-Eingangssignals mittels des geschätzten Vorhersagefilters, um ein linear gefiltertes Ausgangssignal zu erzeugen, nichtlineares Filtern des linear gefilterten Ausgangssignals, um Restwiderhall und die geschätzten Varianzen zu verringern, wodurch ein nichtlinear gefiltertes Ausgangssignal erzeugt wird, und Synthetisieren des nichtlinear gefilterten Ausgangssignals, um ein enthalltes Zeitbereich-Mehrkanal-Audiosignal zu rekonstruieren, wobei eine Anzahl an Ausgangskanälen gleich einer Anzahl an Eingangskanälen ist.
Verfahren nach Anspruch 1, wobei das Schätzen der Varianz des Frequenzbereich-Eingangssignals ferner ein Schätzen einer Klarsprachvarianz umfasst.
Verfahren nach Anspruch 2, wobei das Schätzen der Varianz des Frequenzbereich-Eingangssignals ferner ein Schätzen einer Geräuschvarianz umfasst.
Verfahren nach Anspruch 3, wobei das Schätzen der Varianz des Frequenzbereich-Eingangssignals ferner ein Schätzen einer Restsprachvarianz umfasst.
Verfahren nach Anspruch 1, wobei das adaptive Schätzen ferner ein Verwenden eines adaptiven RLS-Algorithmus umfasst, um das Vorhersagefilter bei jedem Rahmen unabhängig für jeden Frequenzabschnitt des Frequenzbereich-Eingangssignals durch Auferlegen einer dünnen Besetzung für eine Korrelationsmatrix zu schätzen.
Verfahren nach Anspruch 1, wobei das Eingangssignal mindestens ein Zielsignal umfasst und wobei die nichtlineare Filterung für jedes Zielsignal ein verstärktes Sprachsignal berechnet.
Verfahren nach Anspruch 6, wobei die nichtlineare Filterung Restwiderhall und Hintergrundgeräusche verringert.
Verfahren nach Anspruch 1, wobei das Schätzen der Varianz des Frequenzbereich-Eingangssignals ferner Folgendes umfasst: Schätzen einer neuen Klarsprachvarianz basierend auf einem früheren geschätzten Vorhersagefilter, Schätzen einer neuen Restwiderhallvarianz mittels einer festgelegten exponentiell abnehmenden Gewichtungsfunktion mit einem Abstimmparameter, um eine Audiolösung anzupassen, und Schätzen einer Geräuschvarianz mittels eines Einzelmikrofon-Geräuschvarianz-Schätzverfahrens, um die Geräuschvarianz für jeden Kanal zu schätzen, und dann Berechnen eines Durchschnitts.
Verfahren nach Anspruch 8, ferner umfassend ein Erfassen abrupter Änderungen, um das Vorhersagefilter und die Korrelationsmatrix im Falle einer Bewegung des Sprechers neu einzurichten.
Audioverarbeitungssystem, umfassend: einen Audioeingang, der betriebsfähig ist, ein Zeitbereich-Mehrkanal-Audiosignal zu empfangen, ein Teilbandzerlegungsmodul, das betriebsfähig ist, das Eingangssignal in ein Frequenzbereich-Eingangssignal umzuwandeln, das eine Vielzahl k-beabstandeter unterabgetasteter Mehrkanal-Frequenzbereich-Teilbandsignale umfasst, einen Puffer, der betriebsfähig ist, jeden Kanal des Frequenzbereich-Eingangssignals zu puffern und zu verzögern und dabei eine Teilmenge von Spektralrahmen für Vorhersagefilterschätzung bei jedem der Spektralrahmen zu sichern, einen Varianzschätzer, der betriebsfähig ist, eine Varianz des Frequenzbereich-Eingangssignals bei jedem der Spektralrahmen zu schätzen, einen Vorhersagefilterschätzer, der betriebsfähig ist, das Vorhersagefilter durch Verwenden eines Recursive-Least-Square- (RLS-) Algorithmus online adaptiv zu schätzen, ein lineares Filter, das betriebsfähig ist, jeden Kanal des Frequenzbereich-Eingangssignals mittels des geschätzten Vorhersagefilters linear zu filtern, um ein linear gefiltertes Ausgangssignal zu erzeugen, ein nichtlineares Filter, das betriebsfähig ist, das linear gefilterte Ausgangssignal nichtlinear zu filtern, um Restwiderhall und die geschätzten Varianzen zu verringern und dadurch ein nichtlinear gefiltertes Ausgangssignal zu erzeugen, und einen Synthetisierer, der betriebsfähig ist, das nichtlinear gefilterte Ausgangssignal zu synthetisieren, um ein enthalltes Zeitbereich-Mehrkanal-Audiosignal zu rekonstruieren, wobei eine Anzahl an Ausgangskanälen gleich einer Anzahl an Eingangskanälen ist.
Audioverarbeitungssystem nach Anspruch 10, wobei der Varianzschätzer ferner betriebsfähig ist, eine Klarsprachvarianz zu schätzen.
Audioverarbeitungssystem nach Anspruch 11, wobei der Varianzschätzer ferner betriebsfähig ist, eine Geräuschvarianz zu schätzen.
Audioverarbeitungssystem nach Anspruch 12, wobei der Varianzschätzer ferner betriebsfähig ist, eine Restsprachvarianz zu schätzen.
Audioverarbeitungssystem nach Anspruch 10, wobei der Vorhersagefilterschätzer ferner betriebsfähig ist, einen adaptiven RLS-Algorithmus zu verwenden, um das Vorhersagefilter bei jedem Rahmen unabhängig für jeden Frequenzabschnitt des Frequenzbereich-Eingangssignals durch Auferlegen einer dünnen Besetzung für eine Korrelationsmatrix zu schätzen.
Audioverarbeitungssystem nach Anspruch 10, wobei das Zeitbereich-Mehrkanal-Audiosignal mindestens ein Zielsignal umfasst und wobei das nichtlineare Filter ferner betriebsfähig ist, für jedes Zielsignal ein verstärktes Sprachsignal zu berechnen.
Audioverarbeitungssystem nach Anspruch 15, wobei das nichtlineare Filter betriebsfähig ist, Restwiderhall und Hintergrundgeräusche zu verringern.
Audioverarbeitungssystem nach Anspruch 10, wobei der Varianzschätzer ferner betriebsfähig ist, um: eine neue Klarsprachvarianz basierend auf einem früheren geschätzten Vorhersagefilter zu schätzen, eine neue Restwiderhallvarianz mittels einer festgelegten exponentiell abnehmenden Gewichtungsfunktion mit einem Abstimmparameter zu schätzen, um eine Audiolösung anzupassen, und eine Geräuschvarianz mittels eines Einzelmikrofon-Geräuschvarianz-Schätzverfahrens zu schätzen, um die Geräuschvarianz für jeden Kanal zu schätzen, und dann Berechnen eines Durchschnitts.
Audioverarbeitungssystem nach Anspruch 10, wobei der Varianzschätzer ferner betriebsfähig ist, Änderungen aufgrund von Bewegung des Sprechers zu erfassen und das Vorhersagefilter und die Korrelationsmatrix neu einzurichten.