DE112015004185T5

DE112015004185T5 - Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten

Info

Publication number: DE112015004185T5
Application number: DE112015004185.0T
Authority: DE
Inventors: Carlos Avendano; John Woodruff
Original assignee: Knowles Electronics LLC
Current assignee: Knowles Electronics LLC
Priority date: 2014-09-12
Filing date: 2015-09-11
Publication date: 2017-06-01
Also published as: US9978388B2; CN107112025A; WO2016040885A1; US20160078880A1

Abstract

Ein Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals, die durch Geräuschreduzierung oder Geräuschauslöschung verzerrt sind, umfasst das Ermitteln verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal. Die verzerrten Frequenzbereiche beinhalten Bereiche des Audio-Signals, in denen eine Sprachverzerrung vorhanden ist. Es werden Iterationen unter Anwendung eines Modells zur Aufbereitung von Vorhersagen des Audio-Signals in verzerrten Frequenzbereiche ausgeführt. Das Modell ist ausgebildet, das Audio-Signal zu modifizieren und kann ein tiefes neuronales Netzwerk umfassen, das unter Anwendung spektraler Einhüllender von klaren oder unbeschädigten Audio-Signalen trainiert ist. Vor jeder Iteration wird das Audio-Signal in den nicht-verzerrten Frequenzbereichen mit Werten des Audio-Signals vor der ersten Iteration wiederhergestellt; wobei das Audio-Signal in verzerrten Frequenzbereichen ausgehend von Null in der ersten Iteration aufbereitet wird. Iterationen werden beendet, wenn Diskrepanzen des Audio-Signals in nicht-verzerrten Frequenzbereichen vordefinierte Kriterien erfüllen.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNG
Die vorliegende Anmeldung beansprucht die Priorität der vorläufigen US-Anmeldung mit der Nr. 62/049 988, die am 12. September 2014 eingereicht wurde. Der Gegenstand der zuvor genannten Anmeldung ist für alle Zwecke hiermit durch Bezugnahme miteingeschlossen.
GEBIET
Die vorliegende Anmeldung betrifft generell die Audio-Verarbeitung und betrifft insbesondere Systeme und Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals mit Rauschunterdrückung bzw. Geräuschunterdrückung.
HINTERGRUND
Rauschunterdrückung wird in Audio-Verarbeitungssystemen häufig eingesetzt, um unerwünschtes Rauschen in Audio-Signalen, die zur Übertragung von Sprache verwendet werden, zu dämpfen oder auszulöschen. Nach dem Auslöschen des Rauschens und/oder nach der Rauschunterdrückung wird Sprache, die mit Rauschen vermischt ist, tendenziell in Rauschunterdrückungssystemen zu sehr abgeschwächt oder ganz unterdrückt.
Es gibt Modelle des Gehirns, die erläutern, wie Geräusche wiederhergestellt werden unter Anwendung einer internen Darstellung, die das Eingangssignal über einen Rückkopplungsmechanismus ersetzt, so dass es wahrgenommen wird. Ein anschauliches Modell, das als ein Konvergenz-Divergenz-Zonen-(CDZ-)Modell des Gehirns bezeichnet wird, ist in der Neurowissenschaft beschrieben und versucht die Phänomene für die spektrale Vervollständigung und phonemische Wiederherstellung zu erläutern, die bei der menschlichen Sprachwahrnehmung auftreten.
ÜBERBLICK
Dieser Überblick wird bereitgestellt, um eine Auswahl von Konzepten in vereinfachter Form einzuführen, die nachfolgend in der detaillierten Beschreibung weiter beschrieben sind. Dieser Überblick ist nicht dazu beabsichtigt, Schlüsselmerkmale oder wesentliche Merkmale des beanspruchten Gegenstands zu kennzeichnen, und es ist auch nicht beabsichtigt, dass dieser Überblick als eine Hilfe bei der Ermittlung des Schutzbereichs des beanspruchten Gegenstands verwendet wird.
Es werden Systeme und Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals bereitgestellt. Ein anschauliches Verfahren umfasst die Ermittlung verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal. Die verzerrten Frequenzbereiche schließen Bereiche des Audio-Signals mit ein, in welchen eine Sprachverzerrung vorhanden ist. Das Verfahren umfasst das Ausführen einer oder mehrerer Iterationen unter Anwendung eines Modells zur Verfeinerung bzw. Aufbereitung von Vorhersagen des Audio-Signals in den verzerrten Frequenzbereichen. Das Modell kann ausgebildet sein, das Audio-Signal zu modifizieren.
In einigen Ausführungsformen schließt das Audio-Signal ein rauschunterdrücktes Audio-Signal mit ein, das durch Rauschunterdrückung bzw. Geräuschunterdrückung und/oder Rauschauslöschung eines akustischen Signals bzw. Schallsignals erhalten wird, das Sprache enthält. Das akustische Signal wird in den verzerrten Frequenzbereichen abgeschwächt oder ausgelöscht.
In einigen Ausführungsformen umfasst das Modell, das zur Verfeinerung bzw. Aufbereitung von Vorhersagen des Audio-Signal in verzerrten Frequenzbereichen verwendet wird, ein tiefes neuronales Netzwerk, das unter Anwendung von spektralen Einhüllenden von reinen Audio-Signalen oder ungeschädigten Audio-Signalen trainiert ist. Die verfeinerten bzw. aufbereiteten Vorhersagen können verwendet werden, um Sprachkomponenten in den verzerrten Frequenzbereichen wiederherzustellen.
In einigen Ausführungsformen werden die Audio-Signale in den verzerrten Frequenzbereichen vor der ersten Iteration auf Null gesetzt. Vor der Ausführung der jeweiligen Iterationen werden die Audio-Signale in den nicht-verzerrten Frequenzbereichen auf Anfangswerte vor den ersten Iterationen wiederhergestellt.
In einigen Ausführungsformen umfasst das Verfahren ferner das Vergleichen des Audio-Signals in den nicht-verzerrten Frequenzbereichen vor und nach jeder Iteration, um Diskrepanzen zu ermitteln. In gewissen Ausführungsformen lässt das Verfahren zu, dass die eine oder die mehreren Iterationen beendet werden, wenn die Diskrepanzen vorbestimmte Kriterien erfüllen. Die vorbestimmten Kriterien können durch eine untere und obere Grenze von Energien des Audio-Signals festgelegt werden.
Gemäß einer weiteren anschaulichen Ausführungsform der vorliegenden Offenbarungen werden die Schritte des Verfahrens zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals in einem nicht-flüchtigen maschinenlesbaren Medium gespeichert, das Befehle aufweist, die, wenn sie von einem oder mehreren Prozessoren implementiert werden, die genannten Schritte ausführen.
Andere anschauliche Ausführungsformen der Offenbarung und Aspekte ergeben sich aus der folgenden Beschreibung in Verbindung mit den folgenden Zeichnungen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Ausführungsformen sind beispielhaft und nicht beschränkend in den Figuren der begleitenden Zeichnungen dargestellt, in denen gleiche Bezugszeichen ähnliche Elemente bezeichnen.
1 ist eine Blockansicht, die eine Umgebung darstellt, in der die vorliegende Technik praktiziert werden kann.
2 ist eine Blockansicht, die eine Audio-Einrichtung gemäß einer anschaulichen Ausführungsform darstellt.
3 ist eine Blockansicht, die Module eines Audio-Verarbeitungssystems gemäß einer anschaulichen Ausführungsform darstellt.
4 ist ein Flussdiagramm, das ein Verfahren zur Wiederherstellung von Sprachkomponenten eines Audio-Signals gemäß einer anschaulichen Ausführungsform zeigt.
5 ist ein Computersystem, das zur Implementierung von Verfahren der vorliegenden Technik gemäß einer anschaulichen Ausführungsform verwendet werden kann.
DETAILLIERTE BESCHREIBUNG
Die hierin offenbarte Technik betrifft Systeme und Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals. Ausführungsformen der vorliegenden Technik können mit einer beliebigen Audio-Einrichtung praktiziert werden, die ausgebildet ist, Audio-Signale zu empfangen und/oder bereitzustellen, etwa, ohne darauf eingeschränkt zu sein, Funktelefone, am Körper tragbare Geräte, Telefonhandapparate, Hörsprechgarnituren und Konferenzsysteme. Es sollte beachtet werden, dass, obwohl einige Ausführungsformen der vorliegenden Technik mit Bezug zu dem Betrieb eines Funktelefons beschrieben sind, die vorliegende Technik mittels einer beliebigen Audio-Einrichtung praktiziert werden kann.
Audio-Einrichtungen können Hochfrequenz-(HF-)Empfänger, Sender und Sender/Empfänger, verdrahtete und/oder drahtlose Telekommunikations- und/oder Netzwerkeinrichtungen, Verstärker, Audio- und/oder Video-Wiedergabegeräte, Codierer, Decodierer, Lautsprecher, Eingabeeinrichtungen, Ausgabeeinrichtungen, Speichereinrichtungen und Anwendereingabeeinrichtungen miteinschließen. Die Audio-Einrichtungen können Eingabeeinrichtungen, etwa Knöpfe, Schalter, Tasten, Tastaturen, rollende Eingabegeräte, Schieber, berührungsempfindliche Schirme, ein oder mehrere Mikrofone, Kreisel, Beschleunigungsmesser, Empfänger für das globale Positioniersystem (GPS) und dergleichen miteinschließen. Die Audio-Einrichtungen können Ausgabeeinrichtungen, etwa LED-Indikatoren, Video-Anzeigen, berührungsempfindliche Bildschirme, Lautsprecher und dergleichen aufweisen. In einigen Ausführungsformen schließen mobile Geräte am Körper tragbare Einrichtungen und Handgeräte, etwa verdrahtete und/oder drahtlose Fernsteuerungen, tragbare Computer, Tablet-Computer, Phablets, intelligente Telefone, persönliche digitale Assistenten, Medienwiedergabegeräte, Mobiltelefone und dergleichen mit ein.
In diversen Ausführungsformen können die Audio-Einrichtungen in stationärer Umgebung oder in einer tragbarer Umgebung betrieben werden. Stationäre Umgebungen umfassen geschäftliche Gebäude oder Bauten und Wohngebäude und dergleichen. Beispielsweise können die stationären Ausführungsformen Wohnzimmer, Schlafzimmer, Heimkinos, Konferenzräume, Auditorien, Geschäftsräume und dergleichen mit einschließen. Tragbare Umgebungen können bewegte Fahrzeuge, bewegte Personen oder Transporteinrichtungen und dergleichen mit einschließen.
Gemäß einer anschaulichen Ausführungsform umfasst ein Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals die Ermittlung verzerrter Frequenzbereiche und nicht verzerrter Frequenzbereiche in dem Audio-Signal. Die verzerrten Frequenzbereiche schließen Bereiche des Audio-Signals mit ein, in welchem eine Sprachverzerrung vorhanden ist. Das Verfahren umfasst die Ausführung einer oder mehrerer Iterationen unter Anwendung eines Modells zur Verfeinerung bzw. Aufbereitung von Vorhersagen für das Audio-Signal in den verzerrten Frequenzbereichen. Das Modell kann ausgebildet sein, das Audio-Signal zu modifizieren.
Es sei nun auf 1 verwiesen, in der eine Umgebung 100 gezeigt ist, in der ein Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals praktiziert werden kann. Die anschauliche Umgebung 100 kann eine Audio-Einrichtung 104 aufweisen, die ausgebildet ist, ein Audio-Signal zumindest zu empfangen. Die Audio-Einrichtung 104 ist ferner ausgebildet, das empfangene Audio-Signal zu verarbeiten und/oder aufzuzeichnen/zu speichern.
In einigen Ausführungsformen weist die Audio-Einrichtung 104 einen oder mehrere akustische Sensoren bzw. Schallsensoren, beispielsweise Mikrofone, auf. Im Beispiel der 1 weist die Audio-Einrichtung 104 ein erstes Mikrofon (M1) 106 und ein zweites Mikrofon 108 auf. In diversen Ausführungsformen werden die Mikrofone 106 und 108 verwendet, und sowohl ein akustisches Audio-Signal, beispielsweise eine verbale Kommunikation von einem Anwender 102, und ein Geräusch 110 zu erfassen. Die verbale Kommunikation kann Schlüsselwörter, Sprache, Gesang und dergleichen mit einschließen.
Das Geräusch bzw. das Rauschen 110 ist ein unerwünschtes Geräusch, das in der Umgebung 100 vorhanden ist, das beispielsweise durch Sensoren, etwa die Mikrofone 106 und 108 erfasst werden kann. In stationären Umgebungen können Quellen für Geräusche bzw. Rauschen, Straßenlärm, Umgebungslärm, Klänge von einem Mobilgerät, etwa Audio, Sprache, Einheiten, die nicht ein oder mehrere beabsichtigte Sprecher sind, und dergleichen. Das Geräusch 110 kann Hall und Echos enthalten. Mobile Umgebungen mit gewissen Arten von Geräuschen konfrontiert werden, die sich durch den Betrieb und die Umgebungen ergeben, in denen sie verwendet werden, beispielsweise Geräusche durch Straße, Schiene, Rad/Reifen, Lüftung, Scheibenwischer, Motor, Auspuff, Unterhaltungssystem, Kommunikationssystem, andere Sprecher, Wind, Regen, Wellen oder Fahrzeug, Außengeräusche und dergleichen. Akustische Signale bzw. Schallsignale, die von den Mikrofonen 106 und 108 erfasst werden, können verwendet werden, um gewünschte Sprache von dem Geräusch bzw. dem Rauschen 110 zu trennen.
In einigen Ausführungsformen ist die Audio-Einrichtung 104 mit einer Cloudbasierten Rechenressource 160 (auch als eine Rechen-Cloud bezeichnet) verbunden. In einigen Ausführungsformen umfasst die Rechen-Cloud 160 eine oder mehrere Server-Farmen/Ansammlungen mit einer Ansammlung an Computer-Servern und sie ist in der Nähe von Netzwerk-Verteilern und/oder Routern angeordnet. Die Rechen-Cloud 160 ist ausgebildet, einen oder mehrere Dienste über ein Netzwerk, (beispielsweise das Internet, Mobiltelefon-(Funktelefon)-Netzwerk und dergleichen) bereitzustellen In gewissen Ausführungsformen wird zumindest eine teilweise erfolgende Verarbeitung des Audio-Signals entfernt in der Rechen-Cloud 160 ausgeführt. Die Audio-Einrichtung 104 ist ausgebildet, Daten, beispielsweise ein aufgezeichnetes Audio-Signal, der Rechen-Cloud 160 zuzusenden, Rechendienste anzufordern und die Ergebnisse der Berechnung zu empfangen.
2 ist eine Blockansicht einer anschaulichen Audio-Einrichtung 104. Wie gezeigt, umfasst die Audio-Einrichtung 104 einen Empfänger 200, einen Prozessor 202, das erste Mikrofon 106, das zweite Mikrofon 108, ein Audio-Verarbeitungssystem 210 und eine Ausgabeeinrichtung 206. Die Audio-Einrichtung 104 kann weitere oder andere Komponenten aufweisen, wie dies für den Betrieb der Audio-Einrichtung 104 erforderlich ist. In ähnlicher Weise kann die Audio-Einrichtung 104 weniger Komponenten aufweisen, die ähnliche oder gleichwertige Funktionen zu jenen ausführen, die in 2 dargestellt sind. Beispielweise weist die Audio-Einrichtung 104 in einigen Ausführungsformen ein einziges Mikrofon und in anderen Ausführungsformen zwei oder mehr Mikrofone auf.
In diversen Ausführungsformen kann der Empfänger 200 ausgebildet sein, mit einem Netzwerk, etwa dem Internet, einem Weitbereichsnetzwerk (WAN), einem lokalen Netzwerk (LAN), einem Funknetzwerk usw., zu kommunizieren, um das Audio-Signal zu empfangen. Das empfangene Audio-Signal wird dann an das Audio-Verarbeitungssystem 210 weitergeleitet.
In diversen Ausführungsformen weist der Prozessor 202 Hardware und/oder Software auf, die ausgebildet sind, Befehle auszuführen, die in einem Speicher (in 2 nicht dargestellt) gespeichert sind. Der anschauliche Prozessor 202 verwendet Gleitkommaoperationen, komplexe Operationen und andere Operationen einschließlich von Rauschunterdrückung bzw. Geräuschunterdrückung und Wiederherstellung verzerrter Sprachkomponenten in einem Audio-Signal.
Das Audio-Verarbeitungssystem 210 kann ausgebildet sein, akustische Signale aus einer Schallquelle über mindestens ein Mikrofon (beispielsweise das erste Mikrofon 106 und das zweite Mikrofon 108 in den Beispielen der 1 und 2) zu empfangen und die Komponenten des akustischen Signals zu verarbeiten. Die Mikrofone 106 und 108 sind in dem anschaulichen System durch einen Abstand voneinander getrennt, so dass die Schallwellen, die von gewissen Richtungen auf das Gerät auftreffen, unterschiedliche Energiepegel an den zwei oder mehr Mikrofonen besitzen. Nach der Aufnahme durch die Mikrofone 106 und 108 können die akustischen Signale in elektrische Signale umgewandelt werden. Diese elektrischen Signale können wiederum gemäß einigen Ausführungsformen mittels eines Analog-Digital-Wandlers (nicht gezeigt) in digitale Signale zur Verarbeitung umgewandelt werden.
In diversen Ausführungsformen, in denen die Mikrofone 106 und 108 ungerichtete Mikrofone sind, die mit kleinem Abstand angeordnet sind (beispielsweise im Abstand von 1–2 cm), kann eine Strahlformungstechnik eingesetzt werden, um eine nach vorne weisende und nach hinten weisende Mikrofonantwort zu simulieren. Es kann ein Pegelunterschied erhalten werden, indem das simulierte Richtungsmikrofon für Vorwärtsrichtung und Rückwärtsrichtung verwendet wird. Der Pegelunterschied kann verwendet werden, um beispielsweise im Zeit-Frequenzbereich Sprache und Rauschen voneinander zu trennen, was bei Rauschunterdrückung bzw. Geräuschunterdrückung und/oder Echo-Unterdrückung verwendet werden kann. In einigen Ausführungsformen werden einige Mikrofone hauptsächlich verwendet, um Sprache zu erfassen, und andere Mikrofone werden verwendet, um hauptsächlich Geräusche zu erfassen. In diversen Ausführungsformen werden einige Mikrofone verwendet, um sowohl Geräusche als auch Sprache zu erfassen.
Die Rauschunterdrückung bzw. Geräuschunterdrückung kann von dem Audio-Verarbeitungssystem 210 auf der Grundlage von Pegelunterschieden zwischen den Mikrofonen, ausgeprägten Pegelspitzen, ausgeprägten Frequenzunterschieden, Signalartklassifizierung, Sprecherkennung, usw. basieren. In diversen Ausführungsformen beinhaltet die Geräuschunterdrückung bzw. Rauschunterdrückung die Auslöschung von Geräuschen und/oder Dämpfung von Geräuschen bzw. vom Rauschen.
In einigen Ausführungsformen ist die Ausgabeeinrichtung 206 eine beliebige Einrichtung, die ein Audio-Ausgangssignal für einen Zuhörer (beispielsweise die Schallquelle) bereitstellt. Beispielsweise kann die Ausgabeeinrichtung 206 einen Lautsprecher, einen Klasse-D-Ausgang, einen Ohrhörer eines Kopfhörers, oder einen Handapparat in der Audio-Einrichtung 104 umfassen.
3 ist eine Blockansicht, die Module eines Audio-Verarbeitungssystems 210 gemäß einer anschaulichen Ausführungsform zeigt. Das Audio-Verarbeitungssystem 210 der 3 kann weitere Details für das Audio-Verarbeitungssystem 210 der 2 bereitstellen. Das Audio-Verarbeitungssystem 210 umfasst ein Frequenzanalysemodul 310, ein Rauschunterdrückungsmodul 320, ein Sprachwiederherstellungsmodul 330 und ein Rekonstruktionsmodul 340. Die Eingangssignale können aus dem Empfänger 200 oder den Mikrofonen 106 und 108 empfangen werden.
In einigen Ausführungsformen ist das Audio-Verarbeitungssystem 210 ausgebildet, ein Audio-Signal zu empfangen, das ein oder mehrere Eingangs-Audio-Signale im Zeitbereich umfasst, wie dies im Beispiel in 3 dargestellt ist, die aus dem ersten Mikrofon (M1) und dem zweiten Mikrofon (M2) in 1 stammen. Die Eingangs-Audio-Signale werden dem Frequenzanalysemodul 310 zugeleitet.
In einigen Ausführungsformen ist das Frequenzanalysemodul 310 ausgebildet, die Eingangs-Audio-Signale zu empfangen. Das Frequenzanalysemodul 310 erzeugt Frequenzteilbänder aus den Eingangs-Audio-Signalen im Zeitbereich und gibt die Signale über die Frequenzteilbänder aus. In einigen Ausführungsformen ist das Frequenzanalysemodul 310 ausgebildet, Sprachkomponenten, beispielsweise eine Spektrumseinhüllende und Anregungen von dem empfangenen Audio-Signal zu berechnen oder zu ermitteln.
In diversen Ausführungsformen umfasst das Rauschunterdrückungsmodul 320 mehrere Module und empfängt das Audio-Signal aus dem Frequenzanalysemodul 310. Das Rauschunterdrückungsmodul 320 ist ausgebildet, eine Rauschreduzierung bzw. Rauschunterdrückung an dem Audio-Signal auszuführen, um ein rauschunterdrücktes Signal zu erzeugen. In einigen Ausführungsformen beinhaltet die Rauschunterdrückung eine subtraktive Rauschauslöschung oder eine multiplikative Rauschunterdrückung. Beispielsweise, ohne darauf einschränken zu wollen, werden Rauschunterdrückungsverfahren beschrieben in der US-Patentanmeldung mit der Nr. 12/215 980 mit dem Titel ”System und Verfahren zur Bereitstellung einer Rauschunterdrückung unter Verwendung von Nullverarbeitungs-Rauschsubtraktion”, die am 30. Juni 2008 eingereicht wurde, und in der US-Patentanmeldung mit der Nr. 11/699 732 ( US-Patent mit der Nr. 8 194 880 ) mit dem Titel ”System und Verfahren zur Verwendung von ungerichteten Mikrofonen für Sprachverbesserung”, die am 29. Januar 2007 eingereicht wurde, deren Inhalte hiermit in ihrer Gesamtheit für die vorhergehenden Zwecke miteingeschlossen sind. Das Rauschunterdrückungsmodul 320 liefert ein transformiertes rauschunterdrücktes bzw. geräuschunterdrücktes Signal an das Sprachwiederherstellungsmodul 330. In dem rauschunterdrückten Signal können eine oder mehrere Sprachkomponenten ausgelöscht oder übermäßig abgeschwächt sein, da die Rauschunterdrückung die Frequenz des Audio-Signals verändert.
In einigen Ausführungsformen empfängt das Sprachwiederherstellungsmodul 330 das rauschunterdrückte Signal aus dem Rauschunterdrückungsmodul 320. Das Sprachwiederherstellungsmodul 330 ist ausgebildet, geschädigte Sprachkomponenten in dem rauschunterdrückten Signal wiederherzustellen bzw. aufzubereiten. In einigen Ausführungsformen weist das Sprachwiederherstellungsmodul 330 ein tiefes neuronales Netzwerk (DNN) 315, das im Hinblick auf die Wiederherstellung von Sprachkomponenten in geschädigten Frequenzbereichen trainiert ist. In gewissen Ausführungsformen ist das DNN 315 als ein Auto-Encoder ausgebildet.
In diversen Ausführungsformen wird das DNN 315 unter Anwendung von Maschinenlernen trainiert. Das DNN 315 ist ein künstliches neuronales Netzwerk mit Vorwärtskopplung mit mehr als einer Schicht aus verborgenen Einheiten zwischen seinen Eingängen und Ausgängen. Das DNN 315 kann trainiert werden, indem Eingangseigenschaften eines oder mehrerer Blöcke aus spektralen Einhüllenden von klaren Audio-Signalen oder ungeschädigten Audio-Signalen empfangen werden. Bei dem Trainingsprozess kann das DNN 315 erlernte spektro-temporale Eigenschaften der klaren oder nicht geschädigten spektralen Einhüllenden erlernen. In diversen Ausführungsformen wird das DNN 315, das unter Verwendung der spektralen Einhüllenden von klaren oder ungeschädigten Einhüllenden trainiert ist, in dem Sprachwiederherstellungsmodul 330 verwendet, um Vorhersagen der klaren Sprachkomponenten zu verfeinern bzw. aufzubereiten, die insbesondere für die Wiederherstellung von Sprachkomponenten in den verzerrten Frequenzbereichen geeignet sind. Beispielsweise, ohne darauf beschränkt zu sein, sind anschauliche Verfahren, die tiefe neuronale Netzwerke betreffen, auch beschrieben in den US-Patentanmeldungen mit gleichem Anmelder mit der Nr. 14/614 348 mit dem Titel ”Rauschrobuste mehrsprachige Schlüsselworterkennung mit einer Architektur auf Basis eines tiefen neuronalen Netzwerks”, die am 04. Februar 2015 eingereicht wurde, und mit der Nr. 14/745 176 mit dem Titel ”Unterdrückung von Klickgeräuschen von Tasten”, die am 09. Juni 2015 eingereicht wurde, und deren gesamter Inhalt hiermit durch Bezugnahme miteingeschlossen ist.
Während des Betriebs kann das Sprachwiederherstellungsmodul 330 einen Wert Null den Frequenzbereichen eines rauschunterdrückten Signals zuweisen, in denen eine Sprachverzerrung vorhanden ist (verzerrte Bereiche). In dem Beispiel in 3 wird das rauschunterdrückte Signal ferner dem Eingang des DNN 315 zugeleitet, um ein Ausgangssignal zu empfangen. Das Ausgangssignal enthält die anfänglichen Vorhersagen für die verzerrten Bereiche, die gegebenenfalls nicht sehr genau sind.
In einigen Ausführungsformen wird zur Verbesserung der anfänglichen Vorhersagen ein iterativer Rückkopplungsmechanismus angewendet. Das Ausgangssignal 350 wird optional in den Eingang des DNN 315 zurückgespeist, um eine nächste Iteration des Ausgangssignals zu empfangen, wobei das anfängliche rauschunterdrückte Signal in nicht-verzerrten Bereichen des Ausgangssignal beibehalten wird. Um ein divergentes Verhalten des Systems zu vermeiden, kann das Ausgangssignal in den unverzerrten Gebieten mit dem Eingangssignal nach jeder Iteration verglichen werden, und es können eine obere und eine untere Grenze auf die abgeschätzte Energie in unverzerrten Frequenzbereichen auf der Grundlage von Energien in dem Eingangs-Audio-Signal angewendet werden. In diversen Ausführungsformen werden mehrere Iterationen angewendet, um die Genauigkeit der Vorhersagen zu verbessern, bis ein Grad an Genauigkeit erfüllt wird, der für eine spezielle Anwendung gewünscht ist, beispielsweise keine weiteren Iterationen in Reaktion auf die Diskrepanzen des Audio-Signals in nicht-verzerrten Bereichen vornehmen, die vordefinierte Kriterien für die spezielle Anwendung erfüllen.
In einigen Ausführungsformen ist das Rekonstruktionsmodul 340 ausgebildet, ein rauschunterdrücktes Signal mit wiederhergestellten Sprachkomponenten aus dem Sprachwiederherstellungsmodul 330 zu empfangen und die wiederhergestellten Sprachkomponenten zu einem einzigen Audio-Signal aufzubauen.
4 ist ein Flussdiagramm, das ein Verfahren 400 zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals gemäß einer anschaulichen Ausführungsform zeigt. Das Verfahren 400 kann unter Anwendung des Sprachwiederherstellungsmoduls 330 ausgeführt werden.
Das Verfahren kann im Block 402 beginnen, wobei verzerrte Frequenzbereiche und nicht-verzerrte Frequenzbereiche in dem Audio-Signal ermittelt werden. Die verzerrten Sprachbereiche sind Bereiche, in denen eine Sprachverzerrung aufgrund von beispielsweise der Rauschunterdrückung vorhanden ist.
Im Block 404 beinhaltet das Verfahren 400 die Ausführung einer oder mehrerer Iterationen unter Anwendung eines Modells, um Vorhersagen des Audio-Signals in verzerrten Frequenzbereiche aufzubereiten. Das Modell kann ausgebildet sein, das Audio-Signal zu modifizieren. In einigen Ausführungsformen umfasst das Modell ein tiefes neuronales Netzwerk, das mit spektralen Einhüllenden von klaren oder ungeschädigten Signalen trainiert wurde. In gewissen Ausführungsformen werden die Vorhersagen des Audio-Signals in verzerrten Frequenzbereichen vor der ersten Iteration auf Null gesetzt. Vor jeder der Iterationen wird das Audio-Signal in nicht-verzerrten Frequenzbereichen mit Werten des Audio-Signals vor der ersten Iteration wiederhergestellt.
Im Block 406 beinhaltet das Verfahren 400 das Vergleichen des Audio-Signals in den nicht-verzerrten Bereichen vor und nach jeder Iteration, um Diskrepanzen zu ermitteln.
Im Block 408 werden die Iterationen beendet, wenn die Diskrepanzen vordefinierte Kriterien erfüllen.
Einige anschauliche Ausführungsformen schließen Sprachdynamik mit ein. Für die Sprachdynamik kann das Audio-Verarbeitungssystem 210 mehrere aufeinanderfolgende Audio-Signal-Blöcke erhalten und kann trainiert werden, die gleiche Anzahl an Blöcken auszugeben. Die Berücksichtigung von Sprachdynamik in einigen Ausführungsformen hat die Wirkung, dass ein zeitlich glattes Verhalten erzwungen wird und eine Wiederherstellung längerer Verzerrungsbereiche möglich ist.
Diverse Ausführungsformen werden verwendet, um Verbesserungen für eine Anzahl von Anwendungen, etwa Rauschunterdrückung, Bandbreitenerweiterung, Sprachcodierung und Sprachsynthese, bereitzustellen. Ferner sind die Verfahren und Systeme für eine Sensorvereinigung geeignet, so dass in einigen Ausführungsformen die Verfahren und Systeme so erweitert werden können, dass sie andere nicht-akustische Sensorinformation miteinschließen. Anschauliche Verfahren, die die Vereinigung von Sensoren betrifft, sind auch beschrieben in den US-Patentanmeldungen mit dem gleichen Anmelder mit der Nr. 14/548 207 mit dem Titel ”Verfahren zur Modellierung von Benutzerbesitz einer Mobileinrichtung für eine Benutzerauthentifizierungsplattform”, die am 19. November 2014 eingereicht wurde, und der Nr. 14/331 205 mit dem Titel ”Auswahl von Systemparametern auf der Grundlage einer nicht-akustischen Sensorinformation”, die am 14. Juli 2014 eingereicht wurde, und die hiermit vollständig durch Bezugnahme miteingeschlossen sind.
Diverse Verfahren zur Widerherstellung von rauschunterdrückter Sprache sind auch beschrieben in der US-Patentanmeldung vom gleichen Anmelder mit der Nr. 13/751 907 ( US-Patent Nr. 8 615 394 ) mit dem Titel ”Wiederherstellung von rauschunterdrückter Sprache”, die am 28. Januar 2013 eingereicht wurde und in ihrer Gesamtheit hierin durch Bezugnahme miteingeschlossen ist.
5 zeigt ein anschauliches Computersystem 500, das verwendbar ist, um einige Ausführungsformen der vorliegenden Erfindung einzurichten. Das Computersystem 500 der 5 kann mit Rechensystemen, Netzwerken, Servern oder Kombinationen davon eingerichtet werden. Das Computersystem 500 der 5 weist eine oder mehrere Prozessoreinheiten 510 und einen Hauptspeicher 520 auf. Der Hauptspeicher 520 speichert in einem Teil Befehle und Daten zur Ausführung durch die Prozessoreinheiten 510. In diesem Beispiel speichert beim Betrieb der Hauptspeicher 520 den ausführbaren Code. Das Computersystem 500 der 5 umfasst ferner einen Massendatenspeicher 530, eine tragbare Speichereinrichtung 540, Ausgabeeinrichtungen 550, Anwendereingabeeinrichtungen 560, ein Grafikanzeigesystem 570 und Peripheriegeräte 580.
Die in 5 gezeigten Komponenten sind so dargestellt, dass sie über einen einzigen Bus 590 miteinander verbunden sind. Die Komponenten können durch eine oder mehrere Datentransporteinrichtungen verbunden sein. Die Prozessoreinheit 510 und der Hauptspeicher 520 können über einen lokalen Mikroprozessorbus verbunden sein, und der Massendatenspeicher 530, das eine oder die mehrere Periphergeräte 580, die tragbare Speichereinrichtung 540 und das Grafikanzeigesystem 570 können über einen oder mehrere Eingabe/Ausgabe-(I/O-)Busse verbunden sein.
Der Massendatenspeicher 530, der mittels eines Laufwerks mit Magnetplatte, durch ein Halbleiterlaufwerk oder ein Laufwerk mit optischer Diskette eingerichtet werden kann, ist eine nicht-flüchtige Speichereinrichtung zur Speicherung von Daten und Befehlen zur Verwendung durch die Prozessoreinheit 510. Der Massendatenspeicher 530 speichert die Systemsoftware zur Implementierung von Ausführungsformen der vorliegenden Offenbarung, um diese Software in den Hauptspeicher 520 zu laden.
Die tragbare Speichereinrichtung 540 arbeitet in Verbindung mit einem tragbaren nicht-flüchtigen Speichermedium, etwa einem Flash-Laufwerk, einem Diskettenlaufwerk, einer Kompaktdiskette, einer digitalen Video-Diskette oder einer Speichereinrichtung für den universellen seriellen Bus (USB), um Daten einzugeben und auszugeben und eine Codierung zu und aus dem Computersystem 500 der 5 auszuführen. Die Systemsoftware zur Implementierung von Ausführungsformen der vorliegenden Offenbarung ist auf einem derartigen tragbaren Medium gespeichert und wird über die tragbare Speichereinrichtung 540 in das Computersystem 500 eingespeist.
Die Anwendereingabeeinrichtungen 560 können einen Teil einer Anwenderschnittstelle bzw. Benutzeroberfläche bereitstellen. Die Anwendereingabeeinrichtungen 560 können ein oder mehrere Mikrofone, eine alphanumerische Tastatur, etwa eine Tastatur, zur Eingabe von alphanumerischen Zeichen und anderer Information oder eine Zeigereinrichtung, etwa eine Maus, einen rollbaren Zeiger, einen Stift oder Zeiger-Richtungstasten miteinschließen. Die Anwendereingabeeinrichtungen 560 können ferner auch einen berührungsempfindlichen Bildschirm miteinschließen. Des Weiteren umfasst das Computersystem 500, wie es in 5 gezeigt ist, die Ausgabeeinrichtungen 550. Zu geeigneten Ausgabeeinrichtungen 550 gehören Lautsprecher, Drucker, Netzwerkschnittstellen und Bildschirme.
Das Grafikanzeigesystem 570 umfasst eine Flüssigkristallanzeige (LCD) oder eine andere geeignete Anzeigeeinrichtung. Das Grafikanzeigesystem 570 ist ausgebildet, Textinformation oder Grafikinformation zu empfangen und die Information für die Ausgabe auf der Anzeigeeinrichtung zu verarbeiten.
Die peripheren Geräte 580 können eine beliebige Art von computergestützter Einrichtung sein, um dem Computersystem 500 weitere Funktionen hinzuzufügen.
Die Komponenten, die in dem Computersystem 500 der 5 bereitgestellt sind, sind solche, die typischerweise in Computersystemen vorgefunden werden, die zur Verwendung in Verbindung mit Ausführungsformen der vorliegenden Offenbarung geeignet sind und eine breite Kategorie derartiger Computerkomponenten repräsentieren sollen, die im Stand der Technik gut bekannt sind. Daher kann das Computersystem 500 der 5 ein Personalcomputer (PC), ein Computersystem als Handgerät, ein Telefon, ein mobiles Computersystem, ein Arbeitsplatzrechner, ein Tablet, ein Phablet, ein Mobiltelefon, ein Server, ein Minicomputer, ein Großrechner, ein am Körper tragbares Gerät oder ein anderes Computersystem sein. Der Computer kann ferner unterschiedliche Buskonfigurationen, vernetzte Plattformen, Plattformen mit mehreren Prozessoren und dergleichen miteinschließen. Es können diverse Betriebssysteme verwendet werden, einschließlich von UNIX, LINUX, WINDOWS, MAC OS, PALM OS, QNX ANDROID, IOS, CHROME, TIZEN und andere geeignete Betriebssysteme.
Die Verarbeitung für diverse Ausführungsformen kann in Software eingerichtet werden, die Cloud-basiert bzw. Netzwerk-basiert ist. In einigen Ausführungsformen ist das Computersystem 500 als eine Cloud-basierte Rechenumgebung eingerichtet, etwa als eine virtuelle Maschine, die innerhalb einer Rechen-Cloud arbeitet. In anderen Ausführungsformen kann das Computersystem 500 selbst eine Cloud-basierte Rechenumgebung enthalten, wobei die Funktionen des Computersystems 500 in verteilter Weise ausgeführt werden. Daher kann das Computersystem 500, wenn es als eine Rechen-Cloud ausgebildet ist, mehrere Recheneinrichtungen in diversen Formen aufweisen, wie dies nachfolgend detaillierter beschrieben ist.
Im Allgemeinen ist eine Cloud-basierte Rechenumgebung eine Ressource, die typischerweise die Rechenleistung einer großen Gruppe von Prozessoren (etwa innerhalb von Netz-Servern) kombiniert und/oder die Speicherkapazität einer großen Gruppe von Computerspeichern oder Speichereinrichtungen kombiniert. Systeme, die Cloud-basierte Ressourcen bereitstellen, können exklusiv von ihren Besitzern verwendet werden oder derartige Systeme können für externe Anwender zugänglich sein, die Anwendungen innerhalb der Recheninfrastruktur verteilen, um die Vorteile großer Rechenressourcen oder Speicherressourcen zu erhalten.
Die Cloud kann beispielsweise durch ein Netzwerk von Netz-Servern gebildet werden, die mehrere Recheneinrichtungen, etwa das Computersystem 500, umfassen, wobei jeder Server (oder zumindest mehrere davon) Prozessorressourcen und/oder Speicherressourcen bereitstellt. Diese Server können die Auslastung, die durch mehrere Anwender (beispielsweise Kunden der Cloud-Ressource oder andere Anwender) auftritt, verwalten. Typischerweise trägt jeder Anwender zu Anforderungen im Hinblick auf die Arbeitsauslastung für die Cloud bei, die in Echtzeit, manchmal dramatisch, variieren. Die Art und das Ausmaß dieser Schwankungen hängt typischerweise von der Art der geschäftlichen Aktivität des Anwenders ab.
Die vorliegende Technik ist zuvor mit Verweis auf anschauliche Ausführungsformen beschrieben. Es sollen auch andere Variationen der anschaulichen Ausführungsformen durch die vorliegende Offenbarung abgedeckt sein.

Claims

Ein Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals, wobei das Verfahren umfasst: Ermitteln verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal, wobei die verzerrten Frequenzbereiche Bereiche des Audio-Signals umfassen, in denen Sprachverzerrung vorhanden ist; und Ausführen einer oder mehrerer Iterationen unter Anwendung eines Modells zur Aufbereitung von Vorhersagen des Audio-Signals in den verzerrten Frequenzbereichen, wobei das Modell ausgebildet ist, das Audio-Signal zu modifizieren.
Das Verfahren nach Anspruch 1, wobei das Audio-Signal ein rauschunterdrücktes Signal enthält, das durch eine Geräuschreduzierung und/oder eine Geräuschauslöschung in einem akustischen Signal mit Sprache erhalten wird.
Das Verfahren nach Anspruch 2, wobei das akustische Signal in den verzerrten Frequenzbereichen abgeschwächt oder ausgelöscht wird.
Das Verfahren nach Anspruch 1, wobei das Modell ein tiefes neuronales Netzwerk umfasst, das unter Anwendung spektraler Einhüllender von klaren Audio-Signalen oder unbeschädigten Audio-Signalen trainiert ist.
Das Verfahren nach Anspruch 1, wobei die aufbereiteten Vorhersagen zur Wiederherstellung von Sprachkomponenten in den verzerrten Frequenzbereichen verwendet werden.
Das Verfahren nach Anspruch 1, wobei das Audio-Signal in den verzerrten Frequenzbereichen vor der ersten der einen oder mehreren Iterationen auf Null gesetzt wird.
Das Verfahren nach Anspruch 1, wobei vor der Ausführung jeder der einen oder mehreren Iterationen das Audio-Signal in den nicht-verzerrten Frequenzbereichen mit Werten des Audio-Signals vor der ersten der einen oder mehreren Iterationen wiederhergestellt wird.
Das Verfahren nach Anspruch 1, das ferner nach Ausführung jeder der einen oder mehreren Iterationen umfasst: Vergleichen des Audio-Signals in den nicht-verzerrten Frequenzbereichen vor und nach der Iteration, um Diskrepanzen zu ermitteln.
Das Verfahren nach Anspruch 8, das ferner Beenden der einen oder mehreren Iterationen umfasst, wenn die Diskrepanzen vorbestimmte Kriterien erfüllen.
Das Verfahren nach Anspruch 9, wobei die vorbestimmten Kriterien durch eine untere und obere Grenze von Energien des Audio-Signals festgelegt sind.
Ein System zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals, wobei das System umfasst: mindestens einen Prozessor; und einen Speicher, der kommunizierend mit dem mindestens einem Prozessor verbunden ist, wobei der Speicher Befehle speichert, die bei Ausführung durch den mindestens einen Prozessor ein Verfahren ausführen, mit: Ermitteln verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal, wobei die verzerrten Frequenzbereiche Bereiche des Audio-Signals umfassen, in denen Sprachverzerrung vorhanden ist; und Ausführen einer oder mehrerer Iterationen unter Anwendung eines Modells zur Aufbereitung von Vorhersagen des Audio-Signals in den verzerrten Frequenzbereichen, wobei das Modell ausgebildet ist, das Audio-Signal zu modifizieren.
Das System nach Anspruch 11, wobei das Audio-Signal ein rauschunterdrücktes Audio-Signal umfasst, das durch Geräuschreduzierung und/oder Geräuschauslöschung eines akustischen mit Sprache erhalten wird.
Das System nach Anspruch 12, wobei das akustische Signal in den verzerrten Frequenzbereichen abgeschwächt oder ausgelöscht ist.
Das System nach Anspruch 11, wobei das Modell ein tiefes neuronales Netzwerk umfasst.
Das System nach Anspruch 14, wobei das tiefe neuronale Netzwerk unter Anwendung spektraler Einhüllender von klaren Audio-Signalen oder unbeschädigten Audio-Signalen trainiert ist.
Das System nach Anspruch 15, wobei das Audio-Signal in den verzerrten Frequenzbereichen vor der ersten der einen oder mehreren Iterationen auf Null gesetzt ist.
Das System nach Anspruch 11, wobei vor Ausführung jeder der einen oder mehreren Iterationen das Audio-Signal in den nicht-verzerrten Frequenzbereichen mit Werten vor der ersten der einen oder mehreren Iterationen wiederhergestellt ist.
Das System nach Anspruch 11, das ferner nach Ausführung jeder der einen oder mehreren Iterationen einen Vergleich des Audio-Signals in den nicht-verzerrten Gebieten vor und nach der Iteration umfasst, um Diskrepanzen zu ermitteln.
Das System nach Anspruch 18, das ferner das Beenden der einen oder mehreren Iterationen umfasst, wenn die Diskrepanzen vorbestimmte Kriterien erfüllen, wobei die vorbestimmten Kriterien durch eine untere und eine obere Grenze von Energien des Audio-Signals festgelegt sind.
Ein nicht-flüchtiges computerlesbares Speichermedium mit darin enthaltenen Befehlen, die bei Ausführung durch mindestens einen Prozessor Schritte eines Verfahrens ausführen, wobei das Verfahren umfasst: Ermitteln verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal, wobei die verzerrten Frequenzbereiche Bereiche des Audio-Signals umfassen, in denen Sprachverzerrung vorhanden ist; und Ausführen einer oder mehrerer Iterationen unter Anwendung eines Modells zur Aufbereitung von Vorhersagen des Audio-Signals in den verzerrten Frequenzbereichen, wobei das Modell ausgebildet ist, das Audio-Signal zu modifizieren.