DE112015004185T5 - Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten - Google Patents

Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten Download PDF

Info

Publication number
DE112015004185T5
DE112015004185T5 DE112015004185.0T DE112015004185T DE112015004185T5 DE 112015004185 T5 DE112015004185 T5 DE 112015004185T5 DE 112015004185 T DE112015004185 T DE 112015004185T DE 112015004185 T5 DE112015004185 T5 DE 112015004185T5
Authority
DE
Germany
Prior art keywords
audio signal
frequency ranges
distorted
iterations
distorted frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112015004185.0T
Other languages
English (en)
Inventor
Carlos Avendano
John Woodruff
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Knowles Electronics LLC
Original Assignee
Knowles Electronics LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Knowles Electronics LLC filed Critical Knowles Electronics LLC
Publication of DE112015004185T5 publication Critical patent/DE112015004185T5/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)

Abstract

Ein Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals, die durch Geräuschreduzierung oder Geräuschauslöschung verzerrt sind, umfasst das Ermitteln verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal. Die verzerrten Frequenzbereiche beinhalten Bereiche des Audio-Signals, in denen eine Sprachverzerrung vorhanden ist. Es werden Iterationen unter Anwendung eines Modells zur Aufbereitung von Vorhersagen des Audio-Signals in verzerrten Frequenzbereiche ausgeführt. Das Modell ist ausgebildet, das Audio-Signal zu modifizieren und kann ein tiefes neuronales Netzwerk umfassen, das unter Anwendung spektraler Einhüllender von klaren oder unbeschädigten Audio-Signalen trainiert ist. Vor jeder Iteration wird das Audio-Signal in den nicht-verzerrten Frequenzbereichen mit Werten des Audio-Signals vor der ersten Iteration wiederhergestellt; wobei das Audio-Signal in verzerrten Frequenzbereichen ausgehend von Null in der ersten Iteration aufbereitet wird. Iterationen werden beendet, wenn Diskrepanzen des Audio-Signals in nicht-verzerrten Frequenzbereichen vordefinierte Kriterien erfüllen.

Description

  • QUERVERWEIS AUF VERWANDTE ANMELDUNG
  • Die vorliegende Anmeldung beansprucht die Priorität der vorläufigen US-Anmeldung mit der Nr. 62/049 988, die am 12. September 2014 eingereicht wurde. Der Gegenstand der zuvor genannten Anmeldung ist für alle Zwecke hiermit durch Bezugnahme miteingeschlossen.
  • GEBIET
  • Die vorliegende Anmeldung betrifft generell die Audio-Verarbeitung und betrifft insbesondere Systeme und Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals mit Rauschunterdrückung bzw. Geräuschunterdrückung.
  • HINTERGRUND
  • Rauschunterdrückung wird in Audio-Verarbeitungssystemen häufig eingesetzt, um unerwünschtes Rauschen in Audio-Signalen, die zur Übertragung von Sprache verwendet werden, zu dämpfen oder auszulöschen. Nach dem Auslöschen des Rauschens und/oder nach der Rauschunterdrückung wird Sprache, die mit Rauschen vermischt ist, tendenziell in Rauschunterdrückungssystemen zu sehr abgeschwächt oder ganz unterdrückt.
  • Es gibt Modelle des Gehirns, die erläutern, wie Geräusche wiederhergestellt werden unter Anwendung einer internen Darstellung, die das Eingangssignal über einen Rückkopplungsmechanismus ersetzt, so dass es wahrgenommen wird. Ein anschauliches Modell, das als ein Konvergenz-Divergenz-Zonen-(CDZ-)Modell des Gehirns bezeichnet wird, ist in der Neurowissenschaft beschrieben und versucht die Phänomene für die spektrale Vervollständigung und phonemische Wiederherstellung zu erläutern, die bei der menschlichen Sprachwahrnehmung auftreten.
  • ÜBERBLICK
  • Dieser Überblick wird bereitgestellt, um eine Auswahl von Konzepten in vereinfachter Form einzuführen, die nachfolgend in der detaillierten Beschreibung weiter beschrieben sind. Dieser Überblick ist nicht dazu beabsichtigt, Schlüsselmerkmale oder wesentliche Merkmale des beanspruchten Gegenstands zu kennzeichnen, und es ist auch nicht beabsichtigt, dass dieser Überblick als eine Hilfe bei der Ermittlung des Schutzbereichs des beanspruchten Gegenstands verwendet wird.
  • Es werden Systeme und Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals bereitgestellt. Ein anschauliches Verfahren umfasst die Ermittlung verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal. Die verzerrten Frequenzbereiche schließen Bereiche des Audio-Signals mit ein, in welchen eine Sprachverzerrung vorhanden ist. Das Verfahren umfasst das Ausführen einer oder mehrerer Iterationen unter Anwendung eines Modells zur Verfeinerung bzw. Aufbereitung von Vorhersagen des Audio-Signals in den verzerrten Frequenzbereichen. Das Modell kann ausgebildet sein, das Audio-Signal zu modifizieren.
  • In einigen Ausführungsformen schließt das Audio-Signal ein rauschunterdrücktes Audio-Signal mit ein, das durch Rauschunterdrückung bzw. Geräuschunterdrückung und/oder Rauschauslöschung eines akustischen Signals bzw. Schallsignals erhalten wird, das Sprache enthält. Das akustische Signal wird in den verzerrten Frequenzbereichen abgeschwächt oder ausgelöscht.
  • In einigen Ausführungsformen umfasst das Modell, das zur Verfeinerung bzw. Aufbereitung von Vorhersagen des Audio-Signal in verzerrten Frequenzbereichen verwendet wird, ein tiefes neuronales Netzwerk, das unter Anwendung von spektralen Einhüllenden von reinen Audio-Signalen oder ungeschädigten Audio-Signalen trainiert ist. Die verfeinerten bzw. aufbereiteten Vorhersagen können verwendet werden, um Sprachkomponenten in den verzerrten Frequenzbereichen wiederherzustellen.
  • In einigen Ausführungsformen werden die Audio-Signale in den verzerrten Frequenzbereichen vor der ersten Iteration auf Null gesetzt. Vor der Ausführung der jeweiligen Iterationen werden die Audio-Signale in den nicht-verzerrten Frequenzbereichen auf Anfangswerte vor den ersten Iterationen wiederhergestellt.
  • In einigen Ausführungsformen umfasst das Verfahren ferner das Vergleichen des Audio-Signals in den nicht-verzerrten Frequenzbereichen vor und nach jeder Iteration, um Diskrepanzen zu ermitteln. In gewissen Ausführungsformen lässt das Verfahren zu, dass die eine oder die mehreren Iterationen beendet werden, wenn die Diskrepanzen vorbestimmte Kriterien erfüllen. Die vorbestimmten Kriterien können durch eine untere und obere Grenze von Energien des Audio-Signals festgelegt werden.
  • Gemäß einer weiteren anschaulichen Ausführungsform der vorliegenden Offenbarungen werden die Schritte des Verfahrens zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals in einem nicht-flüchtigen maschinenlesbaren Medium gespeichert, das Befehle aufweist, die, wenn sie von einem oder mehreren Prozessoren implementiert werden, die genannten Schritte ausführen.
  • Andere anschauliche Ausführungsformen der Offenbarung und Aspekte ergeben sich aus der folgenden Beschreibung in Verbindung mit den folgenden Zeichnungen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Ausführungsformen sind beispielhaft und nicht beschränkend in den Figuren der begleitenden Zeichnungen dargestellt, in denen gleiche Bezugszeichen ähnliche Elemente bezeichnen.
  • 1 ist eine Blockansicht, die eine Umgebung darstellt, in der die vorliegende Technik praktiziert werden kann.
  • 2 ist eine Blockansicht, die eine Audio-Einrichtung gemäß einer anschaulichen Ausführungsform darstellt.
  • 3 ist eine Blockansicht, die Module eines Audio-Verarbeitungssystems gemäß einer anschaulichen Ausführungsform darstellt.
  • 4 ist ein Flussdiagramm, das ein Verfahren zur Wiederherstellung von Sprachkomponenten eines Audio-Signals gemäß einer anschaulichen Ausführungsform zeigt.
  • 5 ist ein Computersystem, das zur Implementierung von Verfahren der vorliegenden Technik gemäß einer anschaulichen Ausführungsform verwendet werden kann.
  • DETAILLIERTE BESCHREIBUNG
  • Die hierin offenbarte Technik betrifft Systeme und Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals. Ausführungsformen der vorliegenden Technik können mit einer beliebigen Audio-Einrichtung praktiziert werden, die ausgebildet ist, Audio-Signale zu empfangen und/oder bereitzustellen, etwa, ohne darauf eingeschränkt zu sein, Funktelefone, am Körper tragbare Geräte, Telefonhandapparate, Hörsprechgarnituren und Konferenzsysteme. Es sollte beachtet werden, dass, obwohl einige Ausführungsformen der vorliegenden Technik mit Bezug zu dem Betrieb eines Funktelefons beschrieben sind, die vorliegende Technik mittels einer beliebigen Audio-Einrichtung praktiziert werden kann.
  • Audio-Einrichtungen können Hochfrequenz-(HF-)Empfänger, Sender und Sender/Empfänger, verdrahtete und/oder drahtlose Telekommunikations- und/oder Netzwerkeinrichtungen, Verstärker, Audio- und/oder Video-Wiedergabegeräte, Codierer, Decodierer, Lautsprecher, Eingabeeinrichtungen, Ausgabeeinrichtungen, Speichereinrichtungen und Anwendereingabeeinrichtungen miteinschließen. Die Audio-Einrichtungen können Eingabeeinrichtungen, etwa Knöpfe, Schalter, Tasten, Tastaturen, rollende Eingabegeräte, Schieber, berührungsempfindliche Schirme, ein oder mehrere Mikrofone, Kreisel, Beschleunigungsmesser, Empfänger für das globale Positioniersystem (GPS) und dergleichen miteinschließen. Die Audio-Einrichtungen können Ausgabeeinrichtungen, etwa LED-Indikatoren, Video-Anzeigen, berührungsempfindliche Bildschirme, Lautsprecher und dergleichen aufweisen. In einigen Ausführungsformen schließen mobile Geräte am Körper tragbare Einrichtungen und Handgeräte, etwa verdrahtete und/oder drahtlose Fernsteuerungen, tragbare Computer, Tablet-Computer, Phablets, intelligente Telefone, persönliche digitale Assistenten, Medienwiedergabegeräte, Mobiltelefone und dergleichen mit ein.
  • In diversen Ausführungsformen können die Audio-Einrichtungen in stationärer Umgebung oder in einer tragbarer Umgebung betrieben werden. Stationäre Umgebungen umfassen geschäftliche Gebäude oder Bauten und Wohngebäude und dergleichen. Beispielsweise können die stationären Ausführungsformen Wohnzimmer, Schlafzimmer, Heimkinos, Konferenzräume, Auditorien, Geschäftsräume und dergleichen mit einschließen. Tragbare Umgebungen können bewegte Fahrzeuge, bewegte Personen oder Transporteinrichtungen und dergleichen mit einschließen.
  • Gemäß einer anschaulichen Ausführungsform umfasst ein Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals die Ermittlung verzerrter Frequenzbereiche und nicht verzerrter Frequenzbereiche in dem Audio-Signal. Die verzerrten Frequenzbereiche schließen Bereiche des Audio-Signals mit ein, in welchem eine Sprachverzerrung vorhanden ist. Das Verfahren umfasst die Ausführung einer oder mehrerer Iterationen unter Anwendung eines Modells zur Verfeinerung bzw. Aufbereitung von Vorhersagen für das Audio-Signal in den verzerrten Frequenzbereichen. Das Modell kann ausgebildet sein, das Audio-Signal zu modifizieren.
  • Es sei nun auf 1 verwiesen, in der eine Umgebung 100 gezeigt ist, in der ein Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals praktiziert werden kann. Die anschauliche Umgebung 100 kann eine Audio-Einrichtung 104 aufweisen, die ausgebildet ist, ein Audio-Signal zumindest zu empfangen. Die Audio-Einrichtung 104 ist ferner ausgebildet, das empfangene Audio-Signal zu verarbeiten und/oder aufzuzeichnen/zu speichern.
  • In einigen Ausführungsformen weist die Audio-Einrichtung 104 einen oder mehrere akustische Sensoren bzw. Schallsensoren, beispielsweise Mikrofone, auf. Im Beispiel der 1 weist die Audio-Einrichtung 104 ein erstes Mikrofon (M1) 106 und ein zweites Mikrofon 108 auf. In diversen Ausführungsformen werden die Mikrofone 106 und 108 verwendet, und sowohl ein akustisches Audio-Signal, beispielsweise eine verbale Kommunikation von einem Anwender 102, und ein Geräusch 110 zu erfassen. Die verbale Kommunikation kann Schlüsselwörter, Sprache, Gesang und dergleichen mit einschließen.
  • Das Geräusch bzw. das Rauschen 110 ist ein unerwünschtes Geräusch, das in der Umgebung 100 vorhanden ist, das beispielsweise durch Sensoren, etwa die Mikrofone 106 und 108 erfasst werden kann. In stationären Umgebungen können Quellen für Geräusche bzw. Rauschen, Straßenlärm, Umgebungslärm, Klänge von einem Mobilgerät, etwa Audio, Sprache, Einheiten, die nicht ein oder mehrere beabsichtigte Sprecher sind, und dergleichen. Das Geräusch 110 kann Hall und Echos enthalten. Mobile Umgebungen mit gewissen Arten von Geräuschen konfrontiert werden, die sich durch den Betrieb und die Umgebungen ergeben, in denen sie verwendet werden, beispielsweise Geräusche durch Straße, Schiene, Rad/Reifen, Lüftung, Scheibenwischer, Motor, Auspuff, Unterhaltungssystem, Kommunikationssystem, andere Sprecher, Wind, Regen, Wellen oder Fahrzeug, Außengeräusche und dergleichen. Akustische Signale bzw. Schallsignale, die von den Mikrofonen 106 und 108 erfasst werden, können verwendet werden, um gewünschte Sprache von dem Geräusch bzw. dem Rauschen 110 zu trennen.
  • In einigen Ausführungsformen ist die Audio-Einrichtung 104 mit einer Cloudbasierten Rechenressource 160 (auch als eine Rechen-Cloud bezeichnet) verbunden. In einigen Ausführungsformen umfasst die Rechen-Cloud 160 eine oder mehrere Server-Farmen/Ansammlungen mit einer Ansammlung an Computer-Servern und sie ist in der Nähe von Netzwerk-Verteilern und/oder Routern angeordnet. Die Rechen-Cloud 160 ist ausgebildet, einen oder mehrere Dienste über ein Netzwerk, (beispielsweise das Internet, Mobiltelefon-(Funktelefon)-Netzwerk und dergleichen) bereitzustellen In gewissen Ausführungsformen wird zumindest eine teilweise erfolgende Verarbeitung des Audio-Signals entfernt in der Rechen-Cloud 160 ausgeführt. Die Audio-Einrichtung 104 ist ausgebildet, Daten, beispielsweise ein aufgezeichnetes Audio-Signal, der Rechen-Cloud 160 zuzusenden, Rechendienste anzufordern und die Ergebnisse der Berechnung zu empfangen.
  • 2 ist eine Blockansicht einer anschaulichen Audio-Einrichtung 104. Wie gezeigt, umfasst die Audio-Einrichtung 104 einen Empfänger 200, einen Prozessor 202, das erste Mikrofon 106, das zweite Mikrofon 108, ein Audio-Verarbeitungssystem 210 und eine Ausgabeeinrichtung 206. Die Audio-Einrichtung 104 kann weitere oder andere Komponenten aufweisen, wie dies für den Betrieb der Audio-Einrichtung 104 erforderlich ist. In ähnlicher Weise kann die Audio-Einrichtung 104 weniger Komponenten aufweisen, die ähnliche oder gleichwertige Funktionen zu jenen ausführen, die in 2 dargestellt sind. Beispielweise weist die Audio-Einrichtung 104 in einigen Ausführungsformen ein einziges Mikrofon und in anderen Ausführungsformen zwei oder mehr Mikrofone auf.
  • In diversen Ausführungsformen kann der Empfänger 200 ausgebildet sein, mit einem Netzwerk, etwa dem Internet, einem Weitbereichsnetzwerk (WAN), einem lokalen Netzwerk (LAN), einem Funknetzwerk usw., zu kommunizieren, um das Audio-Signal zu empfangen. Das empfangene Audio-Signal wird dann an das Audio-Verarbeitungssystem 210 weitergeleitet.
  • In diversen Ausführungsformen weist der Prozessor 202 Hardware und/oder Software auf, die ausgebildet sind, Befehle auszuführen, die in einem Speicher (in 2 nicht dargestellt) gespeichert sind. Der anschauliche Prozessor 202 verwendet Gleitkommaoperationen, komplexe Operationen und andere Operationen einschließlich von Rauschunterdrückung bzw. Geräuschunterdrückung und Wiederherstellung verzerrter Sprachkomponenten in einem Audio-Signal.
  • Das Audio-Verarbeitungssystem 210 kann ausgebildet sein, akustische Signale aus einer Schallquelle über mindestens ein Mikrofon (beispielsweise das erste Mikrofon 106 und das zweite Mikrofon 108 in den Beispielen der 1 und 2) zu empfangen und die Komponenten des akustischen Signals zu verarbeiten. Die Mikrofone 106 und 108 sind in dem anschaulichen System durch einen Abstand voneinander getrennt, so dass die Schallwellen, die von gewissen Richtungen auf das Gerät auftreffen, unterschiedliche Energiepegel an den zwei oder mehr Mikrofonen besitzen. Nach der Aufnahme durch die Mikrofone 106 und 108 können die akustischen Signale in elektrische Signale umgewandelt werden. Diese elektrischen Signale können wiederum gemäß einigen Ausführungsformen mittels eines Analog-Digital-Wandlers (nicht gezeigt) in digitale Signale zur Verarbeitung umgewandelt werden.
  • In diversen Ausführungsformen, in denen die Mikrofone 106 und 108 ungerichtete Mikrofone sind, die mit kleinem Abstand angeordnet sind (beispielsweise im Abstand von 1–2 cm), kann eine Strahlformungstechnik eingesetzt werden, um eine nach vorne weisende und nach hinten weisende Mikrofonantwort zu simulieren. Es kann ein Pegelunterschied erhalten werden, indem das simulierte Richtungsmikrofon für Vorwärtsrichtung und Rückwärtsrichtung verwendet wird. Der Pegelunterschied kann verwendet werden, um beispielsweise im Zeit-Frequenzbereich Sprache und Rauschen voneinander zu trennen, was bei Rauschunterdrückung bzw. Geräuschunterdrückung und/oder Echo-Unterdrückung verwendet werden kann. In einigen Ausführungsformen werden einige Mikrofone hauptsächlich verwendet, um Sprache zu erfassen, und andere Mikrofone werden verwendet, um hauptsächlich Geräusche zu erfassen. In diversen Ausführungsformen werden einige Mikrofone verwendet, um sowohl Geräusche als auch Sprache zu erfassen.
  • Die Rauschunterdrückung bzw. Geräuschunterdrückung kann von dem Audio-Verarbeitungssystem 210 auf der Grundlage von Pegelunterschieden zwischen den Mikrofonen, ausgeprägten Pegelspitzen, ausgeprägten Frequenzunterschieden, Signalartklassifizierung, Sprecherkennung, usw. basieren. In diversen Ausführungsformen beinhaltet die Geräuschunterdrückung bzw. Rauschunterdrückung die Auslöschung von Geräuschen und/oder Dämpfung von Geräuschen bzw. vom Rauschen.
  • In einigen Ausführungsformen ist die Ausgabeeinrichtung 206 eine beliebige Einrichtung, die ein Audio-Ausgangssignal für einen Zuhörer (beispielsweise die Schallquelle) bereitstellt. Beispielsweise kann die Ausgabeeinrichtung 206 einen Lautsprecher, einen Klasse-D-Ausgang, einen Ohrhörer eines Kopfhörers, oder einen Handapparat in der Audio-Einrichtung 104 umfassen.
  • 3 ist eine Blockansicht, die Module eines Audio-Verarbeitungssystems 210 gemäß einer anschaulichen Ausführungsform zeigt. Das Audio-Verarbeitungssystem 210 der 3 kann weitere Details für das Audio-Verarbeitungssystem 210 der 2 bereitstellen. Das Audio-Verarbeitungssystem 210 umfasst ein Frequenzanalysemodul 310, ein Rauschunterdrückungsmodul 320, ein Sprachwiederherstellungsmodul 330 und ein Rekonstruktionsmodul 340. Die Eingangssignale können aus dem Empfänger 200 oder den Mikrofonen 106 und 108 empfangen werden.
  • In einigen Ausführungsformen ist das Audio-Verarbeitungssystem 210 ausgebildet, ein Audio-Signal zu empfangen, das ein oder mehrere Eingangs-Audio-Signale im Zeitbereich umfasst, wie dies im Beispiel in 3 dargestellt ist, die aus dem ersten Mikrofon (M1) und dem zweiten Mikrofon (M2) in 1 stammen. Die Eingangs-Audio-Signale werden dem Frequenzanalysemodul 310 zugeleitet.
  • In einigen Ausführungsformen ist das Frequenzanalysemodul 310 ausgebildet, die Eingangs-Audio-Signale zu empfangen. Das Frequenzanalysemodul 310 erzeugt Frequenzteilbänder aus den Eingangs-Audio-Signalen im Zeitbereich und gibt die Signale über die Frequenzteilbänder aus. In einigen Ausführungsformen ist das Frequenzanalysemodul 310 ausgebildet, Sprachkomponenten, beispielsweise eine Spektrumseinhüllende und Anregungen von dem empfangenen Audio-Signal zu berechnen oder zu ermitteln.
  • In diversen Ausführungsformen umfasst das Rauschunterdrückungsmodul 320 mehrere Module und empfängt das Audio-Signal aus dem Frequenzanalysemodul 310. Das Rauschunterdrückungsmodul 320 ist ausgebildet, eine Rauschreduzierung bzw. Rauschunterdrückung an dem Audio-Signal auszuführen, um ein rauschunterdrücktes Signal zu erzeugen. In einigen Ausführungsformen beinhaltet die Rauschunterdrückung eine subtraktive Rauschauslöschung oder eine multiplikative Rauschunterdrückung. Beispielsweise, ohne darauf einschränken zu wollen, werden Rauschunterdrückungsverfahren beschrieben in der US-Patentanmeldung mit der Nr. 12/215 980 mit dem Titel ”System und Verfahren zur Bereitstellung einer Rauschunterdrückung unter Verwendung von Nullverarbeitungs-Rauschsubtraktion”, die am 30. Juni 2008 eingereicht wurde, und in der US-Patentanmeldung mit der Nr. 11/699 732 ( US-Patent mit der Nr. 8 194 880 ) mit dem Titel ”System und Verfahren zur Verwendung von ungerichteten Mikrofonen für Sprachverbesserung”, die am 29. Januar 2007 eingereicht wurde, deren Inhalte hiermit in ihrer Gesamtheit für die vorhergehenden Zwecke miteingeschlossen sind. Das Rauschunterdrückungsmodul 320 liefert ein transformiertes rauschunterdrücktes bzw. geräuschunterdrücktes Signal an das Sprachwiederherstellungsmodul 330. In dem rauschunterdrückten Signal können eine oder mehrere Sprachkomponenten ausgelöscht oder übermäßig abgeschwächt sein, da die Rauschunterdrückung die Frequenz des Audio-Signals verändert.
  • In einigen Ausführungsformen empfängt das Sprachwiederherstellungsmodul 330 das rauschunterdrückte Signal aus dem Rauschunterdrückungsmodul 320. Das Sprachwiederherstellungsmodul 330 ist ausgebildet, geschädigte Sprachkomponenten in dem rauschunterdrückten Signal wiederherzustellen bzw. aufzubereiten. In einigen Ausführungsformen weist das Sprachwiederherstellungsmodul 330 ein tiefes neuronales Netzwerk (DNN) 315, das im Hinblick auf die Wiederherstellung von Sprachkomponenten in geschädigten Frequenzbereichen trainiert ist. In gewissen Ausführungsformen ist das DNN 315 als ein Auto-Encoder ausgebildet.
  • In diversen Ausführungsformen wird das DNN 315 unter Anwendung von Maschinenlernen trainiert. Das DNN 315 ist ein künstliches neuronales Netzwerk mit Vorwärtskopplung mit mehr als einer Schicht aus verborgenen Einheiten zwischen seinen Eingängen und Ausgängen. Das DNN 315 kann trainiert werden, indem Eingangseigenschaften eines oder mehrerer Blöcke aus spektralen Einhüllenden von klaren Audio-Signalen oder ungeschädigten Audio-Signalen empfangen werden. Bei dem Trainingsprozess kann das DNN 315 erlernte spektro-temporale Eigenschaften der klaren oder nicht geschädigten spektralen Einhüllenden erlernen. In diversen Ausführungsformen wird das DNN 315, das unter Verwendung der spektralen Einhüllenden von klaren oder ungeschädigten Einhüllenden trainiert ist, in dem Sprachwiederherstellungsmodul 330 verwendet, um Vorhersagen der klaren Sprachkomponenten zu verfeinern bzw. aufzubereiten, die insbesondere für die Wiederherstellung von Sprachkomponenten in den verzerrten Frequenzbereichen geeignet sind. Beispielsweise, ohne darauf beschränkt zu sein, sind anschauliche Verfahren, die tiefe neuronale Netzwerke betreffen, auch beschrieben in den US-Patentanmeldungen mit gleichem Anmelder mit der Nr. 14/614 348 mit dem Titel ”Rauschrobuste mehrsprachige Schlüsselworterkennung mit einer Architektur auf Basis eines tiefen neuronalen Netzwerks”, die am 04. Februar 2015 eingereicht wurde, und mit der Nr. 14/745 176 mit dem Titel ”Unterdrückung von Klickgeräuschen von Tasten”, die am 09. Juni 2015 eingereicht wurde, und deren gesamter Inhalt hiermit durch Bezugnahme miteingeschlossen ist.
  • Während des Betriebs kann das Sprachwiederherstellungsmodul 330 einen Wert Null den Frequenzbereichen eines rauschunterdrückten Signals zuweisen, in denen eine Sprachverzerrung vorhanden ist (verzerrte Bereiche). In dem Beispiel in 3 wird das rauschunterdrückte Signal ferner dem Eingang des DNN 315 zugeleitet, um ein Ausgangssignal zu empfangen. Das Ausgangssignal enthält die anfänglichen Vorhersagen für die verzerrten Bereiche, die gegebenenfalls nicht sehr genau sind.
  • In einigen Ausführungsformen wird zur Verbesserung der anfänglichen Vorhersagen ein iterativer Rückkopplungsmechanismus angewendet. Das Ausgangssignal 350 wird optional in den Eingang des DNN 315 zurückgespeist, um eine nächste Iteration des Ausgangssignals zu empfangen, wobei das anfängliche rauschunterdrückte Signal in nicht-verzerrten Bereichen des Ausgangssignal beibehalten wird. Um ein divergentes Verhalten des Systems zu vermeiden, kann das Ausgangssignal in den unverzerrten Gebieten mit dem Eingangssignal nach jeder Iteration verglichen werden, und es können eine obere und eine untere Grenze auf die abgeschätzte Energie in unverzerrten Frequenzbereichen auf der Grundlage von Energien in dem Eingangs-Audio-Signal angewendet werden. In diversen Ausführungsformen werden mehrere Iterationen angewendet, um die Genauigkeit der Vorhersagen zu verbessern, bis ein Grad an Genauigkeit erfüllt wird, der für eine spezielle Anwendung gewünscht ist, beispielsweise keine weiteren Iterationen in Reaktion auf die Diskrepanzen des Audio-Signals in nicht-verzerrten Bereichen vornehmen, die vordefinierte Kriterien für die spezielle Anwendung erfüllen.
  • In einigen Ausführungsformen ist das Rekonstruktionsmodul 340 ausgebildet, ein rauschunterdrücktes Signal mit wiederhergestellten Sprachkomponenten aus dem Sprachwiederherstellungsmodul 330 zu empfangen und die wiederhergestellten Sprachkomponenten zu einem einzigen Audio-Signal aufzubauen.
  • 4 ist ein Flussdiagramm, das ein Verfahren 400 zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals gemäß einer anschaulichen Ausführungsform zeigt. Das Verfahren 400 kann unter Anwendung des Sprachwiederherstellungsmoduls 330 ausgeführt werden.
  • Das Verfahren kann im Block 402 beginnen, wobei verzerrte Frequenzbereiche und nicht-verzerrte Frequenzbereiche in dem Audio-Signal ermittelt werden. Die verzerrten Sprachbereiche sind Bereiche, in denen eine Sprachverzerrung aufgrund von beispielsweise der Rauschunterdrückung vorhanden ist.
  • Im Block 404 beinhaltet das Verfahren 400 die Ausführung einer oder mehrerer Iterationen unter Anwendung eines Modells, um Vorhersagen des Audio-Signals in verzerrten Frequenzbereiche aufzubereiten. Das Modell kann ausgebildet sein, das Audio-Signal zu modifizieren. In einigen Ausführungsformen umfasst das Modell ein tiefes neuronales Netzwerk, das mit spektralen Einhüllenden von klaren oder ungeschädigten Signalen trainiert wurde. In gewissen Ausführungsformen werden die Vorhersagen des Audio-Signals in verzerrten Frequenzbereichen vor der ersten Iteration auf Null gesetzt. Vor jeder der Iterationen wird das Audio-Signal in nicht-verzerrten Frequenzbereichen mit Werten des Audio-Signals vor der ersten Iteration wiederhergestellt.
  • Im Block 406 beinhaltet das Verfahren 400 das Vergleichen des Audio-Signals in den nicht-verzerrten Bereichen vor und nach jeder Iteration, um Diskrepanzen zu ermitteln.
  • Im Block 408 werden die Iterationen beendet, wenn die Diskrepanzen vordefinierte Kriterien erfüllen.
  • Einige anschauliche Ausführungsformen schließen Sprachdynamik mit ein. Für die Sprachdynamik kann das Audio-Verarbeitungssystem 210 mehrere aufeinanderfolgende Audio-Signal-Blöcke erhalten und kann trainiert werden, die gleiche Anzahl an Blöcken auszugeben. Die Berücksichtigung von Sprachdynamik in einigen Ausführungsformen hat die Wirkung, dass ein zeitlich glattes Verhalten erzwungen wird und eine Wiederherstellung längerer Verzerrungsbereiche möglich ist.
  • Diverse Ausführungsformen werden verwendet, um Verbesserungen für eine Anzahl von Anwendungen, etwa Rauschunterdrückung, Bandbreitenerweiterung, Sprachcodierung und Sprachsynthese, bereitzustellen. Ferner sind die Verfahren und Systeme für eine Sensorvereinigung geeignet, so dass in einigen Ausführungsformen die Verfahren und Systeme so erweitert werden können, dass sie andere nicht-akustische Sensorinformation miteinschließen. Anschauliche Verfahren, die die Vereinigung von Sensoren betrifft, sind auch beschrieben in den US-Patentanmeldungen mit dem gleichen Anmelder mit der Nr. 14/548 207 mit dem Titel ”Verfahren zur Modellierung von Benutzerbesitz einer Mobileinrichtung für eine Benutzerauthentifizierungsplattform”, die am 19. November 2014 eingereicht wurde, und der Nr. 14/331 205 mit dem Titel ”Auswahl von Systemparametern auf der Grundlage einer nicht-akustischen Sensorinformation”, die am 14. Juli 2014 eingereicht wurde, und die hiermit vollständig durch Bezugnahme miteingeschlossen sind.
  • Diverse Verfahren zur Widerherstellung von rauschunterdrückter Sprache sind auch beschrieben in der US-Patentanmeldung vom gleichen Anmelder mit der Nr. 13/751 907 ( US-Patent Nr. 8 615 394 ) mit dem Titel ”Wiederherstellung von rauschunterdrückter Sprache”, die am 28. Januar 2013 eingereicht wurde und in ihrer Gesamtheit hierin durch Bezugnahme miteingeschlossen ist.
  • 5 zeigt ein anschauliches Computersystem 500, das verwendbar ist, um einige Ausführungsformen der vorliegenden Erfindung einzurichten. Das Computersystem 500 der 5 kann mit Rechensystemen, Netzwerken, Servern oder Kombinationen davon eingerichtet werden. Das Computersystem 500 der 5 weist eine oder mehrere Prozessoreinheiten 510 und einen Hauptspeicher 520 auf. Der Hauptspeicher 520 speichert in einem Teil Befehle und Daten zur Ausführung durch die Prozessoreinheiten 510. In diesem Beispiel speichert beim Betrieb der Hauptspeicher 520 den ausführbaren Code. Das Computersystem 500 der 5 umfasst ferner einen Massendatenspeicher 530, eine tragbare Speichereinrichtung 540, Ausgabeeinrichtungen 550, Anwendereingabeeinrichtungen 560, ein Grafikanzeigesystem 570 und Peripheriegeräte 580.
  • Die in 5 gezeigten Komponenten sind so dargestellt, dass sie über einen einzigen Bus 590 miteinander verbunden sind. Die Komponenten können durch eine oder mehrere Datentransporteinrichtungen verbunden sein. Die Prozessoreinheit 510 und der Hauptspeicher 520 können über einen lokalen Mikroprozessorbus verbunden sein, und der Massendatenspeicher 530, das eine oder die mehrere Periphergeräte 580, die tragbare Speichereinrichtung 540 und das Grafikanzeigesystem 570 können über einen oder mehrere Eingabe/Ausgabe-(I/O-)Busse verbunden sein.
  • Der Massendatenspeicher 530, der mittels eines Laufwerks mit Magnetplatte, durch ein Halbleiterlaufwerk oder ein Laufwerk mit optischer Diskette eingerichtet werden kann, ist eine nicht-flüchtige Speichereinrichtung zur Speicherung von Daten und Befehlen zur Verwendung durch die Prozessoreinheit 510. Der Massendatenspeicher 530 speichert die Systemsoftware zur Implementierung von Ausführungsformen der vorliegenden Offenbarung, um diese Software in den Hauptspeicher 520 zu laden.
  • Die tragbare Speichereinrichtung 540 arbeitet in Verbindung mit einem tragbaren nicht-flüchtigen Speichermedium, etwa einem Flash-Laufwerk, einem Diskettenlaufwerk, einer Kompaktdiskette, einer digitalen Video-Diskette oder einer Speichereinrichtung für den universellen seriellen Bus (USB), um Daten einzugeben und auszugeben und eine Codierung zu und aus dem Computersystem 500 der 5 auszuführen. Die Systemsoftware zur Implementierung von Ausführungsformen der vorliegenden Offenbarung ist auf einem derartigen tragbaren Medium gespeichert und wird über die tragbare Speichereinrichtung 540 in das Computersystem 500 eingespeist.
  • Die Anwendereingabeeinrichtungen 560 können einen Teil einer Anwenderschnittstelle bzw. Benutzeroberfläche bereitstellen. Die Anwendereingabeeinrichtungen 560 können ein oder mehrere Mikrofone, eine alphanumerische Tastatur, etwa eine Tastatur, zur Eingabe von alphanumerischen Zeichen und anderer Information oder eine Zeigereinrichtung, etwa eine Maus, einen rollbaren Zeiger, einen Stift oder Zeiger-Richtungstasten miteinschließen. Die Anwendereingabeeinrichtungen 560 können ferner auch einen berührungsempfindlichen Bildschirm miteinschließen. Des Weiteren umfasst das Computersystem 500, wie es in 5 gezeigt ist, die Ausgabeeinrichtungen 550. Zu geeigneten Ausgabeeinrichtungen 550 gehören Lautsprecher, Drucker, Netzwerkschnittstellen und Bildschirme.
  • Das Grafikanzeigesystem 570 umfasst eine Flüssigkristallanzeige (LCD) oder eine andere geeignete Anzeigeeinrichtung. Das Grafikanzeigesystem 570 ist ausgebildet, Textinformation oder Grafikinformation zu empfangen und die Information für die Ausgabe auf der Anzeigeeinrichtung zu verarbeiten.
  • Die peripheren Geräte 580 können eine beliebige Art von computergestützter Einrichtung sein, um dem Computersystem 500 weitere Funktionen hinzuzufügen.
  • Die Komponenten, die in dem Computersystem 500 der 5 bereitgestellt sind, sind solche, die typischerweise in Computersystemen vorgefunden werden, die zur Verwendung in Verbindung mit Ausführungsformen der vorliegenden Offenbarung geeignet sind und eine breite Kategorie derartiger Computerkomponenten repräsentieren sollen, die im Stand der Technik gut bekannt sind. Daher kann das Computersystem 500 der 5 ein Personalcomputer (PC), ein Computersystem als Handgerät, ein Telefon, ein mobiles Computersystem, ein Arbeitsplatzrechner, ein Tablet, ein Phablet, ein Mobiltelefon, ein Server, ein Minicomputer, ein Großrechner, ein am Körper tragbares Gerät oder ein anderes Computersystem sein. Der Computer kann ferner unterschiedliche Buskonfigurationen, vernetzte Plattformen, Plattformen mit mehreren Prozessoren und dergleichen miteinschließen. Es können diverse Betriebssysteme verwendet werden, einschließlich von UNIX, LINUX, WINDOWS, MAC OS, PALM OS, QNX ANDROID, IOS, CHROME, TIZEN und andere geeignete Betriebssysteme.
  • Die Verarbeitung für diverse Ausführungsformen kann in Software eingerichtet werden, die Cloud-basiert bzw. Netzwerk-basiert ist. In einigen Ausführungsformen ist das Computersystem 500 als eine Cloud-basierte Rechenumgebung eingerichtet, etwa als eine virtuelle Maschine, die innerhalb einer Rechen-Cloud arbeitet. In anderen Ausführungsformen kann das Computersystem 500 selbst eine Cloud-basierte Rechenumgebung enthalten, wobei die Funktionen des Computersystems 500 in verteilter Weise ausgeführt werden. Daher kann das Computersystem 500, wenn es als eine Rechen-Cloud ausgebildet ist, mehrere Recheneinrichtungen in diversen Formen aufweisen, wie dies nachfolgend detaillierter beschrieben ist.
  • Im Allgemeinen ist eine Cloud-basierte Rechenumgebung eine Ressource, die typischerweise die Rechenleistung einer großen Gruppe von Prozessoren (etwa innerhalb von Netz-Servern) kombiniert und/oder die Speicherkapazität einer großen Gruppe von Computerspeichern oder Speichereinrichtungen kombiniert. Systeme, die Cloud-basierte Ressourcen bereitstellen, können exklusiv von ihren Besitzern verwendet werden oder derartige Systeme können für externe Anwender zugänglich sein, die Anwendungen innerhalb der Recheninfrastruktur verteilen, um die Vorteile großer Rechenressourcen oder Speicherressourcen zu erhalten.
  • Die Cloud kann beispielsweise durch ein Netzwerk von Netz-Servern gebildet werden, die mehrere Recheneinrichtungen, etwa das Computersystem 500, umfassen, wobei jeder Server (oder zumindest mehrere davon) Prozessorressourcen und/oder Speicherressourcen bereitstellt. Diese Server können die Auslastung, die durch mehrere Anwender (beispielsweise Kunden der Cloud-Ressource oder andere Anwender) auftritt, verwalten. Typischerweise trägt jeder Anwender zu Anforderungen im Hinblick auf die Arbeitsauslastung für die Cloud bei, die in Echtzeit, manchmal dramatisch, variieren. Die Art und das Ausmaß dieser Schwankungen hängt typischerweise von der Art der geschäftlichen Aktivität des Anwenders ab.
  • Die vorliegende Technik ist zuvor mit Verweis auf anschauliche Ausführungsformen beschrieben. Es sollen auch andere Variationen der anschaulichen Ausführungsformen durch die vorliegende Offenbarung abgedeckt sein.

Claims (20)

  1. Ein Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals, wobei das Verfahren umfasst: Ermitteln verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal, wobei die verzerrten Frequenzbereiche Bereiche des Audio-Signals umfassen, in denen Sprachverzerrung vorhanden ist; und Ausführen einer oder mehrerer Iterationen unter Anwendung eines Modells zur Aufbereitung von Vorhersagen des Audio-Signals in den verzerrten Frequenzbereichen, wobei das Modell ausgebildet ist, das Audio-Signal zu modifizieren.
  2. Das Verfahren nach Anspruch 1, wobei das Audio-Signal ein rauschunterdrücktes Signal enthält, das durch eine Geräuschreduzierung und/oder eine Geräuschauslöschung in einem akustischen Signal mit Sprache erhalten wird.
  3. Das Verfahren nach Anspruch 2, wobei das akustische Signal in den verzerrten Frequenzbereichen abgeschwächt oder ausgelöscht wird.
  4. Das Verfahren nach Anspruch 1, wobei das Modell ein tiefes neuronales Netzwerk umfasst, das unter Anwendung spektraler Einhüllender von klaren Audio-Signalen oder unbeschädigten Audio-Signalen trainiert ist.
  5. Das Verfahren nach Anspruch 1, wobei die aufbereiteten Vorhersagen zur Wiederherstellung von Sprachkomponenten in den verzerrten Frequenzbereichen verwendet werden.
  6. Das Verfahren nach Anspruch 1, wobei das Audio-Signal in den verzerrten Frequenzbereichen vor der ersten der einen oder mehreren Iterationen auf Null gesetzt wird.
  7. Das Verfahren nach Anspruch 1, wobei vor der Ausführung jeder der einen oder mehreren Iterationen das Audio-Signal in den nicht-verzerrten Frequenzbereichen mit Werten des Audio-Signals vor der ersten der einen oder mehreren Iterationen wiederhergestellt wird.
  8. Das Verfahren nach Anspruch 1, das ferner nach Ausführung jeder der einen oder mehreren Iterationen umfasst: Vergleichen des Audio-Signals in den nicht-verzerrten Frequenzbereichen vor und nach der Iteration, um Diskrepanzen zu ermitteln.
  9. Das Verfahren nach Anspruch 8, das ferner Beenden der einen oder mehreren Iterationen umfasst, wenn die Diskrepanzen vorbestimmte Kriterien erfüllen.
  10. Das Verfahren nach Anspruch 9, wobei die vorbestimmten Kriterien durch eine untere und obere Grenze von Energien des Audio-Signals festgelegt sind.
  11. Ein System zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals, wobei das System umfasst: mindestens einen Prozessor; und einen Speicher, der kommunizierend mit dem mindestens einem Prozessor verbunden ist, wobei der Speicher Befehle speichert, die bei Ausführung durch den mindestens einen Prozessor ein Verfahren ausführen, mit: Ermitteln verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal, wobei die verzerrten Frequenzbereiche Bereiche des Audio-Signals umfassen, in denen Sprachverzerrung vorhanden ist; und Ausführen einer oder mehrerer Iterationen unter Anwendung eines Modells zur Aufbereitung von Vorhersagen des Audio-Signals in den verzerrten Frequenzbereichen, wobei das Modell ausgebildet ist, das Audio-Signal zu modifizieren.
  12. Das System nach Anspruch 11, wobei das Audio-Signal ein rauschunterdrücktes Audio-Signal umfasst, das durch Geräuschreduzierung und/oder Geräuschauslöschung eines akustischen mit Sprache erhalten wird.
  13. Das System nach Anspruch 12, wobei das akustische Signal in den verzerrten Frequenzbereichen abgeschwächt oder ausgelöscht ist.
  14. Das System nach Anspruch 11, wobei das Modell ein tiefes neuronales Netzwerk umfasst.
  15. Das System nach Anspruch 14, wobei das tiefe neuronale Netzwerk unter Anwendung spektraler Einhüllender von klaren Audio-Signalen oder unbeschädigten Audio-Signalen trainiert ist.
  16. Das System nach Anspruch 15, wobei das Audio-Signal in den verzerrten Frequenzbereichen vor der ersten der einen oder mehreren Iterationen auf Null gesetzt ist.
  17. Das System nach Anspruch 11, wobei vor Ausführung jeder der einen oder mehreren Iterationen das Audio-Signal in den nicht-verzerrten Frequenzbereichen mit Werten vor der ersten der einen oder mehreren Iterationen wiederhergestellt ist.
  18. Das System nach Anspruch 11, das ferner nach Ausführung jeder der einen oder mehreren Iterationen einen Vergleich des Audio-Signals in den nicht-verzerrten Gebieten vor und nach der Iteration umfasst, um Diskrepanzen zu ermitteln.
  19. Das System nach Anspruch 18, das ferner das Beenden der einen oder mehreren Iterationen umfasst, wenn die Diskrepanzen vorbestimmte Kriterien erfüllen, wobei die vorbestimmten Kriterien durch eine untere und eine obere Grenze von Energien des Audio-Signals festgelegt sind.
  20. Ein nicht-flüchtiges computerlesbares Speichermedium mit darin enthaltenen Befehlen, die bei Ausführung durch mindestens einen Prozessor Schritte eines Verfahrens ausführen, wobei das Verfahren umfasst: Ermitteln verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal, wobei die verzerrten Frequenzbereiche Bereiche des Audio-Signals umfassen, in denen Sprachverzerrung vorhanden ist; und Ausführen einer oder mehrerer Iterationen unter Anwendung eines Modells zur Aufbereitung von Vorhersagen des Audio-Signals in den verzerrten Frequenzbereichen, wobei das Modell ausgebildet ist, das Audio-Signal zu modifizieren.
DE112015004185.0T 2014-09-12 2015-09-11 Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten Withdrawn DE112015004185T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462049988P 2014-09-12 2014-09-12
US62/049,988 2014-09-12
PCT/US2015/049816 WO2016040885A1 (en) 2014-09-12 2015-09-11 Systems and methods for restoration of speech components

Publications (1)

Publication Number Publication Date
DE112015004185T5 true DE112015004185T5 (de) 2017-06-01

Family

ID=55455344

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112015004185.0T Withdrawn DE112015004185T5 (de) 2014-09-12 2015-09-11 Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten

Country Status (4)

Country Link
US (1) US9978388B2 (de)
CN (1) CN107112025A (de)
DE (1) DE112015004185T5 (de)
WO (1) WO2016040885A1 (de)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9978388B2 (en) * 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US10311219B2 (en) * 2016-06-07 2019-06-04 Vocalzoom Systems Ltd. Device, system, and method of user authentication utilizing an optical microphone
US10141005B2 (en) 2016-06-10 2018-11-27 Apple Inc. Noise detection and removal systems, and related methods
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
KR20180111271A (ko) 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
KR20190037844A (ko) * 2017-09-29 2019-04-08 엘지전자 주식회사 이동 단말기
EP3474280B1 (de) 2017-10-19 2021-07-07 Goodix Technology (HK) Company Limited Signalprozessor zur sprachsignalverstärkung
EP3667663A4 (de) * 2017-10-24 2020-09-02 Samsung Electronics Co., Ltd. Audiorekonstruktionsverfahren und -vorrichtung, die maschinelles lernen verwenden
US11416742B2 (en) 2017-11-24 2022-08-16 Electronics And Telecommunications Research Institute Audio signal encoding method and apparatus and audio signal decoding method and apparatus using psychoacoustic-based weighted error function
WO2019133765A1 (en) 2017-12-28 2019-07-04 Knowles Electronics, Llc Direction of arrival estimation for multiple audio content streams
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
US10672414B2 (en) * 2018-04-13 2020-06-02 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
US10650806B2 (en) * 2018-04-23 2020-05-12 Cerence Operating Company System and method for discriminative training of regression deep neural networks
CN109545227B (zh) * 2018-04-28 2023-05-09 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及系统
CN109147804A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 一种基于深度学习的音质特性处理方法及系统
CN109147805B (zh) * 2018-06-05 2021-03-02 安克创新科技股份有限公司 基于深度学习的音频音质增强
AU2019287569A1 (en) 2018-06-14 2021-02-04 Pindrop Security, Inc. Deep neural network based speech enhancement
US11341983B2 (en) 2018-09-17 2022-05-24 Honeywell International Inc. System and method for audio noise reduction
CN112820315B (zh) * 2020-07-13 2023-01-06 腾讯科技(深圳)有限公司 音频信号处理方法、装置、计算机设备及存储介质
CN112289343B (zh) * 2020-10-28 2024-03-19 腾讯音乐娱乐科技(深圳)有限公司 音频修复方法、装置及电子设备和计算机可读存储介质
CN113539291A (zh) * 2021-07-09 2021-10-22 北京声智科技有限公司 音频信号的降噪方法、装置、电子设备及存储介质
US11682411B2 (en) * 2021-08-31 2023-06-20 Spotify Ab Wind noise suppresor

Family Cites Families (361)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4025724A (en) 1975-08-12 1977-05-24 Westinghouse Electric Corporation Noise cancellation apparatus
US4137510A (en) 1976-01-22 1979-01-30 Victor Company Of Japan, Ltd. Frequency band dividing filter
WO1984000634A1 (en) 1982-08-04 1984-02-16 Henry G Kellett Apparatus and method for articulatory speech recognition
US4802227A (en) 1987-04-03 1989-01-31 American Telephone And Telegraph Company Noise reduction processing arrangement for microphone arrays
US5115404A (en) 1987-12-23 1992-05-19 Tektronix, Inc. Digital storage oscilloscope with indication of aliased display
US4969203A (en) 1988-01-25 1990-11-06 North American Philips Corporation Multiplicative sieve signal processing
US5182557A (en) 1989-09-20 1993-01-26 Semborg Recrob, Corp. Motorized joystick
US5204906A (en) 1990-02-13 1993-04-20 Matsushita Electric Industrial Co., Ltd. Voice signal processing device
JPH0454100A (ja) 1990-06-22 1992-02-21 Clarion Co Ltd 音声信号補償回路
WO1992005538A1 (en) 1990-09-14 1992-04-02 Chris Todter Noise cancelling systems
GB9107011D0 (en) 1991-04-04 1991-05-22 Gerzon Michael A Illusory sound distance control method
US5224170A (en) 1991-04-15 1993-06-29 Hewlett-Packard Company Time domain compensation for transducer mismatch
US5440751A (en) 1991-06-21 1995-08-08 Compaq Computer Corp. Burst data transfer to single cycle data transfer conversion and strobe signal conversion
CA2080608A1 (en) 1992-01-02 1993-07-03 Nader Amini Bus control logic for computer system having dual bus architecture
EP0559348A3 (de) 1992-03-02 1993-11-03 AT&T Corp. Rateurregelschleifenprozessor für einen wahrnehmungsgebundenen Koder/Dekoder
JPH05300419A (ja) 1992-04-16 1993-11-12 Sanyo Electric Co Ltd ビデオカメラ
US5400409A (en) 1992-12-23 1995-03-21 Daimler-Benz Ag Noise-reduction method for noise-affected voice channels
US5524056A (en) 1993-04-13 1996-06-04 Etymotic Research, Inc. Hearing aid having plural microphones and a microphone switching system
DE4316297C1 (de) 1993-05-14 1994-04-07 Fraunhofer Ges Forschung Frequenzanalyseverfahren
JPH07336793A (ja) 1994-06-09 1995-12-22 Matsushita Electric Ind Co Ltd ビデオカメラ用マイクロホン
US5978567A (en) 1994-07-27 1999-11-02 Instant Video Technologies Inc. System for distribution of interactive multimedia and linear programs by enabling program webs which include control scripts to define presentation by client transceiver
US5598505A (en) 1994-09-30 1997-01-28 Apple Computer, Inc. Cepstral correction vector quantizer for speech recognition
GB9501734D0 (en) 1995-01-30 1995-03-22 Neopost Ltd franking apparatus and printing means therefor
US5682463A (en) 1995-02-06 1997-10-28 Lucent Technologies Inc. Perceptual audio compression based on loudness uncertainty
JP3307138B2 (ja) 1995-02-27 2002-07-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
EP0732687B2 (de) * 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Vorrichtung zur Erweiterung der Sprachbandbreite
US6263307B1 (en) 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
US5625697A (en) 1995-05-08 1997-04-29 Lucent Technologies Inc. Microphone selection process for use in a multiple microphone voice actuated switching system
US5774837A (en) 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
FI99062C (fi) 1995-10-05 1997-09-25 Nokia Mobile Phones Ltd Puhesignaalin taajuuskorjaus matkapuhelimessa
US5819215A (en) 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5734713A (en) 1996-01-30 1998-03-31 Jabra Corporation Method and system for remote telephone calibration
US6035177A (en) 1996-02-26 2000-03-07 Donald W. Moses Simultaneous transmission of ancillary and audio signals by means of perceptual coding
JP3325770B2 (ja) 1996-04-26 2002-09-17 三菱電機株式会社 ノイズ低減回路及びノイズ低減装置及びノイズ低減方法
US5715319A (en) 1996-05-30 1998-02-03 Picturetel Corporation Method and apparatus for steerable and endfire superdirective microphone arrays with reduced analog-to-digital converter and computational requirements
US5806025A (en) 1996-08-07 1998-09-08 U S West, Inc. Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank
US5757933A (en) 1996-12-11 1998-05-26 Micro Ear Technology, Inc. In-the-ear hearing aid with directional microphone system
JP2930101B2 (ja) 1997-01-29 1999-08-03 日本電気株式会社 雑音消去装置
US6104993A (en) 1997-02-26 2000-08-15 Motorola, Inc. Apparatus and method for rate determination in a communication system
FI114247B (fi) 1997-04-11 2004-09-15 Nokia Corp Menetelmä ja laite puheen tunnistamiseksi
US6281749B1 (en) 1997-06-17 2001-08-28 Srs Labs, Inc. Sound enhancement system
US6084916A (en) 1997-07-14 2000-07-04 Vlsi Technology, Inc. Receiver sample rate frequency adjustment for sample rate conversion between asynchronous digital systems
US5991385A (en) 1997-07-16 1999-11-23 International Business Machines Corporation Enhanced audio teleconferencing with sound field effect
US6144937A (en) 1997-07-23 2000-11-07 Texas Instruments Incorporated Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information
KR19990015748A (ko) 1997-08-09 1999-03-05 구자홍 전자우편
FR2768547B1 (fr) 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
US6202047B1 (en) 1998-03-30 2001-03-13 At&T Corp. Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients
US7245710B1 (en) 1998-04-08 2007-07-17 British Telecommunications Public Limited Company Teleconferencing system
US6684199B1 (en) 1998-05-20 2004-01-27 Recording Industry Association Of America Method for minimizing pirating and/or unauthorized copying and/or unauthorized access of/to data on/from data media including compact discs and digital versatile discs, and system and data media for same
US6421388B1 (en) 1998-05-27 2002-07-16 3Com Corporation Method and apparatus for determining PCM code translations
US6717991B1 (en) 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6041130A (en) 1998-06-23 2000-03-21 Mci Communications Corporation Headset with multiple connections
US20040066940A1 (en) 2002-10-03 2004-04-08 Silentium Ltd. Method and system for inhibiting noise produced by one or more sources of undesired sound from pickup by a speech recognition unit
US6240386B1 (en) 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6381469B1 (en) 1998-10-02 2002-04-30 Nokia Corporation Frequency equalizer, and associated method, for a radio telephone
US6768979B1 (en) 1998-10-22 2004-07-27 Sony Corporation Apparatus and method for noise attenuation in a speech recognition system
US6188769B1 (en) 1998-11-13 2001-02-13 Creative Technology Ltd. Environmental reverberation processor
US6504926B1 (en) 1998-12-15 2003-01-07 Mediaring.Com Ltd. User control system for internet phone quality
US6873837B1 (en) 1999-02-03 2005-03-29 Matsushita Electric Industrial Co., Ltd. Emergency reporting system and terminal apparatus therein
US6496795B1 (en) 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
US7423983B1 (en) 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
US6219408B1 (en) 1999-05-28 2001-04-17 Paul Kurth Apparatus and method for simultaneously transmitting biomedical data and human voice over conventional telephone lines
US6490556B2 (en) 1999-05-28 2002-12-03 Intel Corporation Audio classifier for half duplex communication
US7035666B2 (en) 1999-06-09 2006-04-25 Shimon Silberfening Combination cellular telephone, sound storage device, and email communication device
US6381284B1 (en) 1999-06-14 2002-04-30 T. Bogomolny Method of and devices for telecommunications
US6226616B1 (en) 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
EP1081685A3 (de) 1999-09-01 2002-04-24 TRW Inc. Rauschverminderungsverfahren in einem Sprachsignal mit einem einzigen Mikrophon
US6480610B1 (en) 1999-09-21 2002-11-12 Sonic Innovations, Inc. Subband acoustic feedback cancellation in hearing aids
US7054809B1 (en) 1999-09-22 2006-05-30 Mindspeed Technologies, Inc. Rate selection method for selectable mode vocoder
US6636829B1 (en) 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
FI116643B (fi) 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US7058572B1 (en) 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
JP2001318694A (ja) 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
US6377637B1 (en) 2000-07-12 2002-04-23 Andrea Electronics Corporation Sub-band exponential smoothing noise canceling system
US8019091B2 (en) 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US20030179888A1 (en) 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
US20020041678A1 (en) 2000-08-18 2002-04-11 Filiz Basburg-Ertem Method and apparatus for integrated echo cancellation and noise reduction for fixed subscriber terminals
US6862567B1 (en) 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
JP2002149200A (ja) 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
DE10045197C1 (de) 2000-09-13 2002-03-07 Siemens Audiologische Technik Verfahren zum Betrieb eines Hörhilfegerätes oder Hörgerätessystems sowie Hörhilfegerät oder Hörgerätesystem
US6520673B2 (en) 2000-12-08 2003-02-18 Msp Corporation Mixing devices for sample recovery from a USP induction port or a pre-separator
US6907045B1 (en) 2000-11-17 2005-06-14 Nortel Networks Limited Method and apparatus for data-path conversion comprising PCM bit robbing signalling
DK1928109T3 (da) 2000-11-30 2012-08-27 Intrasonics Sarl Mobiltelefon til indsamling af publikumsundersøgelsesdata
US7472059B2 (en) 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US20020097884A1 (en) 2001-01-25 2002-07-25 Cairns Douglas A. Variable noise reduction algorithm based on vehicle conditions
US6754623B2 (en) 2001-01-31 2004-06-22 International Business Machines Corporation Methods and apparatus for ambient noise removal in speech recognition
US7617099B2 (en) 2001-02-12 2009-11-10 FortMedia Inc. Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile
EP1239455A3 (de) 2001-03-09 2004-01-21 Alcatel Verfahren und Anordnung zur Durchführung einer an die Übertragungsfunktion menschilcher Sinnesorgane angepassten Fourier Transformation sowie darauf basierende Vorrichtungen zur Geräuschreduktion und Spracherkennung
DE60142800D1 (de) 2001-03-28 2010-09-23 Mitsubishi Electric Corp Rauschunterdrücker
SE0101175D0 (sv) 2001-04-02 2001-04-02 Coding Technologies Sweden Ab Aliasing reduction using complex-exponential-modulated filterbanks
JP3955265B2 (ja) 2001-04-18 2007-08-08 ヴェーデクス・アクティーセルスカプ 指向性コントローラおよび補聴器を制御する方法
US20020160751A1 (en) 2001-04-26 2002-10-31 Yingju Sun Mobile devices with integrated voice recording mechanism
US8934382B2 (en) 2001-05-10 2015-01-13 Polycom, Inc. Conference endpoint controlling functions of a remote device
US8452023B2 (en) 2007-05-25 2013-05-28 Aliphcom Wind suppression/replacement component for use with electronic systems
US6493668B1 (en) 2001-06-15 2002-12-10 Yigal Brandman Speech feature extraction system
AUPR647501A0 (en) 2001-07-19 2001-08-09 Vast Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
GB0121206D0 (en) 2001-08-31 2001-10-24 Mitel Knowledge Corp System and method of indicating and controlling sound pickup direction and location in a teleconferencing system
GB0121308D0 (en) 2001-09-03 2001-10-24 Thomas Swan & Company Ltd Optical processing
US7574474B2 (en) 2001-09-14 2009-08-11 Xerox Corporation System and method for sharing and controlling multiple audio and video streams
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6707921B2 (en) 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
WO2003047115A1 (en) 2001-11-30 2003-06-05 Telefonaktiebolaget Lm Ericsson (Publ) Method for replacing corrupted audio data
US7096037B2 (en) 2002-01-29 2006-08-22 Palm, Inc. Videoconferencing bandwidth management for a handheld computer system and method
US7171008B2 (en) 2002-02-05 2007-01-30 Mh Acoustics, Llc Reducing noise in audio systems
US8098844B2 (en) 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
US20050228518A1 (en) 2002-02-13 2005-10-13 Applied Neurosystems Corporation Filter set for frequency analysis
US7158572B2 (en) 2002-02-14 2007-01-02 Tellabs Operations, Inc. Audio enhancement communication techniques
JP4195267B2 (ja) 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
US6978010B1 (en) 2002-03-21 2005-12-20 Bellsouth Intellectual Property Corp. Ambient noise cancellation for voice communication device
WO2003084103A1 (en) 2002-03-22 2003-10-09 Georgia Tech Research Corporation Analog audio enhancement system using a noise suppression algorithm
US7174292B2 (en) * 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US20030228019A1 (en) 2002-06-11 2003-12-11 Elbit Systems Ltd. Method and system for reducing noise
JP2004023481A (ja) 2002-06-17 2004-01-22 Alpine Electronics Inc 音響信号処理装置及び方法並びにオーディオ装置
WO2004008437A2 (en) 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
BR0311601A (pt) 2002-07-19 2005-02-22 Nec Corp Aparelho e método decodificador de áudio e programa para habilitar computador
JP4227772B2 (ja) 2002-07-19 2009-02-18 日本電気株式会社 オーディオ復号装置と復号方法およびプログラム
US7783061B2 (en) 2003-08-27 2010-08-24 Sony Computer Entertainment Inc. Methods and apparatus for the targeted sound detection
US7760248B2 (en) 2002-07-27 2010-07-20 Sony Computer Entertainment Inc. Selective sound source listening in conjunction with computer interactive processing
US8019121B2 (en) 2002-07-27 2011-09-13 Sony Computer Entertainment Inc. Method and system for processing intensity from input devices for interfacing with a computer program
US7283956B2 (en) 2002-09-18 2007-10-16 Motorola, Inc. Noise suppression
US7657427B2 (en) 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7630409B2 (en) 2002-10-21 2009-12-08 Lsi Corporation Method and apparatus for improved play-out packet control algorithm
US20040083110A1 (en) 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
US7970606B2 (en) 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
CN1735927B (zh) 2003-01-09 2011-08-31 爱移通全球有限公司 用于高质量语音编码转换的方法和装置
JP4247002B2 (ja) 2003-01-22 2009-04-02 富士通株式会社 マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置
KR100503479B1 (ko) 2003-01-24 2005-07-28 삼성전자주식회사 휴대용단말기의 크레들 및 이를 이용한 휴대용단말기고정방법
EP1443498B1 (de) 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Rauschreduzierung und audiovisuelle Sprachaktivitätsdetektion
DE10305820B4 (de) 2003-02-12 2006-06-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Bestimmen einer Wiedergabeposition
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
GB2398913B (en) 2003-02-27 2005-08-17 Motorola Inc Noise estimation in speech recognition
FR2851879A1 (fr) 2003-02-27 2004-09-03 France Telecom Procede de traitement de donnees sonores compressees, pour spatialisation.
US7090431B2 (en) 2003-03-19 2006-08-15 Cosgrove Patrick J Marine vessel lifting system with variable level detection
US8412526B2 (en) 2003-04-01 2013-04-02 Nuance Communications, Inc. Restoration of high-order Mel frequency cepstral coefficients
NO318096B1 (no) 2003-05-08 2005-01-31 Tandberg Telecom As Arrangement og fremgangsmate for lokalisering av lydkilde
US7353169B1 (en) 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
US7376553B2 (en) 2003-07-08 2008-05-20 Robert Patel Quinn Fractal harmonic overtone mapping of speech and musical sounds
EP1513137A1 (de) 2003-08-22 2005-03-09 MicronasNIT LCC, Novi Sad Institute of Information Technologies Sprachverarbeitungssystem und -verfahren mit Multipuls-Anregung
EP1667109A4 (de) 2003-09-17 2007-10-03 Beijing E World Technology Co Verfahren und einrichtung zur mehrfachauflösungs-vektorquantilisierung für die audiocodierung und -decodierung
US7190775B2 (en) 2003-10-29 2007-03-13 Broadcom Corporation High quality audio conferencing with adaptive beamforming
DE602004021716D1 (de) 2003-11-12 2009-08-06 Honda Motor Co Ltd Spracherkennungssystem
JP4396233B2 (ja) 2003-11-13 2010-01-13 パナソニック株式会社 複素指数変調フィルタバンクの信号分析方法、信号合成方法、そのプログラム及びその記録媒体
GB2408655B (en) 2003-11-27 2007-02-28 Motorola Inc Communication system, communication units and method of ambience listening thereto
CA2454296A1 (en) 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
PL1706866T3 (pl) * 2004-01-20 2008-10-31 Dolby Laboratories Licensing Corp Kodowanie dźwięku w oparciu o grupowanie bloków
JP2005249816A (ja) 2004-03-01 2005-09-15 Internatl Business Mach Corp <Ibm> 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
WO2005086138A1 (ja) 2004-03-05 2005-09-15 Matsushita Electric Industrial Co., Ltd. エラー隠蔽装置およびエラー隠蔽方法
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
JP4437052B2 (ja) 2004-04-21 2010-03-24 パナソニック株式会社 音声復号化装置および音声復号化方法
US20050249292A1 (en) 2004-05-07 2005-11-10 Ping Zhu System and method for enhancing the performance of variable length coding
US7103176B2 (en) 2004-05-13 2006-09-05 International Business Machines Corporation Direct coupling of telephone volume control with remote microphone gain and noise cancellation
GB2414369B (en) 2004-05-21 2007-08-01 Hewlett Packard Development Co Processing audio data
EP1600947A3 (de) 2004-05-26 2005-12-21 Honda Research Institute Europe GmbH Subtraktive Reduktion von harmonischen Störgeräuschen
US7695438B2 (en) 2004-05-26 2010-04-13 Siemens Medical Solutions Usa, Inc. Acoustic disruption minimizing systems and methods
US7254665B2 (en) 2004-06-16 2007-08-07 Microsoft Corporation Method and system for reducing latency in transferring captured image data by utilizing burst transfer after threshold is reached
US20060063560A1 (en) 2004-09-21 2006-03-23 Samsung Electronics Co., Ltd. Dual-mode phone using GPS power-saving assist for operating in cellular and WiFi networks
US7383179B2 (en) 2004-09-28 2008-06-03 Clarity Technologies, Inc. Method of cascading noise reduction algorithms to avoid speech distortion
US20060092918A1 (en) 2004-11-04 2006-05-04 Alexander Talalai Audio receiver having adaptive buffer delay
JP2008519991A (ja) 2004-11-09 2008-06-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声の符号化及び復号化
JP4283212B2 (ja) 2004-12-10 2009-06-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 雑音除去装置、雑音除去プログラム、及び雑音除去方法
US20060206320A1 (en) 2005-03-14 2006-09-14 Li Qi P Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
JP5129115B2 (ja) 2005-04-01 2013-01-23 クゥアルコム・インコーポレイテッド 高帯域バーストの抑制のためのシステム、方法、および装置
US7664495B1 (en) 2005-04-21 2010-02-16 At&T Mobility Ii Llc Voice call redirection for enterprise hosted dual mode service
DE502006004136D1 (de) 2005-04-28 2009-08-13 Siemens Ag Verfahren und vorrichtung zur geräuschunterdrückung
EP2352149B1 (de) 2005-05-05 2013-09-04 Sony Computer Entertainment Inc. Selektives Hören von Tonquellen in Verbindung mit computerinteraktiver Verarbeitung
WO2006123721A1 (ja) 2005-05-17 2006-11-23 Yamaha Corporation 雑音抑圧方法およびその装置
US7647077B2 (en) 2005-05-31 2010-01-12 Bitwave Pte Ltd Method for echo control of a wireless headset
US7531973B2 (en) 2005-05-31 2009-05-12 Rockwell Automation Technologies, Inc. Wizard for configuring a motor drive system
JP2006339991A (ja) 2005-06-01 2006-12-14 Matsushita Electric Ind Co Ltd マルチチャンネル収音装置、マルチチャンネル音声再生装置、およびマルチチャンネル収音再生装置
JP4910312B2 (ja) 2005-06-03 2012-04-04 ソニー株式会社 撮像装置および撮像方法
US8566086B2 (en) 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
US8311840B2 (en) * 2005-06-28 2012-11-13 Qnx Software Systems Limited Frequency extension of harmonic signals
US20070003097A1 (en) 2005-06-30 2007-01-04 Altec Lansing Technologies, Inc. Angularly adjustable speaker system
US20070005351A1 (en) 2005-06-30 2007-01-04 Sathyendra Harsha M Method and system for bandwidth expansion for voice communications
US8103023B2 (en) 2005-07-06 2012-01-24 Koninklijke Philips Electronics N.V. Apparatus and method for acoustic beamforming
US7617436B2 (en) 2005-08-02 2009-11-10 Nokia Corporation Method, device, and system for forward channel error recovery in video sequence transmission over packet-based network
KR101116363B1 (ko) 2005-08-11 2012-03-09 삼성전자주식회사 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치
US20070041589A1 (en) 2005-08-17 2007-02-22 Gennum Corporation System and method for providing environmental specific noise reduction algorithms
US8326614B2 (en) 2005-09-02 2012-12-04 Qnx Software Systems Limited Speech enhancement system
JP4356670B2 (ja) 2005-09-12 2009-11-04 ソニー株式会社 雑音低減装置及び雑音低減方法並びに雑音低減プログラムとその電子機器用収音装置
US7917561B2 (en) 2005-09-16 2011-03-29 Coding Technologies Ab Partially complex modulated filter bank
US20100130198A1 (en) 2005-09-29 2010-05-27 Plantronics, Inc. Remote processing of multiple acoustic signals
US20080247567A1 (en) 2005-09-30 2008-10-09 Squarehead Technology As Directional Audio Capturing
US7813923B2 (en) 2005-10-14 2010-10-12 Microsoft Corporation Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset
US7970123B2 (en) 2005-10-20 2011-06-28 Mitel Networks Corporation Adaptive coupling equalization in beamforming-based communication systems
US7562140B2 (en) 2005-11-15 2009-07-14 Cisco Technology, Inc. Method and apparatus for providing trend information from network devices
US20070127668A1 (en) 2005-12-02 2007-06-07 Ahya Deepak P Method and system for performing a conference call
US7366658B2 (en) 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
EP1796080B1 (de) 2005-12-12 2009-11-18 Gregory John Gadbois Mehrstimmige Spracherkennung
US7565288B2 (en) 2005-12-22 2009-07-21 Microsoft Corporation Spatial noise suppression for a microphone array
JP4876574B2 (ja) 2005-12-26 2012-02-15 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8346544B2 (en) 2006-01-20 2013-01-01 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision
US8032369B2 (en) 2006-01-20 2011-10-04 Qualcomm Incorporated Arbitrary average data rates for variable rate coders
JP4940671B2 (ja) 2006-01-26 2012-05-30 ソニー株式会社 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US7685132B2 (en) 2006-03-15 2010-03-23 Mog, Inc Automatic meta-data sharing of existing media through social networking
US7676374B2 (en) 2006-03-28 2010-03-09 Nokia Corporation Low complexity subband-domain filtering in the case of cascaded filter banks
US7555075B2 (en) 2006-04-07 2009-06-30 Freescale Semiconductor, Inc. Adjustable noise suppression system
US8180067B2 (en) 2006-04-28 2012-05-15 Harman International Industries, Incorporated System for selectively extracting components of an audio input signal
US8068619B2 (en) 2006-05-09 2011-11-29 Fortemedia, Inc. Method and apparatus for noise suppression in a small array microphone system
US7548791B1 (en) 2006-05-18 2009-06-16 Adobe Systems Incorporated Graphically displaying audio pan or phase information
US8044291B2 (en) 2006-05-18 2011-10-25 Adobe Systems Incorporated Selection of visually displayed audio data for editing
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US7593535B2 (en) * 2006-08-01 2009-09-22 Dts, Inc. Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer
US8229137B2 (en) 2006-08-31 2012-07-24 Sony Ericsson Mobile Communications Ab Volume control circuits for use in electronic devices and related methods and electronic devices
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
EP1918910B1 (de) 2006-10-31 2009-03-11 Harman Becker Automotive Systems GmbH Modellbasierte Verbesserung von Sprachsignalen
US7492312B2 (en) 2006-11-14 2009-02-17 Fam Adly T Multiplicative mismatched filters for optimum range sidelobe suppression in barker code reception
US8019089B2 (en) 2006-11-20 2011-09-13 Microsoft Corporation Removal of noise, corresponding to user input devices from an audio signal
US7626942B2 (en) 2006-11-22 2009-12-01 Spectra Link Corp. Method of conducting an audio communications session using incorrect timestamps
US7983685B2 (en) 2006-12-07 2011-07-19 Innovative Wireless Technologies, Inc. Method and apparatus for management of a global wireless sensor network
US20080159507A1 (en) 2006-12-27 2008-07-03 Nokia Corporation Distributed teleconference multichannel architecture, system, method, and computer program product
US7973857B2 (en) 2006-12-27 2011-07-05 Nokia Corporation Teleconference group formation using context information
WO2008085207A2 (en) 2006-12-29 2008-07-17 Prodea Systems, Inc. Multi-services application gateway
GB2445984B (en) 2007-01-25 2011-12-07 Sonaptic Ltd Ambient noise reduction
US20080187143A1 (en) 2007-02-01 2008-08-07 Research In Motion Limited System and method for providing simulated spatial sound in group voice communication sessions on a wireless communication device
US8060363B2 (en) 2007-02-13 2011-11-15 Nokia Corporation Audio signal encoding
JP4449987B2 (ja) 2007-02-15 2010-04-14 ソニー株式会社 音声処理装置、音声処理方法およびプログラム
US8195454B2 (en) 2007-02-26 2012-06-05 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
US20080208575A1 (en) 2007-02-27 2008-08-28 Nokia Corporation Split-band encoding and decoding of an audio signal
US7848738B2 (en) 2007-03-19 2010-12-07 Avaya Inc. Teleconferencing system with multiple channels at each location
US20080259731A1 (en) 2007-04-17 2008-10-23 Happonen Aki P Methods and apparatuses for user controlled beamforming
CN101681619B (zh) 2007-05-22 2012-07-04 Lm爱立信电话有限公司 改进的话音活动性检测器
TWI421858B (zh) 2007-05-24 2014-01-01 Audience Inc 用於處理音頻訊號的系統及方法
US8488803B2 (en) 2007-05-25 2013-07-16 Aliphcom Wind suppression/replacement component for use with electronic systems
US8253770B2 (en) 2007-05-31 2012-08-28 Eastman Kodak Company Residential video communication system
US20080304677A1 (en) 2007-06-08 2008-12-11 Sonitus Medical Inc. System and method for noise cancellation with motion tracking capability
JP4455614B2 (ja) 2007-06-13 2010-04-21 株式会社東芝 音響信号処理方法及び装置
US8428275B2 (en) 2007-06-22 2013-04-23 Sanyo Electric Co., Ltd. Wind noise reduction device
US7873513B2 (en) 2007-07-06 2011-01-18 Mindspeed Technologies, Inc. Speech transcoding in GSM networks
JP5009082B2 (ja) 2007-08-02 2012-08-22 シャープ株式会社 表示装置
CN101766016A (zh) 2007-08-07 2010-06-30 日本电气株式会社 声音混合装置及其杂音抑制方法、以及程序
US20090043577A1 (en) 2007-08-10 2009-02-12 Ditech Networks, Inc. Signal presence detection using bi-directional communication data
JP4469882B2 (ja) 2007-08-16 2010-06-02 株式会社東芝 音響信号処理方法及び装置
EP2031583B1 (de) 2007-08-31 2010-01-06 Harman Becker Automotive Systems GmbH Schnelle Schätzung der Spektraldichte der Rauschleistung zur Sprachsignalverbesserung
US7986228B2 (en) 2007-09-05 2011-07-26 Stanley Convergent Security Solutions, Inc. System and method for monitoring security at a premises using line card
KR101409169B1 (ko) 2007-09-05 2014-06-19 삼성전자주식회사 억제 폭 조절을 통한 사운드 줌 방법 및 장치
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
US7522074B2 (en) 2007-09-17 2009-04-21 Samplify Systems, Inc. Enhanced control for compression and decompression of sampled signals
US8175871B2 (en) 2007-09-28 2012-05-08 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
EP2045801B1 (de) 2007-10-01 2010-08-11 Harman Becker Automotive Systems GmbH Effiziente Audiosignalverarbeitung im Subbandbereich, Verfahren, Vorrichtung und dazugehöriges Computerprogramm
US8046219B2 (en) 2007-10-18 2011-10-25 Motorola Mobility, Inc. Robust two microphone noise suppression system
US8326617B2 (en) 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
US8606566B2 (en) 2007-10-24 2013-12-10 Qnx Software Systems Limited Speech enhancement through partial speech reconstruction
EP2058803B1 (de) 2007-10-29 2010-01-20 Harman/Becker Automotive Systems GmbH Partielle Sprachrekonstruktion
TW200922272A (en) 2007-11-06 2009-05-16 High Tech Comp Corp Automobile noise suppression system and method thereof
US8358787B2 (en) 2007-11-07 2013-01-22 Apple Inc. Method and apparatus for acoustics testing of a personal mobile device
DE602007014382D1 (de) 2007-11-12 2011-06-16 Harman Becker Automotive Sys Unterscheidung zwischen Vordergrundsprache und Hintergrundgeräuschen
KR101238362B1 (ko) 2007-12-03 2013-02-28 삼성전자주식회사 음원 거리에 따라 음원 신호를 여과하는 방법 및 장치
JP5159279B2 (ja) 2007-12-03 2013-03-06 株式会社東芝 音声処理装置及びそれを用いた音声合成装置。
US8219387B2 (en) 2007-12-10 2012-07-10 Microsoft Corporation Identifying far-end sound
US8433061B2 (en) 2007-12-10 2013-04-30 Microsoft Corporation Reducing echo
US8175291B2 (en) 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
WO2009082302A1 (en) 2007-12-20 2009-07-02 Telefonaktiebolaget L M Ericsson (Publ) Noise suppression method and apparatus
KR101456570B1 (ko) 2007-12-21 2014-10-31 엘지전자 주식회사 디지털 이퀄라이저를 구비한 이동 단말기 및 그 제어방법
US8326635B2 (en) 2007-12-25 2012-12-04 Personics Holdings Inc. Method and system for message alert and delivery using an earpiece
DE102008031150B3 (de) 2008-07-01 2009-11-19 Siemens Medical Instruments Pte. Ltd. Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät
US8600740B2 (en) 2008-01-28 2013-12-03 Qualcomm Incorporated Systems, methods and apparatus for context descriptor transmission
US8200479B2 (en) 2008-02-08 2012-06-12 Texas Instruments Incorporated Method and system for asymmetric independent audio rendering
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
EP2250641B1 (de) 2008-03-04 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum mischen mehrerer eingabedatenströme
US20090323655A1 (en) 2008-03-31 2009-12-31 Cozybit, Inc. System and method for inviting and sharing conversations between cellphones
US8611554B2 (en) 2008-04-22 2013-12-17 Bose Corporation Hearing assistance apparatus
US8457328B2 (en) 2008-04-22 2013-06-04 Nokia Corporation Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment
US8369973B2 (en) 2008-06-19 2013-02-05 Texas Instruments Incorporated Efficient asynchronous sample rate conversion
US8300801B2 (en) 2008-06-26 2012-10-30 Centurylink Intellectual Property Llc System and method for telephone based noise cancellation
US8189807B2 (en) 2008-06-27 2012-05-29 Microsoft Corporation Satellite microphone array for video conferencing
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
CN101304391A (zh) 2008-06-30 2008-11-12 腾讯科技(深圳)有限公司 一种基于即时通讯系统的语音通话方法及系统
KR20100003530A (ko) 2008-07-01 2010-01-11 삼성전자주식회사 전자기기에서 음성 신호의 잡음 제거 장치 및 방법
CN102089816B (zh) 2008-07-11 2013-01-30 弗朗霍夫应用科学研究促进协会 音频信号合成器及音频信号编码器
US8538749B2 (en) 2008-07-18 2013-09-17 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for enhanced intelligibility
ES2678415T3 (es) 2008-08-05 2018-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
EP2151821B1 (de) 2008-08-07 2011-12-14 Nuance Communications, Inc. Rauschunterdrückende Verarbeitung von Sprachsignalen
US8189429B2 (en) 2008-09-30 2012-05-29 Apple Inc. Microphone proximity detection
US9330671B2 (en) 2008-10-10 2016-05-03 Telefonaktiebolaget L M Ericsson (Publ) Energy conservative multi-channel audio coding
US8130978B2 (en) 2008-10-15 2012-03-06 Microsoft Corporation Dynamic switching of microphone inputs for identification of a direction of a source of speech sounds
US9779598B2 (en) 2008-11-21 2017-10-03 Robert Bosch Gmbh Security system including less than lethal deterrent
US8467891B2 (en) 2009-01-21 2013-06-18 Utc Fire & Security Americas Corporation, Inc. Method and system for efficient optimization of audio sampling rate conversion
WO2010091077A1 (en) 2009-02-03 2010-08-12 University Of Ottawa Method and system for a multi-microphone noise reduction
EP2222091B1 (de) 2009-02-23 2013-04-24 Nuance Communications, Inc. Verfahren zum Bestimmen eines Satzes von Filterkoeffizienten für ein Mittel zur Kompensierung von akustischem Echo
US8184180B2 (en) 2009-03-25 2012-05-22 Broadcom Corporation Spatially synchronized audio and video capture
EP2237271B1 (de) 2009-03-31 2021-01-20 Cerence Operating Company Verfahren zur Bestimmung einer Signalkomponente zum Reduzieren von Rauschen in einem Eingangssignal
US20110286605A1 (en) 2009-04-02 2011-11-24 Mitsubishi Electric Corporation Noise suppressor
US9202456B2 (en) 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
US8416715B2 (en) 2009-06-15 2013-04-09 Microsoft Corporation Interest determination for auditory enhancement
US8908882B2 (en) 2009-06-29 2014-12-09 Audience, Inc. Reparation of corrupted audio signals
US8626344B2 (en) 2009-08-21 2014-01-07 Allure Energy, Inc. Energy management system and method
EP2285112A1 (de) 2009-08-07 2011-02-16 Canon Kabushiki Kaisha Verfahren zum Senden von komprimierten Daten, die ein digitales Bild darstellen, und entsprechende Vorrichtung
US8644517B2 (en) 2009-08-17 2014-02-04 Broadcom Corporation System and method for automatic disabling and enabling of an acoustic beamformer
US8233352B2 (en) 2009-08-17 2012-07-31 Broadcom Corporation Audio source localization system and method
JP5397131B2 (ja) 2009-09-29 2014-01-22 沖電気工業株式会社 音源方向推定装置及びプログラム
US8571231B2 (en) 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
US9372251B2 (en) 2009-10-05 2016-06-21 Harman International Industries, Incorporated System for spatial extraction of audio signals
CN102044243B (zh) 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
KR20120091068A (ko) 2009-10-19 2012-08-17 텔레폰악티에볼라겟엘엠에릭슨(펍) 음성 활성 검출을 위한 검출기 및 방법
US20110107367A1 (en) 2009-10-30 2011-05-05 Sony Corporation System and method for broadcasting personal content to client devices in an electronic network
EP2508011B1 (de) 2009-11-30 2014-07-30 Nokia Corporation Audiozoomverfahren in einer audioszene
US8615392B1 (en) 2009-12-02 2013-12-24 Audience, Inc. Systems and methods for producing an acoustic field having a target spatial pattern
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US9210503B2 (en) 2009-12-02 2015-12-08 Audience, Inc. Audio zoom
WO2011080855A1 (ja) * 2009-12-28 2011-07-07 三菱電機株式会社 音声信号復元装置および音声信号復元方法
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US8626498B2 (en) 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
US9082391B2 (en) 2010-04-12 2015-07-14 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for noise cancellation in a speech encoder
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8880396B1 (en) 2010-04-28 2014-11-04 Audience, Inc. Spectrum reconstruction for automatic speech recognition
US9558755B1 (en) * 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
JP5529635B2 (ja) * 2010-06-10 2014-06-25 キヤノン株式会社 音声信号処理装置および音声信号処理方法
US9094496B2 (en) 2010-06-18 2015-07-28 Avaya Inc. System and method for stereophonic acoustic echo cancellation
KR101285391B1 (ko) 2010-07-28 2013-07-10 주식회사 팬택 음향 객체 정보 융합 장치 및 방법
US9071831B2 (en) 2010-08-27 2015-06-30 Broadcom Corporation Method and system for noise cancellation and audio enhancement based on captured depth information
US9274744B2 (en) 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
CN101976567B (zh) * 2010-10-28 2011-12-14 吉林大学 一种语音信号差错掩盖方法
US8311817B2 (en) 2010-11-04 2012-11-13 Audience, Inc. Systems and methods for enhancing voice quality in mobile device
US8831937B2 (en) 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
US8451315B2 (en) 2010-11-30 2013-05-28 Hewlett-Packard Development Company, L.P. System and method for distributed meeting capture
EP2466580A1 (de) * 2010-12-14 2012-06-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Codierer und Verfahren zur prädiktiven Codierung, Decodierer und Verfahren zur Decodierung, System und Verfahren zur prädiktiven Codierung und Decodierung und prädiktiv codiertes Informationssignal
WO2012094422A2 (en) 2011-01-05 2012-07-12 Health Fidelity, Inc. A voice based system and method for data input
US8525868B2 (en) 2011-01-13 2013-09-03 Qualcomm Incorporated Variable beamforming with a mobile platform
US20120202485A1 (en) 2011-02-04 2012-08-09 Takwak GmBh Systems and methods for audio roaming for mobile devices
US8606249B1 (en) 2011-03-07 2013-12-10 Audience, Inc. Methods and systems for enhancing audio quality during teleconferencing
US9007416B1 (en) 2011-03-08 2015-04-14 Audience, Inc. Local social conference calling
JP5060631B1 (ja) 2011-03-31 2012-10-31 株式会社東芝 信号処理装置及び信号処理方法
US8811601B2 (en) 2011-04-04 2014-08-19 Qualcomm Incorporated Integrated echo cancellation and noise suppression
US8989411B2 (en) 2011-04-08 2015-03-24 Board Of Regents, The University Of Texas System Differential microphone with sealed backside cavities and diaphragms coupled to a rocking structure thereby providing resistance to deflection under atmospheric pressure and providing a directional response to sound pressure
US8363823B1 (en) 2011-08-08 2013-01-29 Audience, Inc. Two microphone uplink communication and stereo audio playback on three wire headset assembly
US9386147B2 (en) 2011-08-25 2016-07-05 Verizon Patent And Licensing Inc. Muting and un-muting user devices
US8750526B1 (en) 2012-01-04 2014-06-10 Audience, Inc. Dynamic bandwidth change detection for configuring audio processor
US9197974B1 (en) 2012-01-06 2015-11-24 Audience, Inc. Directional audio capture adaptation based on alternative sensory input
US8615394B1 (en) 2012-01-27 2013-12-24 Audience, Inc. Restoration of noise-reduced speech
US9431012B2 (en) 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
US9093076B2 (en) 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US9479275B2 (en) 2012-06-01 2016-10-25 Blackberry Limited Multiformat digital audio interface
US20130332156A1 (en) 2012-06-11 2013-12-12 Apple Inc. Sensor Fusion to Improve Speech/Audio Processing in a Mobile Device
US20130332171A1 (en) * 2012-06-12 2013-12-12 Carlos Avendano Bandwidth Extension via Constrained Synthesis
US20130343549A1 (en) 2012-06-22 2013-12-26 Verisilicon Holdings Co., Ltd. Microphone arrays for generating stereo and surround channels, method of operation thereof and module incorporating the same
EP2680616A1 (de) 2012-06-25 2014-01-01 LG Electronics Inc. Mobiles Endgerät und Audiozoomverfahren dafür
US9119012B2 (en) 2012-06-28 2015-08-25 Broadcom Corporation Loudspeaker beamforming for personal audio focal points
EP2823631B1 (de) 2012-07-18 2017-09-06 Huawei Technologies Co., Ltd. Tragbare elektronische vorrichtung mit gerichteten mikrophonen für stereoaufzeichnungen
CN104429049B (zh) 2012-07-18 2016-11-16 华为技术有限公司 具有用于立体声录音的麦克风的便携式电子装置
US9984675B2 (en) 2013-05-24 2018-05-29 Google Technology Holdings LLC Voice controlled audio recording system with adjustable beamforming
KR101475894B1 (ko) * 2013-06-21 2014-12-23 서울대학교산학협력단 장애 음성 개선 방법 및 장치
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2015112498A1 (en) 2014-01-21 2015-07-30 Knowles Electronics, Llc Microphone apparatus and method to provide extremely high acoustic overload points
US9500739B2 (en) 2014-03-28 2016-11-22 Knowles Electronics, Llc Estimating and tracking multiple attributes of multiple objects from multi-sensor data
US20160037245A1 (en) 2014-07-29 2016-02-04 Knowles Electronics, Llc Discrete MEMS Including Sensor Device
US9978388B2 (en) * 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
WO2016049566A1 (en) 2014-09-25 2016-03-31 Audience, Inc. Latency reduction
US9368110B1 (en) * 2015-07-07 2016-06-14 Mitsubishi Electric Research Laboratories, Inc. Method for distinguishing components of an acoustic signal

Also Published As

Publication number Publication date
US9978388B2 (en) 2018-05-22
CN107112025A (zh) 2017-08-29
WO2016040885A1 (en) 2016-03-17
US20160078880A1 (en) 2016-03-17

Similar Documents

Publication Publication Date Title
DE112015004185T5 (de) Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
DE112016000545B4 (de) Kontextabhängiges schalten von mikrofonen
DE112015003945T5 (de) Mehrquellen-Rauschunterdrückung
DE102017102134B4 (de) Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung
DE112016006133B4 (de) Verfahren und System zur Bereitstellung von Umgebungswahrnehmung
DE112016000287T5 (de) Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung
DE112017001830B4 (de) Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen
EP4011099A1 (de) System und verfahren zur unterstützung von selektivem hören
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE112014003337T5 (de) Sprachsignaltrennung und Synthese basierend auf auditorischer Szenenanalyse und Sprachmodellierung
DE112017002299T5 (de) Stereotrennung und Richtungsunterdrückung mit Omni-Richtmikrofonen
DE112016004161T5 (de) Mikrofonsignalzusammenführung
DE602006000109T2 (de) Verfahren und Vorrichtung zur Verringerung von Geräuschbeeinträchtigung eines alternativen Sensorsignals während multisensorischer Sprachverstärkung
DE112016006126T5 (de) Okklusionsreduzierung und Rauschunterdrückung auf der Grundlage einer Dichtqualität
DE112014004836B4 (de) Verfahren und System zum Verbessern eines verrauschten Eingangssignals
CN108604452A (zh) 声音信号增强装置
DE112018002871T5 (de) System und verfahren zur audiomustererkennung
DE112019007677T5 (de) Posenvorhersageverfahren, Modelltrainingsverfahren und Vorrichtung
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE102014118075A1 (de) Audio und Video synchronisierendes Wahrnehmungsmodell
DE112016006334T5 (de) Verfahren und systeme zur erreichung einer konsistenz bei der rauschunterdrückung während sprachphasen und sprachfreien phasen
DE112015005269T5 (de) Erweitern einer Informationsanforderung
Taghipour et al. Short-term annoyance reactions to civil helicopter and propeller-driven aircraft noise: A laboratory experiment
DE112020005166B4 (de) Auf teilnehmer abgestimmtes filtern unter verwendung von dynamischer spektralmaskierung durch ein tiefes neuronales netz zur isolierung und sicherheit von gesprächen in lauten umgebungen
DE112021005577T5 (de) Sprecherspezifisches verstärken von stimmen

Legal Events

Date Code Title Description
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee
R012 Request for examination validly filed