DE112015004185T5 - Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten - Google Patents
Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten Download PDFInfo
- Publication number
- DE112015004185T5 DE112015004185T5 DE112015004185.0T DE112015004185T DE112015004185T5 DE 112015004185 T5 DE112015004185 T5 DE 112015004185T5 DE 112015004185 T DE112015004185 T DE 112015004185T DE 112015004185 T5 DE112015004185 T5 DE 112015004185T5
- Authority
- DE
- Germany
- Prior art keywords
- audio signal
- frequency ranges
- distorted
- iterations
- distorted frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000005236 sound signal Effects 0.000 claims abstract description 99
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 230000003595 spectral effect Effects 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000009467 reduction Effects 0.000 claims abstract description 8
- 230000015654 memory Effects 0.000 claims description 9
- 230000002238 attenuated effect Effects 0.000 claims description 5
- 230000001629 suppression Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
Abstract
Ein Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals, die durch Geräuschreduzierung oder Geräuschauslöschung verzerrt sind, umfasst das Ermitteln verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal. Die verzerrten Frequenzbereiche beinhalten Bereiche des Audio-Signals, in denen eine Sprachverzerrung vorhanden ist. Es werden Iterationen unter Anwendung eines Modells zur Aufbereitung von Vorhersagen des Audio-Signals in verzerrten Frequenzbereiche ausgeführt. Das Modell ist ausgebildet, das Audio-Signal zu modifizieren und kann ein tiefes neuronales Netzwerk umfassen, das unter Anwendung spektraler Einhüllender von klaren oder unbeschädigten Audio-Signalen trainiert ist. Vor jeder Iteration wird das Audio-Signal in den nicht-verzerrten Frequenzbereichen mit Werten des Audio-Signals vor der ersten Iteration wiederhergestellt; wobei das Audio-Signal in verzerrten Frequenzbereichen ausgehend von Null in der ersten Iteration aufbereitet wird. Iterationen werden beendet, wenn Diskrepanzen des Audio-Signals in nicht-verzerrten Frequenzbereichen vordefinierte Kriterien erfüllen.
Description
- QUERVERWEIS AUF VERWANDTE ANMELDUNG
- Die vorliegende Anmeldung beansprucht die Priorität der vorläufigen US-Anmeldung mit der Nr. 62/049 988, die am 12. September 2014 eingereicht wurde. Der Gegenstand der zuvor genannten Anmeldung ist für alle Zwecke hiermit durch Bezugnahme miteingeschlossen.
- GEBIET
- Die vorliegende Anmeldung betrifft generell die Audio-Verarbeitung und betrifft insbesondere Systeme und Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals mit Rauschunterdrückung bzw. Geräuschunterdrückung.
- HINTERGRUND
- Rauschunterdrückung wird in Audio-Verarbeitungssystemen häufig eingesetzt, um unerwünschtes Rauschen in Audio-Signalen, die zur Übertragung von Sprache verwendet werden, zu dämpfen oder auszulöschen. Nach dem Auslöschen des Rauschens und/oder nach der Rauschunterdrückung wird Sprache, die mit Rauschen vermischt ist, tendenziell in Rauschunterdrückungssystemen zu sehr abgeschwächt oder ganz unterdrückt.
- Es gibt Modelle des Gehirns, die erläutern, wie Geräusche wiederhergestellt werden unter Anwendung einer internen Darstellung, die das Eingangssignal über einen Rückkopplungsmechanismus ersetzt, so dass es wahrgenommen wird. Ein anschauliches Modell, das als ein Konvergenz-Divergenz-Zonen-(CDZ-)Modell des Gehirns bezeichnet wird, ist in der Neurowissenschaft beschrieben und versucht die Phänomene für die spektrale Vervollständigung und phonemische Wiederherstellung zu erläutern, die bei der menschlichen Sprachwahrnehmung auftreten.
- ÜBERBLICK
- Dieser Überblick wird bereitgestellt, um eine Auswahl von Konzepten in vereinfachter Form einzuführen, die nachfolgend in der detaillierten Beschreibung weiter beschrieben sind. Dieser Überblick ist nicht dazu beabsichtigt, Schlüsselmerkmale oder wesentliche Merkmale des beanspruchten Gegenstands zu kennzeichnen, und es ist auch nicht beabsichtigt, dass dieser Überblick als eine Hilfe bei der Ermittlung des Schutzbereichs des beanspruchten Gegenstands verwendet wird.
- Es werden Systeme und Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals bereitgestellt. Ein anschauliches Verfahren umfasst die Ermittlung verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal. Die verzerrten Frequenzbereiche schließen Bereiche des Audio-Signals mit ein, in welchen eine Sprachverzerrung vorhanden ist. Das Verfahren umfasst das Ausführen einer oder mehrerer Iterationen unter Anwendung eines Modells zur Verfeinerung bzw. Aufbereitung von Vorhersagen des Audio-Signals in den verzerrten Frequenzbereichen. Das Modell kann ausgebildet sein, das Audio-Signal zu modifizieren.
- In einigen Ausführungsformen schließt das Audio-Signal ein rauschunterdrücktes Audio-Signal mit ein, das durch Rauschunterdrückung bzw. Geräuschunterdrückung und/oder Rauschauslöschung eines akustischen Signals bzw. Schallsignals erhalten wird, das Sprache enthält. Das akustische Signal wird in den verzerrten Frequenzbereichen abgeschwächt oder ausgelöscht.
- In einigen Ausführungsformen umfasst das Modell, das zur Verfeinerung bzw. Aufbereitung von Vorhersagen des Audio-Signal in verzerrten Frequenzbereichen verwendet wird, ein tiefes neuronales Netzwerk, das unter Anwendung von spektralen Einhüllenden von reinen Audio-Signalen oder ungeschädigten Audio-Signalen trainiert ist. Die verfeinerten bzw. aufbereiteten Vorhersagen können verwendet werden, um Sprachkomponenten in den verzerrten Frequenzbereichen wiederherzustellen.
- In einigen Ausführungsformen werden die Audio-Signale in den verzerrten Frequenzbereichen vor der ersten Iteration auf Null gesetzt. Vor der Ausführung der jeweiligen Iterationen werden die Audio-Signale in den nicht-verzerrten Frequenzbereichen auf Anfangswerte vor den ersten Iterationen wiederhergestellt.
- In einigen Ausführungsformen umfasst das Verfahren ferner das Vergleichen des Audio-Signals in den nicht-verzerrten Frequenzbereichen vor und nach jeder Iteration, um Diskrepanzen zu ermitteln. In gewissen Ausführungsformen lässt das Verfahren zu, dass die eine oder die mehreren Iterationen beendet werden, wenn die Diskrepanzen vorbestimmte Kriterien erfüllen. Die vorbestimmten Kriterien können durch eine untere und obere Grenze von Energien des Audio-Signals festgelegt werden.
- Gemäß einer weiteren anschaulichen Ausführungsform der vorliegenden Offenbarungen werden die Schritte des Verfahrens zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals in einem nicht-flüchtigen maschinenlesbaren Medium gespeichert, das Befehle aufweist, die, wenn sie von einem oder mehreren Prozessoren implementiert werden, die genannten Schritte ausführen.
- Andere anschauliche Ausführungsformen der Offenbarung und Aspekte ergeben sich aus der folgenden Beschreibung in Verbindung mit den folgenden Zeichnungen.
- KURZE BESCHREIBUNG DER ZEICHNUNGEN
- Ausführungsformen sind beispielhaft und nicht beschränkend in den Figuren der begleitenden Zeichnungen dargestellt, in denen gleiche Bezugszeichen ähnliche Elemente bezeichnen.
-
1 ist eine Blockansicht, die eine Umgebung darstellt, in der die vorliegende Technik praktiziert werden kann. -
2 ist eine Blockansicht, die eine Audio-Einrichtung gemäß einer anschaulichen Ausführungsform darstellt. -
3 ist eine Blockansicht, die Module eines Audio-Verarbeitungssystems gemäß einer anschaulichen Ausführungsform darstellt. -
4 ist ein Flussdiagramm, das ein Verfahren zur Wiederherstellung von Sprachkomponenten eines Audio-Signals gemäß einer anschaulichen Ausführungsform zeigt. -
5 ist ein Computersystem, das zur Implementierung von Verfahren der vorliegenden Technik gemäß einer anschaulichen Ausführungsform verwendet werden kann. - DETAILLIERTE BESCHREIBUNG
- Die hierin offenbarte Technik betrifft Systeme und Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals. Ausführungsformen der vorliegenden Technik können mit einer beliebigen Audio-Einrichtung praktiziert werden, die ausgebildet ist, Audio-Signale zu empfangen und/oder bereitzustellen, etwa, ohne darauf eingeschränkt zu sein, Funktelefone, am Körper tragbare Geräte, Telefonhandapparate, Hörsprechgarnituren und Konferenzsysteme. Es sollte beachtet werden, dass, obwohl einige Ausführungsformen der vorliegenden Technik mit Bezug zu dem Betrieb eines Funktelefons beschrieben sind, die vorliegende Technik mittels einer beliebigen Audio-Einrichtung praktiziert werden kann.
- Audio-Einrichtungen können Hochfrequenz-(HF-)Empfänger, Sender und Sender/Empfänger, verdrahtete und/oder drahtlose Telekommunikations- und/oder Netzwerkeinrichtungen, Verstärker, Audio- und/oder Video-Wiedergabegeräte, Codierer, Decodierer, Lautsprecher, Eingabeeinrichtungen, Ausgabeeinrichtungen, Speichereinrichtungen und Anwendereingabeeinrichtungen miteinschließen. Die Audio-Einrichtungen können Eingabeeinrichtungen, etwa Knöpfe, Schalter, Tasten, Tastaturen, rollende Eingabegeräte, Schieber, berührungsempfindliche Schirme, ein oder mehrere Mikrofone, Kreisel, Beschleunigungsmesser, Empfänger für das globale Positioniersystem (GPS) und dergleichen miteinschließen. Die Audio-Einrichtungen können Ausgabeeinrichtungen, etwa LED-Indikatoren, Video-Anzeigen, berührungsempfindliche Bildschirme, Lautsprecher und dergleichen aufweisen. In einigen Ausführungsformen schließen mobile Geräte am Körper tragbare Einrichtungen und Handgeräte, etwa verdrahtete und/oder drahtlose Fernsteuerungen, tragbare Computer, Tablet-Computer, Phablets, intelligente Telefone, persönliche digitale Assistenten, Medienwiedergabegeräte, Mobiltelefone und dergleichen mit ein.
- In diversen Ausführungsformen können die Audio-Einrichtungen in stationärer Umgebung oder in einer tragbarer Umgebung betrieben werden. Stationäre Umgebungen umfassen geschäftliche Gebäude oder Bauten und Wohngebäude und dergleichen. Beispielsweise können die stationären Ausführungsformen Wohnzimmer, Schlafzimmer, Heimkinos, Konferenzräume, Auditorien, Geschäftsräume und dergleichen mit einschließen. Tragbare Umgebungen können bewegte Fahrzeuge, bewegte Personen oder Transporteinrichtungen und dergleichen mit einschließen.
- Gemäß einer anschaulichen Ausführungsform umfasst ein Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals die Ermittlung verzerrter Frequenzbereiche und nicht verzerrter Frequenzbereiche in dem Audio-Signal. Die verzerrten Frequenzbereiche schließen Bereiche des Audio-Signals mit ein, in welchem eine Sprachverzerrung vorhanden ist. Das Verfahren umfasst die Ausführung einer oder mehrerer Iterationen unter Anwendung eines Modells zur Verfeinerung bzw. Aufbereitung von Vorhersagen für das Audio-Signal in den verzerrten Frequenzbereichen. Das Modell kann ausgebildet sein, das Audio-Signal zu modifizieren.
- Es sei nun auf
1 verwiesen, in der eine Umgebung100 gezeigt ist, in der ein Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals praktiziert werden kann. Die anschauliche Umgebung100 kann eine Audio-Einrichtung104 aufweisen, die ausgebildet ist, ein Audio-Signal zumindest zu empfangen. Die Audio-Einrichtung104 ist ferner ausgebildet, das empfangene Audio-Signal zu verarbeiten und/oder aufzuzeichnen/zu speichern. - In einigen Ausführungsformen weist die Audio-Einrichtung
104 einen oder mehrere akustische Sensoren bzw. Schallsensoren, beispielsweise Mikrofone, auf. Im Beispiel der1 weist die Audio-Einrichtung104 ein erstes Mikrofon (M1)106 und ein zweites Mikrofon108 auf. In diversen Ausführungsformen werden die Mikrofone106 und108 verwendet, und sowohl ein akustisches Audio-Signal, beispielsweise eine verbale Kommunikation von einem Anwender102 , und ein Geräusch110 zu erfassen. Die verbale Kommunikation kann Schlüsselwörter, Sprache, Gesang und dergleichen mit einschließen. - Das Geräusch bzw. das Rauschen
110 ist ein unerwünschtes Geräusch, das in der Umgebung100 vorhanden ist, das beispielsweise durch Sensoren, etwa die Mikrofone106 und108 erfasst werden kann. In stationären Umgebungen können Quellen für Geräusche bzw. Rauschen, Straßenlärm, Umgebungslärm, Klänge von einem Mobilgerät, etwa Audio, Sprache, Einheiten, die nicht ein oder mehrere beabsichtigte Sprecher sind, und dergleichen. Das Geräusch110 kann Hall und Echos enthalten. Mobile Umgebungen mit gewissen Arten von Geräuschen konfrontiert werden, die sich durch den Betrieb und die Umgebungen ergeben, in denen sie verwendet werden, beispielsweise Geräusche durch Straße, Schiene, Rad/Reifen, Lüftung, Scheibenwischer, Motor, Auspuff, Unterhaltungssystem, Kommunikationssystem, andere Sprecher, Wind, Regen, Wellen oder Fahrzeug, Außengeräusche und dergleichen. Akustische Signale bzw. Schallsignale, die von den Mikrofonen106 und108 erfasst werden, können verwendet werden, um gewünschte Sprache von dem Geräusch bzw. dem Rauschen110 zu trennen. - In einigen Ausführungsformen ist die Audio-Einrichtung
104 mit einer Cloudbasierten Rechenressource160 (auch als eine Rechen-Cloud bezeichnet) verbunden. In einigen Ausführungsformen umfasst die Rechen-Cloud160 eine oder mehrere Server-Farmen/Ansammlungen mit einer Ansammlung an Computer-Servern und sie ist in der Nähe von Netzwerk-Verteilern und/oder Routern angeordnet. Die Rechen-Cloud160 ist ausgebildet, einen oder mehrere Dienste über ein Netzwerk, (beispielsweise das Internet, Mobiltelefon-(Funktelefon)-Netzwerk und dergleichen) bereitzustellen In gewissen Ausführungsformen wird zumindest eine teilweise erfolgende Verarbeitung des Audio-Signals entfernt in der Rechen-Cloud160 ausgeführt. Die Audio-Einrichtung104 ist ausgebildet, Daten, beispielsweise ein aufgezeichnetes Audio-Signal, der Rechen-Cloud160 zuzusenden, Rechendienste anzufordern und die Ergebnisse der Berechnung zu empfangen. -
2 ist eine Blockansicht einer anschaulichen Audio-Einrichtung104 . Wie gezeigt, umfasst die Audio-Einrichtung104 einen Empfänger200 , einen Prozessor202 , das erste Mikrofon106 , das zweite Mikrofon108 , ein Audio-Verarbeitungssystem210 und eine Ausgabeeinrichtung206 . Die Audio-Einrichtung104 kann weitere oder andere Komponenten aufweisen, wie dies für den Betrieb der Audio-Einrichtung104 erforderlich ist. In ähnlicher Weise kann die Audio-Einrichtung104 weniger Komponenten aufweisen, die ähnliche oder gleichwertige Funktionen zu jenen ausführen, die in2 dargestellt sind. Beispielweise weist die Audio-Einrichtung104 in einigen Ausführungsformen ein einziges Mikrofon und in anderen Ausführungsformen zwei oder mehr Mikrofone auf. - In diversen Ausführungsformen kann der Empfänger
200 ausgebildet sein, mit einem Netzwerk, etwa dem Internet, einem Weitbereichsnetzwerk (WAN), einem lokalen Netzwerk (LAN), einem Funknetzwerk usw., zu kommunizieren, um das Audio-Signal zu empfangen. Das empfangene Audio-Signal wird dann an das Audio-Verarbeitungssystem210 weitergeleitet. - In diversen Ausführungsformen weist der Prozessor
202 Hardware und/oder Software auf, die ausgebildet sind, Befehle auszuführen, die in einem Speicher (in2 nicht dargestellt) gespeichert sind. Der anschauliche Prozessor202 verwendet Gleitkommaoperationen, komplexe Operationen und andere Operationen einschließlich von Rauschunterdrückung bzw. Geräuschunterdrückung und Wiederherstellung verzerrter Sprachkomponenten in einem Audio-Signal. - Das Audio-Verarbeitungssystem
210 kann ausgebildet sein, akustische Signale aus einer Schallquelle über mindestens ein Mikrofon (beispielsweise das erste Mikrofon106 und das zweite Mikrofon108 in den Beispielen der1 und2 ) zu empfangen und die Komponenten des akustischen Signals zu verarbeiten. Die Mikrofone106 und108 sind in dem anschaulichen System durch einen Abstand voneinander getrennt, so dass die Schallwellen, die von gewissen Richtungen auf das Gerät auftreffen, unterschiedliche Energiepegel an den zwei oder mehr Mikrofonen besitzen. Nach der Aufnahme durch die Mikrofone106 und108 können die akustischen Signale in elektrische Signale umgewandelt werden. Diese elektrischen Signale können wiederum gemäß einigen Ausführungsformen mittels eines Analog-Digital-Wandlers (nicht gezeigt) in digitale Signale zur Verarbeitung umgewandelt werden. - In diversen Ausführungsformen, in denen die Mikrofone
106 und108 ungerichtete Mikrofone sind, die mit kleinem Abstand angeordnet sind (beispielsweise im Abstand von 1–2 cm), kann eine Strahlformungstechnik eingesetzt werden, um eine nach vorne weisende und nach hinten weisende Mikrofonantwort zu simulieren. Es kann ein Pegelunterschied erhalten werden, indem das simulierte Richtungsmikrofon für Vorwärtsrichtung und Rückwärtsrichtung verwendet wird. Der Pegelunterschied kann verwendet werden, um beispielsweise im Zeit-Frequenzbereich Sprache und Rauschen voneinander zu trennen, was bei Rauschunterdrückung bzw. Geräuschunterdrückung und/oder Echo-Unterdrückung verwendet werden kann. In einigen Ausführungsformen werden einige Mikrofone hauptsächlich verwendet, um Sprache zu erfassen, und andere Mikrofone werden verwendet, um hauptsächlich Geräusche zu erfassen. In diversen Ausführungsformen werden einige Mikrofone verwendet, um sowohl Geräusche als auch Sprache zu erfassen. - Die Rauschunterdrückung bzw. Geräuschunterdrückung kann von dem Audio-Verarbeitungssystem
210 auf der Grundlage von Pegelunterschieden zwischen den Mikrofonen, ausgeprägten Pegelspitzen, ausgeprägten Frequenzunterschieden, Signalartklassifizierung, Sprecherkennung, usw. basieren. In diversen Ausführungsformen beinhaltet die Geräuschunterdrückung bzw. Rauschunterdrückung die Auslöschung von Geräuschen und/oder Dämpfung von Geräuschen bzw. vom Rauschen. - In einigen Ausführungsformen ist die Ausgabeeinrichtung
206 eine beliebige Einrichtung, die ein Audio-Ausgangssignal für einen Zuhörer (beispielsweise die Schallquelle) bereitstellt. Beispielsweise kann die Ausgabeeinrichtung206 einen Lautsprecher, einen Klasse-D-Ausgang, einen Ohrhörer eines Kopfhörers, oder einen Handapparat in der Audio-Einrichtung104 umfassen. -
3 ist eine Blockansicht, die Module eines Audio-Verarbeitungssystems210 gemäß einer anschaulichen Ausführungsform zeigt. Das Audio-Verarbeitungssystem210 der3 kann weitere Details für das Audio-Verarbeitungssystem210 der2 bereitstellen. Das Audio-Verarbeitungssystem210 umfasst ein Frequenzanalysemodul310 , ein Rauschunterdrückungsmodul320 , ein Sprachwiederherstellungsmodul330 und ein Rekonstruktionsmodul340 . Die Eingangssignale können aus dem Empfänger200 oder den Mikrofonen106 und108 empfangen werden. - In einigen Ausführungsformen ist das Audio-Verarbeitungssystem
210 ausgebildet, ein Audio-Signal zu empfangen, das ein oder mehrere Eingangs-Audio-Signale im Zeitbereich umfasst, wie dies im Beispiel in3 dargestellt ist, die aus dem ersten Mikrofon (M1) und dem zweiten Mikrofon (M2) in1 stammen. Die Eingangs-Audio-Signale werden dem Frequenzanalysemodul310 zugeleitet. - In einigen Ausführungsformen ist das Frequenzanalysemodul
310 ausgebildet, die Eingangs-Audio-Signale zu empfangen. Das Frequenzanalysemodul310 erzeugt Frequenzteilbänder aus den Eingangs-Audio-Signalen im Zeitbereich und gibt die Signale über die Frequenzteilbänder aus. In einigen Ausführungsformen ist das Frequenzanalysemodul310 ausgebildet, Sprachkomponenten, beispielsweise eine Spektrumseinhüllende und Anregungen von dem empfangenen Audio-Signal zu berechnen oder zu ermitteln. - In diversen Ausführungsformen umfasst das Rauschunterdrückungsmodul
320 mehrere Module und empfängt das Audio-Signal aus dem Frequenzanalysemodul310 . Das Rauschunterdrückungsmodul320 ist ausgebildet, eine Rauschreduzierung bzw. Rauschunterdrückung an dem Audio-Signal auszuführen, um ein rauschunterdrücktes Signal zu erzeugen. In einigen Ausführungsformen beinhaltet die Rauschunterdrückung eine subtraktive Rauschauslöschung oder eine multiplikative Rauschunterdrückung. Beispielsweise, ohne darauf einschränken zu wollen, werden Rauschunterdrückungsverfahren beschrieben in der US-Patentanmeldung mit der Nr. 12/215 980 mit dem Titel ”System und Verfahren zur Bereitstellung einer Rauschunterdrückung unter Verwendung von Nullverarbeitungs-Rauschsubtraktion”, die am 30. Juni 2008 eingereicht wurde, und in der US-Patentanmeldung mit der Nr. 11/699 732 (US-Patent mit der Nr. 8 194 880 ) mit dem Titel ”System und Verfahren zur Verwendung von ungerichteten Mikrofonen für Sprachverbesserung”, die am 29. Januar 2007 eingereicht wurde, deren Inhalte hiermit in ihrer Gesamtheit für die vorhergehenden Zwecke miteingeschlossen sind. Das Rauschunterdrückungsmodul320 liefert ein transformiertes rauschunterdrücktes bzw. geräuschunterdrücktes Signal an das Sprachwiederherstellungsmodul330 . In dem rauschunterdrückten Signal können eine oder mehrere Sprachkomponenten ausgelöscht oder übermäßig abgeschwächt sein, da die Rauschunterdrückung die Frequenz des Audio-Signals verändert. - In einigen Ausführungsformen empfängt das Sprachwiederherstellungsmodul
330 das rauschunterdrückte Signal aus dem Rauschunterdrückungsmodul320 . Das Sprachwiederherstellungsmodul330 ist ausgebildet, geschädigte Sprachkomponenten in dem rauschunterdrückten Signal wiederherzustellen bzw. aufzubereiten. In einigen Ausführungsformen weist das Sprachwiederherstellungsmodul330 ein tiefes neuronales Netzwerk (DNN)315 , das im Hinblick auf die Wiederherstellung von Sprachkomponenten in geschädigten Frequenzbereichen trainiert ist. In gewissen Ausführungsformen ist das DNN315 als ein Auto-Encoder ausgebildet. - In diversen Ausführungsformen wird das DNN
315 unter Anwendung von Maschinenlernen trainiert. Das DNN315 ist ein künstliches neuronales Netzwerk mit Vorwärtskopplung mit mehr als einer Schicht aus verborgenen Einheiten zwischen seinen Eingängen und Ausgängen. Das DNN315 kann trainiert werden, indem Eingangseigenschaften eines oder mehrerer Blöcke aus spektralen Einhüllenden von klaren Audio-Signalen oder ungeschädigten Audio-Signalen empfangen werden. Bei dem Trainingsprozess kann das DNN315 erlernte spektro-temporale Eigenschaften der klaren oder nicht geschädigten spektralen Einhüllenden erlernen. In diversen Ausführungsformen wird das DNN315 , das unter Verwendung der spektralen Einhüllenden von klaren oder ungeschädigten Einhüllenden trainiert ist, in dem Sprachwiederherstellungsmodul330 verwendet, um Vorhersagen der klaren Sprachkomponenten zu verfeinern bzw. aufzubereiten, die insbesondere für die Wiederherstellung von Sprachkomponenten in den verzerrten Frequenzbereichen geeignet sind. Beispielsweise, ohne darauf beschränkt zu sein, sind anschauliche Verfahren, die tiefe neuronale Netzwerke betreffen, auch beschrieben in den US-Patentanmeldungen mit gleichem Anmelder mit der Nr. 14/614 348 mit dem Titel ”Rauschrobuste mehrsprachige Schlüsselworterkennung mit einer Architektur auf Basis eines tiefen neuronalen Netzwerks”, die am 04. Februar 2015 eingereicht wurde, und mit der Nr. 14/745 176 mit dem Titel ”Unterdrückung von Klickgeräuschen von Tasten”, die am 09. Juni 2015 eingereicht wurde, und deren gesamter Inhalt hiermit durch Bezugnahme miteingeschlossen ist. - Während des Betriebs kann das Sprachwiederherstellungsmodul
330 einen Wert Null den Frequenzbereichen eines rauschunterdrückten Signals zuweisen, in denen eine Sprachverzerrung vorhanden ist (verzerrte Bereiche). In dem Beispiel in3 wird das rauschunterdrückte Signal ferner dem Eingang des DNN315 zugeleitet, um ein Ausgangssignal zu empfangen. Das Ausgangssignal enthält die anfänglichen Vorhersagen für die verzerrten Bereiche, die gegebenenfalls nicht sehr genau sind. - In einigen Ausführungsformen wird zur Verbesserung der anfänglichen Vorhersagen ein iterativer Rückkopplungsmechanismus angewendet. Das Ausgangssignal
350 wird optional in den Eingang des DNN315 zurückgespeist, um eine nächste Iteration des Ausgangssignals zu empfangen, wobei das anfängliche rauschunterdrückte Signal in nicht-verzerrten Bereichen des Ausgangssignal beibehalten wird. Um ein divergentes Verhalten des Systems zu vermeiden, kann das Ausgangssignal in den unverzerrten Gebieten mit dem Eingangssignal nach jeder Iteration verglichen werden, und es können eine obere und eine untere Grenze auf die abgeschätzte Energie in unverzerrten Frequenzbereichen auf der Grundlage von Energien in dem Eingangs-Audio-Signal angewendet werden. In diversen Ausführungsformen werden mehrere Iterationen angewendet, um die Genauigkeit der Vorhersagen zu verbessern, bis ein Grad an Genauigkeit erfüllt wird, der für eine spezielle Anwendung gewünscht ist, beispielsweise keine weiteren Iterationen in Reaktion auf die Diskrepanzen des Audio-Signals in nicht-verzerrten Bereichen vornehmen, die vordefinierte Kriterien für die spezielle Anwendung erfüllen. - In einigen Ausführungsformen ist das Rekonstruktionsmodul
340 ausgebildet, ein rauschunterdrücktes Signal mit wiederhergestellten Sprachkomponenten aus dem Sprachwiederherstellungsmodul330 zu empfangen und die wiederhergestellten Sprachkomponenten zu einem einzigen Audio-Signal aufzubauen. -
4 ist ein Flussdiagramm, das ein Verfahren400 zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals gemäß einer anschaulichen Ausführungsform zeigt. Das Verfahren400 kann unter Anwendung des Sprachwiederherstellungsmoduls330 ausgeführt werden. - Das Verfahren kann im Block
402 beginnen, wobei verzerrte Frequenzbereiche und nicht-verzerrte Frequenzbereiche in dem Audio-Signal ermittelt werden. Die verzerrten Sprachbereiche sind Bereiche, in denen eine Sprachverzerrung aufgrund von beispielsweise der Rauschunterdrückung vorhanden ist. - Im Block
404 beinhaltet das Verfahren400 die Ausführung einer oder mehrerer Iterationen unter Anwendung eines Modells, um Vorhersagen des Audio-Signals in verzerrten Frequenzbereiche aufzubereiten. Das Modell kann ausgebildet sein, das Audio-Signal zu modifizieren. In einigen Ausführungsformen umfasst das Modell ein tiefes neuronales Netzwerk, das mit spektralen Einhüllenden von klaren oder ungeschädigten Signalen trainiert wurde. In gewissen Ausführungsformen werden die Vorhersagen des Audio-Signals in verzerrten Frequenzbereichen vor der ersten Iteration auf Null gesetzt. Vor jeder der Iterationen wird das Audio-Signal in nicht-verzerrten Frequenzbereichen mit Werten des Audio-Signals vor der ersten Iteration wiederhergestellt. - Im Block
406 beinhaltet das Verfahren400 das Vergleichen des Audio-Signals in den nicht-verzerrten Bereichen vor und nach jeder Iteration, um Diskrepanzen zu ermitteln. - Im Block
408 werden die Iterationen beendet, wenn die Diskrepanzen vordefinierte Kriterien erfüllen. - Einige anschauliche Ausführungsformen schließen Sprachdynamik mit ein. Für die Sprachdynamik kann das Audio-Verarbeitungssystem
210 mehrere aufeinanderfolgende Audio-Signal-Blöcke erhalten und kann trainiert werden, die gleiche Anzahl an Blöcken auszugeben. Die Berücksichtigung von Sprachdynamik in einigen Ausführungsformen hat die Wirkung, dass ein zeitlich glattes Verhalten erzwungen wird und eine Wiederherstellung längerer Verzerrungsbereiche möglich ist. - Diverse Ausführungsformen werden verwendet, um Verbesserungen für eine Anzahl von Anwendungen, etwa Rauschunterdrückung, Bandbreitenerweiterung, Sprachcodierung und Sprachsynthese, bereitzustellen. Ferner sind die Verfahren und Systeme für eine Sensorvereinigung geeignet, so dass in einigen Ausführungsformen die Verfahren und Systeme so erweitert werden können, dass sie andere nicht-akustische Sensorinformation miteinschließen. Anschauliche Verfahren, die die Vereinigung von Sensoren betrifft, sind auch beschrieben in den US-Patentanmeldungen mit dem gleichen Anmelder mit der Nr. 14/548 207 mit dem Titel ”Verfahren zur Modellierung von Benutzerbesitz einer Mobileinrichtung für eine Benutzerauthentifizierungsplattform”, die am 19. November 2014 eingereicht wurde, und der Nr. 14/331 205 mit dem Titel ”Auswahl von Systemparametern auf der Grundlage einer nicht-akustischen Sensorinformation”, die am 14. Juli 2014 eingereicht wurde, und die hiermit vollständig durch Bezugnahme miteingeschlossen sind.
- Diverse Verfahren zur Widerherstellung von rauschunterdrückter Sprache sind auch beschrieben in der US-Patentanmeldung vom gleichen Anmelder mit der Nr. 13/751 907 (
US-Patent Nr. 8 615 394 ) mit dem Titel ”Wiederherstellung von rauschunterdrückter Sprache”, die am 28. Januar 2013 eingereicht wurde und in ihrer Gesamtheit hierin durch Bezugnahme miteingeschlossen ist. -
5 zeigt ein anschauliches Computersystem500 , das verwendbar ist, um einige Ausführungsformen der vorliegenden Erfindung einzurichten. Das Computersystem500 der5 kann mit Rechensystemen, Netzwerken, Servern oder Kombinationen davon eingerichtet werden. Das Computersystem500 der5 weist eine oder mehrere Prozessoreinheiten510 und einen Hauptspeicher520 auf. Der Hauptspeicher520 speichert in einem Teil Befehle und Daten zur Ausführung durch die Prozessoreinheiten510 . In diesem Beispiel speichert beim Betrieb der Hauptspeicher520 den ausführbaren Code. Das Computersystem500 der5 umfasst ferner einen Massendatenspeicher530 , eine tragbare Speichereinrichtung540 , Ausgabeeinrichtungen550 , Anwendereingabeeinrichtungen560 , ein Grafikanzeigesystem570 und Peripheriegeräte580 . - Die in
5 gezeigten Komponenten sind so dargestellt, dass sie über einen einzigen Bus590 miteinander verbunden sind. Die Komponenten können durch eine oder mehrere Datentransporteinrichtungen verbunden sein. Die Prozessoreinheit510 und der Hauptspeicher520 können über einen lokalen Mikroprozessorbus verbunden sein, und der Massendatenspeicher530 , das eine oder die mehrere Periphergeräte580 , die tragbare Speichereinrichtung540 und das Grafikanzeigesystem570 können über einen oder mehrere Eingabe/Ausgabe-(I/O-)Busse verbunden sein. - Der Massendatenspeicher
530 , der mittels eines Laufwerks mit Magnetplatte, durch ein Halbleiterlaufwerk oder ein Laufwerk mit optischer Diskette eingerichtet werden kann, ist eine nicht-flüchtige Speichereinrichtung zur Speicherung von Daten und Befehlen zur Verwendung durch die Prozessoreinheit510 . Der Massendatenspeicher530 speichert die Systemsoftware zur Implementierung von Ausführungsformen der vorliegenden Offenbarung, um diese Software in den Hauptspeicher520 zu laden. - Die tragbare Speichereinrichtung
540 arbeitet in Verbindung mit einem tragbaren nicht-flüchtigen Speichermedium, etwa einem Flash-Laufwerk, einem Diskettenlaufwerk, einer Kompaktdiskette, einer digitalen Video-Diskette oder einer Speichereinrichtung für den universellen seriellen Bus (USB), um Daten einzugeben und auszugeben und eine Codierung zu und aus dem Computersystem500 der5 auszuführen. Die Systemsoftware zur Implementierung von Ausführungsformen der vorliegenden Offenbarung ist auf einem derartigen tragbaren Medium gespeichert und wird über die tragbare Speichereinrichtung540 in das Computersystem500 eingespeist. - Die Anwendereingabeeinrichtungen
560 können einen Teil einer Anwenderschnittstelle bzw. Benutzeroberfläche bereitstellen. Die Anwendereingabeeinrichtungen560 können ein oder mehrere Mikrofone, eine alphanumerische Tastatur, etwa eine Tastatur, zur Eingabe von alphanumerischen Zeichen und anderer Information oder eine Zeigereinrichtung, etwa eine Maus, einen rollbaren Zeiger, einen Stift oder Zeiger-Richtungstasten miteinschließen. Die Anwendereingabeeinrichtungen560 können ferner auch einen berührungsempfindlichen Bildschirm miteinschließen. Des Weiteren umfasst das Computersystem500 , wie es in5 gezeigt ist, die Ausgabeeinrichtungen550 . Zu geeigneten Ausgabeeinrichtungen550 gehören Lautsprecher, Drucker, Netzwerkschnittstellen und Bildschirme. - Das Grafikanzeigesystem
570 umfasst eine Flüssigkristallanzeige (LCD) oder eine andere geeignete Anzeigeeinrichtung. Das Grafikanzeigesystem570 ist ausgebildet, Textinformation oder Grafikinformation zu empfangen und die Information für die Ausgabe auf der Anzeigeeinrichtung zu verarbeiten. - Die peripheren Geräte
580 können eine beliebige Art von computergestützter Einrichtung sein, um dem Computersystem500 weitere Funktionen hinzuzufügen. - Die Komponenten, die in dem Computersystem
500 der5 bereitgestellt sind, sind solche, die typischerweise in Computersystemen vorgefunden werden, die zur Verwendung in Verbindung mit Ausführungsformen der vorliegenden Offenbarung geeignet sind und eine breite Kategorie derartiger Computerkomponenten repräsentieren sollen, die im Stand der Technik gut bekannt sind. Daher kann das Computersystem500 der5 ein Personalcomputer (PC), ein Computersystem als Handgerät, ein Telefon, ein mobiles Computersystem, ein Arbeitsplatzrechner, ein Tablet, ein Phablet, ein Mobiltelefon, ein Server, ein Minicomputer, ein Großrechner, ein am Körper tragbares Gerät oder ein anderes Computersystem sein. Der Computer kann ferner unterschiedliche Buskonfigurationen, vernetzte Plattformen, Plattformen mit mehreren Prozessoren und dergleichen miteinschließen. Es können diverse Betriebssysteme verwendet werden, einschließlich von UNIX, LINUX, WINDOWS, MAC OS, PALM OS, QNX ANDROID, IOS, CHROME, TIZEN und andere geeignete Betriebssysteme. - Die Verarbeitung für diverse Ausführungsformen kann in Software eingerichtet werden, die Cloud-basiert bzw. Netzwerk-basiert ist. In einigen Ausführungsformen ist das Computersystem
500 als eine Cloud-basierte Rechenumgebung eingerichtet, etwa als eine virtuelle Maschine, die innerhalb einer Rechen-Cloud arbeitet. In anderen Ausführungsformen kann das Computersystem500 selbst eine Cloud-basierte Rechenumgebung enthalten, wobei die Funktionen des Computersystems500 in verteilter Weise ausgeführt werden. Daher kann das Computersystem500 , wenn es als eine Rechen-Cloud ausgebildet ist, mehrere Recheneinrichtungen in diversen Formen aufweisen, wie dies nachfolgend detaillierter beschrieben ist. - Im Allgemeinen ist eine Cloud-basierte Rechenumgebung eine Ressource, die typischerweise die Rechenleistung einer großen Gruppe von Prozessoren (etwa innerhalb von Netz-Servern) kombiniert und/oder die Speicherkapazität einer großen Gruppe von Computerspeichern oder Speichereinrichtungen kombiniert. Systeme, die Cloud-basierte Ressourcen bereitstellen, können exklusiv von ihren Besitzern verwendet werden oder derartige Systeme können für externe Anwender zugänglich sein, die Anwendungen innerhalb der Recheninfrastruktur verteilen, um die Vorteile großer Rechenressourcen oder Speicherressourcen zu erhalten.
- Die Cloud kann beispielsweise durch ein Netzwerk von Netz-Servern gebildet werden, die mehrere Recheneinrichtungen, etwa das Computersystem
500 , umfassen, wobei jeder Server (oder zumindest mehrere davon) Prozessorressourcen und/oder Speicherressourcen bereitstellt. Diese Server können die Auslastung, die durch mehrere Anwender (beispielsweise Kunden der Cloud-Ressource oder andere Anwender) auftritt, verwalten. Typischerweise trägt jeder Anwender zu Anforderungen im Hinblick auf die Arbeitsauslastung für die Cloud bei, die in Echtzeit, manchmal dramatisch, variieren. Die Art und das Ausmaß dieser Schwankungen hängt typischerweise von der Art der geschäftlichen Aktivität des Anwenders ab. - Die vorliegende Technik ist zuvor mit Verweis auf anschauliche Ausführungsformen beschrieben. Es sollen auch andere Variationen der anschaulichen Ausführungsformen durch die vorliegende Offenbarung abgedeckt sein.
Claims (20)
- Ein Verfahren zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals, wobei das Verfahren umfasst: Ermitteln verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal, wobei die verzerrten Frequenzbereiche Bereiche des Audio-Signals umfassen, in denen Sprachverzerrung vorhanden ist; und Ausführen einer oder mehrerer Iterationen unter Anwendung eines Modells zur Aufbereitung von Vorhersagen des Audio-Signals in den verzerrten Frequenzbereichen, wobei das Modell ausgebildet ist, das Audio-Signal zu modifizieren.
- Das Verfahren nach Anspruch 1, wobei das Audio-Signal ein rauschunterdrücktes Signal enthält, das durch eine Geräuschreduzierung und/oder eine Geräuschauslöschung in einem akustischen Signal mit Sprache erhalten wird.
- Das Verfahren nach Anspruch 2, wobei das akustische Signal in den verzerrten Frequenzbereichen abgeschwächt oder ausgelöscht wird.
- Das Verfahren nach Anspruch 1, wobei das Modell ein tiefes neuronales Netzwerk umfasst, das unter Anwendung spektraler Einhüllender von klaren Audio-Signalen oder unbeschädigten Audio-Signalen trainiert ist.
- Das Verfahren nach Anspruch 1, wobei die aufbereiteten Vorhersagen zur Wiederherstellung von Sprachkomponenten in den verzerrten Frequenzbereichen verwendet werden.
- Das Verfahren nach Anspruch 1, wobei das Audio-Signal in den verzerrten Frequenzbereichen vor der ersten der einen oder mehreren Iterationen auf Null gesetzt wird.
- Das Verfahren nach Anspruch 1, wobei vor der Ausführung jeder der einen oder mehreren Iterationen das Audio-Signal in den nicht-verzerrten Frequenzbereichen mit Werten des Audio-Signals vor der ersten der einen oder mehreren Iterationen wiederhergestellt wird.
- Das Verfahren nach Anspruch 1, das ferner nach Ausführung jeder der einen oder mehreren Iterationen umfasst: Vergleichen des Audio-Signals in den nicht-verzerrten Frequenzbereichen vor und nach der Iteration, um Diskrepanzen zu ermitteln.
- Das Verfahren nach Anspruch 8, das ferner Beenden der einen oder mehreren Iterationen umfasst, wenn die Diskrepanzen vorbestimmte Kriterien erfüllen.
- Das Verfahren nach Anspruch 9, wobei die vorbestimmten Kriterien durch eine untere und obere Grenze von Energien des Audio-Signals festgelegt sind.
- Ein System zur Wiederherstellung verzerrter Sprachkomponenten eines Audio-Signals, wobei das System umfasst: mindestens einen Prozessor; und einen Speicher, der kommunizierend mit dem mindestens einem Prozessor verbunden ist, wobei der Speicher Befehle speichert, die bei Ausführung durch den mindestens einen Prozessor ein Verfahren ausführen, mit: Ermitteln verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal, wobei die verzerrten Frequenzbereiche Bereiche des Audio-Signals umfassen, in denen Sprachverzerrung vorhanden ist; und Ausführen einer oder mehrerer Iterationen unter Anwendung eines Modells zur Aufbereitung von Vorhersagen des Audio-Signals in den verzerrten Frequenzbereichen, wobei das Modell ausgebildet ist, das Audio-Signal zu modifizieren.
- Das System nach Anspruch 11, wobei das Audio-Signal ein rauschunterdrücktes Audio-Signal umfasst, das durch Geräuschreduzierung und/oder Geräuschauslöschung eines akustischen mit Sprache erhalten wird.
- Das System nach Anspruch 12, wobei das akustische Signal in den verzerrten Frequenzbereichen abgeschwächt oder ausgelöscht ist.
- Das System nach Anspruch 11, wobei das Modell ein tiefes neuronales Netzwerk umfasst.
- Das System nach Anspruch 14, wobei das tiefe neuronale Netzwerk unter Anwendung spektraler Einhüllender von klaren Audio-Signalen oder unbeschädigten Audio-Signalen trainiert ist.
- Das System nach Anspruch 15, wobei das Audio-Signal in den verzerrten Frequenzbereichen vor der ersten der einen oder mehreren Iterationen auf Null gesetzt ist.
- Das System nach Anspruch 11, wobei vor Ausführung jeder der einen oder mehreren Iterationen das Audio-Signal in den nicht-verzerrten Frequenzbereichen mit Werten vor der ersten der einen oder mehreren Iterationen wiederhergestellt ist.
- Das System nach Anspruch 11, das ferner nach Ausführung jeder der einen oder mehreren Iterationen einen Vergleich des Audio-Signals in den nicht-verzerrten Gebieten vor und nach der Iteration umfasst, um Diskrepanzen zu ermitteln.
- Das System nach Anspruch 18, das ferner das Beenden der einen oder mehreren Iterationen umfasst, wenn die Diskrepanzen vorbestimmte Kriterien erfüllen, wobei die vorbestimmten Kriterien durch eine untere und eine obere Grenze von Energien des Audio-Signals festgelegt sind.
- Ein nicht-flüchtiges computerlesbares Speichermedium mit darin enthaltenen Befehlen, die bei Ausführung durch mindestens einen Prozessor Schritte eines Verfahrens ausführen, wobei das Verfahren umfasst: Ermitteln verzerrter Frequenzbereiche und nicht-verzerrter Frequenzbereiche in dem Audio-Signal, wobei die verzerrten Frequenzbereiche Bereiche des Audio-Signals umfassen, in denen Sprachverzerrung vorhanden ist; und Ausführen einer oder mehrerer Iterationen unter Anwendung eines Modells zur Aufbereitung von Vorhersagen des Audio-Signals in den verzerrten Frequenzbereichen, wobei das Modell ausgebildet ist, das Audio-Signal zu modifizieren.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462049988P | 2014-09-12 | 2014-09-12 | |
US62/049,988 | 2014-09-12 | ||
PCT/US2015/049816 WO2016040885A1 (en) | 2014-09-12 | 2015-09-11 | Systems and methods for restoration of speech components |
Publications (1)
Publication Number | Publication Date |
---|---|
DE112015004185T5 true DE112015004185T5 (de) | 2017-06-01 |
Family
ID=55455344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112015004185.0T Withdrawn DE112015004185T5 (de) | 2014-09-12 | 2015-09-11 | Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten |
Country Status (4)
Country | Link |
---|---|
US (1) | US9978388B2 (de) |
CN (1) | CN107112025A (de) |
DE (1) | DE112015004185T5 (de) |
WO (1) | WO2016040885A1 (de) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US9978388B2 (en) * | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
US10311219B2 (en) * | 2016-06-07 | 2019-06-04 | Vocalzoom Systems Ltd. | Device, system, and method of user authentication utilizing an optical microphone |
US10141005B2 (en) | 2016-06-10 | 2018-11-27 | Apple Inc. | Noise detection and removal systems, and related methods |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
KR20180111271A (ko) | 2017-03-31 | 2018-10-11 | 삼성전자주식회사 | 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치 |
KR20190037844A (ko) * | 2017-09-29 | 2019-04-08 | 엘지전자 주식회사 | 이동 단말기 |
EP3474280B1 (de) | 2017-10-19 | 2021-07-07 | Goodix Technology (HK) Company Limited | Signalprozessor zur sprachsignalverstärkung |
EP3667663A4 (de) * | 2017-10-24 | 2020-09-02 | Samsung Electronics Co., Ltd. | Audiorekonstruktionsverfahren und -vorrichtung, die maschinelles lernen verwenden |
US11416742B2 (en) | 2017-11-24 | 2022-08-16 | Electronics And Telecommunications Research Institute | Audio signal encoding method and apparatus and audio signal decoding method and apparatus using psychoacoustic-based weighted error function |
WO2019133765A1 (en) | 2017-12-28 | 2019-07-04 | Knowles Electronics, Llc | Direction of arrival estimation for multiple audio content streams |
US10522167B1 (en) * | 2018-02-13 | 2019-12-31 | Amazon Techonlogies, Inc. | Multichannel noise cancellation using deep neural network masking |
US10672414B2 (en) * | 2018-04-13 | 2020-06-02 | Microsoft Technology Licensing, Llc | Systems, methods, and computer-readable media for improved real-time audio processing |
US10650806B2 (en) * | 2018-04-23 | 2020-05-12 | Cerence Operating Company | System and method for discriminative training of regression deep neural networks |
CN109545227B (zh) * | 2018-04-28 | 2023-05-09 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及系统 |
CN109147804A (zh) * | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 一种基于深度学习的音质特性处理方法及系统 |
CN109147805B (zh) * | 2018-06-05 | 2021-03-02 | 安克创新科技股份有限公司 | 基于深度学习的音频音质增强 |
AU2019287569A1 (en) | 2018-06-14 | 2021-02-04 | Pindrop Security, Inc. | Deep neural network based speech enhancement |
US11341983B2 (en) | 2018-09-17 | 2022-05-24 | Honeywell International Inc. | System and method for audio noise reduction |
CN112820315B (zh) * | 2020-07-13 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 音频信号处理方法、装置、计算机设备及存储介质 |
CN112289343B (zh) * | 2020-10-28 | 2024-03-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频修复方法、装置及电子设备和计算机可读存储介质 |
CN113539291A (zh) * | 2021-07-09 | 2021-10-22 | 北京声智科技有限公司 | 音频信号的降噪方法、装置、电子设备及存储介质 |
US11682411B2 (en) * | 2021-08-31 | 2023-06-20 | Spotify Ab | Wind noise suppresor |
Family Cites Families (361)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4025724A (en) | 1975-08-12 | 1977-05-24 | Westinghouse Electric Corporation | Noise cancellation apparatus |
US4137510A (en) | 1976-01-22 | 1979-01-30 | Victor Company Of Japan, Ltd. | Frequency band dividing filter |
WO1984000634A1 (en) | 1982-08-04 | 1984-02-16 | Henry G Kellett | Apparatus and method for articulatory speech recognition |
US4802227A (en) | 1987-04-03 | 1989-01-31 | American Telephone And Telegraph Company | Noise reduction processing arrangement for microphone arrays |
US5115404A (en) | 1987-12-23 | 1992-05-19 | Tektronix, Inc. | Digital storage oscilloscope with indication of aliased display |
US4969203A (en) | 1988-01-25 | 1990-11-06 | North American Philips Corporation | Multiplicative sieve signal processing |
US5182557A (en) | 1989-09-20 | 1993-01-26 | Semborg Recrob, Corp. | Motorized joystick |
US5204906A (en) | 1990-02-13 | 1993-04-20 | Matsushita Electric Industrial Co., Ltd. | Voice signal processing device |
JPH0454100A (ja) | 1990-06-22 | 1992-02-21 | Clarion Co Ltd | 音声信号補償回路 |
WO1992005538A1 (en) | 1990-09-14 | 1992-04-02 | Chris Todter | Noise cancelling systems |
GB9107011D0 (en) | 1991-04-04 | 1991-05-22 | Gerzon Michael A | Illusory sound distance control method |
US5224170A (en) | 1991-04-15 | 1993-06-29 | Hewlett-Packard Company | Time domain compensation for transducer mismatch |
US5440751A (en) | 1991-06-21 | 1995-08-08 | Compaq Computer Corp. | Burst data transfer to single cycle data transfer conversion and strobe signal conversion |
CA2080608A1 (en) | 1992-01-02 | 1993-07-03 | Nader Amini | Bus control logic for computer system having dual bus architecture |
EP0559348A3 (de) | 1992-03-02 | 1993-11-03 | AT&T Corp. | Rateurregelschleifenprozessor für einen wahrnehmungsgebundenen Koder/Dekoder |
JPH05300419A (ja) | 1992-04-16 | 1993-11-12 | Sanyo Electric Co Ltd | ビデオカメラ |
US5400409A (en) | 1992-12-23 | 1995-03-21 | Daimler-Benz Ag | Noise-reduction method for noise-affected voice channels |
US5524056A (en) | 1993-04-13 | 1996-06-04 | Etymotic Research, Inc. | Hearing aid having plural microphones and a microphone switching system |
DE4316297C1 (de) | 1993-05-14 | 1994-04-07 | Fraunhofer Ges Forschung | Frequenzanalyseverfahren |
JPH07336793A (ja) | 1994-06-09 | 1995-12-22 | Matsushita Electric Ind Co Ltd | ビデオカメラ用マイクロホン |
US5978567A (en) | 1994-07-27 | 1999-11-02 | Instant Video Technologies Inc. | System for distribution of interactive multimedia and linear programs by enabling program webs which include control scripts to define presentation by client transceiver |
US5598505A (en) | 1994-09-30 | 1997-01-28 | Apple Computer, Inc. | Cepstral correction vector quantizer for speech recognition |
GB9501734D0 (en) | 1995-01-30 | 1995-03-22 | Neopost Ltd | franking apparatus and printing means therefor |
US5682463A (en) | 1995-02-06 | 1997-10-28 | Lucent Technologies Inc. | Perceptual audio compression based on loudness uncertainty |
JP3307138B2 (ja) | 1995-02-27 | 2002-07-24 | ソニー株式会社 | 信号符号化方法及び装置、並びに信号復号化方法及び装置 |
EP0732687B2 (de) * | 1995-03-13 | 2005-10-12 | Matsushita Electric Industrial Co., Ltd. | Vorrichtung zur Erweiterung der Sprachbandbreite |
US6263307B1 (en) | 1995-04-19 | 2001-07-17 | Texas Instruments Incorporated | Adaptive weiner filtering using line spectral frequencies |
US5625697A (en) | 1995-05-08 | 1997-04-29 | Lucent Technologies Inc. | Microphone selection process for use in a multiple microphone voice actuated switching system |
US5774837A (en) | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
FI99062C (fi) | 1995-10-05 | 1997-09-25 | Nokia Mobile Phones Ltd | Puhesignaalin taajuuskorjaus matkapuhelimessa |
US5819215A (en) | 1995-10-13 | 1998-10-06 | Dobson; Kurt | Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5734713A (en) | 1996-01-30 | 1998-03-31 | Jabra Corporation | Method and system for remote telephone calibration |
US6035177A (en) | 1996-02-26 | 2000-03-07 | Donald W. Moses | Simultaneous transmission of ancillary and audio signals by means of perceptual coding |
JP3325770B2 (ja) | 1996-04-26 | 2002-09-17 | 三菱電機株式会社 | ノイズ低減回路及びノイズ低減装置及びノイズ低減方法 |
US5715319A (en) | 1996-05-30 | 1998-02-03 | Picturetel Corporation | Method and apparatus for steerable and endfire superdirective microphone arrays with reduced analog-to-digital converter and computational requirements |
US5806025A (en) | 1996-08-07 | 1998-09-08 | U S West, Inc. | Method and system for adaptive filtering of speech signals using signal-to-noise ratio to choose subband filter bank |
US5757933A (en) | 1996-12-11 | 1998-05-26 | Micro Ear Technology, Inc. | In-the-ear hearing aid with directional microphone system |
JP2930101B2 (ja) | 1997-01-29 | 1999-08-03 | 日本電気株式会社 | 雑音消去装置 |
US6104993A (en) | 1997-02-26 | 2000-08-15 | Motorola, Inc. | Apparatus and method for rate determination in a communication system |
FI114247B (fi) | 1997-04-11 | 2004-09-15 | Nokia Corp | Menetelmä ja laite puheen tunnistamiseksi |
US6281749B1 (en) | 1997-06-17 | 2001-08-28 | Srs Labs, Inc. | Sound enhancement system |
US6084916A (en) | 1997-07-14 | 2000-07-04 | Vlsi Technology, Inc. | Receiver sample rate frequency adjustment for sample rate conversion between asynchronous digital systems |
US5991385A (en) | 1997-07-16 | 1999-11-23 | International Business Machines Corporation | Enhanced audio teleconferencing with sound field effect |
US6144937A (en) | 1997-07-23 | 2000-11-07 | Texas Instruments Incorporated | Noise suppression of speech by signal processing including applying a transform to time domain input sequences of digital signals representing audio information |
KR19990015748A (ko) | 1997-08-09 | 1999-03-05 | 구자홍 | 전자우편 |
FR2768547B1 (fr) | 1997-09-18 | 1999-11-19 | Matra Communication | Procede de debruitage d'un signal de parole numerique |
US6202047B1 (en) | 1998-03-30 | 2001-03-13 | At&T Corp. | Method and apparatus for speech recognition using second order statistics and linear estimation of cepstral coefficients |
US7245710B1 (en) | 1998-04-08 | 2007-07-17 | British Telecommunications Public Limited Company | Teleconferencing system |
US6684199B1 (en) | 1998-05-20 | 2004-01-27 | Recording Industry Association Of America | Method for minimizing pirating and/or unauthorized copying and/or unauthorized access of/to data on/from data media including compact discs and digital versatile discs, and system and data media for same |
US6421388B1 (en) | 1998-05-27 | 2002-07-16 | 3Com Corporation | Method and apparatus for determining PCM code translations |
US6717991B1 (en) | 1998-05-27 | 2004-04-06 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for dual microphone signal noise reduction using spectral subtraction |
US6041130A (en) | 1998-06-23 | 2000-03-21 | Mci Communications Corporation | Headset with multiple connections |
US20040066940A1 (en) | 2002-10-03 | 2004-04-08 | Silentium Ltd. | Method and system for inhibiting noise produced by one or more sources of undesired sound from pickup by a speech recognition unit |
US6240386B1 (en) | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US6381469B1 (en) | 1998-10-02 | 2002-04-30 | Nokia Corporation | Frequency equalizer, and associated method, for a radio telephone |
US6768979B1 (en) | 1998-10-22 | 2004-07-27 | Sony Corporation | Apparatus and method for noise attenuation in a speech recognition system |
US6188769B1 (en) | 1998-11-13 | 2001-02-13 | Creative Technology Ltd. | Environmental reverberation processor |
US6504926B1 (en) | 1998-12-15 | 2003-01-07 | Mediaring.Com Ltd. | User control system for internet phone quality |
US6873837B1 (en) | 1999-02-03 | 2005-03-29 | Matsushita Electric Industrial Co., Ltd. | Emergency reporting system and terminal apparatus therein |
US6496795B1 (en) | 1999-05-05 | 2002-12-17 | Microsoft Corporation | Modulated complex lapped transform for integrated signal enhancement and coding |
US7423983B1 (en) | 1999-09-20 | 2008-09-09 | Broadcom Corporation | Voice and data exchange over a packet based network |
US6219408B1 (en) | 1999-05-28 | 2001-04-17 | Paul Kurth | Apparatus and method for simultaneously transmitting biomedical data and human voice over conventional telephone lines |
US6490556B2 (en) | 1999-05-28 | 2002-12-03 | Intel Corporation | Audio classifier for half duplex communication |
US7035666B2 (en) | 1999-06-09 | 2006-04-25 | Shimon Silberfening | Combination cellular telephone, sound storage device, and email communication device |
US6381284B1 (en) | 1999-06-14 | 2002-04-30 | T. Bogomolny | Method of and devices for telecommunications |
US6226616B1 (en) | 1999-06-21 | 2001-05-01 | Digital Theater Systems, Inc. | Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility |
EP1081685A3 (de) | 1999-09-01 | 2002-04-24 | TRW Inc. | Rauschverminderungsverfahren in einem Sprachsignal mit einem einzigen Mikrophon |
US6480610B1 (en) | 1999-09-21 | 2002-11-12 | Sonic Innovations, Inc. | Subband acoustic feedback cancellation in hearing aids |
US7054809B1 (en) | 1999-09-22 | 2006-05-30 | Mindspeed Technologies, Inc. | Rate selection method for selectable mode vocoder |
US6636829B1 (en) | 1999-09-22 | 2003-10-21 | Mindspeed Technologies, Inc. | Speech communication system and method for handling lost frames |
FI116643B (fi) | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
US7058572B1 (en) | 2000-01-28 | 2006-06-06 | Nortel Networks Limited | Reducing acoustic noise in wireless and landline based telephony |
US6584438B1 (en) | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
JP2001318694A (ja) | 2000-05-10 | 2001-11-16 | Toshiba Corp | 信号処理装置、信号処理方法および記録媒体 |
US6377637B1 (en) | 2000-07-12 | 2002-04-23 | Andrea Electronics Corporation | Sub-band exponential smoothing noise canceling system |
US8019091B2 (en) | 2000-07-19 | 2011-09-13 | Aliphcom, Inc. | Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression |
US20030179888A1 (en) | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
US20020041678A1 (en) | 2000-08-18 | 2002-04-11 | Filiz Basburg-Ertem | Method and apparatus for integrated echo cancellation and noise reduction for fixed subscriber terminals |
US6862567B1 (en) | 2000-08-30 | 2005-03-01 | Mindspeed Technologies, Inc. | Noise suppression in the frequency domain by adjusting gain according to voicing parameters |
JP2002149200A (ja) | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
DE10045197C1 (de) | 2000-09-13 | 2002-03-07 | Siemens Audiologische Technik | Verfahren zum Betrieb eines Hörhilfegerätes oder Hörgerätessystems sowie Hörhilfegerät oder Hörgerätesystem |
US6520673B2 (en) | 2000-12-08 | 2003-02-18 | Msp Corporation | Mixing devices for sample recovery from a USP induction port or a pre-separator |
US6907045B1 (en) | 2000-11-17 | 2005-06-14 | Nortel Networks Limited | Method and apparatus for data-path conversion comprising PCM bit robbing signalling |
DK1928109T3 (da) | 2000-11-30 | 2012-08-27 | Intrasonics Sarl | Mobiltelefon til indsamling af publikumsundersøgelsesdata |
US7472059B2 (en) | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US20020097884A1 (en) | 2001-01-25 | 2002-07-25 | Cairns Douglas A. | Variable noise reduction algorithm based on vehicle conditions |
US6754623B2 (en) | 2001-01-31 | 2004-06-22 | International Business Machines Corporation | Methods and apparatus for ambient noise removal in speech recognition |
US7617099B2 (en) | 2001-02-12 | 2009-11-10 | FortMedia Inc. | Noise suppression by two-channel tandem spectrum modification for speech signal in an automobile |
EP1239455A3 (de) | 2001-03-09 | 2004-01-21 | Alcatel | Verfahren und Anordnung zur Durchführung einer an die Übertragungsfunktion menschilcher Sinnesorgane angepassten Fourier Transformation sowie darauf basierende Vorrichtungen zur Geräuschreduktion und Spracherkennung |
DE60142800D1 (de) | 2001-03-28 | 2010-09-23 | Mitsubishi Electric Corp | Rauschunterdrücker |
SE0101175D0 (sv) | 2001-04-02 | 2001-04-02 | Coding Technologies Sweden Ab | Aliasing reduction using complex-exponential-modulated filterbanks |
JP3955265B2 (ja) | 2001-04-18 | 2007-08-08 | ヴェーデクス・アクティーセルスカプ | 指向性コントローラおよび補聴器を制御する方法 |
US20020160751A1 (en) | 2001-04-26 | 2002-10-31 | Yingju Sun | Mobile devices with integrated voice recording mechanism |
US8934382B2 (en) | 2001-05-10 | 2015-01-13 | Polycom, Inc. | Conference endpoint controlling functions of a remote device |
US8452023B2 (en) | 2007-05-25 | 2013-05-28 | Aliphcom | Wind suppression/replacement component for use with electronic systems |
US6493668B1 (en) | 2001-06-15 | 2002-12-10 | Yigal Brandman | Speech feature extraction system |
AUPR647501A0 (en) | 2001-07-19 | 2001-08-09 | Vast Audio Pty Ltd | Recording a three dimensional auditory scene and reproducing it for the individual listener |
GB0121206D0 (en) | 2001-08-31 | 2001-10-24 | Mitel Knowledge Corp | System and method of indicating and controlling sound pickup direction and location in a teleconferencing system |
GB0121308D0 (en) | 2001-09-03 | 2001-10-24 | Thomas Swan & Company Ltd | Optical processing |
US7574474B2 (en) | 2001-09-14 | 2009-08-11 | Xerox Corporation | System and method for sharing and controlling multiple audio and video streams |
US6895375B2 (en) | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US6707921B2 (en) | 2001-11-26 | 2004-03-16 | Hewlett-Packard Development Company, Lp. | Use of mouth position and mouth movement to filter noise from speech in a hearing aid |
WO2003047115A1 (en) | 2001-11-30 | 2003-06-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Method for replacing corrupted audio data |
US7096037B2 (en) | 2002-01-29 | 2006-08-22 | Palm, Inc. | Videoconferencing bandwidth management for a handheld computer system and method |
US7171008B2 (en) | 2002-02-05 | 2007-01-30 | Mh Acoustics, Llc | Reducing noise in audio systems |
US8098844B2 (en) | 2002-02-05 | 2012-01-17 | Mh Acoustics, Llc | Dual-microphone spatial noise suppression |
US20050228518A1 (en) | 2002-02-13 | 2005-10-13 | Applied Neurosystems Corporation | Filter set for frequency analysis |
US7158572B2 (en) | 2002-02-14 | 2007-01-02 | Tellabs Operations, Inc. | Audio enhancement communication techniques |
JP4195267B2 (ja) | 2002-03-14 | 2008-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、その音声認識方法及びプログラム |
US6978010B1 (en) | 2002-03-21 | 2005-12-20 | Bellsouth Intellectual Property Corp. | Ambient noise cancellation for voice communication device |
WO2003084103A1 (en) | 2002-03-22 | 2003-10-09 | Georgia Tech Research Corporation | Analog audio enhancement system using a noise suppression algorithm |
US7174292B2 (en) * | 2002-05-20 | 2007-02-06 | Microsoft Corporation | Method of determining uncertainty associated with acoustic distortion-based noise reduction |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US20030228019A1 (en) | 2002-06-11 | 2003-12-11 | Elbit Systems Ltd. | Method and system for reducing noise |
JP2004023481A (ja) | 2002-06-17 | 2004-01-22 | Alpine Electronics Inc | 音響信号処理装置及び方法並びにオーディオ装置 |
WO2004008437A2 (en) | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
BR0311601A (pt) | 2002-07-19 | 2005-02-22 | Nec Corp | Aparelho e método decodificador de áudio e programa para habilitar computador |
JP4227772B2 (ja) | 2002-07-19 | 2009-02-18 | 日本電気株式会社 | オーディオ復号装置と復号方法およびプログラム |
US7783061B2 (en) | 2003-08-27 | 2010-08-24 | Sony Computer Entertainment Inc. | Methods and apparatus for the targeted sound detection |
US7760248B2 (en) | 2002-07-27 | 2010-07-20 | Sony Computer Entertainment Inc. | Selective sound source listening in conjunction with computer interactive processing |
US8019121B2 (en) | 2002-07-27 | 2011-09-13 | Sony Computer Entertainment Inc. | Method and system for processing intensity from input devices for interfacing with a computer program |
US7283956B2 (en) | 2002-09-18 | 2007-10-16 | Motorola, Inc. | Noise suppression |
US7657427B2 (en) | 2002-10-11 | 2010-02-02 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US7630409B2 (en) | 2002-10-21 | 2009-12-08 | Lsi Corporation | Method and apparatus for improved play-out packet control algorithm |
US20040083110A1 (en) | 2002-10-23 | 2004-04-29 | Nokia Corporation | Packet loss recovery based on music signal classification and mixing |
US7970606B2 (en) | 2002-11-13 | 2011-06-28 | Digital Voice Systems, Inc. | Interoperable vocoder |
CN1735927B (zh) | 2003-01-09 | 2011-08-31 | 爱移通全球有限公司 | 用于高质量语音编码转换的方法和装置 |
JP4247002B2 (ja) | 2003-01-22 | 2009-04-02 | 富士通株式会社 | マイクロホンアレイを用いた話者距離検出装置及び方法並びに当該装置を用いた音声入出力装置 |
KR100503479B1 (ko) | 2003-01-24 | 2005-07-28 | 삼성전자주식회사 | 휴대용단말기의 크레들 및 이를 이용한 휴대용단말기고정방법 |
EP1443498B1 (de) | 2003-01-24 | 2008-03-19 | Sony Ericsson Mobile Communications AB | Rauschreduzierung und audiovisuelle Sprachaktivitätsdetektion |
DE10305820B4 (de) | 2003-02-12 | 2006-06-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Bestimmen einer Wiedergabeposition |
US7885420B2 (en) | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US7725315B2 (en) | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
GB2398913B (en) | 2003-02-27 | 2005-08-17 | Motorola Inc | Noise estimation in speech recognition |
FR2851879A1 (fr) | 2003-02-27 | 2004-09-03 | France Telecom | Procede de traitement de donnees sonores compressees, pour spatialisation. |
US7090431B2 (en) | 2003-03-19 | 2006-08-15 | Cosgrove Patrick J | Marine vessel lifting system with variable level detection |
US8412526B2 (en) | 2003-04-01 | 2013-04-02 | Nuance Communications, Inc. | Restoration of high-order Mel frequency cepstral coefficients |
NO318096B1 (no) | 2003-05-08 | 2005-01-31 | Tandberg Telecom As | Arrangement og fremgangsmate for lokalisering av lydkilde |
US7353169B1 (en) | 2003-06-24 | 2008-04-01 | Creative Technology Ltd. | Transient detection and modification in audio signals |
US7376553B2 (en) | 2003-07-08 | 2008-05-20 | Robert Patel Quinn | Fractal harmonic overtone mapping of speech and musical sounds |
EP1513137A1 (de) | 2003-08-22 | 2005-03-09 | MicronasNIT LCC, Novi Sad Institute of Information Technologies | Sprachverarbeitungssystem und -verfahren mit Multipuls-Anregung |
EP1667109A4 (de) | 2003-09-17 | 2007-10-03 | Beijing E World Technology Co | Verfahren und einrichtung zur mehrfachauflösungs-vektorquantilisierung für die audiocodierung und -decodierung |
US7190775B2 (en) | 2003-10-29 | 2007-03-13 | Broadcom Corporation | High quality audio conferencing with adaptive beamforming |
DE602004021716D1 (de) | 2003-11-12 | 2009-08-06 | Honda Motor Co Ltd | Spracherkennungssystem |
JP4396233B2 (ja) | 2003-11-13 | 2010-01-13 | パナソニック株式会社 | 複素指数変調フィルタバンクの信号分析方法、信号合成方法、そのプログラム及びその記録媒体 |
GB2408655B (en) | 2003-11-27 | 2007-02-28 | Motorola Inc | Communication system, communication units and method of ambience listening thereto |
CA2454296A1 (en) | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
PL1706866T3 (pl) * | 2004-01-20 | 2008-10-31 | Dolby Laboratories Licensing Corp | Kodowanie dźwięku w oparciu o grupowanie bloków |
JP2005249816A (ja) | 2004-03-01 | 2005-09-15 | Internatl Business Mach Corp <Ibm> | 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム |
WO2005086138A1 (ja) | 2004-03-05 | 2005-09-15 | Matsushita Electric Industrial Co., Ltd. | エラー隠蔽装置およびエラー隠蔽方法 |
GB0408856D0 (en) | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
JP4437052B2 (ja) | 2004-04-21 | 2010-03-24 | パナソニック株式会社 | 音声復号化装置および音声復号化方法 |
US20050249292A1 (en) | 2004-05-07 | 2005-11-10 | Ping Zhu | System and method for enhancing the performance of variable length coding |
US7103176B2 (en) | 2004-05-13 | 2006-09-05 | International Business Machines Corporation | Direct coupling of telephone volume control with remote microphone gain and noise cancellation |
GB2414369B (en) | 2004-05-21 | 2007-08-01 | Hewlett Packard Development Co | Processing audio data |
EP1600947A3 (de) | 2004-05-26 | 2005-12-21 | Honda Research Institute Europe GmbH | Subtraktive Reduktion von harmonischen Störgeräuschen |
US7695438B2 (en) | 2004-05-26 | 2010-04-13 | Siemens Medical Solutions Usa, Inc. | Acoustic disruption minimizing systems and methods |
US7254665B2 (en) | 2004-06-16 | 2007-08-07 | Microsoft Corporation | Method and system for reducing latency in transferring captured image data by utilizing burst transfer after threshold is reached |
US20060063560A1 (en) | 2004-09-21 | 2006-03-23 | Samsung Electronics Co., Ltd. | Dual-mode phone using GPS power-saving assist for operating in cellular and WiFi networks |
US7383179B2 (en) | 2004-09-28 | 2008-06-03 | Clarity Technologies, Inc. | Method of cascading noise reduction algorithms to avoid speech distortion |
US20060092918A1 (en) | 2004-11-04 | 2006-05-04 | Alexander Talalai | Audio receiver having adaptive buffer delay |
JP2008519991A (ja) | 2004-11-09 | 2008-06-12 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声の符号化及び復号化 |
JP4283212B2 (ja) | 2004-12-10 | 2009-06-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 |
US20060206320A1 (en) | 2005-03-14 | 2006-09-14 | Li Qi P | Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers |
JP5129115B2 (ja) | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 高帯域バーストの抑制のためのシステム、方法、および装置 |
US7664495B1 (en) | 2005-04-21 | 2010-02-16 | At&T Mobility Ii Llc | Voice call redirection for enterprise hosted dual mode service |
DE502006004136D1 (de) | 2005-04-28 | 2009-08-13 | Siemens Ag | Verfahren und vorrichtung zur geräuschunterdrückung |
EP2352149B1 (de) | 2005-05-05 | 2013-09-04 | Sony Computer Entertainment Inc. | Selektives Hören von Tonquellen in Verbindung mit computerinteraktiver Verarbeitung |
WO2006123721A1 (ja) | 2005-05-17 | 2006-11-23 | Yamaha Corporation | 雑音抑圧方法およびその装置 |
US7647077B2 (en) | 2005-05-31 | 2010-01-12 | Bitwave Pte Ltd | Method for echo control of a wireless headset |
US7531973B2 (en) | 2005-05-31 | 2009-05-12 | Rockwell Automation Technologies, Inc. | Wizard for configuring a motor drive system |
JP2006339991A (ja) | 2005-06-01 | 2006-12-14 | Matsushita Electric Ind Co Ltd | マルチチャンネル収音装置、マルチチャンネル音声再生装置、およびマルチチャンネル収音再生装置 |
JP4910312B2 (ja) | 2005-06-03 | 2012-04-04 | ソニー株式会社 | 撮像装置および撮像方法 |
US8566086B2 (en) | 2005-06-28 | 2013-10-22 | Qnx Software Systems Limited | System for adaptive enhancement of speech signals |
US8311840B2 (en) * | 2005-06-28 | 2012-11-13 | Qnx Software Systems Limited | Frequency extension of harmonic signals |
US20070003097A1 (en) | 2005-06-30 | 2007-01-04 | Altec Lansing Technologies, Inc. | Angularly adjustable speaker system |
US20070005351A1 (en) | 2005-06-30 | 2007-01-04 | Sathyendra Harsha M | Method and system for bandwidth expansion for voice communications |
US8103023B2 (en) | 2005-07-06 | 2012-01-24 | Koninklijke Philips Electronics N.V. | Apparatus and method for acoustic beamforming |
US7617436B2 (en) | 2005-08-02 | 2009-11-10 | Nokia Corporation | Method, device, and system for forward channel error recovery in video sequence transmission over packet-based network |
KR101116363B1 (ko) | 2005-08-11 | 2012-03-09 | 삼성전자주식회사 | 음성신호 분류방법 및 장치, 및 이를 이용한 음성신호부호화방법 및 장치 |
US20070041589A1 (en) | 2005-08-17 | 2007-02-22 | Gennum Corporation | System and method for providing environmental specific noise reduction algorithms |
US8326614B2 (en) | 2005-09-02 | 2012-12-04 | Qnx Software Systems Limited | Speech enhancement system |
JP4356670B2 (ja) | 2005-09-12 | 2009-11-04 | ソニー株式会社 | 雑音低減装置及び雑音低減方法並びに雑音低減プログラムとその電子機器用収音装置 |
US7917561B2 (en) | 2005-09-16 | 2011-03-29 | Coding Technologies Ab | Partially complex modulated filter bank |
US20100130198A1 (en) | 2005-09-29 | 2010-05-27 | Plantronics, Inc. | Remote processing of multiple acoustic signals |
US20080247567A1 (en) | 2005-09-30 | 2008-10-09 | Squarehead Technology As | Directional Audio Capturing |
US7813923B2 (en) | 2005-10-14 | 2010-10-12 | Microsoft Corporation | Calibration based beamforming, non-linear adaptive filtering, and multi-sensor headset |
US7970123B2 (en) | 2005-10-20 | 2011-06-28 | Mitel Networks Corporation | Adaptive coupling equalization in beamforming-based communication systems |
US7562140B2 (en) | 2005-11-15 | 2009-07-14 | Cisco Technology, Inc. | Method and apparatus for providing trend information from network devices |
US20070127668A1 (en) | 2005-12-02 | 2007-06-07 | Ahya Deepak P | Method and system for performing a conference call |
US7366658B2 (en) | 2005-12-09 | 2008-04-29 | Texas Instruments Incorporated | Noise pre-processor for enhanced variable rate speech codec |
EP1796080B1 (de) | 2005-12-12 | 2009-11-18 | Gregory John Gadbois | Mehrstimmige Spracherkennung |
US7565288B2 (en) | 2005-12-22 | 2009-07-21 | Microsoft Corporation | Spatial noise suppression for a microphone array |
JP4876574B2 (ja) | 2005-12-26 | 2012-02-15 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
US8345890B2 (en) | 2006-01-05 | 2013-01-01 | Audience, Inc. | System and method for utilizing inter-microphone level differences for speech enhancement |
US8346544B2 (en) | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
US8032369B2 (en) | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
JP4940671B2 (ja) | 2006-01-26 | 2012-05-30 | ソニー株式会社 | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム |
US8194880B2 (en) | 2006-01-30 | 2012-06-05 | Audience, Inc. | System and method for utilizing omni-directional microphones for speech enhancement |
US8744844B2 (en) | 2007-07-06 | 2014-06-03 | Audience, Inc. | System and method for adaptive intelligent noise suppression |
US9185487B2 (en) | 2006-01-30 | 2015-11-10 | Audience, Inc. | System and method for providing noise suppression utilizing null processing noise subtraction |
US7685132B2 (en) | 2006-03-15 | 2010-03-23 | Mog, Inc | Automatic meta-data sharing of existing media through social networking |
US7676374B2 (en) | 2006-03-28 | 2010-03-09 | Nokia Corporation | Low complexity subband-domain filtering in the case of cascaded filter banks |
US7555075B2 (en) | 2006-04-07 | 2009-06-30 | Freescale Semiconductor, Inc. | Adjustable noise suppression system |
US8180067B2 (en) | 2006-04-28 | 2012-05-15 | Harman International Industries, Incorporated | System for selectively extracting components of an audio input signal |
US8068619B2 (en) | 2006-05-09 | 2011-11-29 | Fortemedia, Inc. | Method and apparatus for noise suppression in a small array microphone system |
US7548791B1 (en) | 2006-05-18 | 2009-06-16 | Adobe Systems Incorporated | Graphically displaying audio pan or phase information |
US8044291B2 (en) | 2006-05-18 | 2011-10-25 | Adobe Systems Incorporated | Selection of visually displayed audio data for editing |
US8204253B1 (en) | 2008-06-30 | 2012-06-19 | Audience, Inc. | Self calibration of audio device |
US8150065B2 (en) | 2006-05-25 | 2012-04-03 | Audience, Inc. | System and method for processing an audio signal |
US8934641B2 (en) | 2006-05-25 | 2015-01-13 | Audience, Inc. | Systems and methods for reconstructing decomposed audio signals |
US7593535B2 (en) * | 2006-08-01 | 2009-09-22 | Dts, Inc. | Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer |
US8229137B2 (en) | 2006-08-31 | 2012-07-24 | Sony Ericsson Mobile Communications Ab | Volume control circuits for use in electronic devices and related methods and electronic devices |
US8036767B2 (en) | 2006-09-20 | 2011-10-11 | Harman International Industries, Incorporated | System for extracting and changing the reverberant content of an audio input signal |
EP1918910B1 (de) | 2006-10-31 | 2009-03-11 | Harman Becker Automotive Systems GmbH | Modellbasierte Verbesserung von Sprachsignalen |
US7492312B2 (en) | 2006-11-14 | 2009-02-17 | Fam Adly T | Multiplicative mismatched filters for optimum range sidelobe suppression in barker code reception |
US8019089B2 (en) | 2006-11-20 | 2011-09-13 | Microsoft Corporation | Removal of noise, corresponding to user input devices from an audio signal |
US7626942B2 (en) | 2006-11-22 | 2009-12-01 | Spectra Link Corp. | Method of conducting an audio communications session using incorrect timestamps |
US7983685B2 (en) | 2006-12-07 | 2011-07-19 | Innovative Wireless Technologies, Inc. | Method and apparatus for management of a global wireless sensor network |
US20080159507A1 (en) | 2006-12-27 | 2008-07-03 | Nokia Corporation | Distributed teleconference multichannel architecture, system, method, and computer program product |
US7973857B2 (en) | 2006-12-27 | 2011-07-05 | Nokia Corporation | Teleconference group formation using context information |
WO2008085207A2 (en) | 2006-12-29 | 2008-07-17 | Prodea Systems, Inc. | Multi-services application gateway |
GB2445984B (en) | 2007-01-25 | 2011-12-07 | Sonaptic Ltd | Ambient noise reduction |
US20080187143A1 (en) | 2007-02-01 | 2008-08-07 | Research In Motion Limited | System and method for providing simulated spatial sound in group voice communication sessions on a wireless communication device |
US8060363B2 (en) | 2007-02-13 | 2011-11-15 | Nokia Corporation | Audio signal encoding |
JP4449987B2 (ja) | 2007-02-15 | 2010-04-14 | ソニー株式会社 | 音声処理装置、音声処理方法およびプログラム |
US8195454B2 (en) | 2007-02-26 | 2012-06-05 | Dolby Laboratories Licensing Corporation | Speech enhancement in entertainment audio |
US20080208575A1 (en) | 2007-02-27 | 2008-08-28 | Nokia Corporation | Split-band encoding and decoding of an audio signal |
US7848738B2 (en) | 2007-03-19 | 2010-12-07 | Avaya Inc. | Teleconferencing system with multiple channels at each location |
US20080259731A1 (en) | 2007-04-17 | 2008-10-23 | Happonen Aki P | Methods and apparatuses for user controlled beamforming |
CN101681619B (zh) | 2007-05-22 | 2012-07-04 | Lm爱立信电话有限公司 | 改进的话音活动性检测器 |
TWI421858B (zh) | 2007-05-24 | 2014-01-01 | Audience Inc | 用於處理音頻訊號的系統及方法 |
US8488803B2 (en) | 2007-05-25 | 2013-07-16 | Aliphcom | Wind suppression/replacement component for use with electronic systems |
US8253770B2 (en) | 2007-05-31 | 2012-08-28 | Eastman Kodak Company | Residential video communication system |
US20080304677A1 (en) | 2007-06-08 | 2008-12-11 | Sonitus Medical Inc. | System and method for noise cancellation with motion tracking capability |
JP4455614B2 (ja) | 2007-06-13 | 2010-04-21 | 株式会社東芝 | 音響信号処理方法及び装置 |
US8428275B2 (en) | 2007-06-22 | 2013-04-23 | Sanyo Electric Co., Ltd. | Wind noise reduction device |
US7873513B2 (en) | 2007-07-06 | 2011-01-18 | Mindspeed Technologies, Inc. | Speech transcoding in GSM networks |
JP5009082B2 (ja) | 2007-08-02 | 2012-08-22 | シャープ株式会社 | 表示装置 |
CN101766016A (zh) | 2007-08-07 | 2010-06-30 | 日本电气株式会社 | 声音混合装置及其杂音抑制方法、以及程序 |
US20090043577A1 (en) | 2007-08-10 | 2009-02-12 | Ditech Networks, Inc. | Signal presence detection using bi-directional communication data |
JP4469882B2 (ja) | 2007-08-16 | 2010-06-02 | 株式会社東芝 | 音響信号処理方法及び装置 |
EP2031583B1 (de) | 2007-08-31 | 2010-01-06 | Harman Becker Automotive Systems GmbH | Schnelle Schätzung der Spektraldichte der Rauschleistung zur Sprachsignalverbesserung |
US7986228B2 (en) | 2007-09-05 | 2011-07-26 | Stanley Convergent Security Solutions, Inc. | System and method for monitoring security at a premises using line card |
KR101409169B1 (ko) | 2007-09-05 | 2014-06-19 | 삼성전자주식회사 | 억제 폭 조절을 통한 사운드 줌 방법 및 장치 |
US8694310B2 (en) | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
US7522074B2 (en) | 2007-09-17 | 2009-04-21 | Samplify Systems, Inc. | Enhanced control for compression and decompression of sampled signals |
US8175871B2 (en) | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
EP2045801B1 (de) | 2007-10-01 | 2010-08-11 | Harman Becker Automotive Systems GmbH | Effiziente Audiosignalverarbeitung im Subbandbereich, Verfahren, Vorrichtung und dazugehöriges Computerprogramm |
US8046219B2 (en) | 2007-10-18 | 2011-10-25 | Motorola Mobility, Inc. | Robust two microphone noise suppression system |
US8326617B2 (en) | 2007-10-24 | 2012-12-04 | Qnx Software Systems Limited | Speech enhancement with minimum gating |
US8606566B2 (en) | 2007-10-24 | 2013-12-10 | Qnx Software Systems Limited | Speech enhancement through partial speech reconstruction |
EP2058803B1 (de) | 2007-10-29 | 2010-01-20 | Harman/Becker Automotive Systems GmbH | Partielle Sprachrekonstruktion |
TW200922272A (en) | 2007-11-06 | 2009-05-16 | High Tech Comp Corp | Automobile noise suppression system and method thereof |
US8358787B2 (en) | 2007-11-07 | 2013-01-22 | Apple Inc. | Method and apparatus for acoustics testing of a personal mobile device |
DE602007014382D1 (de) | 2007-11-12 | 2011-06-16 | Harman Becker Automotive Sys | Unterscheidung zwischen Vordergrundsprache und Hintergrundgeräuschen |
KR101238362B1 (ko) | 2007-12-03 | 2013-02-28 | 삼성전자주식회사 | 음원 거리에 따라 음원 신호를 여과하는 방법 및 장치 |
JP5159279B2 (ja) | 2007-12-03 | 2013-03-06 | 株式会社東芝 | 音声処理装置及びそれを用いた音声合成装置。 |
US8219387B2 (en) | 2007-12-10 | 2012-07-10 | Microsoft Corporation | Identifying far-end sound |
US8433061B2 (en) | 2007-12-10 | 2013-04-30 | Microsoft Corporation | Reducing echo |
US8175291B2 (en) | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
WO2009082302A1 (en) | 2007-12-20 | 2009-07-02 | Telefonaktiebolaget L M Ericsson (Publ) | Noise suppression method and apparatus |
KR101456570B1 (ko) | 2007-12-21 | 2014-10-31 | 엘지전자 주식회사 | 디지털 이퀄라이저를 구비한 이동 단말기 및 그 제어방법 |
US8326635B2 (en) | 2007-12-25 | 2012-12-04 | Personics Holdings Inc. | Method and system for message alert and delivery using an earpiece |
DE102008031150B3 (de) | 2008-07-01 | 2009-11-19 | Siemens Medical Instruments Pte. Ltd. | Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät |
US8600740B2 (en) | 2008-01-28 | 2013-12-03 | Qualcomm Incorporated | Systems, methods and apparatus for context descriptor transmission |
US8200479B2 (en) | 2008-02-08 | 2012-06-12 | Texas Instruments Incorporated | Method and system for asymmetric independent audio rendering |
US8194882B2 (en) | 2008-02-29 | 2012-06-05 | Audience, Inc. | System and method for providing single microphone noise suppression fallback |
EP2250641B1 (de) | 2008-03-04 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung zum mischen mehrerer eingabedatenströme |
US20090323655A1 (en) | 2008-03-31 | 2009-12-31 | Cozybit, Inc. | System and method for inviting and sharing conversations between cellphones |
US8611554B2 (en) | 2008-04-22 | 2013-12-17 | Bose Corporation | Hearing assistance apparatus |
US8457328B2 (en) | 2008-04-22 | 2013-06-04 | Nokia Corporation | Method, apparatus and computer program product for utilizing spatial information for audio signal enhancement in a distributed network environment |
US8369973B2 (en) | 2008-06-19 | 2013-02-05 | Texas Instruments Incorporated | Efficient asynchronous sample rate conversion |
US8300801B2 (en) | 2008-06-26 | 2012-10-30 | Centurylink Intellectual Property Llc | System and method for telephone based noise cancellation |
US8189807B2 (en) | 2008-06-27 | 2012-05-29 | Microsoft Corporation | Satellite microphone array for video conferencing |
US8774423B1 (en) | 2008-06-30 | 2014-07-08 | Audience, Inc. | System and method for controlling adaptivity of signal modification using a phantom coefficient |
CN101304391A (zh) | 2008-06-30 | 2008-11-12 | 腾讯科技(深圳)有限公司 | 一种基于即时通讯系统的语音通话方法及系统 |
KR20100003530A (ko) | 2008-07-01 | 2010-01-11 | 삼성전자주식회사 | 전자기기에서 음성 신호의 잡음 제거 장치 및 방법 |
CN102089816B (zh) | 2008-07-11 | 2013-01-30 | 弗朗霍夫应用科学研究促进协会 | 音频信号合成器及音频信号编码器 |
US8538749B2 (en) | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
ES2678415T3 (es) | 2008-08-05 | 2018-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica |
EP2151821B1 (de) | 2008-08-07 | 2011-12-14 | Nuance Communications, Inc. | Rauschunterdrückende Verarbeitung von Sprachsignalen |
US8189429B2 (en) | 2008-09-30 | 2012-05-29 | Apple Inc. | Microphone proximity detection |
US9330671B2 (en) | 2008-10-10 | 2016-05-03 | Telefonaktiebolaget L M Ericsson (Publ) | Energy conservative multi-channel audio coding |
US8130978B2 (en) | 2008-10-15 | 2012-03-06 | Microsoft Corporation | Dynamic switching of microphone inputs for identification of a direction of a source of speech sounds |
US9779598B2 (en) | 2008-11-21 | 2017-10-03 | Robert Bosch Gmbh | Security system including less than lethal deterrent |
US8467891B2 (en) | 2009-01-21 | 2013-06-18 | Utc Fire & Security Americas Corporation, Inc. | Method and system for efficient optimization of audio sampling rate conversion |
WO2010091077A1 (en) | 2009-02-03 | 2010-08-12 | University Of Ottawa | Method and system for a multi-microphone noise reduction |
EP2222091B1 (de) | 2009-02-23 | 2013-04-24 | Nuance Communications, Inc. | Verfahren zum Bestimmen eines Satzes von Filterkoeffizienten für ein Mittel zur Kompensierung von akustischem Echo |
US8184180B2 (en) | 2009-03-25 | 2012-05-22 | Broadcom Corporation | Spatially synchronized audio and video capture |
EP2237271B1 (de) | 2009-03-31 | 2021-01-20 | Cerence Operating Company | Verfahren zur Bestimmung einer Signalkomponente zum Reduzieren von Rauschen in einem Eingangssignal |
US20110286605A1 (en) | 2009-04-02 | 2011-11-24 | Mitsubishi Electric Corporation | Noise suppressor |
US9202456B2 (en) | 2009-04-23 | 2015-12-01 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation |
US8416715B2 (en) | 2009-06-15 | 2013-04-09 | Microsoft Corporation | Interest determination for auditory enhancement |
US8908882B2 (en) | 2009-06-29 | 2014-12-09 | Audience, Inc. | Reparation of corrupted audio signals |
US8626344B2 (en) | 2009-08-21 | 2014-01-07 | Allure Energy, Inc. | Energy management system and method |
EP2285112A1 (de) | 2009-08-07 | 2011-02-16 | Canon Kabushiki Kaisha | Verfahren zum Senden von komprimierten Daten, die ein digitales Bild darstellen, und entsprechende Vorrichtung |
US8644517B2 (en) | 2009-08-17 | 2014-02-04 | Broadcom Corporation | System and method for automatic disabling and enabling of an acoustic beamformer |
US8233352B2 (en) | 2009-08-17 | 2012-07-31 | Broadcom Corporation | Audio source localization system and method |
JP5397131B2 (ja) | 2009-09-29 | 2014-01-22 | 沖電気工業株式会社 | 音源方向推定装置及びプログラム |
US8571231B2 (en) | 2009-10-01 | 2013-10-29 | Qualcomm Incorporated | Suppressing noise in an audio signal |
US9372251B2 (en) | 2009-10-05 | 2016-06-21 | Harman International Industries, Incorporated | System for spatial extraction of audio signals |
CN102044243B (zh) | 2009-10-15 | 2012-08-29 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
KR20120091068A (ko) | 2009-10-19 | 2012-08-17 | 텔레폰악티에볼라겟엘엠에릭슨(펍) | 음성 활성 검출을 위한 검출기 및 방법 |
US20110107367A1 (en) | 2009-10-30 | 2011-05-05 | Sony Corporation | System and method for broadcasting personal content to client devices in an electronic network |
EP2508011B1 (de) | 2009-11-30 | 2014-07-30 | Nokia Corporation | Audiozoomverfahren in einer audioszene |
US8615392B1 (en) | 2009-12-02 | 2013-12-24 | Audience, Inc. | Systems and methods for producing an acoustic field having a target spatial pattern |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US9210503B2 (en) | 2009-12-02 | 2015-12-08 | Audience, Inc. | Audio zoom |
WO2011080855A1 (ja) * | 2009-12-28 | 2011-07-07 | 三菱電機株式会社 | 音声信号復元装置および音声信号復元方法 |
US8718290B2 (en) | 2010-01-26 | 2014-05-06 | Audience, Inc. | Adaptive noise reduction using level cues |
US8626498B2 (en) | 2010-02-24 | 2014-01-07 | Qualcomm Incorporated | Voice activity detection based on plural voice activity detectors |
US9082391B2 (en) | 2010-04-12 | 2015-07-14 | Telefonaktiebolaget L M Ericsson (Publ) | Method and arrangement for noise cancellation in a speech encoder |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US8880396B1 (en) | 2010-04-28 | 2014-11-04 | Audience, Inc. | Spectrum reconstruction for automatic speech recognition |
US9558755B1 (en) * | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
JP5529635B2 (ja) * | 2010-06-10 | 2014-06-25 | キヤノン株式会社 | 音声信号処理装置および音声信号処理方法 |
US9094496B2 (en) | 2010-06-18 | 2015-07-28 | Avaya Inc. | System and method for stereophonic acoustic echo cancellation |
KR101285391B1 (ko) | 2010-07-28 | 2013-07-10 | 주식회사 팬택 | 음향 객체 정보 융합 장치 및 방법 |
US9071831B2 (en) | 2010-08-27 | 2015-06-30 | Broadcom Corporation | Method and system for noise cancellation and audio enhancement based on captured depth information |
US9274744B2 (en) | 2010-09-10 | 2016-03-01 | Amazon Technologies, Inc. | Relative position-inclusive device interfaces |
CN101976567B (zh) * | 2010-10-28 | 2011-12-14 | 吉林大学 | 一种语音信号差错掩盖方法 |
US8311817B2 (en) | 2010-11-04 | 2012-11-13 | Audience, Inc. | Systems and methods for enhancing voice quality in mobile device |
US8831937B2 (en) | 2010-11-12 | 2014-09-09 | Audience, Inc. | Post-noise suppression processing to improve voice quality |
US8451315B2 (en) | 2010-11-30 | 2013-05-28 | Hewlett-Packard Development Company, L.P. | System and method for distributed meeting capture |
EP2466580A1 (de) * | 2010-12-14 | 2012-06-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Codierer und Verfahren zur prädiktiven Codierung, Decodierer und Verfahren zur Decodierung, System und Verfahren zur prädiktiven Codierung und Decodierung und prädiktiv codiertes Informationssignal |
WO2012094422A2 (en) | 2011-01-05 | 2012-07-12 | Health Fidelity, Inc. | A voice based system and method for data input |
US8525868B2 (en) | 2011-01-13 | 2013-09-03 | Qualcomm Incorporated | Variable beamforming with a mobile platform |
US20120202485A1 (en) | 2011-02-04 | 2012-08-09 | Takwak GmBh | Systems and methods for audio roaming for mobile devices |
US8606249B1 (en) | 2011-03-07 | 2013-12-10 | Audience, Inc. | Methods and systems for enhancing audio quality during teleconferencing |
US9007416B1 (en) | 2011-03-08 | 2015-04-14 | Audience, Inc. | Local social conference calling |
JP5060631B1 (ja) | 2011-03-31 | 2012-10-31 | 株式会社東芝 | 信号処理装置及び信号処理方法 |
US8811601B2 (en) | 2011-04-04 | 2014-08-19 | Qualcomm Incorporated | Integrated echo cancellation and noise suppression |
US8989411B2 (en) | 2011-04-08 | 2015-03-24 | Board Of Regents, The University Of Texas System | Differential microphone with sealed backside cavities and diaphragms coupled to a rocking structure thereby providing resistance to deflection under atmospheric pressure and providing a directional response to sound pressure |
US8363823B1 (en) | 2011-08-08 | 2013-01-29 | Audience, Inc. | Two microphone uplink communication and stereo audio playback on three wire headset assembly |
US9386147B2 (en) | 2011-08-25 | 2016-07-05 | Verizon Patent And Licensing Inc. | Muting and un-muting user devices |
US8750526B1 (en) | 2012-01-04 | 2014-06-10 | Audience, Inc. | Dynamic bandwidth change detection for configuring audio processor |
US9197974B1 (en) | 2012-01-06 | 2015-11-24 | Audience, Inc. | Directional audio capture adaptation based on alternative sensory input |
US8615394B1 (en) | 2012-01-27 | 2013-12-24 | Audience, Inc. | Restoration of noise-reduced speech |
US9431012B2 (en) | 2012-04-30 | 2016-08-30 | 2236008 Ontario Inc. | Post processing of natural language automatic speech recognition |
US9093076B2 (en) | 2012-04-30 | 2015-07-28 | 2236008 Ontario Inc. | Multipass ASR controlling multiple applications |
US9479275B2 (en) | 2012-06-01 | 2016-10-25 | Blackberry Limited | Multiformat digital audio interface |
US20130332156A1 (en) | 2012-06-11 | 2013-12-12 | Apple Inc. | Sensor Fusion to Improve Speech/Audio Processing in a Mobile Device |
US20130332171A1 (en) * | 2012-06-12 | 2013-12-12 | Carlos Avendano | Bandwidth Extension via Constrained Synthesis |
US20130343549A1 (en) | 2012-06-22 | 2013-12-26 | Verisilicon Holdings Co., Ltd. | Microphone arrays for generating stereo and surround channels, method of operation thereof and module incorporating the same |
EP2680616A1 (de) | 2012-06-25 | 2014-01-01 | LG Electronics Inc. | Mobiles Endgerät und Audiozoomverfahren dafür |
US9119012B2 (en) | 2012-06-28 | 2015-08-25 | Broadcom Corporation | Loudspeaker beamforming for personal audio focal points |
EP2823631B1 (de) | 2012-07-18 | 2017-09-06 | Huawei Technologies Co., Ltd. | Tragbare elektronische vorrichtung mit gerichteten mikrophonen für stereoaufzeichnungen |
CN104429049B (zh) | 2012-07-18 | 2016-11-16 | 华为技术有限公司 | 具有用于立体声录音的麦克风的便携式电子装置 |
US9984675B2 (en) | 2013-05-24 | 2018-05-29 | Google Technology Holdings LLC | Voice controlled audio recording system with adjustable beamforming |
KR101475894B1 (ko) * | 2013-06-21 | 2014-12-23 | 서울대학교산학협력단 | 장애 음성 개선 방법 및 장치 |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
WO2015112498A1 (en) | 2014-01-21 | 2015-07-30 | Knowles Electronics, Llc | Microphone apparatus and method to provide extremely high acoustic overload points |
US9500739B2 (en) | 2014-03-28 | 2016-11-22 | Knowles Electronics, Llc | Estimating and tracking multiple attributes of multiple objects from multi-sensor data |
US20160037245A1 (en) | 2014-07-29 | 2016-02-04 | Knowles Electronics, Llc | Discrete MEMS Including Sensor Device |
US9978388B2 (en) * | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
WO2016049566A1 (en) | 2014-09-25 | 2016-03-31 | Audience, Inc. | Latency reduction |
US9368110B1 (en) * | 2015-07-07 | 2016-06-14 | Mitsubishi Electric Research Laboratories, Inc. | Method for distinguishing components of an acoustic signal |
-
2015
- 2015-09-11 US US14/852,446 patent/US9978388B2/en active Active
- 2015-09-11 WO PCT/US2015/049816 patent/WO2016040885A1/en active Application Filing
- 2015-09-11 DE DE112015004185.0T patent/DE112015004185T5/de not_active Withdrawn
- 2015-09-11 CN CN201580060446.6A patent/CN107112025A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US9978388B2 (en) | 2018-05-22 |
CN107112025A (zh) | 2017-08-29 |
WO2016040885A1 (en) | 2016-03-17 |
US20160078880A1 (en) | 2016-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112015004185T5 (de) | Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten | |
DE112016000545B4 (de) | Kontextabhängiges schalten von mikrofonen | |
DE112015003945T5 (de) | Mehrquellen-Rauschunterdrückung | |
DE102017102134B4 (de) | Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung | |
DE112016006133B4 (de) | Verfahren und System zur Bereitstellung von Umgebungswahrnehmung | |
DE112016000287T5 (de) | Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung | |
DE112017001830B4 (de) | Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen | |
EP4011099A1 (de) | System und verfahren zur unterstützung von selektivem hören | |
DE602005000539T2 (de) | Verstärkungsgesteuerte Geräuschunterdrückung | |
DE112014003337T5 (de) | Sprachsignaltrennung und Synthese basierend auf auditorischer Szenenanalyse und Sprachmodellierung | |
DE112017002299T5 (de) | Stereotrennung und Richtungsunterdrückung mit Omni-Richtmikrofonen | |
DE112016004161T5 (de) | Mikrofonsignalzusammenführung | |
DE602006000109T2 (de) | Verfahren und Vorrichtung zur Verringerung von Geräuschbeeinträchtigung eines alternativen Sensorsignals während multisensorischer Sprachverstärkung | |
DE112016006126T5 (de) | Okklusionsreduzierung und Rauschunterdrückung auf der Grundlage einer Dichtqualität | |
DE112014004836B4 (de) | Verfahren und System zum Verbessern eines verrauschten Eingangssignals | |
CN108604452A (zh) | 声音信号增强装置 | |
DE112018002871T5 (de) | System und verfahren zur audiomustererkennung | |
DE112019007677T5 (de) | Posenvorhersageverfahren, Modelltrainingsverfahren und Vorrichtung | |
DE60133537T2 (de) | Automatisches umtrainieren eines spracherkennungssystems | |
DE102014118075A1 (de) | Audio und Video synchronisierendes Wahrnehmungsmodell | |
DE112016006334T5 (de) | Verfahren und systeme zur erreichung einer konsistenz bei der rauschunterdrückung während sprachphasen und sprachfreien phasen | |
DE112015005269T5 (de) | Erweitern einer Informationsanforderung | |
Taghipour et al. | Short-term annoyance reactions to civil helicopter and propeller-driven aircraft noise: A laboratory experiment | |
DE112020005166B4 (de) | Auf teilnehmer abgestimmtes filtern unter verwendung von dynamischer spektralmaskierung durch ein tiefes neuronales netz zur isolierung und sicherheit von gesprächen in lauten umgebungen | |
DE112021005577T5 (de) | Sprecherspezifisches verstärken von stimmen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee | ||
R012 | Request for examination validly filed |