DE112015005862T5 - Gerichtete Audioerfassung - Google Patents

Gerichtete Audioerfassung Download PDF

Info

Publication number
DE112015005862T5
DE112015005862T5 DE112015005862.1T DE112015005862T DE112015005862T5 DE 112015005862 T5 DE112015005862 T5 DE 112015005862T5 DE 112015005862 T DE112015005862 T DE 112015005862T DE 112015005862 T5 DE112015005862 T5 DE 112015005862T5
Authority
DE
Germany
Prior art keywords
audio
directional
salience
estimates
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112015005862.1T
Other languages
English (en)
Inventor
Harinarayanan Erumbi Vallabhan
Shailesh Sakri
Carlos Avendano
Ludger Solbach
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Knowles Electronics LLC
Original Assignee
Knowles Electronics LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Knowles Electronics LLC filed Critical Knowles Electronics LLC
Publication of DE112015005862T5 publication Critical patent/DE112015005862T5/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/21Direction finding using differential microphone array [DMA]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Abstract

Es werden Systeme und Verfahren zum Verbessern der Leistung eines Systems für die gerichtete Audioerfassung geschaffen. Ein beispielhaftes Verfahren enthält das Korrelieren von Phasendiagrammen wenigstens zweier Audioeingaben, wobei die Audioeingaben durch wenigstens zwei Mikrophone erfasst werden. Ferner kann das Verfahren das Erzeugen von Schätzwerten der Salienz bei verschiedenen Richtungswinkeln auf der Grundlage der Korrelation, um eine Richtung einer Schallquelle zu lokalisieren, enthalten. Das Verfahren kann das Liefern von Hinweisen auf der Grundlage der Schätzwerte an das System für die gerichtete Audioerfassung ermöglichen. Die Hinweise enthalten Dämpfungspegel. Um Schallartefakte zu vermeiden, wird eine Änderungsrate der Dämpfungspegel durch Anschwell- und Abfallzeitkonstanten gesteuert. Außerdem enthält das Verfahren das Bestimmen einer Betriebsart auf der Grundlage der Abwesenheit oder Anwesenheit einer oder mehrerer Spitzen in den Schätzwerten der Salienz. Außerdem ermöglicht das Verfahren das Auslegen des Systems für die gerichtete Audioerfassung auf der Grundlage der bestimmten Betriebsart.

Description

  • Querverweis auf verwandte Anmeldungen
  • Die vorliegende Anmeldung ist eine Teilfortsetzung der US-Patentanmeldung Nr. 12/896,725, eingereicht am 1. Oktober 2010, die die Priorität der vorläufigen US-Anmeldung Nr. 61/266,131, eingereicht am 2. Dezember 2009, beansprucht; außerdem beansprucht die vorliegende Anmeldung die Priorität der vorläufigen US-Anmeldung Nr. 62/098,247, eingereicht am 30. Dezember 2014. Der Gegenstand der oben erwähnten Anmeldungen ist hier für alle Zwecke durch Bezugnahme auf sie eingefügt.
  • Gebiet
  • Die vorliegende Offenbarung bezieht sich allgemein auf die Audioverarbeitung und insbesondere auf Systeme und Verfahren zum Verbessern der Leistung der gerichteten Audioerfassung.
  • Hintergrund
  • Vorhandene Systeme für die gerichtete Audioerfassung sind typischerweise dafür ausgelegt, ein Audiosignal innerhalb eines interessierenden Bereichs (z. B. innerhalb einer Keule) zu erfassen und alles außerhalb der Keule zu unterdrücken. Darüber hinaus nutzen die vorhandenen Systeme für die gerichtete Audioerfassung nicht die Richtungsabhängigkeit des Lautsprechers, der aufgezeichnet wird. Dies führt zur ungleichförmigen Unterdrückung über die gesamte Keule. Insbesondere in Fällen veränderlicher Entfernungen zwischen einem Sprecher (z. B. einem Lautsprecher) und einer Audioerfassungsvorrichtung für einen gegebenen Winkel kann die Robustheit solcher Systeme gefährdet werden. Falls sich der Sprecher näher hin zu der oder weiter weg von der Vorrichtung bewegt, kann die Unterdrückung ungleichförmig werden.
  • In den vorhandenen Lösungen für die gerichtete Audioerfassung können Schubladen-/Kalibrierungs- und Kundenanforderungen nicht übereinstimmen. Diese Nichtübereinstimmung kann dazu führen, dass in einem bestimmten Winkelbereich mehr oder weniger Unterdrückung notwendig ist. Mit der ungleichförmigen Unterdrückung kann der Einsatz solcher Lösungen dort, wo die Unterdrückung/Hervorhebung bestimmter Winkel erwünscht ist, um über die Keule eine gleichförmige Rauschunterdrückung aufrecht zu erhalten, noch herausfordernder werden.
  • Außerdem können die vorhandenen Lösungen für die gerichtete Audioerfassung sehr empfindlich für die Mikrofonabdichtung sein. Eine bessere Mikrofonabdichtung führt zu einer gleichförmigeren Unterdrückung und eine schlechte Mikrofonabdichtung führt zu einer ungleichförmigen Unterdrückung. Allgemein kann die Mikrofonabdichtung im Allgemeinen selbst dann eine Vorrichtung von einer anderen verschieden machen, wenn dieselbe Herstellungscharge verwendet wird. Es ist eine Lösung erwünscht, die die Mikrofonabdichtung während einer Änderung der Entfernung zwischen einem Sprecher und einem Audioerfassungssystem robust macht.
  • Zusammenfassung
  • Diese Zusammenfassung wird geboten, um eine Auswahl von Konzepten, die im Folgenden in der ausführlichen Beschreibung weiter beschrieben sind, in vereinfachter Form einzuführen. Diese Zusammenfassung soll weder Hauptmerkmale oder wesentliche Merkmale des beanspruchten Gegenstands identifizieren, noch soll sie als Hilfe bei der Bestimmung des Umfangs des beanspruchten Gegenstands verwendet werden.
  • Es werden Systeme und Verfahren zum Verbessern der Leistung eines Systems für die gerichtete Audioerfassung geschaffen. Ein beispielhaftes Verfahren enthält das Korrelieren von Phasendiagrammen wenigstens zweier Audioeingaben. Das Verfahren ermöglicht das Erzeugen von Schätzwerten der Salienz bei verschiedenen Richtungswinkeln auf der Grundlage der Korrelation, um wenigstens eine wenigstens einer Schallquelle zugeordnete Richtung zu lokalisieren. Außerdem enthält das Verfahren das Bestimmen von Hinweisen auf der Grundlage der Schätzwerte der Salienz und das Liefern der Hinweise an das System für die gerichtete Audioerfassung.
  • In einigen Ausführungsformen werden die Hinweise durch das System für die gerichtete Audioerfassung verwendet, um die wenigstens zwei Audioeingaben bei den verschiedenen Richtungswinkeln zu dämpfen oder zu verstärken. In bestimmten Ausführungsformen enthalten die Hinweise wenigstens zwei Dämpfungspegel für die verschiedenen Richtungswinkel. In einigen Ausführungsformen enthalten die Schätzwerte der Salienz einen Vektor der Salienzen bei Richtungswinkeln von 0 bis 360 in einer Ebene parallel zu einem Boden.
  • In einigen Ausführungsformen enthält das Erzeugen der Hinweise das Abbilden der verschiedenen Richtungswinkel auf relative Dämpfungspegel für das System für die gerichtete Audioerfassung. In bestimmten Ausführungsformen enthält das Verfahren das Steuern der Änderungsrate der Dämpfungspegel in Echtzeit durch Anschwell- und Abfallzeitkonstanten, um Schallartefakte zu vermeiden.
  • In einigen Ausführungsformen enthält das Verfahren das Bestimmen einer Betriebsart von einer Vielzahl der Betriebsarten auf der Grundlage der Abwesenheit oder Anwesenheit einer oder mehrerer Spitzen in den Schätzwerten der Salienz. Das Verfahren ermöglicht das Auslegen des Systems für die gerichtete Audioerfassung auf der Grundlage der bestimmten Betriebsart. In bestimmten Ausführungsformen ermöglicht das Verfahren das Steuern einer Schaltrate zwischen Betriebsarten von einer Vielzahl der Betriebsarten in Echtzeit durch Anwenden von Anschwell- und Abfallzeitkonstanten. In einigen Ausführungsformen werden die Audioeingaben durch wenigstens zwei Mikrofone mit unterschiedlichen Abdichtqualitäten erfasst.
  • Entsprechend einer anderen beispielhaften Ausführungsform der vorliegenden Offenbarung werden die Schritte des Verfahrens zum Verbessern der Leistung der Systeme für die gerichtete Audioerfassung in einem maschinenlesbaren Medium gespeichert, das Anweisungen umfasst, die, wenn sie durch einen oder mehrere Prozessoren implementiert werden, die erwähnten Schritte ausführen.
  • Weitere beispielhafte Ausführungsformen der Offenbarung und Aspekte gehen aus der folgenden Beschreibung in Verbindung mit den folgenden Zeichnungen hervor.
  • Kurzbeschreibung der Zeichnung
  • In den Figuren der beigefügten Zeichnungen, in denen gleiche Bezugszeichen ähnliche Elemente bezeichnen, sind Ausführungsformen beispielhaft und nicht als Beschränkung dargestellt.
  • 1 ist ein Blockschaltplan einer beispielhaften Umgebung, in der die vorliegende Technologie verwendet werden kann.
  • 2 ist ein Blockschaltplan einer beispielhaften Audiovorrichtung.
  • 3 ist ein Blockschaltplan eines beispielhaften Audioverarbeitungssystems.
  • 4 ist ein Blockschaltplan eines beispielhaften Strahlformermoduls.
  • 5 ist ein Flussdiagramm eines beispielhaften Verfahrens zum Ausführen eines Audio-Zooms.
  • 6 ist ein Flussdiagramm eines beispielhaften Verfahrens zum Anheben von Komponenten eines akustischen Signals.
  • 7 ist ein Flussdiagramm eines beispielhaften Verfahrens zum Erzeugen einer multiplikativen Maske.
  • 8 ist ein Blockschaltplan eines beispielhaften Audioverarbeitungssystems, das zum Verbessern der Leistung der gerichteten Audioerfassung geeignet ist.
  • 9 ist ein Flussdiagramm eines beispielhaften Verfahrens zum Verbessern der Leistung der gerichteten Audioerfassung.
  • 10 ist ein Computersystem, das zum Implementieren hier offenbarter Verfahren entsprechend verschiedenen beispielhaften Ausführungsformen verwendet werden kann.
  • Ausführliche Beschreibung
  • Die hier offenbarte Technologie bezieht sich auf Systeme und Verfahren zum Verbessern der Leistung der gerichteten Audioerfassung. Ausführungsformen der vorliegenden Technologie können mit Audiovorrichtungen verwirklicht werden, die wenigstens zur Erfassung und Verarbeitung akustischer Signale betreibbar sind. Die Audiovorrichtungen können enthalten: Hochfrequenzempfänger (HF-Empfänger), Sender und Transceiver; verdrahtete und/oder drahtlose Telekommunikations- und/oder Netzvorrichtungen; Verstärker; Audio- und/oder Videoabspielgeräte; Codierer; Decodierer; Lautsprecher; Eingabeeinrichtungen; Ausgabeeinrichtungen; Speichervorrichtungen und Nutzereingabevorrichtungen. Audiovorrichtungen können Eingabevorrichtungen wie etwa Knöpfe, Schalter, Tasten, Tastaturen, Trackballs, Schieberegler, Berührungsbildschirme, ein oder mehrere Mikrofone, Gyroskope, Beschleunigungsmesser, Empfänger des globalen Positionsbestimmungssystems (GPS-Empfänger) und dergleichen enthalten. Die Audiovorrichtungen können Ausgabeeinrichtungen wie etwa Leuchtdiodenindikatoren (LED-Indikatoren), Videoanzeigen, Berührungsbildschirme, Lautsprecher und dergleichen enthalten. In einigen Ausführungsformen enthalten die Audiovorrichtungen Handvorrichtungen wie etwa verdrahtete und/oder drahtlose Fernbedienungen, Notebook-Computer, Tablet-Computer, Phablets, Smartphones, Personal Digital Assistants, Medienabspielgeräte, Mobiltelefone und dergleichen. In bestimmten Ausführungsformen enthält die Audiovorrichtung Fernsehgeräte (TV-Geräte), Fahrzeugsteuerungs- und -audiosysteme, intelligente Thermostaten, Lichtschalter, Dimmer usw.
  • In verschiedenen Ausführungsformen arbeiten die Audiovorrichtungen in feststehenden und ortsbeweglichen Umgebungen. Feststehende Umgebungen können Wohn- und Geschäftsgebäude oder -strukturen und dergleichen enthalten. Zum Beispiel können die feststehenden Ausführungsformen Wohnzimmer, Schlafzimmer, Home Theaters, Konferenzräume, Zuschauerräume, Geschäftsräume und dergleichen enthalten. Ortsbewegliche Umgebungen können bewegte Fahrzeuge, bewegte Personen, andere Transportmittel und dergleichen enthalten.
  • Entsprechend einer beispielhaften Ausführungsform enthält ein Verfahren zum Verbessern eines Systems für die gerichtete Audioerfassung das Korrelieren von Phasendiagrammen wenigstens zweier Audioeingaben. Das Verfahren ermöglicht das Erzeugen von Schätzwerten der Salienz bei unterschiedlichen Richtungswinkeln, um wenigstens eine wenigstens einer Schallquelle zugeordnete Richtung zu lokalisieren, auf der Grundlage der Korrelation. Die Hinweise enthalten wenigstens Dämpfungspegel. Das Verfahren enthält das Bestimmen von Hinweise auf der Grundlage der Schätzwerte der Salienz und das Liefern der Hinweise an das System für die gerichtete Audioerfassung.
  • 1 ist ein Blockschaltplan einer beispielhaften Umgebung 100, in der die vorliegende Technologie verwendet werden kann. Die Umgebung 100 aus 1 enthält eine Audiovorrichtung 104 und Audioquellen 112, 114 und 116, alle innerhalb einer Umgebung 100 mit Wänden 132 und 134.
  • Ein Nutzer der Audiovorrichtung 104 kann wählen, auf eine bestimmte Audioquelle aus den mehreren Audioquellen innerhalb der Umgebung 100 zu fokussieren oder an sie ”heranzuzoomen”. Die Umgebung 100 enthält Audioquellen 112, 114 und 116, die alle Audiosignale in mehreren Richtungen einschließlich in Richtung der Audiovorrichtung 104 liefern. Zusätzlich können Reflexionen von Audioquellen 112 und 116 sowie von anderen Audioquellen Audiosignale liefern, die an den Wänden 132 und 134 der Umgebung 100 reflektiert werden und zu der Audiovorrichtung 104 gerichtet werden. Zum Beispiel ist die Reflexion 128 eine Reflexion eines durch die Audioquelle 112 gelieferten und von der Wand 132 reflektierten Audiosignals und ist die Reflexion 129 eine Reflexion eines durch die Audioquelle 116 gelieferten und von der Wand 134 reflektierten Audiosignals, die beide in Richtung der Audiovorrichtung 104 laufen.
  • Die vorliegende Technologie ermöglicht, dass der Nutzer einen Bereich zum ”Zoomen” auswählt. Durch Ausführen eines Audio-Zooms an einem bestimmten Bereich detektiert die vorliegende Technologie Audiosignale mit einer Quelle innerhalb des bestimmten Bereichs und hebt sie diese Signale in Bezug auf Signale von anderen Audioquellen außerhalb des bestimmten Bereichs an. Der Bereich kann unter Verwendung eines Strahls wie etwa z. B . des Strahls 140 in 1 definiert werden. In 1 enthält der Strahl 140 einen Bereich, der die Audioquelle 114 enthält. Die Audioquellen 112 und 116 sind außerhalb des Strahlbereichs enthalten. Somit würde die vorliegende Technologie das durch die Audioquelle 114 gelieferte Audiosignal anheben oder an sie ”heranzoomen” und das durch die Audioquellen 112 und 116 gelieferte Audiosignal einschließlich irgendwelcher durch die Umgebung 100 gelieferter Reflexionen wie etwa der Reflexionen 128 und 129 absenken.
  • Ein primäres Mikrofon 106 und ein sekundäres Mikrofon 108 der Audiovorrichtung 104 können ungerichtete Mikrofone sein. Alternative Ausführungsformen können andere Formen von Mikrofonen oder akustischen Sensoren wie etwa gerichtete Mikrofone nutzen.
  • Obgleich die Mikrofone 106 und 108 Schall (d. h. akustische Signale) von der Audioquelle 114 empfangen, nehmen die Mikrofone 106 und 108 ebenfalls Rauschen von der Audioquelle 112 auf. Obgleich das Rauschen 122 in 1 von einem einzelnen Ort kommend gezeigt ist, kann das Rauschen 122 irgendwelche Schalle von einem oder mehreren Orten, die sich von dem Ort der Audioquelle 114 unterscheiden, enthalten und Nachhalle und Echos enthalten. Das Rauschen 124 kann stationäres, nicht stationäres und/oder eine Kombination sowohl von stationärem als auch von nicht stationärem Rauschen sein.
  • Einige Ausführungsformen können Pegeldifferenzen (z. B. Energiedifferenzen) zwischen durch die zwei Mikrofone 106 und 108 empfangenen akustischen Signalen nutzen. Da das primäre Mikrofon 106 im Fall der Verwendung von nahem Besprechen viel näher an der Audioquelle 116 als das sekundäre Mikrofon 108 ist, ist die Stärke des Rauschpegels 126 für das primäre Mikrofon 106 höher, was dazu führt, dass z. B. während eines Sprache-/Stimmsegments durch das primäre Mikrofon 106 ein höherer Energiepegel empfangen wird.
  • Daraufhin kann die Pegeldifferenz verwendet werden, um Sprache und Rauschen in dem Zeit-Frequenz-Bereich zu unterscheiden. Weitere Ausführungsformen können eine Kombination von Energiepegeldifferenzen und Zeitverzögerungen verwenden, um Sprache zu unterscheiden. Auf der Grundlage der Codierung binauraler Hinweise kann eine Sprachsignalextraktion oder eine Sprachanhebung ausgeführt werden.
  • 2 ist ein Blockschaltplan einer beispielhaften Audiovorrichtung. In einigen Ausführungsformen bietet die Audiovorrichtung aus 2 mehr Detail für die Audiovorrichtung 104 aus 1.
  • In der dargestellten Ausführungsform enthält die Audiovorrichtung 104 einen Empfänger 210, einen Prozessor 220, das primäre Mikrofon 106, ein optionales sekundäres Mikrofon 108, ein Audioverarbeitungssystem 230 und eine Ausgabevorrichtung 240. Die Audiovorrichtung 104 kann weitere oder andere Komponenten enthalten, die für die Operationen der Audiovorrichtung 104 notwendig sind. Ebenso kann die Audiovorrichtung 104 weniger Komponenten enthalten, die ähnliche oder äquivalente Funktionen wie die in 2 gezeigten ausführen.
  • Der Prozessor 220 kann Anweisungen und Module ausführen, die in der Audiovorrichtung 104 in einem Arbeitsspeicher (in 2 nicht dargestellt) gespeichert sind, um die hier beschriebene Funktionalität einschließlich der Rauschunterdrückung für ein akustisches Signal auszuführen. Der Prozessor 220 kann als eine Verarbeitungseinheit implementierte Hardware und Software enthalten, die Gleitkommaoperationen und andere Operationen für den Prozessor 220 verarbeiten können.
  • Der beispielhafte Empfänger 210 ist ein akustischer Sensor, der zum Empfangen eines Signals von einem Kommunikationsnetz ausgelegt ist. In einigen Ausführungsformen kann der Empfänger 210 eine Antennenvorrichtung enthalten. Das Signal kann daraufhin an das Audioverarbeitungssystem 230 weitergeleitet werden, um unter Verwendung der hier beschriebenen Techniken das Rauschen zu verringern und ein Audiosignal an die Ausgabevorrichtung 240 zu liefern. Die vorliegende Technologie kann in dem Sende- und/oder in dem Empfangsweg der Audiovorrichtung 104 verwendet werden.
  • Das Audioverarbeitungssystem 230 ist dafür ausgelegt, die akustischen Signale von der akustischen Quelle über das primäre Mikrofon 106 und das sekundäre Mikrofon 108 zu empfangen und die akustischen Signale zu verarbeiten. Die Verarbeitung kann das Ausführen einer Rauschunterdrückung innerhalb eines akustischen Signals enthalten. Das Audioverarbeitungssystem 230 ist im Folgenden ausführlicher diskutiert. Das primäre und das sekundäre Mikrofon 106, 108 können durch eine Entfernung voneinander beabstandet sein, um das Detektieren einer Energiepegeldifferenz, einer Zeitdifferenz oder einer Phasendifferenz zwischen ihnen zu ermöglichen. Die durch das primäre Mikrofon 106 und durch das sekundäre Mikrofon 108 empfangenen akustischen Signale können in elektrische Signale (d. h. in ein primäres elektrisches Signal und in ein sekundäres elektrisches Signal) umgesetzt werden. Entsprechend einigen Ausführungsformen können die elektrischen Signale selbst für die Verarbeitung durch einen Analog/Digital-Umsetzer (nicht gezeigt) in digitale Signale umgesetzt werden. Um die akustischen Signale zu unterscheiden, ist zu Klarheitszwecken das durch das primäre Mikrofon 106 empfangene akustische Signal hier als das primäre akustische Signal bezeichnet, während das durch das sekundäre Mikrofon 108 empfangene akustische Signal hier als das sekundäre akustische Signal bezeichnet ist. Das primäre akustische Signal und das sekundäre akustische Signal können durch das Audioverarbeitungssystem 230 verarbeitet werden, um ein Signal mit einem verbesserten Signal-Rausch-Verhältnis zu erzeugen. Es wird angemerkt, dass Ausführungsformen der hier beschriebenen Technologie unter Nutzung nur des primären Mikrofons 106 verwirklicht werden können.
  • Die Ausgabevorrichtung 240 ist eine beliebige Vorrichtung, die eine Audioausgabe an den Nutzer liefert. Die Ausgabevorrichtung 240 kann z. B. einen Lautsprecher, eine Hörkapsel eines Kopfhörers oder Kopfsprechhörers oder einen Lautsprecher in einer Konferenzvorrichtung enthalten.
  • In verschiedenen Ausführungsformen, in denen das primäre und das sekundäre Mikrofon 106 und 108 ungerichtete Mikrofone sind, die eng (z. B. 1–2 cm voneinander) beabstandet sind, kann eine Strahlformungstechnik verwendet werden, um nach vorn weisende und nach hinten weisende Richtmikrofone zu simulieren. Die Pegeldifferenz kann verwendet werden, um in dem Zeit-Frequenz-Bereich Sprache und Rauschen zu unterscheiden, was in der Rauschunterdrückung verwendet werden kann.
  • 3 ist ein Blockschaltplan eines beispielhaften Audioverarbeitungssystems. Der Blockschaltplan aus 3 bietet mehr Detail für das Audioverarbeitungssystem 230 in dem Blockschaltplan aus 2. Das Audioverarbeitungssystem 230 enthält Module 302 und 304 für die schnelle Kosinustransformation (FCT-Module 302 und 304), ein Strahlformermodul 310, ein multiplikatives Verstärkungsexpansionsmodul 320, ein Nachhallmodul 330, ein Kombinierermodul 340 und ein Zoom-Steuermodul 350.
  • Die FCT-Module 302 und 304 können akustische Signale von den Audiovorrichtungsmikrofonen empfangen und die akustischen Signale in Teilbandsignale im Frequenzbereich umsetzen. In einigen Ausführungsformen sind die FCT-Module 302 und 304 als ein oder mehrere Module implementiert, die für jedes empfangene Mikrofonsignal ein oder mehrere Teilbandsignale erzeugen. Die FCT-Module 302 und 304 empfangen von jedem in der Audiovorrichtung 104 enthaltenen Mikrofon ein akustisches Signal. Diese empfangenen Signale sind als Signale X1-XI dargestellt, wobei X1 ein primäres Mikrofonsignal ist und XI die verbleibenden Mikrofonsignale repräsentiert. In einigen Ausführungsformen führt das Audioverarbeitungssystem 230 aus 3 einen Audio-Zoom auf einer Grundlage pro Rahmen und pro Teilband aus.
  • In einigen Ausführungsformen empfängt das Strahlformermodul 310 die Frequenzteilbandsignale sowie ein Zoom-Angabesignal. Die Zoom-Angabe wird von dem Zoom-Steuermodul 350 empfangen. Die durch das Zoom-Indikatorsignal K übermittelte Zoom-Angabe kann in Ansprechen auf eine Nutzereingabe, auf die Analyse eines primären Mikrofonsignals oder anderer durch die Audiovorrichtung 104 empfangener akustischer Signale, auf eine Video-Zoom-Merkmalsauswahl oder auf einige andere Daten erzeugt werden. Im Betrieb empfängt das Strahlformermodul 310 Teilbandsignale, verarbeitet es die Teilbandsignale, um zu identifizieren, welche Signale innerhalb eines bestimmten anzuhebenden (oder zu ”zoomenden”) Bereichs liegen, und liefert es als Ausgabe Daten für die ausgewählten Signale an das Modul 320 für multiplikative Verstärkungsexpansion. Die Ausgabe kann Teilbandsignale für die Audioquelle innerhalb des anzuhebenden Bereichs enthalten. Außerdem liefert das Strahlformermodul 310 einen Verstärkungsfaktor an das Modul 320 für multiplikative Verstärkungsexpansion. Der Verstärkungsfaktor kann angeben, ob das Modul 320 für multiplikative Verstärkungsexpansion eine zusätzliche Verstärkung oder Verringerung der von dem Strahlformermodul 310 empfangenen Signale ausführen sollte. In einigen Ausführungsformen wird der Verstärkungsfaktor auf der Grundlage der empfangenen Mikrofonsignale und -komponenten als ein Energieverhältnis erzeugt. Die durch das Strahlformermodul 310 ausgegebene Verstärkungsangabe kann ein Verhältnis dessen sein, wie viel Energie in dem Signal von dem primären Mikrofon gegenüber der Energie in den Signalen von den anderen Mikrofonen verringert wird. Somit kann die Verstärkung ein Hervorhebungs- oder Auslöschungs-Verstärkungsexpansionsfaktor sein. Der Verstärkungsfaktor ist im Folgenden ausführlicher diskutiert.
  • Das Strahlformermodul 310 kann als ein Subtraktionsmodul mit dem Verarbeitungsrauschen null (NPNS-Modul), als ein multiplikatives Modul oder als eine Kombination dieser Module implementiert sein. Wenn in Mikrofonen ein NPNS-Modul verwendet wird, um einen Strahl zu erzeugen und eine Strahlformung zu erzielen, wird der Strahl durch Einengen der Beschränkungen Alpha und Gamma fokussiert. Für einen Strahlreiter können die Beschränkungen vergrößert werden. Somit kann ein Strahl dadurch manipuliert werden, dass ein Schutzbereich um die bevorzugte Richtung gelegt wird. Das Strahlformermodul 310 kann durch ein System implementiert werden, das in der US-Patentanmeldung Nr. 61/325,764 mit dem Titel ”Multi-Microphone Robust Noise Suppression System” beschrieben ist, deren Offenbarung hier durch Bezugnahme auf sie eingefügt ist. Zusätzliche Techniken zum Verringern unerwünschter Audiokomponenten eines Signals sind in der US-Patentanmeldung Nr. 12/693,998 (jetzt US-Patent Nr. 8,718,290) mit dem Titel ”Adaptive Noise Reduction Using Level Cues” diskutiert, deren Offenbarung hier durch Bezugnahme auf sie eingefügt ist.
  • Das Modul 320 für multiplikative Verstärkungsexpansion empfängt die Teilbandsignale, die Audioquellen innerhalb des ausgewählten Strahls zugeordnet sind, den Verstärkungsfaktor von dem Strahlformermodul 310 und das Zoom-Indikatorsignal. Das Modul 320 für multiplikative Verstärkungsexpansion wendet auf der Grundlage des empfangenen Verstärkungsfaktors eine multiplikative Verstärkung an. Tatsächlich filtert das Modul 320 für multiplikative Verstärkungsexpansion das durch das Strahlformermodul 310 gelieferte Strahlformersignal.
  • Der Verstärkungsfaktor kann als eines von mehreren unterschiedlichen Energieverhältnissen implementiert sein. Das Energieverhältnis kann z. B. das Verhältnis eines rauschgeminderten Signals zu einem von einem primären Mikrofon empfangenen primären akustischen Signal, das Verhältnis eines rauschgeminderten Signals zu einer detektierten Rauschkomponente innerhalb des primären Mikrofonsignals, das Verhältnis eines rauschgeminderten Signals und eines sekundären akustischen Signals oder das Verhältnis eines rauschgeminderten Signals im Vergleich zu der Intra-Pegeldifferenz zwischen einem primären Signal und einem anderen Signal sein. Die Verstärkungsfaktoren können eine Angabe der Signalstärke in einer Zielrichtung gegenüber allen anderen Richtungen sein. Mit anderen Worten, der Verstärkungsfaktor kann eine Angabe fälliger multiplikativer Expansionen und ob an dem Modul 320 für multiplikativer Expansion eine zusätzliche Expansion oder Subtraktion ausgeführt werden sollte sein. Das Modul 320 für multiplikative Verstärkungsexpansion gibt das modifizierte Signal aus und liefert das Signal an das Nachhallmodul 330 (das ebenfalls als Nachhallbeseitigung fungieren kann).
  • Das Nachhallmodul 330 empfängt die durch das Modul 320 für multiplikative Verstärkungsexpansion ausgegebenen Teilbandsignale sowie die Mikrofonsignale, die ebenfalls durch das Strahlformermodul 310 empfangen wurden, und führt an den durch das Modul 320 für multiplikative Verstärkungsexpansion ausgegebenen Teilbandsignalen eine Nachhallerzeugung oder eine Nachhallbeseitigung aus. Das Nachhallmodul 330 kann auf der Grundlage des durch das Zoom-Steuermodul 350 gelieferten Zoom-Steuerindikators ein Verhältnis der direkten Energie zu der verbleibenden Energie innerhalb eines Signals einstellen.
  • Das Einstellen des Nachhalls für ein Signal kann das Einstellen der Energie unterschiedlicher Komponenten des Signals umfassen. Ein Audiosignal besitzt in einem Frequenzbereich mehrere Komponenten einschließlich einer direkten Komponente, erster Reflexionen und einer Endkomponente. Eine direkte Komponente besitzt typischerweise den höchsten Energiepegel, gefolgt von einem etwas niedrigeren Energiepegel von Reflexionen innerhalb des Signals. Außerdem ist innerhalb eines ganz bestimmten Signals ein Ende enthalten, das Rauschen und andere niederenergetische Daten oder niederenergetische Audiosignale enthalten kann. Ein Nachhall ist als Reflexionen der direkten Audiokomponente definiert. Somit führt ein Nachhall mit vielen Reflexionen über einen weiten Frequenzbereich zu einem stärker wahrnehmbaren Nachhall. Ein Signal mit weniger Reflexionskomponenten besitzt eine kleinere Nachhallkomponente.
  • Typischerweise ist der Nachhall in dem Signal umso größer, je weiter ein Hörer von einer Audioquelle entfernt ist, und ist die Stärke des Nachhallsignals (Reflexionskomponenten) umso kleiner, je näher ein Hörer an der Audioquelle ist. Somit kann das Nachhallmodul 330 die Nachhallkomponenten in dem von dem Modul 320 für multiplikative Verstärkungsexpansion empfangenen Signal auf der Grundlage des von dem Zoom-Steuermodul 350 empfangenen Zoom-Indikators einstellen. Somit wird der Nachhall durch Minimieren der Reflexionskomponenten des empfangenen Signals verringert, falls der empfangene Zoom-Indikator angibt, dass an dem Audiosignal ein Heranzoombetrieb ausgeführt werden soll. Falls der Zoom-Indikator angibt, dass an dem Audiosignal ein Herauszoomen ausgeführt werden soll, werden die ersten Reflexionskomponenten verstärkt, um diese Komponenten zu erhöhen, um sie so erscheinen zu lassen, als ob es innerhalb des Signals einen zusätzlichen Nachhall gäbe. Nach Einstellen des Nachhalls des empfangenen Signals liefert das Nachhallmodul 330 das modifizierte Signal an das Kombinierermodul 340.
  • Das Kombinierermodul 340 empfängt das Signal mit eingestelltem Nachhall und mischt das Signal mit dem Signal von dem primären Mikrofon. In einigen Ausführungsformen erhöht das Kombinierermodul 340 die Energie des Signals geeignet, wenn in dem Rahmen ein Audiosignal vorhanden ist, und verringert es sie, wenn in dem Rahmen wenig Audioenergie vorhanden ist.
  • 4 ist ein Blockschaltplan eines beispielhaften Strahlformermoduls. Das Strahlformermodul 310 kann pro Abgriff (d. h. pro Teilband) implementiert werden. Das Strahlformermodul 310 empfängt FCT-Ausgangssignale für ein erstes Mikrofon (wie etwa für ein primäres Mikrofon) und für ein zweites Mikrofon. Das FCT-Signal des ersten Mikrofons wird durch das Modul 410 entsprechend der Funktion
    Figure DE112015005862T5_0002
    verarbeitet, um eine erste Differentialanordnung mit Parametern zu erzeugen.
  • Das FCT-Signal des sekundären Mikrofons wird durch das Modul 420 entsprechend der Funktion
    Figure DE112015005862T5_0003
    verarbeitet, um eine sekundäre Differentialanordnung mit Parametern zu erzeugen. Weitere Details hinsichtlich der Erzeugung der beispielhaften ersten und zweiten Differentialanordnung sind in der US-Patentanmeldung Nr. 11/699,732,764 mit dem Titel ”System and Method for Utilizing Omni-Directional Microphones for Speech Enhancement”, jetzt US-Patent Nr. 8,194,880 , erteilt am 5. Juni 2012, beschrieben, deren Offenbarung hier durch Bezugnahme auf sie eingefügt ist.
  • Daraufhin wird die Ausgabe des Moduls 410 bei dem Kombinierer 440 von dem FCT-Signal des sekundären Mikrofons subtrahiert und daraufhin die Ausgabe des Moduls 420 bei dem Kombinierer 430 von dem FCT-Signal des primären Mikrofons subtrahiert. Von dem Kombinierer 430 wird ein Kardioidsignal Cf ausgegeben und an das Modul 450 geliefert, wo die folgende Funktion angewendet wird: Log(|cf|2).
  • Von dem Kombinierer 440 wird ein Kardioidsignal Cb ausgegeben und an das Modul 460 geliefert, wo die folgende Funktion angewendet wird: Log(|cb|2).
  • Durch das Element 470 wird die Differenz der Ausgaben der Module 450 und 460 bestimmt und als ein ILD-Hinweis ausgegeben. Der ILD-Hinweis kann durch das Strahlformermodul 310 an ein Nachfilter (z. B. an ein durch das Modul 320 für multiplikative Verstärkungsexpansion implementiertes Filter) ausgegeben werden.
  • 5 ist ein Flussdiagramm eines beispielhaften Verfahrens zum Ausführen eines Audio-Zooms. In Schritt 510 wird ein akustisches Signal von einer oder von mehreren Quellen empfangen. In einigen Ausführungsformen werden die akustischen Signale über ein oder mehrere Mikrofone in der Audiovorrichtung 104 empfangen. Zum Beispiel werden über die Mikrofone 106 und 108 der Audiovorrichtung 104 akustische Signale von den Audioquellen 112116 und Reflexionen 128129 empfangen.
  • Daraufhin wird in Schritt 520 eine Zoom-Angabe für einen räumlichen Bereich empfangen. In einigen Ausführungsformen wird die Zoom-Angabe von einem Nutzer empfangen oder auf der Grundlage anderer Daten bestimmt. Zum Beispiel wird die Zoom-Angabe von einem Nutzer über eine Video-Zoom-Einstellung, die eine Audiovorrichtung in eine bestimmte Richtung weist, über eine Eingabe für den Video-Zoom oder in einer anderen Weise empfangen.
  • In Schritt 530 werden auf der Grundlage der Zoom-Angabe Energiepegel von Komponenten eines akustischen Signals angehoben. In einigen Ausführungsformen werden Energiepegel von Komponenten eines akustischen Signals dadurch angehoben, dass die Energiepegel für Audioquellen-Teilbandsignale, die von einer Quellenvorrichtung innerhalb eines ausgewählten Strahlbereichs ausgehen, erhöht werden. Audiosignale von einer Vorrichtung außerhalb eines ausgewählten Strahlbereichs werden abgesenkt. Das Anheben von Energiepegeln von Komponenten eines akustischen Signals ist im Folgenden in Bezug auf das Verfahren aus 6 ausführlicher diskutiert.
  • In Schritt 540 werden auf der Grundlage der empfangenen Angabe Nachhallsignalkomponenten eingestellt, die einer Lage innerhalb des räumlichen Bereichs zugeordnet sind. Wie oben diskutiert wurde, können die Einstellungen das Modifizieren des Verhältnisses einer direkten Komponente in Bezug auf Reflexionskomponenten für das bestimmte Signal enthalten. Wenn eine Heranzoom-Funktion ausgeführt werden soll, sollte Nachhall durch Verringern des Verhältnisses der direkten Komponente zu den Reflexionskomponenten in dem Audiosignal verringert werden. Wenn für das Audiosignal eine Herauszoom-Funktion ausgeführt wird, wird die direkte Komponente in Bezug auf die Reflexionskomponenten verringert, um das Verhältnis der direkten Komponenten zu den Reflexionskomponenten des Audiosignals zu verringern.
  • In Schritt 550 wird auf die Signalkomponente eine modulierte Verstärkung angewendet. Die Verstärkung kann durch Mischen eines bezüglich des Nachhalls verarbeiteten akustischen Signals mit einem primären akustischen Signal (oder mit einem anderen durch die Audiovorrichtung 104 empfangenen Audiosignal) angewendet werden. In Schritt 560 wird das gemischte Signal, das durch Audio-Zoom verarbeitet worden ist, ausgegeben.
  • Wie oben diskutiert wurde, werden Teilbandsignale auf der Grundlage einer Zoom-Angabe angehoben. 6 ist ein Flussdiagramm eines beispielhaften Verfahrens zum Anheben von Komponenten eines akustischen Signals. In einigen Ausführungsformen bietet das Verfahren in 6 mehr Detail für den Schritt 530 des Verfahrens in 5. In Schritt 610 wird eine Audioquelle in der Richtung eines Strahls detektiert. Die Detektion kann durch einen Subtraktionsmechanismus mit dem Verarbeitungsrauschen null oder durch ein anderes Modul, das eine räumliche Lage einer Quelle auf der Grundlage durch zwei oder mehr Mikrofone empfangener Audiosignale identifizieren kann, ausgeführt werden.
  • In Schritt 620 werden akustische Signalquellen, die sich außerhalb des räumlichen Bereichs befinden, gedämpft. In verschiedenen Ausführungsformen enthalten die akustischen Quellen außerhalb des räumlichen Bereichs bestimmte Audioquellen (z. B. 112 in 1) und reflektierte Audiosignale wie etwa Reflexionen 128 und 129. In Schritt 630 werden daraufhin Adaptationsbeschränkungen verwendet, um den Strahl auf der Grundlage der Zoom-Angabe zu lenken. In einigen Ausführungsformen enthalten die Adaptationsbeschränkungen die Beschränkungen α und σ, die in einem Unterdrückungssystem mit dem Verarbeitungsrauschen null verwendet werden. Die Adaptationsbeschränkungen können außerdem von einer multiplikativen Expansion oder von der Auswahl eines Gebiets um eine bevorzugte Richtung auf der Grundlage eines Strahlmusters abgeleitet werden.
  • In Schritt 640 werden daraufhin Energieverhältnisse bestimmt. Die Energieverhältnisse können verwendet werden, um multiplikative Masken abzuleiten, die eine Strahlformer-Auslöschungsverstärkung für Signalkomponenten hervorheben oder verringern. Nachfolgend werden in Schritt 650 auf der Grundlage der Energieverhältnisse multiplikative Masken erzeugt. Das Erzeugen multiplikativer Masken auf der Grundlage eines Energieverhältnisses ist in Bezug auf das Verfahren aus 7 ausführlicher diskutiert.
  • 7 ist ein Flussdiagramm eines beispielhaften Verfahrens zum Erzeugen einer multiplikativen Maske. Das Verfahren aus 7 bietet mehr Details für den Schritt 650 in dem Verfahren aus 6. In Schritt 710 werden aus den Mikrofonsignalen Differentialanordnungen erzeugt. Die Anordnungen können als Teil eines Strahlformermoduls 310 erzeugt werden. Das Strahlmuster kann ein Kardioidmuster sein, das wenigstens teilweise auf der Grundlage der Differentialausgangssignale erzeugt wird. In Schritt 720 wird nachfolgend aus den Differentialanordnungen ein Strahlmuster erzeugt. In Schritt 730 werden daraufhin aus den Strahlmustern Energieverhältnisse erzeugt. Die Energieverhältnisse können als irgendwelche einer Kombination von Signalen erzeugt werden. Wenn sie erzeugt worden sind, kann aus den Energieverhältnissen eine ILD-Karte pro Frequenz erzeugt werden. Es kann ein ILD-Bereich ausgewählt werden, der der gewünschten Auswahl entspricht. Daraufhin kann auf eine Karte durch Anheben der Signalkomponenten innerhalb des Fensters und Dämpfen der außerhalb des Fensters positionierten Signalkomponenten ein ILD-Fenster angewendet werden. In Schritt 740 kann aus dem Energieverhältnis ein Filter wie etwa ein Nachfilter abgeleitet werden.
  • Die oben beschriebenen Module einschließlich der in 3 diskutierten können Anweisungen enthalten, die in einem Speichermedium wie etwa in einem maschinenlesbaren Medium (z. B. in einem computerlesbaren Medium) gespeichert sind. Diese Anweisungen können durch den Prozessor 220 ausgelesen und ausgeführt werden, um die hier diskutierte Funktionalität auszuführen. Einige Beispiele für Anweisungen enthalten Software, Programmcode und Firmware. Einige Beispiele für Speichermedien enthalten Arbeitsspeichervorrichtungen und integrierte Schaltungen.
  • 8 ist ein Blockschaltplan, der ein Audioverarbeitungssystem 800 entsprechend einer anderen beispielhaften Ausführungsform darstellt. Das beispielhafte Audioverarbeitungssystem 800 enthält ein Quellenschätzungs-Teilsystem 830, das mit verschiedenen Elementen eines beispielhaften AZA-Teilsystems gekoppelt ist. Das beispielhafte AZA-Teilsystem enthält Begrenzer 802a, 802b, ... und 802n, FCT-Module 804a, 804b, ... und 804n, ein Analysemodul 806, ein Zoom-Steuermodul 810, einen Signalmodifizierer 812, ein Element 818 und einen Begrenzer 820. Das Quellenschätzeinrichtungs-Teilsystem 830 kann ein Quellenrichtungs-Schätzeinrichtungs-Modul (SDE-Modul) 808, auch als eine Zielschätzeinrichtung bezeichnet, ein Verstärkungsmodul 816 und ein Modul 814 für die automatische Verstärkungsregelung (AGC-Modul 814) enthalten. Das beispielhafte Audioverarbeitungssystem 800 verarbeitet ein akustisches Audiosignal von den Mikrofonen 106a, 106b, ... und 106n.
  • In verschiedenen beispielhaften Ausführungsformen ist das SDE-Modul 808 dafür betreibbar, eine Schallquelle zu lokalisieren. Das SDE-Modul 808 kann auf der Grundlage der Korrelation von Phasendiagrammen zwischen unterschiedlichen Mikrofoneingaben Hinweise erzeugen. Das beispielhafte SDE-Modul 808 kann auf der Grundlage der Korrelation der Phasendiagramme einen Vektor der Salienzschätzwerte bei unterschiedlichen Winkeln berechnen. Auf der Grundlage der Salienzschätzwerte kann das SDE-Modul 808 eine Richtung der Quelle bestimmen. Mit anderen Worten, entsprechend verschiedenen Ausführungsformen ist eine Spitze des Vektors der Salienzschätzwerte eine Angabe der Richtung der Quelle in einer bestimmten Richtung. Gleichzeitig können durch schlechte Salienzschätzwerte unter allen Winkeln Quellen mit verbreitertem Wesen, d. h. ungerichtete, repräsentiert werden. Verschiedene Ausführungsformen können sich auf die Hinweise (Schätzwerte der Salienz) stützen, um die Leistung einer vorhandenen gerichteten Audiolösung zu verbessern, was durch das Analysemodul 806, durch den Signalmodifizierer 812 und durch das Zoom-Steuermodul 810 ausgeführt wird.
  • Entsprechend einer beispielhaften Ausführungsform werden Schätzwerte der Salienz verwendet, um den Winkel der Quelle in dem Bereich von 0 bis 360 Grad in einer Ebene parallel zum Boden zu lokalisieren, wenn die Audiovorrichtung 104 z. B. auf einer Tischplatte angeordnet ist. Die Schätzwerte der Salienz können verwendet werden, um die Signale unter unterschiedlichen Winkeln, wie von dem Kunden/Nutzer gefordert wird, zu dämpfen/zu verstärken.
  • In verschiedenen Ausführungsformen ist das SDE-Modul 808 dafür ausgelegt, in zwei oder mehr Betriebsarten zu arbeiten. Die Betriebsarten können ”normal”, ”verrauscht” und ”gleichzeitige Sprecher” enthalten. Die Charakterisierung dieser Betriebsarten wird durch einen SDE-Salienzparameter gesteuert.
  • Normalbetriebsart
  • Eine ”Normal”-Betriebsart ist durch eine einzelne gerichtete Sprachquelle ohne die Anwesenheit einer Art starker Sprachdistraktoren mit oder ohne die Anwesenheit von Rauschen definiert. In diesem Fall kann ein Vektor der Salienzschätzwerte durch eine einzelne Spitze (über einem Salienzschwellenwert) charakterisiert werden. Die einzelne Spitze kann eine Anwesenheit einer einzelnen Schallquelle angeben. Der Ort der Spitze in dem Vektor der Salienzschätzwerte kann den Winkel der Quelle charakterisieren. In diesen Fällen können sowohl ein verbreiterter Quellenvektor als auch ein gleichzeitiger Sprecherdetektor auf einen ”Nein”-Zustand eingestellt werden. Auf der Grundlage dieser Zustände steuert die Zielschätzeinrichtung in verschiedenen Ausführungsformen den Pegel der Unterdrückung/Verstärkung, wie er durch den Nutzer gewünscht ist, auf einer Grundlage pro Winkel an.
  • In einigen Ausführungsformen erzeugt die Zielschätzeinrichtung eine Abbildung eines Winkels auf relative Pegel der Dämpfung in dem AZA-Teilsystem. Zum Beispiel kann ein Bereich von Winkeln von 240–270 Grad eine inkrementelle Unterdrückung um 10 dB relativ zu der Leistungsziel-Schätzeinrichtung der AZA, die eine Anordnung mit einem Durchsatz von 0 dB enthält, mit Ausnahme der Einträge zwischen 240 und 270 Grad erfordern.
  • Obgleich in einem Echtzeitsprachsystem bei Detektion ein sofortiger relativer Unterdrückungspegel von 10 dB erzielbar ist, kann diese Unterdrückung für einen Hörer wegen plötzlicher Sprünge der Signalpegel eine hörbare Verzerrung verursachen. In einigen Ausführungsformen kann das AGC-Modul 814 die Rate des Flankenabfalls mittels Anschwell- und Abklingzeitkonstanten steuern, um die Verzerrung zu mindern. Ein glatter Flankenabfall kann das Sprachsystem ohne hörbare Verzerrungen in den Audiosignalen wirksam stabilisieren. In einigen Ausführungsformen wird Rauschen, wenn es zusammen mit der gerichteten Sprache vorhanden ist, durch das AZA-Teilsystem gemildert.
  • Verrauschte Betriebsart
  • Eine verrauschte Betriebsart kann durch eine verbreiterte Rauschquelle ohne gerichtete Sprache charakterisiert werden. Die verrauschte Betriebsart kann zu schlechten Salienzschätzwerten für alle Winkel führen. Da es keine Richtungsinformationen der Quelle dieser Daten gibt, kann das Signal allein durch das AZA-Teilsystem verarbeitet werden. In einigen Ausführungsformen werden Interaktionen zwischen der verrauschten Betriebsart und der Normalbetriebsart weich, ohne plötzliches Umschalten, behandelt, um Pumpen oder irgendwelche mit der Verstärkung zusammenhängende Artefakte zu vermeiden. Für eine glatte Übergabe kann eine Zielschätzeinrichtung ein Ziel von 0 dB an das AGC-Modul 814 liefern. Durch geeignete Behandlung der Anschwell- und Abfallzeit kann eine glatte Übergabe erzielt werden. Allerdings wird angemerkt, dass die Anschwell- und Abfallzeit in der verrauschten Betriebsart von der Anschwell- und Abfallzeit, die in der Normalbetriebsart verwendet werden, verschieden sind.
  • Betriebsart gleichzeitiger Sprecher
  • Eine Betriebsart gleichzeitiger Sprecher ist durch mehrere gleichzeitige Sprecher/Seitendistraktoren, entweder mit oder ohne Rauschen, charakterisiert. Der Salienzvektor für die Betriebsart gleichzeitiger Sprecher kann durch mehrere Spitzen (über einem Salienzschwellenwert) charakterisiert werden. Die Betriebsart gleichzeitiger Sprecher kann auf ähnliche Weise wie die verrauschte Betriebsart behandelt werden. Wenn das SDE-Modul in der Betriebsart gleichzeitiger Sprecher arbeitet, können akustische Signale von den Mikrofonen allein durch das AZA-Teilsystem verarbeitet werden. In verschiedenen Ausführungsformen kann eine Übergabe zwischen den obigen Betriebsarten mit Hilfe des AGC-Teilsystems auf problemlose Weise ausgeführt werden.
  • Verschiedene Ausführungsformen der hier beschriebenen Technologie, bei denen das AZA-Teilsystem mit einem Quellenschätzungs-Teilsystem verbessert ist, können das Problem der Mikrofonabdichtung dadurch, dass irgendwelche Signalpegeldifferenzen zwischen Mikrofonen ignoriert werden, vermeiden. Verschiedene Ausführungsformen konzentrieren sich stattdessen auf die Ankunftszeit-/Phasenhinweise zwischen den Mikrofonen. Allerdings wird angemerkt, dass das zugrundeliegende AZA-Teilsystem weiterhin empfindlich für die Mikrofonabdichtung sein kann und somit die Gesamtsystemleistung von der Mikrofonabdichtung abhängen kann, obgleich verschiedene Ausführungsformen für die Mikrofonabdichtung unempfindlich sein können. In einigen Ausführungsformen kann ein AZA-Teilsystem auf der Grundlage von Eigenschaften der genutzten Abdichtung der Mikrofone abgestimmt werden, um die Empfindlichkeit gegenüber der Mikrofonabdichtung zu verringern, um das Mikrofonabdichtungsproblem zu mildern. Weitere Details hinsichtlich einer beispielhaften Abstimmung des AZA-Teilsystems sind in der US-Patentanmeldung Nr. 12/896,725, eingereicht am 1. Oktober 2010, die hier durch Bezugnahme auf sie eingefügt ist, zu finden.
  • Verschiedene Ausführungsformen der vorliegenden Technologie können die Tatsache nutzen, dass die SDE-Salienz bei der Änderung einer Entfernung zwischen einem Sprecher/Lautsprecher und einer Audiovorrichtung sehr wenig variiert, wenn die Entfernung in dem Bereich von 0,5 m–2 m liegt und wenn sich der Mund des Sprechers etwa 30 cm um die Audiovorrichtung befindet. Dies kann das Audioverarbeitungssystem 800 robuster gegen eine Entfernungsveränderlichkeit machen und kann für einen Sprecher, der in diesen Entfernungen spricht, zu einer gleichmäßigen/ähnlichen Leistung führen. In einigen Ausführungsformen kann das AZA-Teilsystem abgestimmt werden, um die Robustheit gegenüber der Entfernung vollständig zu nutzen.
  • Der Zielschätzeinrichtungsblock (auch als SDE-Modul bezeichnet) 808 kann unabhängig von dem AZA-Teilsystem auf der Grundlage des Einfallswinkels von Schallen relative Pegel der Unterdrückung liefern. In einigen Ausführungsformen kann der Zielschätzeinrichtungsblock unabhängig ohne irgendwelche Interaktionen mit anderen Teilsystemen gesteuert werden. Diese unabhängig steuerbare Architektur (z. B. ”Insel”-Architektur) kann die Feldabstimmingenieure befähigen, an die durch einen Kunden/Nutzer gewünschte Leistung anzupassen.
  • Wie hinsichtlich verschiedener Ausführungsformen beschrieben ist, bietet die Anordnung der Zielschätzeinrichtungen während der ”Normal”-Betriebsart ein leistungsfähiges Werkzeug, was es ermöglichen kann, die obige Architektur durch Manipulieren des Winkels der Unterdrückungspegelanordnung in dem Zielschätzeinrichtungsblock zu implementieren.
  • 9 ist ein Flussdiagramm, das Schritte eines Verfahrens 900 zum Verbessern der Leistung eines Systems für die gerichtete Audioerfassung entsprechend einer beispielhaften Ausführungsform zeigt. Im Block 910 enthält das beispielhafte Verfahren 900 das Korrelieren von Phasendiagrammen wenigstens zweier Audioeingaben. In einigen Ausführungsformen können die Audioeingaben wenigstens durch zwei Mikrofone mit unterschiedlicher Abdichtung erfasst werden.
  • Im Block 920 ermöglicht das beispielhafte Verfahren 900 das Erzeugen von Schätzwerten der Salienz bei unterschiedlichen Richtungswinkeln auf der Grundlage der Korrelation, um wenigstens eine wenigstens einer Schallquelle zugeordnete Richtung zu lokalisieren. In einigen Ausführungsformen enthalten die Schätzwerte der Salienz einen Vektor der Salienzen bei Richtungswinkeln von 0 bis 360 in einer Ebene parallel zu einem Boden.
  • Im Block 930 enthält das beispielhafte Verfahren 900 das Bestimmen von Hinweisen auf der Grundlage der Schätzwerte der Salienz. Im Block 940 enthält das beispielhafte Verfahren 900 das Liefern dieser auf ”Schätzwerten der Salienz” beruhenden Hinweise an ein System für die gerichtete Audioerfassung.
  • In weiteren Ausführungsformen enthält das beispielhafte Verfahren 900 das Bestimmen einer Betriebsart von einer Vielzahl der Betriebsarten auf der Grundlage der Schätzwerte der Salienz (z. B. der Abwesenheit oder Anwesenheit einer oder mehrerer Spitzen in den Schätzwerten der Salienz). In bestimmten Ausführungsformen enthalten die Betriebsarten eine ”Normal”-Betriebsart, die durch eine einzelne gerichtete Sprachquelle charakterisiert ist, eine Betriebsart ”gleichzeitiger Sprecher”, die durch die Anwesenheit wenigstens zweier einzelner gerichteter Sprachquellen charakterisiert ist, und eine verrauschte Betriebsart, die durch eine verbreiterte Rauschquelle ohne gerichtete Sprache charakterisiert ist.
  • Im Block 960 enthält das beispielhafte Verfahren 900 das Auslegen des Systems für die gerichtete Audioerfassung auf der Grundlage der bestimmten Betriebsart.
  • Im Block 970 enthält das beispielhafte Verfahren 900 das Bestimmen anderer Hinweise einschließlich wenigstens Pegeln der Dämpfung auf der Grundlage der Schätzwerte der Salienz und der bestimmten Betriebsart.
  • Im Block 980 enthält das beispielhafte Verfahren 900 das Steuern einer Rate des Schaltens zwischen Betriebsarten der Vielzahl von Betriebsarten in Echtzeit durch Anwenden von Anschwell- und Abklingzeitkonstanten.
  • 10 stellt ein beispielhaftes Computersystem 1000 dar, das zum Implementieren einiger Ausführungsformen der vorliegenden Offenbarung verwendet werden kann. Das Computersystem 1000 aus 10 kann in den Kontexten solcher Einrichtungen wie Computersysteme, Netze, Server oder Kombinationen davon implementiert werden. Das Computersystem 1000 aus 10 enthält eine oder mehrere Prozessoreinheiten 1010 und einen Hauptspeicher 1020. Der Hauptspeicher 1020 speichert teilweise Anweisungen und Daten zur Ausführung durch Prozessoreinheiten 1010. Der Hauptspeicher 1020 speichert in diesem Beispiel den ausführbaren Code, wenn er in Betrieb ist. Ferner enthält das Computersystem 1000 aus 10 einen Massendatenspeicher 1030, eine tragbare Speichervorrichtung 1040, Ausgabevorrichtungen 1050, Nutzereingabevorrichtungen 1060, ein Graphikanzeigesystem 1070 und Peripherievorrichtungen 1080.
  • Die in 10 gezeigten Komponenten sind wie über einen einzigen Bus 1090 verbunden gezeigt. Die Komponenten können über ein oder mehrere Datentransportmittel verbunden sind. Die Prozessoreinheit 1010 und der Hauptspeicher 1020 sind über einen lokalen Mikroprozessorbus verbunden und der Massendatenspeicher 1030, die eine oder die mehreren Peripherievorrichtungen 1080, die tragbare Speichervorrichtung 1040 und das Grafikanzeigesystem 1070 sind über einen oder mehrere Eingabe/Ausgabe-Busse (E/A-Busse) verbunden.
  • Der Massendatenspeicher 1030, der mit einem Magnetplattenlaufwerk, mit einem Festkörperlaufwerk oder mit einem optischen Plattenlaufwerk implementiert sein kann, ist eine nichtflüchtige Speichervorrichtung zum Speichern von Daten und Anweisungen zur Verwendung durch die Prozessoreinheit 1010. Der Massendatenspeicher 1030 speichert die Systemsoftware zum Implementieren von Ausführungsformen der vorliegenden Offenbarung, um diese Software in den Hauptspeicher 1020 zu laden.
  • Die tragbare Speichervorrichtung 1040 arbeitet mit einem tragbaren nichtflüchtigen Speichermedium wie etwa mit einem Flash-Laufwerk, einer Diskette, einer Compact Disk, einer Digital Video Disk oder einer Universal-Serial-Bus-Speichervorrichtung (USB-Speichervorrichtung) zusammen, um Daten und Code an das und von dem Computersystem 1000 aus 10 einzugeben und auszugeben. Die Systemsoftware zum Implementieren von Ausführungsformen der vorliegenden Offenbarung ist auf einem solchen tragbaren Medium gespeichert und wird über die tragbare Speichervorrichtung 1040 in das Computersystem 1000 eingegeben.
  • Die Nutzereingabevorrichtungen 1060 können einen Teil einer Nutzerschnittstelle bieten. Die Nutzereingabevorrichtungen 1060 können ein oder mehrere Mikrofone, ein alphanumerisches Tastenfeld wie etwa eine Tastatur zum Eingeben alphanumerischer und anderer Informationen oder eine Zeigevorrichtung wie etwa eine Maus, einen Trackball, einen Stylus oder Cursorrichtungstasten enthalten. Außerdem können die Nutzereingabevorrichtungen 1060 einen Berührungsbildschirm enthalten. Außerdem enthält das wie in 10 gezeigte Computersystem 1000 Ausgabevorrichtungen 1050. Geeignete Ausgabevorrichtungen 1050 enthalten Lautsprecher, Drucker, Netzschnittstelle und Monitore.
  • Das Grafikanzeigesystem 1070 enthält eine Flüssigkristallanzeige (LCD) oder eine andere geeignete Anzeigevorrichtung. Das Grafikanzeigesystem 1070 ist zum Empfangen von Text- und Grafikinformationen und zum Verarbeiten der Informationen zur Ausgabe an die Anzeigevorrichtung auslegbar.
  • Die Peripherievorrichtungen 1080 können ein beliebiger Typ einer Computerunterstützungsvorrichtung, um zu dem Computersystem zusätzliche Funktionalität hinzuzufügen, enthalten.
  • Die in dem Computersystem 1000 aus 10 vorgesehenen Komponenten sind jene, die in Computersystemen, die zur Verwendung mit Ausführungsformen der vorliegenden Offenbarung geeignet sein können, typischerweise zu finden sind und sollen eine breite Kategorie solcher Computerkomponenten, die im Gebiet gut bekannt sind, repräsentieren. Somit kann das Computersystem 1000 aus 10 ein Personal Computer (PC), ein Handcomputersystem, ein Telefon, ein Mobilcomputersystem, eine Workstation, ein Tablet, ein Phablet, ein Mobiltelefon, ein Server, ein Minicomputer, ein Großrechner, ein am Körper tragbares oder ein beliebiges anderes Computersystem sein. Außerdem kann der Computer verschiedene Buskonfigurationen, vernetzte Plattformen, Mehrprozessorplattformen und dergleichen enthalten. Es können verschiedene Betriebssysteme einschließlich UNIX, LINUX, WINDOWS, MAC OS, PALM OS, QNX ANDROID, IOS, CHROME, TIZEN und andere geeignete Betriebssysteme verwendet werden.
  • Die Verarbeitung für verschiedene Ausführungsformen kann in Software implementiert werden, die Cloud-gestützt ist. In einigen Ausführungsformen ist das Computersystem 1000 als eine Cloud-gestützte Computerumgebung wie etwa als eine virtuelle Maschine, die in einer Computer-Cloud arbeitet, implementiert. In anderen Ausführungsformen kann das Computersystem 1000 selbst eine Cloud-gestützte Computerumgebung enthalten, wobei die Funktionalitäten des Computersystems 1000 auf verteilte Weise ausgeführt werden. Somit kann das Computersystem 1000, wenn es als eine Computer-Cloud ausgelegt ist, wie später ausführlicher beschrieben wird, Vielzahlen von Computervorrichtungen in verschiedenen Formen enthalten.
  • Allgemein ist eine Cloud-basierte Computerumgebung ein Betriebsmittel, das typischerweise die Computerleistung einer großen Gruppierung von Prozessoren (wie etwa innerhalb von Web-Servern) kombiniert und/oder das die Speicherkapazität einer großen Gruppierung von Computerarbeitsspeichern oder Speichervorrichtungen kombiniert. Systeme, die Cloud-gestützte Betriebsmittel bieten, können ausschließlich durch ihre Eigentümer genutzt werden oder auf solche Systeme kann durch äußere Nutzer, die Anwendungen innerhalb der Computerinfrastruktur einsetzen, um den Nutzen große Computer- oder Speicherbetriebsmittel zu erhalten, zugreifbar sein.
  • Die Cloud kann z. B. durch ein Netz von Web-Servern, die eine Vielzahl von Computervorrichtungen wie etwa das Computersystem 1000 umfassen, gebildet werden, wobei jeder Server (oder wenigstens eine Vielzahl davon) Prozessor- und/oder Speicherbetriebsmittel bietet. Diese Server können durch mehrere Nutzer (z. B. Cloud-Betriebsmittel-Kunden oder andere Nutzer) gelieferte Arbeitsaufgaben managen. Typischerweise erlegt jeder Nutzer der Cloud Arbeitsbelastungsbedarfe auf, die in Echtzeit, gelegentlich dramatisch, variieren. Das Wesen und das Ausmaß dieser Änderungen hängen typischerweise von der Art des Geschäfts ab, dem der Nutzer zugeordnet ist.
  • Die vorliegende Technologie ist oben mit Bezug auf beispielhafte Ausführungsformen beschrieben. Somit sollen andere Änderungen an den beispielhaften Ausführungsformen von der vorliegenden Offenbarung umfasst sein.

Claims (20)

  1. Verfahren zum Verbessern der Leistung eines Systems für die gerichtete Audioerfassung, wobei das Verfahren umfasst: Korrelieren von Phasendiagrammen wenigstens zweier Audioeingaben; Erzeugen von Schätzwerten der Salienz bei unterschiedlichen Richtungswinkeln, um wenigstens eine wenigstens einer Schallquelle zugeordnete Richtung zu lokalisieren, auf der Grundlage der Korrelation; Bestimmen von Hinweisen auf der Grundlage der Schätzwerte der Salienz; und Liefern der Hinweise an das System für die gerichtete Audioerfassung.
  2. Verfahren nach Anspruch 1, wobei die Hinweise durch das System für die gerichtete Audioerfassung verwendet werden, um die wenigstens zwei Audioeingaben bei unterschiedlichen Richtungswinkeln zu dämpfen oder zu verstärken.
  3. Verfahren nach Anspruch 1, wobei die Hinweise wenigstens Dämpfungspegel der unterschiedlichen Richtungswinkel enthalten.
  4. Verfahren nach Anspruch 1, wobei die Schätzwerte der Salienz einen Vektor der Salienzen bei Richtungswinkeln von 0 bis 360 in einer Ebene parallel zu einem Boden enthalten.
  5. Verfahren nach Anspruch 1, wobei das Erzeugen der Hinweise das Abbilden der unterschiedlichen Richtungswinkel auf relative Pegel der Dämpfung für das System für die gerichtete Audioerfassung enthält.
  6. Verfahren nach Anspruch 5, das ferner das Steuern der Änderungsrate der Pegel der Dämpfung in Echtzeit durch Anschwell- und Abklingzeitkonstanten zum Vermeiden von Schallartefakten umfasst.
  7. Verfahren nach Anspruch 1, das ferner das Bestimmen einer Betriebsart, die von einer Vielzahl von Betriebsarten ausgewählt wird, auf der Grundlage der Schätzwerte der Salienz umfasst, wobei die Vielzahl von Betriebsarten eine erste Betriebsart enthält, in der die wenigstens eine Schallquelle eine einzelne gerichtete Sprachquelle enthält.
  8. Verfahren nach Anspruch 7, wobei die Vielzahl von Betriebsarten ferner eine zweite Betriebsart, in der die wenigstens eine Schallquelle wenigstens zwei einzelne gerichtete Sprachquellen enthält, und eine dritte Betriebsart, in der die wenigstens eine Schallquelle eine verbreiterte Schallquelle ohne gerichtete Sprache enthält, enthält.
  9. Verfahren nach Anspruch 7, wobei das Bestimmen der Betriebsart auf der Abwesenheit oder Anwesenheit einer oder mehrerer Spitzen in den Schätzwerten der Salienz beruht.
  10. Verfahren nach Anspruch 9, das ferner das Auslegen des Systems für die gerichtete Audioerfassung auf der Grundlage der bestimmten Betriebsart umfasst.
  11. Verfahren nach Anspruch 7, das ferner das Steuern einer Rate des Schaltens zwischen Betriebsarten von der Vielzahl der Betriebsarten in Echtzeit durch Anwenden von Anschwell- und Abklingzeitkonstanten umfasst.
  12. Verfahren nach Anspruch 1, wobei die wenigstens zwei Audioeingaben durch wenigstens zwei Mikrofone erfasst werden.
  13. Verfahren nach Anspruch 12, wobei eines der wenigstens zwei Mikrofone besser als andere der wenigstens zwei Mikrofone abgedichtet ist.
  14. System zum Verbessern der Leistung eines Systems für die gerichtete Audioerfassung, wobei das System umfasst: wenigstens einen Prozessor; und einen Speicher, der mit dem wenigstens einen Prozessor kommunikationstechnisch gekoppelt ist, wobei der Speicher Anweisungen speichert, die, wenn sie durch den wenigstens einen Prozessor ausgeführt werden, ein Verfahren ausführen, das umfasst: Korrelieren von Phasendiagrammen wenigstens zweier Audioeingaben; Erzeugen von Schätzwerten der Salienz bei unterschiedlichen Richtungswinkeln auf der Grundlage der Korrelation, um wenigstens eine wenigstens einer Schallquelle zugeordnete Richtung zu lokalisieren; Bestimmen von Hinweisen auf der Grundlage der Schätzwerte der Salienz; und Liefern der Hinweise an das System für die gerichtete Audioerfassung.
  15. System nach Anspruch 14, wobei die Hinweise durch das System für die gerichtete Audioerfassung verwendet werden, um die wenigstens zwei Audioeingaben bei den unterschiedlichen Richtungswinkeln zu dämpfen oder zu verstärken.
  16. System nach Anspruch 14, wobei die Hinweise wenigstens Dämpfungspegel für die unterschiedlichen Richtungswinkel enthalten.
  17. System nach Anspruch 14, wobei das Erzeugen der Hinweise das Abbilden der unterschiedlichen Richtungswinkel auf relative Dämpfungspegel für das System für die gerichtete Audioerfassung enthält.
  18. System nach Anspruch 14, das ferner das Bestimmen einer Betriebsart, die von einer Vielzahl von Betriebsarten ausgewählt wird, auf der Grundlage der Abwesenheit oder Anwesenheit einer oder mehrerer Spitzen in den Schätzwerten der Salienz umfasst, wobei die Vielzahl von Betriebsarten eine erste Betriebsart, in der die wenigstens eine Schallquelle eine einzelne gerichtete Sprachquelle enthält, eine zweite Betriebsart, in der die wenigstens eine Schallquelle wenigstens zwei einzelne gerichtete Sprachquellen enthält, und eine dritte Betriebsart, in der die wenigstens eine Schallquelle eine verbreiterte Rauschquelle ohne gerichtete Sprache enthält, enthält.
  19. System nach Anspruch 18, das ferner umfasst: Auslegen des Systems für die gerichtete Audioerfassung auf der Grundlage der bestimmten Betriebsart, und Steuern einer Rate des Schaltens zwischen Betriebsarten in Echtzeit durch Anwenden von Anschwell- und Abfallzeitkonstanten.
  20. Nichttemporäres computerlesbares Speichermedium, auf dem Anweisungen verkörpert sind, die, wenn sie durch wenigstens einen Prozessor ausgeführt werden, Schritte eines Verfahrens ausführen, wobei das Verfahren umfasst: Korrelieren von Phasendiagrammen wenigstens zweier Audioeingaben; Erzeugen von Schätzwerten der Salienz bei unterschiedlichen Richtungswinkeln, um wenigstens eine wenigstens einer Schallquelle zugeordnete Richtung zu lokalisieren, auf der Grundlage der Korrelation; Bestimmen von Hinweisen auf der Grundlage der Schätzwerte der Salienz; und Liefern der Hinweise an das System für die gerichtete Audioerfassung.
DE112015005862.1T 2014-12-30 2015-12-02 Gerichtete Audioerfassung Withdrawn DE112015005862T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462098247P 2014-12-30 2014-12-30
US62/098,247 2014-12-30
PCT/US2015/063519 WO2016109103A1 (en) 2014-12-30 2015-12-02 Directional audio capture

Publications (1)

Publication Number Publication Date
DE112015005862T5 true DE112015005862T5 (de) 2017-11-02

Family

ID=56284893

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112015005862.1T Withdrawn DE112015005862T5 (de) 2014-12-30 2015-12-02 Gerichtete Audioerfassung

Country Status (3)

Country Link
CN (1) CN107113499B (de)
DE (1) DE112015005862T5 (de)
WO (1) WO2016109103A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
CN108235164B (zh) * 2017-12-13 2020-09-15 安克创新科技股份有限公司 一种麦克风颈环耳机

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8194880B2 (en) * 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8767975B2 (en) * 2007-06-21 2014-07-01 Bose Corporation Sound discrimination method and apparatus
US8233352B2 (en) * 2009-08-17 2012-07-31 Broadcom Corporation Audio source localization system and method
JP5397131B2 (ja) * 2009-09-29 2014-01-22 沖電気工業株式会社 音源方向推定装置及びプログラム
US9210503B2 (en) * 2009-12-02 2015-12-08 Audience, Inc. Audio zoom
US8989411B2 (en) * 2011-04-08 2015-03-24 Board Of Regents, The University Of Texas System Differential microphone with sealed backside cavities and diaphragms coupled to a rocking structure thereby providing resistance to deflection under atmospheric pressure and providing a directional response to sound pressure
JP5960851B2 (ja) * 2012-03-23 2016-08-02 ドルビー ラボラトリーズ ライセンシング コーポレイション 頭部伝達関数の線形混合による頭部伝達関数の生成のための方法およびシステム
US9119012B2 (en) * 2012-06-28 2015-08-25 Broadcom Corporation Loudspeaker beamforming for personal audio focal points

Also Published As

Publication number Publication date
CN107113499B (zh) 2018-09-18
WO2016109103A1 (en) 2016-07-07
CN107113499A (zh) 2017-08-29

Similar Documents

Publication Publication Date Title
DE112017002299T5 (de) Stereotrennung und Richtungsunterdrückung mit Omni-Richtmikrofonen
DE112013002838B4 (de) Abstimmen der Audio-Beamforming-Einstellungen auf der Grundlage des Systemzustands
US8583428B2 (en) Sound source separation using spatial filtering and regularization phases
DE112009002617B4 (de) Wahlweises Schalten zwischen mehreren Mikrofonen
DE112016000545B4 (de) Kontextabhängiges schalten von mikrofonen
DE112016000287T5 (de) Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung
DE102019129330A1 (de) Konferenzsystem mit einem Mikrofonarray-System und Verfahren zur Spracherfassung in einem Konferenzsystem
DE112015004185T5 (de) Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
DE112020004631T5 (de) Techniken zum unterdrücken eines nichtlinearen echos in akustischen echokompensatoren
KR102470962B1 (ko) 사운드 소스들을 향상시키기 위한 방법 및 장치
DE112015003945T5 (de) Mehrquellen-Rauschunterdrückung
DE112017000378T5 (de) Akustisches echoauslöschungs-referenzsignal
DE112016004161T5 (de) Mikrofonsignalzusammenführung
DE102018127071B3 (de) Audiosignalverarbeitung mit akustischer Echounterdrückung
CN101278337A (zh) 噪声环境中语音信号的健壮分离
DE112019003211T9 (de) System aus Strahlformer und akustischem Echokompensator (AEC)
KR20120101457A (ko) 오디오 줌
CN110956969B (zh) 直播音频处理方法、装置、电子设备和存储介质
DE112018002871T5 (de) System und verfahren zur audiomustererkennung
DE102013006163A1 (de) Störgeräuschbeseitigungsverfahren
US20160073209A1 (en) Maintaining spatial stability utilizing common gain coefficient
DE112015005862T5 (de) Gerichtete Audioerfassung
RU2642386C2 (ru) Адаптивное генерирование рассеянного сигнала в повышающем микшере
DE102018117558A1 (de) Adaptives nachfiltern
DE112019002337T5 (de) Architektur für Dynamikbearbeitungseffekte

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee