DE112017002299T5

DE112017002299T5 - Stereotrennung und Richtungsunterdrückung mit Omni-Richtmikrofonen

Info

Publication number: DE112017002299T5
Application number: DE112017002299.1T
Authority: DE
Inventors: Jonathon Roy; John Woodruff; Shailesh Sakri; Tony Verma
Original assignee: Knowles Electronics LLC
Current assignee: Knowles Electronics LLC
Priority date: 2016-05-02
Filing date: 2017-04-28
Publication date: 2019-02-14
Also published as: CN109155884B; US9820042B1; US20170318387A1; US20180070174A1; CN109155884A; WO2017192398A1; US10257611B2

Abstract

Systeme und Verfahren zur Stereotrennung und Richtungsunterdrückung werden bereitgestellt. Ein beispielhaftes Verfahren umfasst das Empfangen eines ersten Audiosignals, das einen Ton darstellt, der von einem einer ersten Position zugeordneten ersten Mikrofon aufgenommen wird, und eines zweiten Audiosignals, das einen Ton darstellt, der von einem einer zweiten Position zugeordneten zweiten Mikrofon aufgenommen wird. Die Mikrofone umfassen Omni-Richtmikrofone. Der Abstand zwischen dem ersten und zweiten Mikrofon ist durch die Größe einer Mobilvorrichtung begrenzt. Ein erstes Kanalsignal eines Stereosignals wird erzeugt, indem basierend auf den ersten und zweiten Audiosignalen ein erster Strahl an der ersten Stelle gebildet wird. Ein zweites Kanalsignal des Stereosignals wird erzeugt, indem basierend auf den ersten und zweiten Audiosignalen ein zweiter Strahl an der zweiten Stelle gebildet wird. Erste und zweite Richtungen, die jeweils dem ersten und dem zweiten Strahl zugeordnet sind, sind relativ zu einer Linie zwischen dem ersten und dem zweiten Ort festgelegt.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht den Vorteil und die Priorität von U.S. Patentanmeldung Nr. 15/144,631 , eingereicht am 2. Mai 2016, deren gesamter Inhalt hierin durch Bezugnahme eingeschlossen ist.
GEBIET
Die vorliegende Erfindung bezieht sich allgemein auf die Audioverarbeitung und insbesondere auf Systeme und Verfahren zur Stereotrennung und Richtungsunterdrückung mit Omni-Richtmikrofonen.
HINTERGRUND
Aufzeichnen von Stereo-Audio mit einer Mobilvorrichtung, wie beispielsweise Smartphones und Tablet-Computern, kann nützlich sein, um ein Video von Konzerten, Aufführungen und anderen Ereignissen zu machen. Typische Stereo-Aufnahmevorrichtungen sind entweder mit einer großen Trennung zwischen Mikrofonen oder mit genau abgewinkelten Richtmikrofonen konstruiert, um die akustischen Eigenschaften der Richtmikrofone zur Aufnahme von Stereoeffekten zu nutzen. Mobilvorrichtungen sind jedoch in der Größe begrenzt, und daher ist der Abstand zwischen Mikrofonen wesentlich kleiner als ein minimaler Abstand, der für eine optimale omnidirektionale Mikrofon-Stereo-Trennung erforderlich ist. Verwendung von Richtmikrofonen ist aufgrund der Größenbeschränkungen der Mobilvorrichtungen nicht praktikabel und kann zu einer Erhöhung der Gesamtkosten führen, die mit den Mobilvorrichtungen verbunden sind. Aufgrund des begrenzten Platzes zum Platzieren von Richtmikrofonen kann ein Benutzer der Mobilvorrichtung zusätzlich eine dominante Quelle für die Richtmikrofone sein, die oft mit Zielschallquellen interferieren.
Ein anderer Aspekt des Aufzeichnens von Stereo-Audio unter Verwendung einer Mobilvorrichtung ist ein Problem des Erfassens von akustisch repräsentativen Signalen, die bei der nachfolgenden Verarbeitung verwendet werden sollen. Herkömmliche Mikrofone, die für Mobilvorrichtungen verwendet werden, sind möglicherweise nicht in der Lage, mit Hochdruckbedingungen fertig zu werden, bei denen Stereoaufnahmen durchgeführt werden, z.B. bei einer Aufführung, einem Konzert oder einer windigen Umgebung. Dadurch können von den Mikrofonen erzeugte Signale durch Erreichen ihres akustischen Überlastpunktes („acoustic overload point“, AOP) verzerrt werden.
ZUSAMMENFASSUNG
Diese Zusammenfassung wird bereitgestellt, um eine Auswahl von Konzepten in einer vereinfachten Form einzuführen, die weiter unten in der detaillierten Beschreibung beschrieben werden. Diese Zusammenfassung dient nicht dazu, Schlüsselmerkmale oder wesentliche Merkmale des beanspruchten Gegenstands zu identifizieren, noch soll sie dazu dienen, den Umfang des beanspruchten Gegenstands zu bestimmen.
Es werden Systeme und Verfahren zur Stereotrennung und Richtungsunterdrückung mit Omni-Richtmikrofonen bereitgestellt. Ein beispielhaftes Verfahren umfasst das Empfangen von wenigstens einem ersten Audiosignal und einem zweiten Audiosignal. Das erste Audiosignal kann einen Ton repräsentieren, der von einem ersten Mikrofon erfasst wird, das mit einer ersten Position assoziiert ist. Das zweite Audiosignal kann einen Ton repräsentieren, der von einem zweiten Mikrofon aufgenommen wird, das einer zweiten Position zugeordnet ist. Das erste Mikrofon und das zweite Mikrofon können Omni-Richtmikrofone umfassen. Das Verfahren kann das Erzeugen eines ersten Kanalsignals eines Stereoaudiosignals durch Bilden eines ersten Strahls an dem ersten Ort auf der Grundlage des wenigstens ersten Audiosignals und des zweiten Audiosignals umfassen. Das Verfahren kann auch das Erzeugen eines zweiten Kanalsignals des Stereoaudiosignals durch Bilden eines zweiten Strahls an der zweiten Stelle auf der Grundlage des wenigstens ersten Audiosignals und des zweiten Audiosignals umfassen.
In einigen Ausführungsformen ist ein Abstand zwischen dem ersten Mikrofon und dem zweiten Mikrofon durch eine Größe einer Mobilvorrichtung begrenzt. In bestimmten Ausführungsformen befindet sich das erste Mikrofon an der Oberseite der Mobilvorrichtung und das zweite Mikrofon befindet sich an der Unterseite der Mobilvorrichtung. In anderen Ausführungsformen können das erste und das zweite Mikrofon (und gegebenenfalls zusätzliche Mikrofone) unterschiedlich angeordnet sein, einschließlich, ohne darauf beschränkt zu sein, der Mikrofone entlang einer Seite der Vorrichtung, z.B. getrennt entlang der Seite eines Tabletts mit Mikrofonen auf der Seite.
In einigen Ausführungsformen sind die Richtungen des ersten Strahls und des zweiten Strahls relativ zu einer Linie zwischen dem ersten Ort und dem zweiten Ort festgelegt. In einigen Ausführungsformen umfasst das Verfahren ferner das Empfangen von wenigstens einem anderen akustischen Signal. Das andere akustische Signal kann von einem anderen Mikrofon aufgenommen werden, das einer anderen Stelle zugeordnet ist. Das andere Mikrofon enthält ein Omni-Richtmikrofon. In einigen Ausführungsformen basiert das Bilden des ersten Strahls und des zweiten Strahls ferner auf dem anderen akustischen Signal. In einigen Ausführungsformen befindet sich das andere Mikrofon außerhalb der Leitung zwischen dem ersten Mikrofon und dem zweiten Mikrofon.
In einigen Ausführungsformen umfasst das Ausbilden des ersten Strahls das Reduzieren der Signalenergie von akustischen Signalkomponenten, die Quellen außerhalb des ersten Strahls zugeordnet sind. Das Bilden des zweiten Strahls kann das Reduzieren der Signalenergie von akustischen Signalkomponenten umfassen, die mit weiteren Quellen außerhalb des zweiten Strahls assoziiert sind. In bestimmten Ausführungsformen wird die Reduzierung der Signalenergie durch eine subtraktive Unterdrückung durchgeführt. In einigen Ausführungsformen umfassen das erste Mikrofon und das zweite Mikrofon Mikrofone mit einem akustischen Überlastpunkt (AOP), der größer als ein vorbestimmter Schalldruckpegel ist. In bestimmten Ausführungsformen beträgt der vorbestimmte Schalldruckpegel 120 Dezibel.
Gemäß einer weiteren beispielhaften Ausführungsform der vorliegenden Offenbarung werden die Schritte des Verfahrens zur Stereotrennung und Richtungsunterdrückung mit Omni-Richtmikrofonen auf einem maschinenlesbaren Medium gespeichert, das Anweisungen umfasst, die, wenn sie durch einen oder mehrere Prozessoren ausgeführt werden, die vorgetragene Schritte ausführen.
Weitere beispielhafte Ausführungsformen der Offenbarung und Aspekte werden aus der folgenden Beschreibung in Verbindung mit den folgenden Zeichnungen ersichtlich.
Figurenliste
Ausführungsformen sind beispielhaft und nicht einschränkend in den Figuren der beigefügten Zeichnungen dargestellt, in denen gleiche Bezugszeichen ähnliche Elemente bezeichnen.

1 ist ein Blockdiagramm einer beispielhaften Umgebung, in der die vorliegende Technologie verwendet werden kann.
2 ist ein Blockdiagramm eines beispielhaften Audiogeräts.
3 ist ein Blockdiagramm eines beispielhaften Audioverarbeitungssystems.
4 ist ein Blockdiagramm eines beispielhaften Audioverarbeitungssystems, das für eine gerichtete Audioaufnahme geeignet ist.
5A ist ein Blockdiagramm, das eine beispielhafte Umgebung zur gerichteten Audiosignalerfassung unter Verwendung von zwei Omni-Richtmikrofonen zeigt.
5B ist ein Diagramm, das gerichtete Audiosignale zeigt, die mit zwei Omni-Richtmikrofonen aufgenommen werden.
6 ist ein Blockdiagramm, das ein Modul für Null-Verarbeitungsrauschsubtraktion zeigt.
7A ist ein Blockdiagramm, das Koordinaten zeigt, die bei der Audio-Zoom-Audioverarbeitung verwendet werden.
7B ist ein Blockdiagramm, das Koordinaten zeigt, die bei der Audio-Zoom-Audioverarbeitung verwendet werden.
8 ist ein Blockdiagramm, das ein beispielhaftes Modul für eine Nullverarbeitungs-Rauschsubtraktion zeigt.
9 ist ein Blockdiagramm, das eine weitere beispielhafte Umgebung zeigt, in der Ausführungsformen der vorliegenden Technologie praktiziert werden können.
10 zeigt Diagramme unverarbeiteter und verarbeiteter Beispiel-Audiosignale.
11 ist ein Flussdiagramm eines beispielhaften Verfahrens zur Stereotrennung und Richtungsunterdrückung von Audio unter Verwendung von Omni-Richtmikrofonen.
12 ist ein Computersystem, das verwendet werden kann, um eine beispielhafte Ausführungsform der vorliegenden Technologie zu implementieren.

DETAILLIERTE BESCHREIBUNG
Die hier offenbarte Technologie bezieht sich auf Systeme und Verfahren zur Stereotrennung und Richtungsunterdrückung mit Omni-Richtmikrofonen. Ausführungsformen der vorliegenden Technologie können mit Audiogeräten praktiziert werden, die betreibbar sind, um wenigstens akustische Signale zu erfassen und zu verarbeiten. In einigen Ausführungsformen können die Audiogeräte tragbare Geräte sein, wie z.B. drahtgebundene und/oder drahtlose Fernbedienungen, Notebook-Computer, Tablet-Computer, Phablets, Smartphones, persönliche digitale Assistenten, Mediaplayer, Mobiltelefone und dergleichen. Die Audiogeräte können Radiofrequenz (RF) -Empfänger, -Sender und -Transceiver haben; kabelgebundene und/oder drahtlose Telekommunikations- und/oder Netzwerkgeräte; Verstärker; Audio- und/oder Videoabspielgeräte; Codierer; Decodierer; Lautsprecher; Eingänge; Ausgänge; Speichergeräte; und Benutzereingabevorrichtungen. Audiogeräte können Eingabevorrichtungen wie Knöpfe, Schalter, Tasten, Tastaturen, Trackballs, Schieberegler, Touchscreens, ein oder mehrere Mikrofone, Gyroskope, Beschleunigungsmesser, GPS-Empfänger und dergleichen aufweisen. Die Audiogeräte können Ausgänge aufweisen, beispielsweise LED-Anzeigen, Videoanzeigen, Touchscreens, Lautsprecher und dergleichen.
In verschiedenen Ausführungsformen arbeiten die Audiogeräte in stationären und tragbaren Umgebungen. Die stationären Umgebungen können Wohn- und Geschäftsgebäude oder -strukturen und dergleichen umfassen. Zum Beispiel können die stationären Ausführungsformen Konzerthallen, Wohnzimmer, Schlafzimmer, Heimkinos, Konferenzräume, Auditorien, Geschäftsräume und dergleichen umfassen. Tragbare Umgebungen können sich bewegende Fahrzeuge, sich bewegende Personen oder andere Transportmittel und dergleichen umfassen.
Gemäß einer beispielhaften Ausführungsform umfasst ein Verfahren zur Stereotrennung und Richtungsunterdrückung das Empfangen von wenigstens einem ersten Audiosignal und einem zweiten Audiosignal. Das erste Audiosignal kann einen Ton repräsentieren, der von einem ersten Mikrofon erfasst wird, das mit einer ersten Position assoziiert ist. Das zweite Audiosignal kann einen Ton repräsentieren, der von einem zweiten Mikrofon aufgenommen wird, das einer zweiten Position zugeordnet ist. Das erste Mikrofon und das zweite Mikrofon können Omni-Richtmikrofone umfassen. Das beispielhafte Verfahren umfasst das Erzeugen eines ersten Stereosignals durch Bilden eines ersten Strahls an dem ersten Ort basierend auf dem wenigstens ersten Audiosignal und dem zweiten Audiosignal. Das Verfahren kann ferner Erzeugen eines zweiten Stereosignals durch Bilden eines zweiten Strahls an dem zweiten Ort basierend auf dem wenigstens ersten Audiosignal und dem zweiten Audiosignal umfassen.
1 ist ein Blockdiagramm einer beispielhaften Umgebung 100, in der die Ausführungsformen der vorliegenden Technologie praktiziert werden können. Die Umgebung 100 von 1 kann Audiogerät 104 und Audioquellen 112, 114 und 116 umfassen. Das Audiogerät kann wenigstens ein primäres Mikrofon 106a und ein sekundäres Mikrofon 106b umfassen.
Das primäre Mikrofon 106a und das sekundäre Mikrofon 106b des Audiogeräts 104 können Omni-Richtmikrofone umfassen. In einigen Ausführungsformen ist das primäre Mikrofon 106a an der Unterseite des Audiogeräts 104 angeordnet und kann dementsprechend als das untere Mikrofon bezeichnet werden. In ähnlicher Weise befindet sich das sekundäre Mikrofon 106b in einigen Ausführungsformen an der Oberseite des Audiogeräts 104 und kann dementsprechend als oberes Mikrofon bezeichnet werden. In anderen Ausführungsformen können das erste und das zweite Mikrofon (und gegebenenfalls zusätzliche Mikrofone) unterschiedlich angeordnet sein, einschließlich, ohne darauf beschränkt zu sein, der Mikrofone entlang einer Seite der Vorrichtung, z.B. getrennt entlang der Seite eines Tabletts mit Mikrofonen auf der Seite.
Einige Ausführungsformen, wenn die vorliegende Offenbarung Niveaudifferenzen (z.B. Energiedifferenzen), Phasendifferenzen und Differenzen in Ankunftszeiten zwischen den von den zwei Mikrofonen 106a und 106b empfangenen akustischen Signalen verwendet. Da das primäre Mikrofon 106a näher an der Audioquelle 112 ist als das sekundäre Mikrofon 106b, ist das Intensitätsniveau für das Audiosignal von der Audioquelle 112 (grafisch dargestellt durch 122, das neben den gewünschten Sounds auch Rauschen enthalten kann) für das primäre Mikrofon 106a höher, was zu einem größeren Energieniveau führt, das von dem primären Mikrofon 106a empfangen wird. Da das sekundäre Mikrofon 106b näher an der Audioquelle 116 ist als das primäre Mikrofon 106a, ist in ähnlicher Weise das Intensitätsniveau für das Audiosignal von der Audioquelle 116 (grafisch dargestellt durch 126, das neben den gewünschten Sounds auch Rauschen enthalten kann) für das sekundäre Mikrofon 106 höher, was zu einem größeren Energieniveau führt, das von dem sekundären Mikrofon 106b empfangen wird. Andererseits könnte das Intensitätsniveau für das Audiosignal von der Audioquelle 114 (graphisch dargestellt durch 124, das neben den gewünschten Sounds auch Rauschen enthalten kann) für eines der zwei Mikrofone 106a und 106b höher sein, abhängig beispielsweise von seiner Lage innerhalb der Kegel 108a und 108b.
Die Niveaudifferenzen können verwendet werden, um zwischen Sprache und Rauschen im Zeit-Frequenz-Bereich zu unterscheiden. Einige Ausführungsformen können eine Kombination von Energieniveaudifferenzen und Differenzen der Ankunftszeiten verwenden, um zwischen akustischen Signalen zu unterscheiden, die aus verschiedenen Richtungen kommen. In einigen Ausführungsformen wird eine Kombination von Energieniveaudifferenzen und Phasendifferenzen für die gerichtete Audioerfassung verwendet.
Verschiedene beispielhafte Ausführungsformen der vorliegenden Technologie verwenden Niveaudifferenzen (z.B. Energiedifferenzen), Phasendifferenzen und Unterschiede in Ankunftszeiten für eine Stereotrennung und eine Richtungsunterdrückung von akustischen Signalen, die durch Mikrofone 106a und 106b erfasst werden. Wie in 1 gezeigt, kann ein multidirektionales akustisches Signal, das von den Audioquellen 112, 114 und 116 bereitgestellt wird, in ein linkes Kanalsignal eines Stereoaudiosignals und ein rechtes Kanalsignal des Stereoaudiosignals getrennt werden (hier auch als linkes und rechtes Stereosignal oder linker und rechter Kanal des Stereosignals bezeichnet). Der linke Kanal des Stereosignals kann erhalten werden, indem auf akustische Signale innerhalb des Kegels 118a fokussiert wird und akustische Signale außerhalb des Kegels 118a unterdrückt werden. Der Kegel 118a kann die Audioquellen 112 und 114 abdecken. In ähnlicher Weise kann ein rechter Kanal des Stereosignals erhalten werden, indem auf akustische Signale innerhalb des Kegels 118b fokussiert wird und akustische Signale außerhalb des Kegels 118b unterdrückt werden. Der Kegel 118b kann die Audioquellen 114 und 116 abdecken. In einigen Ausführungsformen der vorliegenden Offenbarung werden Audiosignale, die von einer dem Benutzer 510 (auch als Erzähler / Benutzer 510 bezeichnet) zugeordneten Stelle kommen, sowohl im linken Kanal des Stereosignals als auch im rechten Kanal des Stereosignals unterdrückt. Verschiedene Ausführungsformen der vorliegenden Technologie können zum Aufnehmen von Stereo-Audio beim Aufnehmen von Video zu Hause, während Konzerten, Schulspielen und so weiter verwendet werden.
2 ist ein Blockdiagramm eines beispielhaften Audiogeräts. In einigen Ausführungsformen kann das beispielhafte Audiogerät von 2 zusätzliche Details für das Audiogerät 104 von 1 liefern. In der dargestellten Ausführungsform umfasst das Audiogerät 104 einen Empfänger 210, einen Prozessor 220, das primäre Mikrofon 106a, ein sekundäres Mikrofon 106b, ein Audioverarbeitungssystem 230 und eine Ausgabevorrichtung 240. In einigen Ausführungsformen umfasst das Audiogerät 104 ein anderes, optionales tertiäres Mikrofon 106c. Das Audiogerät 104 kann zusätzliche oder unterschiedliche Komponenten enthalten, um die Audiogeräte 104 - Operationen zu ermöglichen. In ähnlicher Weise kann das Audiogerät 104 weniger Komponenten enthalten, die ähnliche oder äquivalente Funktionen wie die in 2 gezeigten ausführen.
Der Prozessor 220 kann Anweisungen und Module ausführen, die in einem Speicher (in 2 nicht dargestellt) des Audiogeräts 104 gespeichert sind, um die hierin beschriebene Funktionalität durchzuführen, einschließlich einer Rauschreduzierung für ein akustisches Signal. Der Prozessor 220 kann Hardware und Software umfassen, die als eine Verarbeitungseinheit implementiert sind, die Gleitkomma- und/oder Festkommaoperationen und andere Operationen für den Prozessor 220 verarbeiten kann.
Der beispielhafte Empfänger 210 kann ein Sensor sein, der konfiguriert ist, um ein Signal von einem Kommunikationsnetzwerk zu empfangen. In einigen Ausführungsformen kann der Empfänger 210 eine Antennenvorrichtung umfassen. Das Signal kann dann zu dem Audioverarbeitungssystem 230 zur Rauschreduzierung und anderen Verarbeitung unter Verwendung der hierin beschriebenen Techniken weitergeleitet werden. Das Audioverarbeitungssystem 230 kann ein verarbeitetes Signal an die Ausgabevorrichtung 240 bereitstellen, um dem Benutzer eine Audioausgabe (Audioausgaben) bereitzustellen. Die vorliegende Technologie kann in einem oder beiden der Sende- und Empfangspfade des Audiogeräts 104 verwendet werden.
Das Audioverarbeitungssystem 230 kann dazu konfiguriert sein, akustische Signale zu empfangen, die Ton von einer oder mehreren akustischen Quellen über das primäre Mikrofon 106a und das sekundäre Mikrofon 106b darstellen, und die akustischen Signale zu verarbeiten. Die Verarbeitung kann das Durchführen einer Rauschreduzierung für ein akustisches Signal umfassen. Das beispielhafte Audioverarbeitungssystem 230 wird nachstehend ausführlicher beschrieben. Die primären und sekundären Mikrofone 106a, 106b können einen Abstand voneinander haben, um eine Energieniveaudifferenz, eine Zeitankunftsdifferenz oder eine Phasendifferenz zwischen ihnen erfassen zu können. Die akustischen Signale, die von dem primären Mikrofon 106a und dem sekundären Mikrofon 106b empfangen werden, können in elektrische Signale umgewandelt werden (z.B. ein primäres elektrisches Signal und ein sekundäres elektrisches Signal). Die elektrischen Signale können wiederum durch einen Analog-Digital-Wandler (nicht gezeigt) in digitale Signale umgewandelt werden, die den erfassten Ton darstellen, um gemäß einigen Ausführungsformen verarbeitet zu werden.
Die Ausgabevorrichtung 240 kann eine Vorrichtung enthalten, die dem Benutzer eine Audioausgabe bereitstellt. Zum Beispiel kann das Ausgabegerät 240 einen Lautsprecher, ein Ohrstück eines Headsets oder Handsets oder einen Speicher enthalten, in dem das Ausgangssignal für eine Video-/Audioextraktion zu einem späteren Zeitpunkt gespeichert wird, z.B. zur Übertragung auf einen Computer, eine Videodisk oder andere Medien zur Benutzung.
In verschiedenen Ausführungsformen, wo die primären und sekundären Mikrofone Omni-Richtmikrofone enthalten, die eng beabstandet sind (z.B. 1-2 cm voneinander entfernt), kann eine Strahlformungstechnik verwendet werden, um nach vorne weisende und nach hinten weisende Richtmikrofone zu simulieren. Die Energieniveaudifferenz kann verwendet werden, um zwischen Sprache und Rauschen in dem Zeit-Frequenz-Bereich zu unterscheiden, der bei der Rauschreduzierung verwendet wird.
3 ist ein Blockdiagramm eines beispielhaften Audioverarbeitungssystems. Das Blockdiagramm von 3 liefert zusätzliche Details für das Audioverarbeitungssystem 230 des beispielhaften Blockdiagramms von 2. Das Audioverarbeitungssystem 230 in diesem Beispiel umfasst verschiedene Module, einschließlich der Schnell-Cochlea-Transformation („fast cochlea transform“, FCT) 302 und 304, Strahlformer 310, multiplikativer Verstärkungserweiterung 320, Nachhall 330, Mischer 340 und der Zoomsteuerung 350.
Die FCT 302 und 304 können akustische Signale von Audiogerätemikrophonen empfangen und die akustischen Signale in Frequenzbereichs-Subbandsignale umwandeln. In einigen Ausführungsformen sind die FCT 302 und 304 als ein oder mehrere Module implementiert, die betreibbar sind, um ein oder mehrere Subbandsignale für jedes empfangene Mikrofonsignal zu erzeugen. Die FCT 302 und 304 können ein akustisches Signal empfangen, das den Ton von jedem in dem Audiogerät 104 enthaltenen Mikrofon darstellt. Diese akustischen Signale sind als Signale X1-Xi dargestellt, wobei X1 ein primäres Mikrofonsignal und Xi den Rest (z.B. N-1) der Mikrofonsignale darstellen. In einigen Ausführungsformen führt das Audioverarbeitungssystem 230 von 3 Audio-Zoom auf einer Einzelbild- und einer Subband-Basis durch.
In einigen Ausführungsformen empfängt der Strahlformer 310 Frequenz-Subbandsignale sowie ein Zoom-Anzeigesignal. Das Zoom-Anzeigesignal kann von der Zoomsteuerung 350 empfangen werden. Das Zoom-Anzeigesignal kann als Reaktion auf eine Benutzereingabe, eine Analyse eines primären Mikrofonsignals oder anderer akustischer Signale, die von dem Audiogerät 104 empfangen werden, eine Video-Zoom-Merkmalsauswahl oder einige andere Daten erzeugt werden. Im Betrieb empfängt der Strahlformer 310 Subbandsignale, verarbeitet die Subbandsignale, um zu identifizieren, welche Signale sich innerhalb eines bestimmten zu verbessernden (oder „zoom“) Bereichs befinden und stellt Daten für die ausgewählten Signale als Ausgabe an das multiplikative Verstärkungserweiterungsmodul 320 bereit. Die Ausgabe kann Subbandsignale für die Audioquelle innerhalb des zu verbessernden Bereichs enthalten. Strahlformer 310 kann auch einen Verstärkungsfaktor für die multiplikative Verstärkungserweiterung 320 bereitstellen. Der Verstärkungsfaktor kann anzeigen, ob die multiplikative Verstärkungserweiterung 320 eine zusätzliche Verstärkung oder Reduktion für die von dem Strahlformer 310 empfangenen Signale durchführen sollte. In einigen Ausführungsformen wird der Verstärkungsfaktor als ein Energieverhältnis basierend auf den empfangenen Mikrofonsignalen und Komponenten erzeugt. Die Verstärkungsanzeige, die von dem Strahlformer 310 ausgegeben wird, kann ein Verhältnis von Energie in der Energiekomponente des primären Mikrofons sein, reduziert durch den Strahlformer 310, um Energie von dem Strahlformer 310 auszugeben. Dementsprechend kann die Verstärkung einen Erhöhungs- oder Aufhebungverstärkungsfaktor enthalten. Ein beispielhafter Verstärkungsfaktor wird unten ausführlicher diskutiert.
Der Strahlformer 310 kann als ein Nullverarbeitungs-Rauschunterdrückungsmodul (NPNS-Modul), ein multiplikatives Modul oder eine Kombination dieser Module implementiert sein. Wenn ein NPNS-Modul in Mikrofonen verwendet wird, um einen Strahl zu erzeugen und eine Strahlformung zu erreichen, wird der Strahl fokussiert, indem die Beschränkungen von Alpha (?) und Gamma (?) verschmälert werden. Dementsprechend kann ein Strahl manipuliert werden, indem ein Schutzbereich für die bevorzugte Richtung bereitgestellt wird. Beispielhafte Strahlformermodule 310 sind ferner in der US-Patentanmeldung mit der Seriennummer 14/957,447 mit dem Titel „Directional Audio Capture“ und der US-Patentanmeldung mit der Seriennummer 12/896,725 mit dem Titel „Audio Zoom“ (am 8. Dezember 2015 erteilt als US-Patent Nr. 9,210,503 ) beschrieben, deren Offenbarungen hierin durch Bezugnahme in ihrer Gesamtheit aufgenommen sind. Zusätzliche Techniken zum Reduzieren unerwünschter Audiokomponenten eines Signals sind in der US-Patentanmeldung mit der Seriennummer 12/693,998 mit dem Titel „Adaptive Noise Reduction Using Level Cues“ (veröffentlicht als US-Patent Nr. 8,718,290 am 6. Mai 2014) beschrieben und wird hierin durch Bezugnahme in seiner Gesamtheit aufgenommen.
Das multiplikative Verstärkungserweiterungsmodul 320 kann Subbandsignale empfangen, die Audioquellen innerhalb des ausgewählten Strahls, dem Verstärkungsfaktor von dem Strahlformer 310 und dem Zoomanzeigesignal zugeordnet sind. Das multiplikative Verstärkungserweiterungsmodul 320 kann eine multiplikative Verstärkung basierend auf dem empfangenen Verstärkungsfaktor anwenden. Tatsächlich kann das multiplikative Verstärkungserweiterungsmodul 320 das vom Strahlformer 310 bereitgestellte Strahlformersignal filtern.
Der Verstärkungsfaktor kann als eines von mehreren unterschiedlichen Energieverhältnissen implementiert werden. Zum Beispiel kann das Energieverhältnis ein Verhältnis eines rauschreduzierten Signals zu einem von einem primären Mikrofon empfangenen primären akustischen Signal, das Verhältnis eines rauschreduzierten Signals und einer detektierten Rauschkomponente innerhalb des primären Mikrofonsignals, das Verhältnis eines reduzierten Rauschsignals und eines sekundären akustischen Signals oder das Verhältnis eines rauschreduzierten Signals zu einer Intra-Pegeldifferenz zwischen einem primären Signal und einem weiteren Signal umfassen. Die Verstärkungsfaktoren können eine Anzeige der Signalstärke in einer Zielrichtung gegenüber allen anderen Richtungen sein. Mit anderen Worten, der Verstärkungsfaktor kann indikativ für multiplikative Expansionen sein und ob diese zusätzlichen Expansionen durch die multiplikative Verstärkungsexpansion 320 durchgeführt werden sollen. Die multiplikative Verstärkungserweiterung 320 kann das modifizierte Signal ausgeben und dem Nachhall 330 (hier auch als Nachhall (Ent-Nachhall) 330 bezeichnet) ein Signal bereitstellen.
Nachhall 330 kann die von der multiplikativen Verstärkungserweiterung 320 ausgegebenen Subbandsignale sowie die ebenfalls vom Strahlformer 310 empfangenen Mikrofonsignale empfangen und den Nachhall (oder „Dereverberation“) des durch die multiplikative Verstärkungserweiterung 320 ausgegebenen Subbandsignals durchführen. Nachhall 330 kann ein Verhältnis von direkter Energie zu verbleibender Energie innerhalb eines Signals auf der Grundlage des durch die Zoomsteuerung 350 bereitgestellten Zoomsteuerindikators einstellen. Nach dem Einstellen des Nachklangs des empfangenen Signals kann der Nachhall 330 das modifizierte Signal an eine Mischkomponente, z.B. den Mischer 340, liefern.
Der Mischer 340 kann das Nachklang-eingestellte Signal empfangen und das Signal mit dem Signal von dem primären Mikrofon mischen. In einigen Ausführungsformen erhöht der Mischer 340 die Energie des Signals in geeigneter Weise, wenn Audio in dem Frame vorhanden ist, und verringert die Energie, wenn in dem Frame wenig Audioenergie vorhanden ist.
4 ist ein Blockdiagramm, das ein Audioverarbeitungssystem 400 gemäß einer anderen beispielhaften Ausführungsform darstellt. Das Audioverarbeitungssystem 400 kann Audio-Zoom-Audio (AZA) enthalten, ein Subsystem, das mit einem Quellenschätzsubsystem 430 erweitert ist. Das beispielhafte AZA-Subsystem umfasst Begrenzer 402a, 402b und 402c zusammen mit verschiedenen anderen Modulen einschließlich FCT 404a, 404b und 404c, Analyse 406, Zoomsteuerung 410, Signalmodifizierer 412, plus variablem Verstärker 418 und einem Begrenzer 420. Das Quellenschätzsubsystem 430 kann einen Quellenrichtungsschätzer („source direction estimator“, SDE) 408 (der auch als SDE-Modul 408 oder als ein Zielschätzer bezeichnet wird), eine Verstärkung (Modul) 416 und eine automatische Verstärkungssteuerung (AGC) (Modul) 414 umfassen. In verschiedenen Ausführungsformen verarbeitet das Audioverarbeitungssystem 400 ein akustisches Audiosignal von Mikrofonen 106a, 106b und optional einem dritten Mikrofon 106c.
In verschiedenen Ausführungsformen kann das SDE-Modul 408 eine Schallquelle lokalisieren. Das SDE-Modul 408 ist betreibbar, um Hinweise basierend auf einer Korrelation von Phasendiagrammen zwischen verschiedenen Mikrofoneingaben zu erzeugen. Basierend auf der Korrelation der Phasendiagramme ist das SDE-Modul 408 betreibbar, um einen Vektor von Salienzabschätzungen („salience estimates“) bei verschiedenen Winkeln zu berechnen. Basierend auf den Salienzabschätzungen kann das SDE-Modul 408 eine Richtung der Quelle bestimmen. Mit anderen Worten, eine Spitze in dem Vektor von Salienzabschätzungen ist eine Angabe der Richtung einer Quelle in einer bestimmten Richtung. Gleichzeitig werden Quellen diffuser Natur, d.h. nicht gerichtet, durch schlechte Salienzabschätzungen in allen Winkeln dargestellt. Das SDE-Modul 408 kann sich auf die Hinweise (Abschätzungen der Salienz) verlassen, um die Leistung einer gerichteten Audiolösung zu verbessern, die durch das Analysemodul 406, den Signalmodifizierer 412 und die Zoomsteuerung 410 ausgeführt wird. In einigen Ausführungsformen umfasst der Signalmodifizierer 412 Module, die dem Strahlformer 310, dem multiplikativen Verstärkungserweiterungsmodul 320, dem Nachhallmodul 330 und dem Mischermodul 340 analog oder ähnlich sind, wie für das Audiosystem 230 gezeigt in 3.
In einigen Ausführungsformen werden Schätzungen der Salienz verwendet, um den Winkel der Quelle in dem Bereich von 0 bis 360 Grad in einer Ebene parallel zu dem Boden zu lokalisieren, wenn beispielsweise das Audiogerät 104 auf einer Tischplatte angeordnet ist. Die Salienzschätzungen können verwendet werden, um die Signale in verschiedenen Winkeln zu dämpfen/zu verstärken, wie vom Kunden gefordert. Die Charakterisierung dieser Modi kann durch einen SDE-Salienzparameter gesteuert werden. Beispielhafte AZA- und SDE-Subsysteme sind weiter in der US-Patentanmeldung mit der Seriennummer 14/957,447 mit dem Titel „Directional Audio Capture“ beschrieben, deren Offenbarung hierin durch Bezugnahme in ihrer Gesamtheit aufgenommen ist.
5A veranschaulicht eine beispielhafte Umgebung 500 zur gerichteten Audiosignalaufnahme unter Verwendung von zwei Omni-Richtmikrofonen. Die beispielhafte Umgebung 500 kann ein Audiogerät 104, ein primäres Mikrofon 106a, ein sekundäres Mikrofon 106b, einen Benutzer 510 (auch als Erzähler 510 bezeichnet) und eine zweite Schallquelle 520 (auch als Szene 520 bezeichnet) umfassen. Sprecher 510 kann sich in der Nähe des primären Mikrofons 106a befinden. Szene 520 kann in der Nähe des sekundären Mikrofons 106b angeordnet sein. Das Audioverarbeitungssystem 400 kann eine Doppelausgabe bereitstellen, die ein erstes Signal und ein zweites Signal enthält. Das erste Signal kann erhalten werden, indem auf eine dem Erzähler 510 zugeordnete Richtung fokussiert wird. Das zweite Signal kann erhalten werden, indem auf eine der Szene 520 zugeordneten Richtung fokussiert wird. SDE-Modul 408 (von dem ein Beispiel in 4 gezeigt ist) kann einen Vektor von Salienzabschätzungen bereitstellen, um eine Richtung zu lokalisieren, die Zielquellen zugeordnet ist, zum Beispiel Erzähler 510 und Szene 520. 5B zeigt ein gerichtetes Audiosignal, das unter Verwendung von zwei Omni-Richtmikrofonen aufgenommen wurde. Wenn Zielquellen oder Audiogeräte die Positionen ändern, kann das SDE-Modul 408 (z.B. in dem System in 4) einen aktualisierten Vektor von Salienzabschätzungen bereitstellen, um es dem Audioverarbeitungssystem 400 zu ermöglichen, sich weiterhin auf die Zielquellen zu fokussieren.
6 zeigt ein Blockdiagramm eines beispielhaften NPNS-Moduls 600. Das NPNS-Modul 600 kann als ein Strahlformermodule in den Audioverarbeitungssystemen 230 oder 400 verwendet werden. Das NPNS-Modul 600 kann Analysemodule 602 und 606 (z.B. zum Anwenden von Koeffizienten ?1 bzw. ?2), Anpassungsmodule 604 und 608 (z.B. zum Anpassen des Strahls basierend auf Koeffizienten ?1 und ?2) und Summierungsmodule 610, 612 und 614 umfassen. Das NPNS-Modul 600 kann Verstärkungsfaktoren basierend auf Eingaben von einem primären Mikrofon, einem sekundären Mikrofon und optional einem tertiären Mikrofon bereitstellen. Beispielhafte NPNS-Module werden in der US-Patentanmeldung mit der Seriennummer 12/215,980 mit dem Titel „System and Method for Providing Noise Suppression Utilizing Null Processing Noise Subtraction“ (veröffentlicht als US-Patent Nr. 9 185 487 am 10. November 2015) beschrieben, und wird hierin durch Bezugnahme in seiner Gesamtheit aufgenommen.
In dem Beispiel in 6 ist das NPNS-Modul 600 konfiguriert, um sich an eine Zielquelle anzupassen. Dämpfungskoeffizienten ?1 und ?2 können basierend auf einer momentanen Richtung einer Zielquelle eingestellt werden, wenn sich entweder die Zielquelle oder das Audiogerät bewegt.
7A zeigt ein beispielhaftes Koordinatensystem 710, das zum Bestimmen der Quellenrichtung in dem AZA-Subsystem verwendet wird. Unter der Annahme, dass die größte Seite des Audiogeräts 104 parallel zum Boden ist, wenn beispielsweise das Audiogerät 104 auf einer Tischplatte angeordnet ist, ist die X-Achse des Koordinatensystems 710 von unten nach oben auf das Audiogerät 104 gerichtet. Die Y-Achse des Koordinatensystems 710 ist so ausgerichtet, dass die XY-Ebene parallel zum Boden ist.
In verschiedenen Ausführungsformen der vorliegenden Offenbarung wird das Koordinatensystem 710, das in AZA verwendet wird, gedreht, um sich anzupassen, um eine Stereotrennung und Richtungsunterdrückung von empfangenen akustischen Signalen bereitzustellen. 7B zeigt ein gedrehtes Koordinatensystem 720 in Bezug auf das Audiogerät 104. Das Audiogerät 104 ist derart ausgerichtet, dass die größte Seite des Audiogeräts orthogonal (z.B. senkrecht) zu der Erde ist und die längste Kante des Audiogerätes parallel zu dem Boden ist, wenn beispielsweise das Audiogerät 104 gehalten wird, wenn ein Video aufgenommen wird. Die X-Achse des Koordinatensystems 720 ist von oben nach unten auf das Audiogerät 104 gerichtet. Die Y-Achse des Koordinatensystems 720 ist so ausgerichtet, dass die XY-Ebene parallel zum Boden ist.
Gemäß verschiedenen Ausführungsformen der vorliegenden Offenbarung werden wenigstens zwei Kanäle eines Stereosignals (hierin auch als linkes und rechtes Kanal-Stereo (Audio) -Signal und ein linkes Stereo-Signal und ein rechtes Stereo-Signal bezeichnet) basierend auf akustischen Signalen erzeugt, die durch zwei oder mehr Omni-Richtmikrofone aufgenommen werden. In einigen Ausführungsformen umfassen die Omni-Richtmikrofone das primäre Mikrofon 106a und das sekundäre Mikrofon 106b. Wie in 1 gezeigt, kann das linke (Kanal-) Stereosignal bereitgestellt werden, indem ein erster Zielstrahl auf der linken Seite erzeugt wird. Das rechte (Kanal-) Stereosignal kann durch Erzeugen eines zweiten Zielstrahls auf der rechten Seite erzeugt werden. Gemäß verschiedenen Ausführungsformen sind die Richtungen für die Strahlen festgelegt und werden beibehalten, wenn eine Zielquelle oder ein Audiogerät die Position ändert. Festlegen der Richtungen für die Strahlen ermöglicht Erhalten eines natürlichen Stereoeffekts (mit linken und rechten Stereokanälen), der von einem Benutzer gehört werden kann. Durch Festlegen der Richtung kann der natürliche Stereoeffekt wahrgenommen werden, wenn sich ein Objekt über das Sichtfeld von einer Seite zur anderen bewegt, z.B. ein Auto, das sich über eine Kinoleinwand bewegt. In einigen Ausführungsformen sind die Richtungen für die Strahlen einstellbar, bleiben jedoch während der Strahlformung fest.
Gemäß einigen Ausführungsformen der vorliegenden Offenbarung ist das NPNS-Modul 600 (in dem Beispiel in 6) modifiziert, so dass es sich nicht an eine Zielquelle anpasst. Ein modifiziertes NPNS-Modul 800 ist in 8 gezeigt. Komponenten des NPNS-Moduls 800 sind analog zu Elementen des NPNS-Moduls 600, mit der Ausnahme, dass die Module 602 und 606 in 6 durch die Module 802 und 806 ersetzt werden. Anders als in dem Beispiel in 6 sind Werte für die Koeffizienten ?1 und ?2 in der beispielhaften Ausführungsform in 8 während der Bildung der Strahlen zur Erzeugung von Stereosignalen festgelegt. Indem die Anpassung an die Zielquelle verhindert wird, bleibt die Richtung für die Strahlen fest, wodurch sichergestellt wird, dass sich das linke Stereosignal und das rechte Stereosignal nicht überlappen, wenn die Schallquelle(n) oder die Audiogeräte ihre Position ändern. In einigen Ausführungsformen werden die Dämpfungskoeffizienten ?1 und ?2 durch Kalibrierung und Abstimmung bestimmt.
9 ist eine beispielhafte Umgebung 900, in der beispielhafte Verfahren zur Stereotrennung und Richtungsunterdrückung implementiert werden können. Die Umgebung 900 umfasst ein Audiogerät 104 und Audioquellen 910, 920 und 930. In einigen Ausführungsformen umfasst das Audiogerät 104 zwei Omni-Richtmikrofone 106a und 106b. Das primäre Mikrofon 106a befindet sich an der Unterseite des Audiogeräts 104 und das sekundäre Mikrofon 106b befindet sich in diesem Beispiel an der Oberseite des Audiogeräts 104. Wenn das Audiogerät 104 zum Aufzeichnen von Video beispielsweise in der Richtung der Audioquelle 910 ausgerichtet ist, kann das Audioverarbeitungssystem des Audiogeräts dafür konfiguriert sein, in einem Stereo-Aufzeichnungsmodus zu arbeiten. Ein Links-Kanal-Stereosignal und ein Rechts-Kanal-Stereosignal können basierend auf Eingaben von zwei oder mehr Omni-Richtmikrofonen erzeugt werden, indem ein erster Zielstrahl für Audio auf der linken Seite und ein zweiter Zielstrahl für Audio auf der rechten Seite erzeugt wird. Die Richtungen für die Strahlen sind gemäß verschiedenen Ausführungsformen festgelegt.
In bestimmten Ausführungsformen werden nur zwei Omni-Richtmikrofone 106a und 106b für die Stereotrennung verwendet. Unter Verwendung von zwei Omni-Richtmikrofonen 106a und 106b, eines an jedem Ende des Audiogeräts, kann eine klare Trennung zwischen der linken Seite und der rechten Seite erreicht werden. Zum Beispiel ist das sekundäre Mikrofon 106b näher an der Audioquelle 920 (in dem Beispiel in 9 rechts) und empfängt die Welle von der Audioquelle 920 kurz vor dem primären Mikrofon 106a. Die Audioquelle kann dann basierend auf dem Abstand zwischen den Mikrofonen 106a und 106b und der Differenz der Ankunftszeiten an den Mikrofonen 106a und 106b trianguliert werden. Dieses beispielhafte Zwei-Mikrofon-System muss jedoch nicht zwischen akustischen Signalen unterscheiden, die von einer Szenen-Seite kommen (wo der Benutzer die Kamera der Audio-Vorrichtung richtet) und akustischen Signalen, die von der Benutzerseite kommen (z.B. gegenüber der Szenen-Seite). In dem Beispiel in 9 sind die Audioquellen 910 und 930 äquidistant von den Mikrofonen 106a und 106b. In der Draufsicht auf ein Audiogerät 104 befindet sich die Audioquelle 910 auf der Szenenseite vor dem Audiogerät 104 und die Audioquelle 930 befindet sich hinter dem Audiogerät auf der Benutzerseite. Die Mikrofone 106a und 106b empfangen das gleiche akustische Signal von der Audioquelle 910 und das gleiche akustische Signal von der Audioquelle 930, da es in diesem Beispiel keine Verzögerung in der Ankunftszeit zwischen den Mikrofonen gibt. Dies bedeutet, dass, wenn nur die zwei Mikrofone 106a und 106b verwendet werden, die Positionen der Audioquellen 910 und 930 in diesem Beispiel nicht unterschieden werden können. Somit kann für dieses Beispiel nicht bestimmt werden, welche der Audioquellen 910 und 930 sich vorne befindet und welche der Audioquellen 910 und 930 sich hinter dem Audiogerät befindet.
In einigen Ausführungsformen kann ein entsprechend platziertes drittes Mikrofon verwendet werden, um die Differenzierung der Szenenrichtung (Audiogerätekameraansicht) von der Richtung hinter dem Audiogerät zu verbessern. Die Verwendung eines dritten Mikrofons (zum Beispiel des tertiären Mikrofons 106c, das in 9 gezeigt ist) kann helfen, einen robusteren Stereoklang bereitzustellen. Die Eingabe von dem dritten Mikrofon kann auch eine bessere Dämpfung von unerwünschtem Inhalt ermöglichen, wie etwa Sprache des Benutzers, der das Audiogerät hält, und Personen hinter dem Benutzer. In verschiedenen Ausführungsformen sind die drei Mikrofone 106a, 106b und 106c nicht alle in einer geraden Linie angeordnet, so dass verschiedene Ausführungsformen ein vollständiges 360-Grad-Bild von Geräuschen relativ zu einer Ebene bereitstellen können, auf der sich die drei Mikrofone befinden.
In einigen Ausführungsformen umfassen die Mikrofone 106a, 106b und 106c Hoch-AOP-Mikrofone. Die AOP-Mikrofone können robuste Eingaben für die Strahlformung in lauten Umgebungen, beispielsweise Konzerten, bereitstellen. Schallpegel bei einigen Konzerten sind in der Lage, 120 dB zu überschreiten, wobei Spitzenpegel 120 dB deutlich übersteigen. Herkömmliche Omni-Richtmikrofone können bei diesen Lautstärken sättigen, wodurch es unmöglich wird, jedes vom Mikrofon erfasste Signal wiederherzustellen. Hoch-AOP-Mikrofone sind im Vergleich zu herkömmlichen Mikrofonen für einen höheren Überlastpunkt ausgelegt und können daher im Vergleich zu herkömmlichen Mikrofonen ein präzises Signal in deutlich lauteren Umgebungen erfassen. Die Kombination der Technologie von Hoch-AOP-Mikrofonen mit den Verfahren zur Stereotrennung und Richtungsunterdrückung unter Verwendung von Omni-Richtmikrofonen (z.B. unter Verwendung von Hoch-AOP-Omni-Richtmikrofonen für die Kombination) gemäß verschiedenen Ausführungsformen der vorliegenden Offenbarung kann es Benutzern ermöglichen, ein Video aufzunehmen, das eine viel realistischere Darstellung ihrer Erfahrung bereitstellt, zum Beispiel ein Konzert.
10 zeigt eine Darstellung 1000 von beispielhaften Plots beispielhafter Richtungs-Audiosignale. Plot 1010 stellt ein unverarbeitetes Richtungs-Audiosignal dar, das von einem sekundären Mikrofon 106b aufgenommen wird. Plot 1020 stellt ein unverarbeitetes Richtungs-Audiosignal dar, das von einem primären Mikrofon 106a aufgenommen wird. Plot 1030 repräsentiert ein Stereo-Audiosignal für den rechten Kanal, das durch Bilden eines Zielstrahls auf der rechten Seite erhalten wird. Plot 1040 stellt ein linkes Stereo-Audiosignal dar, das durch Bilden eines Zielstrahls auf der linken Seite erhalten wird. Plots 1030 und 1040 in diesem Beispiel zeigen eine klare Stereotrennung des unverarbeiteten Audiosignals, das in den Plots 1010 und 1020 dargestellt ist.
11 ist ein Flussdiagramm, das Schritte eines Verfahrens zur Stereotrennung und Richtungsunterdrückung gemäß einer beispielhaften Ausführungsform zeigt. Verfahren 1100 kann in Block 1110 mit dem Empfangen von wenigstens einem ersten Audiosignal und einem zweiten Audiosignal beginnen. Das erste Audiosignal kann einen Ton repräsentieren, der von einem ersten Mikrofon erfasst wird, das mit einer ersten Position assoziiert ist. Das zweite Audiosignal kann einen Ton repräsentieren, der von einem zweiten Mikrofon aufgenommen wird, das einer zweiten Position zugeordnet ist. Das erste Mikrofon und das zweite Mikrofon können Omni-Richtmikrofone umfassen. In einigen Ausführungsformen umfassen das erste Mikrofon und das zweite Mikrofon Mikrofone mit hohem AOP. In einigen Ausführungsformen ist der Abstand zwischen dem ersten und dem zweiten Mikrofon durch die Größe einer Mobilvorrichtung begrenzt.
In Block 1120 kann ein erstes Stereosignal (z.B. ein erstes Kanalsignal eines Stereoaudiosignals) durch Bilden eines ersten Strahls an der ersten Stelle basierend auf dem ersten Audiosignal und dem zweiten Audiosignal erzeugt werden. In Block 1130 kann ein zweites Stereosignal (z.B. ein zweites Kanalsignal des Stereoaudiosignals) durch Bilden eines zweiten Strahls an dem zweiten Ort basierend auf dem ersten Audiosignal und dem zweiten Audiosignal erzeugt werden.
12 veranschaulicht ein beispielhaftes Computersystem 1200, das zum Implementieren einiger Ausführungsformen der vorliegenden Erfindung verwendet werden kann. Das Computersystem 1200 von 12 kann im Kontext von Computersystemen, Netzwerken, Servern oder Kombinationen davon implementiert werden. Das Computersystem 1200 von 12 enthält eine oder mehrere Prozessoreinheiten 1210 und einen Hauptspeicher 1220. Der Hauptspeicher 1220 speichert teilweise Anweisungen und Daten zur Ausführung durch die Prozessoreinheit(en) 1210. Der Hauptspeicher 1220 speichert den ausführbaren Code, wenn er in diesem Beispiel in Betrieb ist. Das Computersystem 1200 von 12 umfasst ferner einen Massendatenspeicher 1230, eine tragbare Speichervorrichtung 1240, Ausgabevorrichtungen 1250, Benutzereingabevorrichtungen 1260, ein Graphikanzeigesystem 1270 und Peripherievorrichtungen 1280.
Die in 12 gezeigten Komponenten sind so dargestellt, dass sie über einen einzigen Bus 1290 verbunden sind. Die Komponenten können durch ein oder mehrere Datentransportmittel verbunden sein. Die Prozessoreinheit(en) 1210 und der Hauptspeicher 1220 sind über einen lokalen Mikroprozessorbus verbunden, und der Massendatenspeicher 1230, die Peripheriegeräte 1280, die tragbare Speichervorrichtung 1240 und das Graphikanzeigesystem 1270 sind über einen oder mehrere Ein-/Ausgänge- (I/O) Busse verbunden.
Der Massendatenspeicher 1230, der mit einem Magnetplattenlaufwerk, einem Festkörperlaufwerk oder einem optischen Plattenlaufwerk implementiert werden kann, ist eine nichtflüchtige Speichervorrichtung zum Speichern von Daten und Anweisungen zur Verwendung durch die Prozessoreinheit(en) 1210. Der Massendatenspeicher 1230 speichert die Systemsoftware zum Implementieren von Ausführungsformen der vorliegenden Offenbarung zum Zwecke des Ladens dieser Software in den Hauptspeicher 1220.
Die tragbare Speichervorrichtung 1240 arbeitet in Verbindung mit einem tragbaren nichtflüchtigen Speichermedium, wie z.B. einem Flash-Laufwerk, einer Diskette, einer Compact Disk, einer digitalen Videodisk oder einer USB-Speichervorrichtung (Universal Serial Bus), um Daten und Code zu und von dem Computersystem 1200 von 12 einzugeben und auszugeben. Die Systemsoftware zum Implementieren von Ausführungsformen der vorliegenden Offenbarung wird auf einem derartigen tragbaren Medium gespeichert und über die tragbare Speichervorrichtung 1240 in das Computersystem 1200 eingegeben.
Die Benutzereingabevorrichtungen 1260 können einen Teil einer Benutzerschnittstelle bereitstellen. Die Benutzereingabevorrichtungen 1260 können ein oder mehrere Mikrofone, eine alphanumerische Tastatur, wie zum Beispiel eine Tastatur, zum Eingeben von alphanumerischen und anderen Informationen oder eine Zeigevorrichtung wie eine Maus, einen Trackball, einen Stift oder Cursor-Richtungstasten umfassen. Benutzereingabevorrichtungen 1260 können auch einen Touchscreen umfassen. Zusätzlich dazu kann das Computersystem 1200, wie es in 12 gezeigt ist, Ausgabevorrichtungen 1250 umfassen. Geeignete Ausgabegeräte 1250 umfassen Lautsprecher, Drucker, Netzwerkschnittstellen und Monitore.
Das Graphikanzeigesystem 1270 umfasst eine Flüssigkristallanzeige (LCD) oder eine andere geeignete Anzeigevorrichtung. Das Graphikanzeigesystem 1270 ist konfigurierbar, um Text- und Graphikinformationen zu empfangen, und verarbeitet die Informationen zur Ausgabe an die Anzeigevorrichtung.
Die peripheren Vorrichtungen 1280 können irgendeine Art von Computerunterstützungsvorrichtung enthalten, um dem Computersystem zusätzliche Funktionalität hinzuzufügen.
Die Komponenten, die in dem Computersystem 1200 von 12 bereitgestellt werden, sind diejenigen, die typischerweise in Computersystemen gefunden werden, die zur Verwendung mit Ausführungsformen der vorliegenden Offenbarung geeignet sein können, und sollen eine breite Kategorie solcher Computerkomponenten darstellen, die in der Technik gut bekannt sind. Somit kann das Computersystem 1200 von 12 ein Personalcomputer (PC), ein Handcomputersystem, ein Telefon, ein Mobilcomputersystem, eine Workstation, ein Tablet, ein Palet, ein Mobiltelefon, ein Server, ein Minicomputer, ein Großrechner, ein tragbares oder irgendein anderes Computersystem sein. Der Computer kann auch verschiedene Buskonfigurationen, Netzwerkplattformen, Multiprozessorplattformen und dergleichen umfassen. Verschiedene Betriebssysteme können verwendet werden, einschließlich UNIX, LINUX, WINDOWS, MAC OS, PALMOS, QNX ANDROID, IOS, CHROME, TIZEN und andere geeignete Betriebssysteme.
Die Verarbeitung für verschiedene Ausführungsformen kann in einer Cloudbasierten Software implementiert werden. In einigen Ausführungsformen ist das Computersystem 1200 als eine Cloud-basierte Computerumgebung implementiert, wie etwa eine virtuelle Maschine, die in einer Computer-Cloud arbeitet. In anderen Ausführungsformen kann das Computersystem 1200 selbst eine Cloud-basierte Computerumgebung umfassen, wobei die Funktionalitäten des Computersystems 1200 in einer verteilten Art und Weise ausgeführt werden. Somit kann das Computersystem 1200, wenn es als eine Computercloud konfiguriert ist, mehrere Computervorrichtungen in verschiedenen Formen umfassen, wie nachstehend ausführlicher beschrieben wird.
Im Allgemeinen ist eine Cloud-basierte Computerumgebung eine Ressource, die typischerweise die Rechenleistung einer großen Gruppe von Prozessoren (wie etwa innerhalb von Webservern) kombiniert und/oder die Speicherkapazität einer großen Gruppe von Computerspeichern kombiniert. Systeme, die Cloud-basierte Ressourcen bereitstellen, können ausschließlich von ihren Besitzern genutzt werden, oder solche Systeme können für externe Benutzer zugänglich sein, die Anwendungen innerhalb der Computerinfrastruktur bereitstellen, um den Vorteil großer Rechen- oder Speicherressourcen zu erhalten.
Die Cloud kann beispielsweise durch ein Netzwerk von Web-Servern gebildet werden, die eine Vielzahl von Computergeräten umfassen, wie zum Beispiel das Computersystem 1200, wobei jeder Server (oder wenigstens eine Vielzahl davon) Prozessor- und/oder Speicher-Ressourcen bereitstellt. Diese Server können Workloads verwalten, die von mehreren Benutzern (z.B. Cloud-Ressourcen-Kunden oder anderen Benutzern) bereitgestellt werden. In der Regel stellt jeder Benutzer Arbeitslastanforderungen an die Cloud, die in Echtzeit manchmal dramatisch variieren. Die Art und das Ausmaß dieser Variationen hängt typischerweise von der Art des Geschäfts ab, das mit dem Benutzer verbunden ist.
Die vorliegende Technologie wird oben unter Bezugnahme auf beispielhafte Ausführungsformen beschrieben. Daher sollen andere Variationen der beispielhaften Ausführungsformen von der vorliegenden Offenbarung abgedeckt sein.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 15144631 B [0001]
US 14/957447 [0030]
US 12/896725 [0030]
US 9210503 B [0030]
US 12/693998 [0030]
US 8718290 B [0030]
US 9185487 B [0039]

Claims

Verfahren zum Bereitstellen von Stereotrennung und Richtungsunterdrückung, wobei das Verfahren umfasst: Konfigurieren eines Prozessors zum Empfangen von wenigstens einem ersten Audiosignal und einem zweiten Audiosignal, wobei das erste Audiosignal einen Ton darstellt, der von einem ersten Mikrofon erfasst wird, das einem ersten Ort zugeordnet ist, und das zweite Audiosignal einen Ton darstellt, der von einem zweiten Mikrofon erfasst wird, das einem zweiten Ort zugeordnet ist, wobei das erste Mikrofon und das zweite Mikrofon Omni-Richtmikrofone einer Mobilvorrichtung umfassen, wobei der Abstand zwischen dem ersten Mikrofon und dem zweiten Mikrofon durch die Größe der Mobilvorrichtung begrenzt ist; Konfigurieren des Prozessors zum Erzeugen eines ersten Kanalsignals eines Stereoaudiosignals durch Bilden eines ersten Strahls an dem ersten Ort basierend auf dem ersten Audiosignal und dem zweiten Audiosignal; und Konfigurieren des Prozessors zum Erzeugen eines zweiten Kanalsignals des Stereoaudiosignals durch Bilden eines zweiten Strahls an dem zweiten Ort basierend auf dem ersten Audiosignal und dem zweiten Audiosignal.
Verfahren nach Anspruch 1, wobei das erste Mikrofon an der Oberseite der Mobilvorrichtung und das zweite Mikrofon an der Unterseite der Mobilvorrichtung angeordnet ist.
Verfahren nach Anspruch 1, wobei eine erste Richtung, die dem ersten Strahl zugeordnet ist, und eine zweite Richtung, die dem zweiten Strahl zugeordnet ist, jeweils relativ zu einer Linie zwischen dem ersten Ort und dem zweiten Ort festgelegt sind.
Verfahren nach Anspruch 3, wobei die erste Richtung fest bleibt, selbst wenn sich eine Audioquelle an dem ersten Ort von dem ersten Ort zu dem zweiten Ort bewegt.
Verfahren nach Anspruch 4, wobei die zweite Richtung fest bleibt, selbst wenn sich eine andere Audioquelle an dem zweiten Ort von dem zweiten Ort zu dem ersten Ort bewegt.
Verfahren nach Anspruch 1, wobei: Bilden des ersten Strahls Reduzieren von Signalenergie von akustischen Signalkomponenten umfasst, die Quellen von dem ersten Strahl zugeordnet sind; und Bilden des zweiten Strahls Reduzieren der Signalenergie von akustischen Signalkomponenten umfasst, die mit weiteren Quellen von dem zweiten Strahl assoziiert sind.
Verfahren nach Anspruch 6, wobei das Reduzieren von Energiekomponenten durch eine subtraktive Unterdrückung durchgeführt wird.
Verfahren nach Anspruch 1, wobei eine erste Audioquelle an dem ersten Ort dem ersten Mikrofon zugeordnet ist, indem die erste Audioquelle näher an dem ersten Mikrofon angeordnet ist.
Verfahren nach Anspruch 8, wobei eine zweite Audioquelle an dem zweiten Ort dem zweiten Mikrofon zugeordnet ist, indem die zweite Audioquelle näher an dem zweiten Mikrofon angeordnet ist.
Verfahren nach Anspruch 1, wobei das erste Mikrofon und das zweite Mikrofon Mikrofone mit einem akustischen Überlastpunkt (AOP) enthalten, der höher ist als ein vorbestimmter Schalldruckpegel.
Verfahren nach Anspruch 10, wobei der vorbestimmte Schalldruckpegel 120 Dezibel beträgt.
Verfahren nach Anspruch 6, ferner umfassend: Konfigurieren des Prozessors zum Empfangen von wenigstens einem anderen akustischen Signal, das durch ein anderes mit einem anderen Ort verbundenes Mikrofon erfasst wird, wobei das andere Mikrofon ein Omni-Richtmikrofon umfasst, und das Bilden des ersten Strahls und das Bilden des zweiten Strahls jeweils weiterhin auf dem wenigstens einem anderen akustischen Signal basieren.
Verfahren nach Anspruch 12, wobei sich das andere Mikrofon an einer Position auf der Mobilvorrichtung befindet, die sich nicht auf einer Linie zwischen dem ersten Mikrofon und dem zweiten Mikrofon befindet.
System zur Stereotrennung und Richtungsunterdrückung, wobei das System umfasst: wenigstens einen Prozessor; und einen Speicher, der kommunikativ mit dem wenigstens einen Prozessor gekoppelt ist, wobei der Speicher Anweisungen speichert, die, wenn sie von dem wenigstens einen Prozessor ausgeführt werden, ein Verfahren ausführen, das Folgendes umfasst: Empfangen von wenigstens einem ersten Audiosignal und einem zweiten Audiosignal, wobei das erste Audiosignal einen Ton darstellt, der von einem ersten Mikrofon erfasst wird, das einem ersten Ort zugeordnet ist, und das zweite Audiosignal einen Ton darstellt, der von einem zweiten Mikrofon erfasst wird, das einem zweiten Ort zugeordnet ist, wobei das erste Mikrofon und das zweite Mikrofon Omni-Richtmikrofone einer Mobilvorrichtung umfassen, wobei der Abstand zwischen dem ersten Mikrofon und dem zweiten Mikrofon durch die Größe der Mobilvorrichtung begrenzt ist; Erzeugen eines ersten Kanalsignals eines Stereoaudiosignals durch Bilden eines ersten Strahls an dem ersten Ort basierend auf dem ersten Audiosignal und dem zweiten Audiosignal; und Erzeugen eines zweiten Kanalsignals des Stereo-Audiosignals durch Bilden eines zweiten Strahls an dem zweiten Ort basierend auf dem ersten Audiosignal und dem zweiten Audiosignal.
System nach Anspruch 14, wobei das erste Mikrofon an der Oberseite der Mobilvorrichtung und das zweite Mikrofon an der Unterseite der Mobilvorrichtung angeordnet ist.
System nach Anspruch 14, wobei eine erste Richtung, die dem ersten Strahl zugeordnet ist, und eine zweite Richtung, die dem zweiten Strahl zugeordnet ist, relativ zu einer Linie zwischen dem ersten Ort und dem zweiten Ort festgelegt sind.
System nach Anspruch 14, wobei: Bilden des ersten Strahls Reduzieren von Signalenergie von akustischen Signalkomponenten umfasst, die Quellen von dem ersten Strahl zugeordnet sind; und Bilden des zweiten Strahls Reduzieren der Signalenergie von akustischen Signalkomponenten umfasst, die mit weiteren Quellen von dem zweiten Strahl assoziiert sind.
System nach Anspruch 17, wobei Reduzieren von Energiekomponenten durch eine subtraktive Unterdrückung durchgeführt wird.
System nach Anspruch 17, wobei das Verfahren ferner umfasst: Empfangen von wenigstens einem anderen akustischen Signal, das durch ein anderes mit einem anderen Ort verbundenes Mikrofon erfasst wird, wobei das andere Mikrofon ein Omni-Richtmikrofon umfasst, und das Bilden des ersten Strahls und das Bilden des zweiten Strahls jeweils weiterhin auf dem wenigstens einem anderen akustischen Signal basieren.
System nach Anspruch 19, wobei sich das andere Mikrofon an einer Position auf der Mobilvorrichtung befindet, die sich nicht auf einer Leitung zwischen dem ersten Mikrofon und dem zweiten Mikrofon befindet.
System nach Anspruch 14, wobei die erste Audioquelle an dem ersten Ort dem ersten Mikrofon zugeordnet ist, indem die erste Audioquelle näher an dem ersten Mikrofon angeordnet ist, und wobei die zweite Audioquelle an dem zweiten Ort dem zweiten Mikrofon zugeordnet ist, indem die zweite Audioquelle näher an dem zweiten Mikrofon angeordnet ist.
System nach Anspruch 14, wobei das erste Mikrofon und das zweite Mikrofon Mikrofone mit einem akustischen Überlastpunkt (AOP) enthalten, der größer als ein vorbestimmter Schalldruckpegel ist.
System nach Anspruch 22, wobei der vorbestimmte Schalldruckpegel 120 Dezibel beträgt.
Nichtflüchtiges computerlesbares Speichermedium mit darauf gespeicherten Instruktionen, die bei Ausführung durch wenigstens einen Prozessor Schritte eines Verfahrens zur Stereotrennung und Richtungsunterdrückung ausführen, wobei das Verfahren umfasst: Empfangen von wenigstens einem ersten Audiosignal und einem zweiten Audiosignal, wobei das erste Audiosignal einen Ton darstellt, der von einem ersten Mikrofon erfasst wird, das einem ersten Ort zugeordnet ist, und das zweite Audiosignal einen Ton darstellt, der von einem zweiten Mikrofon erfasst wird, das einem zweiten Ort zugeordnet ist, wobei das erste Mikrofon und das zweite Mikrofon Omni-Richtmikrofone einer Mobilvorrichtung umfassen, wobei der Abstand zwischen dem ersten Mikrofon und dem zweiten Mikrofon durch die Größe der Mobilvorrichtung begrenzt ist; Erzeugen eines ersten Kanalsignals eines Stereoaudiosignals durch Bilden eines ersten Strahls an dem ersten Ort basierend auf dem ersten Audiosignal und dem zweiten Audiosignal; und Erzeugen eines zweiten Kanalsignals des Stereo-Audiosignals durch Bilden eines zweiten Strahls an dem zweiten Ort basierend auf dem ersten Audiosignal und dem zweiten Audiosignal.