-
QUERVERWEIS AUF VERWANDTE ANWENDUNGEN
-
Diese Anmeldung beansprucht die Priorität der am 30. Dezember 2016 eingereichten
U.S. Provisional Patent Application Nr. 62/441,145 . Die vorliegende Anmeldung bezieht sich auf die am 20. Mai 2014 eingereichte
US-Anmeldung Nr. 14/282,101 mit dem Titel „VAD Detection Microphone and Method of Operating the Same“, jetzt
U.S. Patent Nr. 9,712,923 , die die Priorität der am 23. Mai 2013 eingereichten
US Provisional Patent Application Nr. 61/826,587 in Anspruch nimmt. Die vorliegende Anmeldung bezieht sich auch auf die am 8. September 2016 eingereichte
US-Anmeldung Nr. 15/259,473 mit dem Titel „Microphone Apparatus and Method With Catch-up Buffer“, jetzt
U.S. Patent Nr. 9,711,144 , die eine Fortsetzung der am 13. Juli 2015 eingereichten
US-Anmeldung Nr. 14/797,310 ist, jetzt
U.S. Patent Nr. 9,478,234 . Der Inhalt jeder der oben genannten Anmeldungen wird hierin durch Verweis in ihrer Gesamtheit aufgenommen.
-
GEBIET DER OFFENBARUNG
-
Die vorliegende Offenbarung bezieht sich im Allgemeinen auf Mikrofone und insbesondere auf Mikrofonkomponenten oder -baugruppen, integrierte Schaltungen und Verfahren zur Authentifizierung einer Benutzereingabe.
-
HINTERGRUND
-
Die folgende Beschreibung dient dem Verständnis des Lesers. Keine der genannten Informationen oder Referenzen gilt als Stand der Technik.
-
Die Sprachsteuerung wird zunehmend als bevorzugter Interaktionsmodus mit einer Vielzahl von elektronischen Vorrichtungen eingesetzt, darunter drahtlose Kommunikationshandys, Tablets, Laptops und PCs (PCs) unter anderem, sowie mit elektronischen Vorrichtungen, die in Fahrzeuge und Geräte eingebettet sind, sowie mit anderen Industrie- und Gebrauchsgütern. In einigen Fällen kann die Verwendung traditionellerer Benutzerauthentifizierungstechniken, die auf taktilen Eingaben (beispielsweise Passcodes, Fingerabdrücke und Mustererkennung) und visuellen Eingaben (beispielsweise Netzhaut- und Gesichtsscannen) basieren, den mit jeder Sprachinteraktion verbundenen Komfort mindern, da diese traditionelleren Ansätze eine Berührung oder visuelle Interaktion mit einer Benutzeroberfläche erfordern. Generell wird die Authentifizierungsverarbeitung typischerweise von Schaltungen auf dem elektronischen Gerät durchgeführt, was die Systemarchitektur verkompliziert und den Stromverbrauch potenziell erhöht, insbesondere in Immer-An-Anwendungen. Der Übergang solcher Vorrichtungen von einem Ruhezustand in einen höheren Leistungszustand, in dem Authentifizierungsschaltungen aktiviert sind, kann je nach Zeitpunkt des Übergangs zu Latenzzeiten oder unnötigem Stromverbrauch führen. Daher gibt es konkurrierende Wünsche, den Stromverbrauch zu senken und eine reaktionsfähige Benutzeroberfläche bereitzustellen, die den Erwartungen der Benutzer entspricht.
-
Figurenliste
-
Die Objekte, Merkmale und Vorteile der vorliegenden Offenbarung werden unter sorgfältiger Berücksichtigung der folgenden detaillierten Beschreibung und der beigefügten Ansprüche in Verbindung mit den nachstehend beschriebenen begleitenden Zeichnungen den gewöhnlichen Fachleuten in der Technik näher kommen.
- 1 ist eine perspektivische Ansicht einer Mikrofonkomponente oder -baugruppe.
- 2 ist ein schematisches Funktionsblockdiagramm der Mikrofonanordnung von 1.
- 3 ist ein schematisches Blockdiagramm einer elektronischen Vorrichtung mit der Mikrofonkomponente von 1.
- 4 ist ein schematisches Prozessdiagramm zur Durchführung der Sprachverarbeitung in einem Mikrofon.
-
In der folgenden Detailbeschreibung wird auf die beigefügten Zeichnungen verwiesen, die einen Teil davon bilden. In den Zeichnungen identifizieren ähnliche Symbole typischerweise ähnliche Komponenten, sofern der Kontext nichts anderes vorschreibt. Die offenbarten Ausführungsformen sind nicht so zu verstehen, dass sie die hierin enthaltenen Lehren einschränken, sondern vielmehr denjenigen, die über gewöhnliche Fähigkeiten in der Technik verfügen, ermöglichen, diese zu machen und zu nutzen. Diejenigen mit gewöhnlichen Fähigkeiten werden erkennen und verstehen, dass die repräsentativen Ausführungsformen in einer Vielzahl von Implementierungen mit vielen Anordnungen, Substitutionen, Kombinationen und Designs verkörpert werden können, die alle ausdrücklich in Betracht gezogen und Teil dieser Offenbarung sind.
-
AUSFÜHRLICHE BESCHREIBUNG
-
1 veranschaulicht eine Mikrofonanordnung 100, die ein Substrat oder eine Basis 120 mit einer Abdeckung oder einem Deckel 130 umfasst, die sicher darauf angeordnet und durch einen Klebstoff, ein Lötmittel oder einen anderen bekannten Befestigungsmechanismus versiegelt ist. Basis und Deckel bilden zusammenwirkend ein Gehäuse 110 mit einem inneren Hohlraum 112, in dem ein Wandler und eine elektrische Schaltung wie im Folgenden beschrieben angeordnet sind. Die Basis kann als Schichtmaterial wie FR4 mit eingebetteten Leitern, die eine Leiterplatte bilden, ausgeführt werden. Die Abdeckung kann als Metalldose oder als geschichtetes FR4-Material ausgeführt sein, das auch eingebettete Leiter umfassen kann. Die Abdeckung oder der Deckel kann auch aus anderen Materialien wie Kunststoffen und Keramiken bestehen und kann auch eine elektromagnetische Abschirmung umfassen.
-
In einigen Ausführungsformen umfasst das Gehäuse externe Kontakte, die eine externe Geräteschnittstelle bilden, um mit einer externen Vorrichtung wie einem Host verbunden zu werden. In einer Ausführungsform umfasst die Schnittstelle Strom, Masse, Takt, Daten und ausgewählte Kontakte. Die einzelnen Kontakte, aus denen sich die Schnittstelle zusammensetzt, können teilweise von dem Protokoll abhängen, mit dem Daten zwischen der Mikrofonanordnung und der Host-Vorrichtung übertragen werden. Solche Protokolle umfassen unter anderem PDM, SoundWire, I2S und I2C sowie andere bekannte und zukünftige Protokolle.
-
In 1 ist die externe Geräteschnittstelle auf der Basis angeordnet, aber in anderen Ausführungsformen kann die Schnittstelle auch auf anderen Teilen des Gehäuses angeordnet sein. Eine Mikrofonanordnung mit einer externen Geräteschnittstelle kann auch als Oberflächenmontagevorrichtung zur Integration mit einem Host oder einer anderen Vorrichtung konfiguriert werden, beispielsweise durch Reflow- oder Wellenlöten auf eine Leiterplatte oder ein anderes Substrat. Alternativ kann die externe Geräteschnittstelle für das Durchlöten einer Montagefläche oder eines Substrats konfiguriert werden.
-
In einer Ausführungsform ist der Wandler ein mikroelektromechanisches (MEMS) System, das als kapazitiver Sensor ausgeführt ist, der hörbare Frequenzen erfassen kann (manchmal auch als Kondensatormikrofon bezeichnet). Alternativ kann der MEMS-Die auch als piezoelektrischer Sensor ausgeführt sein, der hörbare Frequenzen erfassen kann (manchmal auch als Kristallmikrofon bezeichnet). MEMS-Dies können aus einem Halbleitermaterial (beispielsweise Silizium) und anderen Materialien gebildet werden. In 1 ist der Wandler ein Sensor 140 für kapazitive mikroelektromechanische (MEMS) Systeme, der einen Motor 144 mit einer Membran und einer Rückplatte umfasst. In anderen Ausführungsformen können andere elektroakustische Wandler verwendet werden. In einigen Ausführungsformen erkennt der akustische Wandler auch Druckänderungen über und unter dem Frequenzbereich (beispielsweise 20Hz - 20kHz), die für den menschlichen Hörer hörbar sind.
-
Das Mikrofongehäuse umfasst auch eine akustische Öffnung, auch als Schallbohrung bezeichnet, die die Verbindung des Luftdrucks zwischen dem inneren Hohlraum und einer äußeren Umgebung ermöglicht. Die Öffnung kann auf dem Deckel, dem Boden oder einer Seitenwand angeordnet sein. Der Wandler ist innerhalb des Innenhohlraums so angeordnet, dass er Luftdruckänderungen über die Öffnung erfassen kann. In 1 ist ein Sensor 140 für kapazitive mikroelektromechanische (MEMS) Systeme auf der Basis 120 über eine Schallbohrung angeordnet. Eine solche Mikrofonmontagekonfiguration kann als untere Anschlussvorrichtung bezeichnet werden. In anderen Ausführungsformen kann der Wandler jedoch an einer bestimmten Struktur als innerhalb des Hohlraums mit Ausnahme der Basis angeordnet sein. So kann sich beispielsweise der Wandler in Ausführungsformen auf der Abdeckung befinden, bei denen die Öffnung auf der Abdeckung angeordnet ist. Eine solche Mikrofonmontagekonfiguration kann als Top-Port-Vorrichtung bezeichnet werden. Auch Side-Port-Geräte werden in Betracht gezogen. In anderen Implementierungen können andere Arten von Aufnehmern alternativ verwendet werden, wie hier vorgeschlagen. Die Funktionsprinzipien eines MEMS-Sensors, der in einem Gehäuse einer Mikrofonanordnung angeordnet ist, sind denjenigen mit gewöhnlichen Kenntnissen in der Technik gut bekannt und werden hier nicht weiter erläutert.
-
In 1 umfasst die Mikrofonanordnung eine elektrische Schaltung 150, die als eine oder mehrere integrierte Schaltungen (beispielsweise anwendungsspezifische integrierte Schaltungen (ASICs)) ausgeführt sein kann, die im inneren Hohlraum und in elektrischer Verbindung mit dem Wandler und den Kontakten der externen Geräteschnittstelle angeordnet sind. Die eine oder mehreren integrierten Schaltungen können teilweise oder vollständig in der Basis 120 oder an einer anderen Stelle im Hohlraum 112 montiert oder eingebettet sein. In 2 umfasst die elektrische Schaltung einen Signalwandler 180, der konfiguriert ist, um analoge Ausgangssignale in ein digitales Signal umzuwandeln. In einer Ausführungsform ist der Wandler als Sigma-Delta-Modulator ausgeführt, aber in anderen Ausführungsformen können alternativ auch andere A/D-Wandler verwendet werden. Das digitale Signal kann ein PDM- oder PCM-Signal sein, oder es kann ein anderes Signalformat haben, dessen Beispiele hierin beschrieben sind.
-
In Ausführungsformen, in denen die Host-Vorrichtung während der Verarbeitung durch die Mikrofonanordnung schläft, umfasst die elektrische Schaltung auch einen internen Taktsignalgenerator, der von einem lokalen Oszillator zum Takterzeugung der elektrischen Schaltung angetrieben wird. 2 zeigt die elektrische Schaltung mit einem internen Taktsignalgenerator 186 zu diesem Zweck. Der interne Taktsignalgenerator muss jedoch in Ausführungsformen, in denen die Host-Vorrichtung der Mikrofonanordnung jederzeit ein Taktsignal zur Verfügung stellt, nicht erforderlich sein.
-
In 2 umfasst die elektrische Schaltung auch einen Prozessor 152, der über den Umrichter 180 mit dem Wandler gekoppelt ist. In Ausführungsformen, die für das elektrische Signal repräsentative Daten puffern, die im Folgenden näher erläutert werden, ist der Prozessor auch mit einem Puffer 182 gekoppelt. In Ausführungsformen, in denen die Schaltung durch ein intern erzeugtes Taktsignal getaktet wird, ist der Prozessor mit dem internen Taktsignalgenerator 186 gekoppelt. Der Prozessor ist ebenfalls mit dem Speicher 158 gekoppelt und umfasst einen Ausgang, der mit dem externen Geräteschnittstelle 188 der Mikrofonanordnung gekoppelt ist. Der Speicher speichert prozessorausführbaren algorithmischen Code, der bei Ausführung durch den Prozessor den Prozessor konfiguriert, um verschiedene Funktionen an der Mikrofonanordnung auszuführen. In 2 umfasst der Speicher mehrere Codesegmente oder Abschnitte 160, 162, 164, 166, 166, 168 und 170, die verschiedenen Funktionen zugeordnet sind, die von der Mikrofonanordnung ausgeführt werden, wie hierin in Verbindung mit repräsentativen Ausführungsformen beschrieben. Nicht alle Ausführungsformen der Mikrofonanordnung umfassen alle in 2 dargestellten Codesegmente, wie hierin näher erläutert. Während 2 die Codesegmente als diskrete Elemente darstellt, können die Segmente je nach Architektur der Schaltung als ein oder mehrere Programme dargestellt werden. Auch wenn der Prozessor 152 als einzelner Prozessor dargestellt wird, kann er als mehrere Prozessoren implementiert werden. So kann beispielsweise ein Prozessor relativ weniger komplexe Operationen wie Sprachaktivitätserkennung und Datenpufferung durchführen, während ein anderer Prozessor, wie ein DSP, mit komplexeren Operationen wie Rauschunterdrückung, Spracherkennung und Authentifizierung beauftragt werden kann. Außerdem können der eine oder die mehreren Prozessoren so ausgelegt sein, dass sie bestimmte Funktionen durch spezielle Logikgatter ausführen, um die Verarbeitung zu beschleunigen. Wie vorgeschlagen, kann die elektrische Schaltung 150 am typischsten als integrierte Schaltung (IC) ausgeführt werden, die je nach gewünschter Architektur einen einzelnen IC oder mehrere ICs umfassen kann. Die Zuordnung verschiedener Funktionen zu verschiedenen Prozessoren kann wenigstens teilweise die Architektur der Programmsegmente bestimmen, die den hierin beschriebenen prozessorausführbaren algorithmischen Code bilden.
-
In 3 ist eine Mikrofonanordnung 100 in eine elektronische Vorrichtung oder einen Host 200 eingebettet oder anderweitig mit dieser integriert. Der Host kann als drahtloses Kommunikationshandy, Tablett, Laptop oder Personalcomputer (PC), Spielstation, tragbares oder stationäres Fernbedienungsgerät, tragbares Gerät wie eine intelligente Uhr und andere Geräte ausgeführt sein. Die Mikrofonanordnung kann auch in eine Vorrichtung wie Kühlschrank, Backofen, Waschmaschine, Trockner und andere langlebige Güter sowie in Industriemaschinen und Boden-, Luft- und Wasserfahrzeugen eingebettet sein. Die Integration der Mikrofonanordnung ermöglicht eine sprachgesteuerte Interaktion mit dem Hostgerät. In einigen Ausführungsformen ermöglicht die Mikrofonanordnung eine nicht sprachgesteuerte Interaktion mit der Host-Vorrichtung. Diese und andere Aspekte der Offenlegung werden im Folgenden näher erläutert.
-
Gemäß einem Aspekt der Offenbarung verarbeitet die Mikrofonanordnung Daten, die für ein elektrisches Signal repräsentativ sind, das vom Wandler erzeugt wird, während die Host-Vorrichtung, in die das Mikrofon integriert ist, in einem Niedrigleistungsmodus (beispielsweise einem Teil- oder Vollschlafmodus) arbeitet. Während der Host schläft, wird die Mikrofonanordnung durch ein internes Taktsignal getaktet, das von einem lokalen Oszillator erzeugt wird, da der schlafende Host möglicherweise nicht in der Lage ist, dem Mikrofon ein Taktsignal zur Verfügung zu stellen. Die Mikrofonanordnung weckt die Host-Vorrichtung anschließend nur bei Erfüllung eines oder mehrerer Kriterien, für die hierin Beispiele erläutert werden. Die Ausführung solcher Funktionen an der Mikrofonanordnung während des Ruhezustands der Host-Vorrichtung reduziert den Stromverbrauch des Hosts. Die Leistungsaufnahme der Mikrofonanordnung kann auch reduziert werden, indem das Mikrofon je nach Funktion mit unterschiedlichen Leistungsaufnahmen betrieben wird. Schaltkreise, die speziell für die vom Mikrofon ausgeführten Funktionen ausgelegt sind, ermöglichen auch eine effiziente Leistungsaufnahme des Mikrofons im Verhältnis zu der Leistung, die sonst von vielen Host-Vorrichtungen mit den gleichen Funktionen verbraucht würde. Dadurch kann das Mikrofon im Immer-An-Modus bei sehr niedrigen Leistungspegeln mit reduzierter Latenzzeit bei der Reaktion auf Benutzerbefehle betrieben werden. In anderen Ausführungsformen verarbeitet die Mikrofonanordnung jedoch Daten, die für ein elektrisches Signal repräsentativ sind, das vom Wandler erzeugt wird, während die Host-Vorrichtung wach bleibt. Repräsentative Ausführungsformen und Umsetzungsbeispiele werden ebenfalls diskutiert.
-
In verschiedenen Ausführungsformen implementiert die Mikrofonanordnung einen Teil oder den gesamten algorithmischen Prozess, der in 4 dargestellt ist. Bei 402 arbeitet die Mikrofonanordnung in einem ersten Leistungsmodus während der Sprachaktivitätserkennung, der als Sprachrauschenunterscheidung bezeichnet werden kann. Bei 404 bestimmt das Mikrofon, ob eine Sprachaktivität in dem vom Wandler erzeugten elektrischen Signal vorliegt. In 2 ist der Prozessor bei der Ausführung des im Speicher 158 gespeicherten VAD-Codes 162 konfiguriert, um zu bestimmen, ob Sprachaktivität im elektrischen Signal vorhanden ist, indem er Daten verarbeitet, die für das elektrische Signal repräsentativ sind. Alternativ kann die Sprachaktivitätserkennung auch durch gleichwertige Hardware oder eine Kombination aus Hard- und Software durchgeführt werden. Wie vorstehend vorgeschlagen, können diese Daten im PCM-Format, PDM-Format oder einem anderen Signalformat vorliegen. Verschiedene Schemata zur Erkennung von Stimmaktivität sind im Allgemeinen denen bekannt, die über gewöhnliche Fähigkeiten in der Technik verfügen, und solche Schemata werden hierin nicht weiter erläutert. Bei 406 wiederholt der Algorithmus im Sprachaktivitätserkennungsmodus, bis die Sprachaktivität erkannt wird. Bei der Sprachaktivitätserkennung, die in Immer-An-Anwendungen oft aktiviert ist, kann es wünschenswert sein, den Stromverbrauch zu reduzieren, insbesondere bei batteriebetriebenen Vorrichtungen. Die Leistungsaufnahme kann reduziert werden, indem nicht benötigte Schaltungen zur Sprachaktivitätserkennung deaktiviert und das Mikrofon mit einer niedrigen Frequenz getaktet wird. Die vom Sprachaktivitätsalgorithmus geforderte minimale Abtastrate kann jedoch eine untere Grenze für die Taktfrequenz in diesem Modus festlegen.
-
In 4, bei 410, leitet das Mikrofon nach dem Erfassen der Sprachaktivität die Erkennung der Sprachcharakteristik ein. Zu den Sprach- oder Sprachmerkmalen gehören Phoneme, Schlüsselwörter, Sprachbefehle, Phrasen usw., die zur Interaktion mit dem Mikrofon oder mit der Host-Vorrichtung über das Mikrofon verwendet werden. Somit unterscheidet sich die Erkennung von Sprachmerkmalen von der Erkennung von Sprachaktivitäten. In 2 ist der Prozessor bei der Ausführung des im Speicher 158 gespeicherten Sprachmerkmal-Erfassungscodes 164 konfiguriert, um zu versuchen, zu bestimmen, ob eine Sprachcharakteristik im elektrischen Signal vorhanden ist, indem er Daten verarbeitet, die das elektrische Signal darstellen. Alternativ kann die Spracherkennung auch durch gleichwertige Hardware oder eine Kombination aus Hard- und Software erfolgen. Wie vorstehend vorgeschlagen, kann die Spracherkennungsverarbeitung für Daten mit einem PCM-Format, einem PDM-Format oder einem anderen Format durchgeführt werden. Verschiedene Schemata zur Erkennung von Sprachmerkmalen sind denjenigen mit gewöhnlichen Fähigkeiten in der Technik allgemein bekannt, und solche Schemata werden hier nicht weiter erläutert.
-
Bei der Erkennung von Sprachmerkmalen wird der Stromverbrauch im Allgemeinen im Vergleich zum Stromverbrauch bei der Erkennung von Sprachaktivitäten erhöht, was zum Teil auf eine zusätzliche Belastung des Prozessors zurückzuführen ist, die mit der Durchführung von Sprachaktivitäten und der Spracherkennung verbunden ist. So kann beispielsweise die Taktfrequenz erhöht oder ein anderer Prozessor aktiviert werden, um die Spracherkennungsfunktion auszuführen. Diese leistungsbezogenen Faktoren können vom Prozessor bei Ausführung des Leistungscodes 160 oder des Spracherkennungscodes 164 oder einer Kombination davon gesteuert werden. In Ausführungsformen, in denen die Sprachaktivitätserkennung implementiert ist, erfolgt die Spracherkennung erst nach der Erkennung der Sprachaktivität. Auch bei 412 in 4, wenn Sprache während der Spracherkennung nicht erkannt wird, wechselt die Schaltung bei 402 in den Sprachaktivitätserkennungsmodus mit geringerer Leistung.
-
In 4 bei 416 versucht das Mikrofon bei Spracherkennung, die erfasste Sprache zu authentifizieren. Wie vorstehend vorgeschlagen, könnte ein solches Sprachmerkmal ein Schlüsselwort oder eine Phrase sein, beispielsweise „OK Knowles“ oder ein anderes Wort oder Befehl. Die Authentifizierung stellt sicher, dass ein Benutzer, der versucht, über die Mikrofonanordnung mit der Host-Vorrichtung zu interagieren, dazu berechtigt ist. In 2 ist der Prozessor bei der Ausführung des Authentifizierungscodes 166 konfiguriert, um zu versuchen, die bei der Spracherkennung erkannte Sprachcharakteristik zu authentifizieren. Alternativ kann die Authentifizierung auch durch gleichwertige Hardware oder eine Kombination aus Hard- und Software erfolgen. Wie vorstehend vorgeschlagen, können die Daten, bei denen die Authentifizierungsverarbeitung stattfindet, das PCM-Format, das PDM-Format oder ein anderes Format sein. Verschiedene Schemata zur Authentifizierung von Spracheigenschaften sind im Allgemeinen denen gewöhnlicher Kunstfertigkeit bekannt, und solche Schemata werden hier nicht weiter erläutert.
-
Während der Authentifizierung kann der Stromverbrauch im Verhältnis zum Stromverbrauch bei der Spracherkennung erhöht werden, was zum Teil auf zusätzliche Verarbeitungslast zurückzuführen ist. So kann beispielsweise die Taktfrequenz erhöht oder ein anderer Prozessor aktiviert werden, um die mit der Authentifizierungsverarbeitung verbundene zusätzliche Last aufzunehmen. Diese leistungsbezogenen Faktoren können vom Prozessor bei Ausführung des Leistungscodes 160 oder des Authentifizierungscodes 166 oder einer Kombination davon gesteuert werden. Bei 418 in 4, wenn die erfasste Sprache nicht authentifiziert wird, wechselt die Schaltung in den Sprachaktivitätserkennungsmodus mit geringerer Leistung bei 402.
-
In 4, bei 420, wenn die erfasste Stimme erfolgreich authentifiziert wird, stellt die Mikrofonanordnung ein Unterbrechungssignal für eine externe Schnittstelle der Mikrofonanordnung zur Verfügung. Das Unterbrechungssignal kann viele verschiedene Formen annehmen. In einer Implementierung wird das von der Mikrofonanordnung erzeugte interne Taktsignal auf einem Kontakt der externen Geräteschnittstelle bereitgestellt. Alternativ ist die Unterbrechung ein High oder Low-Select-Signal, das auf dem externen Geräteschnittstelle der Mikrofonanordnung bereitgestellt wird. Das interne Taktsignal oder das Auswahlsignal kann an einem Auswahlkontakt oder einem anderen Kontakt der Schnittstelle bereitgestellt werden. In einer anderen Implementierung können Daten, die auf einem Datenkontakt der Schnittstelle bereitgestellt werden, als Interrupt interpretiert werden. Alternativ können auch andere Signale verwendet werden. In 2 ist der Prozessor bei Ausführung des Aktivierungscodes 170 konfiguriert, um das Unterbrechungssignal an der externen Geräteschnittstelle über eine Schnittstelle der elektrischen Schaltung bereitzustellen. Die Bereitstellung der Unterbrechung nach erfolgreicher Authentifizierung der erkannten Sprache auf der Mikrofonanordnung entbindet die Host-Vorrichtung wenigstens vorläufig von der Erfüllung dieser Funktion. In Ausführungsformen, in denen die Host-Vorrichtung schläft, reduziert die Authentifizierung vor dem Aufwachen des Hosts die Wahrscheinlichkeit, dass der Host unnötig geweckt wird. In einigen Anwendungen, unabhängig davon, ob der Host schläft oder nicht, kann die Host-Vorrichtung nach dem Empfang des Interrupts vom Mikrofon eine robustere Authentifizierungsverarbeitung durchführen.
-
Im Allgemeinen ist die elektrische Schaltung konfiguriert, um Daten bereitzustellen, die das elektrische Signal an die externe Geräteschnittstelle darstellen, nachdem, aber im Allgemeinen nicht vorher, die Unterbrechung an die externe Geräteschnittstelle bereitgestellt wurde. Somit zeigt die Unterbrechung an, dass die Mikrofonanordnung Daten für die Host-Vorrichtung enthält. In Ausführungsformen, in denen die Host-Vorrichtung während der Verarbeitung durch die Mikrofonanordnung schläft, kann die Unterbrechung auch ein Weckimpuls für die Host-Vorrichtung sein. In Ausführungsformen, in denen die Host-Vorrichtung während der Verarbeitung durch das Mikrofon nicht schläft, kann die Unterbrechung darauf hinweisen, dass die Mikrofonanordnung Daten zur Verfügung stellt, die der Host-Vorrichtung bereitgestellt werden müssen. In einer Implementierung stellt die Host-Vorrichtung der externen Geräteschnittstelle des Mikrofons ein externes Taktsignal zur Verfügung, beispielsweise auf einem externen Taktkontakt der Schnittstelle. Als Reaktion darauf taktet die elektrische Schaltung die Mikrofonanordnung basierend auf dem externen Taktsignal. So kann beispielsweise das interne Taktsignal mit einem externen Taktsignal mit etwa gleicher Frequenz synchronisiert werden. Alternativ kann die Mikrofonanordnung auch durch das externe Taktsignal getaktet werden, das eine andere Frequenz aufweisen kann als das interne Taktsignal des Mikrofons. In jedem Fall sind das Mikrofon und der Host synchronisiert. In Ausführungsformen, in denen die Host-Vorrichtung dem Mikrofon als Reaktion auf ein Unterbrechungssignal ein externes Taktsignal zur Verfügung stellt, kann das Mikrofon auf das externe Taktsignal warten, um die Synchronisation sicherzustellen, bevor es Daten an die externe Vorrichtungsschnittstelle sendet. In 2 umfasst die elektrische Schaltung eine externe Takterkennungsfunktion, die bestimmt, ob das Mikrofon über den internen Taktgeber oder über den externen Taktgeber getaktet werden soll. Das Mikrofon wird basierend auf dem externen Taktsignal getaktet, wenn der externe Takt am externen Geräteschnittstelle erkannt wird.
-
In einigen Ausführungsformen führt die Mikrofonanordnung eine Rauschunterdrückung bei Daten durch, die für das elektrische Signal repräsentativ sind, vor der Erkennung der Sprachcharakteristik oder wenigstens vor der Authentifizierung. Wie oben vorgeschlagen, kann die Rauschunterdrückung Teil eines robusteren Authentifizierungsprozesses sein, der nach einem erfolgreichen vorläufigen Authentifizierungsverfahren stattfindet. Wie hierin verwendet, umfasst die Rauschunterdrückung Rauschreduzierung, Sprachverbesserung, Echokompensation und andere Signalverarbeitung, die die Qualität der erfassten Sprach- oder Sprachsignale verbessert. Die Rauschunterdrückung kann verwendet werden, um die Genauigkeit der Spracherkennung, der Authentifizierung oder beider zu verbessern, kann dies jedoch auf Kosten eines höheren Bedarfs an Verarbeitungs- und Speicherressourcen und einer möglichen Verzögerung der Verarbeitung erfolgen. In 2 ist der Prozessor bei der Ausführung des Rauschunterdrückungscodes 168 konfiguriert, um Rauschen in Daten zu unterdrücken, die für das vom Wandler erzeugte elektrische Signal repräsentativ sind. Die Rauschunterdrückung kann vor oder nach der Spracherkennung durchgeführt werden. Die Daten, bei denen die Rauschunterdrückung stattfindet, können das PCM-Format, das PDM-Format oder ein anderes Format sein. Verschiedene Schemata zur Unterdrückung von Lärm sind im Allgemeinen denjenigen bekannt, die in der Technik gewöhnlich geschickt sind, und solche Schemata werden hier nicht weiter erläutert.
-
In einigen Ausführungsformen umfasst die elektrische Schaltung der Mikrofonanordnung in 2 einen Puffer 182, wobei Daten, die das vom Wandler erfasste elektrische Signal repräsentieren, während der Verarbeitung durch das Mikrofon gepuffert werden. Die Pufferung der Daten verhindert den Verlust von während der Verarbeitung empfangenen Daten, wie hierin beschrieben. Die gepufferten Daten können im PDM- oder PCM-Format oder in einem anderen Format vorliegen. In einigen Ausführungsformen kann die Abtastrate des digitalen Signals durch einen Dezimator reduziert werden, um den Bedarf an Verarbeitungs- und Speicherressourcen zu verringern. In einer Implementierung werden Daten von einem Sigma-Delta-Modulator dezimiert, um die Abtastrate und damit den Speicherbedarf für die Pufferung der Daten zu reduzieren. Die Abtastrate der aus dem Puffer gelesenen Daten kann durch einen Interpolator erhöht werden, um die Dezimierung vor der Pufferung zu kompensieren. Die Dezimierung und Interpolation wird durch den Konditionierungsblock 180 schematisch dargestellt. In der Praxis sind diese Geräte jedoch nicht unbedingt mit dem Signalwandler ko-lokalisiert. Der Sprachaktivitätsalgorithmus kann die Abtastrate der Daten begrenzen, so dass die Abtastrate der gepufferten Daten von der Abtastrate der Daten, an denen die Sprachaktivitätserkennung durchgeführt wird, abweichen kann. Das Format der gepufferten Daten kann sich vom Format der Daten unterscheiden, an denen die Sprachaktivitätserkennung durchgeführt wird. Die Pufferungsfunktion kann vom Prozessor beim Ausführen eines oder mehrerer Codesegmente, die im Speicher gespeichert sind, oder durch gleichwertige Hardware-Schaltungen gesteuert werden.
-
In Ausführungsformen, in denen die Mikrofonanordnung nur die Spracherkennung und -authentifizierung durchführt, ohne die Sprachaktivitätserkennung durchzuführen, erfolgt die Pufferung während der Spracherkennung und -authentifizierung. In diesem Fall verfügt der Puffer über genügend Kapazität, um Daten zu speichern, die für das vom Wandler erzeugte elektrische Signal repräsentativ sind, während der Zeit, die benötigt wird, um Sprache zu erfassen und zu authentifizieren, den Host aufzuwecken und das Mikrofon für die Datenübertragung zu konfigurieren. In Ausführungsformen, in denen die Mikrofonanordnung auch die Sprachaktivitätserkennung durchführt, erfolgt die Pufferung während der Sprachaktivitätserkennung, Spracherkennung und Authentifizierung. In diesem Fall muss der Puffer über eine ausreichende Kapazität verfügen, um Daten zu speichern, die das vom Wandler erzeugte elektrische Signal während der Zeit darstellen, die auch für die Sprachaktivitätserkennung benötigt wird. Bei Anwendung der Rauschunterdrückung kann eine zusätzliche Pufferkapazität erforderlich sein.
-
Im Allgemeinen werden nach erfolgreicher Authentifizierung und Unterbrechung der Host-Vorrichtung Daten an die externe Geräteschnittstelle übermittelt. Die vom Wandler erhaltenen Daten werden an die externe Geräteschnittstelle gestreamt, um mit der Host-Vorrichtung zu kommunizieren. In Ausführungsformen, die keine Pufferung umfassen, können nach der Authentifizierung empfangene Daten in Echtzeit an die externe Geräteschnittstelle übermittelt werden, und jede Sprache in den vor der Authentifizierung empfangenen Daten geht verloren. In Ausführungsformen, die eine Pufferung umfassen, kann der gesamte Sprachstrom rekonstruiert werden, indem die gepufferten Daten mit den nach der Authentifizierung empfangenen Daten verknüpft werden. Die Nähte können an der Mikrofonanordnung oder an der Host-Vorrichtung auftreten. Somit werden in Ausführungsformen, die Pufferung umfassen, sowohl gepufferte Daten als auch Daten, die nach einer Unterbrechung empfangen werden, an der externen Geräteschnittstelle bereitgestellt. In einigen Ausführungsformen gibt es einige zeitliche Überschneidungen zwischen gepufferten Daten und Echtzeitdaten, um die Kontinuität zu gewährleisten und Übergangsartefakte zu beseitigen oder zu reduzieren. In einer Ausführungsform werden die an die externe Geräteschnittstelle gelieferten Daten um die Zeit verzögert, die für die Verarbeitung benötigt wird, bevor die Unterbrechung Host Wake-up und jede Rekonfiguration des Mikrofons für die Datenübertragung bereitgestellt wird, aber diese Latenzzeit kann für einige Anwendungen unannehmbar sein. In einer weiteren Ausführungsform werden die gepufferten Daten schneller als in Echtzeit an die externe Vorrichtung geliefert. Schneller als Echtzeit kann bedeuten, dass diese Daten (beispielsweise die gepufferten Daten, die Echtzeitdaten usw.) schneller empfangen werden (d.h. übertaktet) oder dass Daten gleichzeitig und praktisch gleichzeitig (beispielsweise gemultiplext) gesendet werden.
-
In einer Implementierung werden nach Bereitstellung einer Unterbrechung und einer erforderlichen Rekonfiguration der Mikrofonanordnung für die Datenübertragung (beispielsweise Taktsynchronisation) gepufferte Daten mit Echtzeitdaten gemultiplext und die gemultiplexten Daten auf einem Datenkontakt der externen Vorrichtung getaktet. Das Multiplexen erfolgt, bis der gepufferte Datenstrom mit dem Echtzeit-Datenstrom übereinstimmt und sich in einigen Implementierungen mit diesem überschneidet. Wie bereits erwähnt, gewährleistet eine gewisse zeitliche Überlappung die Kontinuität des Übergangs und ermöglicht reduzierte Übergangsartefakte. In 2 multipliziert ein Multiplexer 180 Daten, die aus dem Puffer 182 erhalten wurden, mit Echtzeitdaten, die aus dem Konverter 180 erhalten wurden. In einer Ausführungsform werden die Echtzeitdaten an einer Flanke eines Taktsignals und die gepufferten Daten an einer anderen Flanke des Taktsignals getaktet. Das Taktsignal kann auf einem externen Takt basieren.
-
In einigen Ausführungsformen führt die Mikrofonvorrichtung, wie vorstehend vorgeschlagen, nur die Spracherkennung und -authentifizierung durch, ohne eine Sprachaktivitätserkennung oder Geräuschunterdrückung durchzuführen. In solchen Implementierungen versucht die Mikrofonanordnung zunächst, Sprachmerkmale in dem vom Wandler erzeugten elektrischen Signal zu erfassen, ohne vorher eine Sprachaktivitätserkennung durchzuführen. Ein solcher Ansatz kann mehr Strom verbrauchen, insbesondere in Immer-An-Anwendungen. Einige Anwendungen haben jedoch keine starken Leistungseinschränkungen, z. B. Geräte, die durch den Anschluss an ein Stromnetz versorgt werden. Ein solcher direkter Ansatz kann die Antwortverzögerung bei Benutzereingaben verringern.
-
So umfasst eine akustische Mikrofonanordnung in einer Implementierung einen elektroakustischen MEMS-Sensor und eine in einem Gehäuse des Mikrofons angeordnete elektrische Schaltung. Die elektrische Schaltung umfasst einen Speicher, der prozessorausführbaren Code speichert, der einen Sprachcharakteristik-Erfassungsabschnitt und einen Authentifizierungsabschnitt umfasst. 2 zeigt das Spracherkennungscodesegment 164 und das Authentifizierungscodesegment 166 als diskrete Komponenten, aber diese Segmente können in einem einzigen Programm kombiniert werden. In dieser Ausführungsform gibt es keine Pufferung oder Rauschunterdrückung, da diese Programmabschnitte nicht benötigt werden oder deaktiviert werden können. Somit ist der Prozessor bei der Ausführung des prozessorausführbaren Codes konfiguriert, um zu bestimmen, ob eine Sprachcharakteristik im elektrischen Signal vorhanden ist, den Versuch, die Sprachcharakteristik erst nach dem Bestimmen der Sprachcharakteristik zu authentifizieren, und ein Unterbrechungssignal an die externe Geräteschnittstelle nur bei erfolgreicher Authentifizierung der Sprachcharakteristik bereitzustellen. In einigen Implementierungen dieser Ausführungsform werden Daten, die das elektrische Signal repräsentieren, in einem Puffer gepuffert, während bestimmt wird, ob die Sprachcharakteristik vorhanden ist, und während versucht wird, die Sprachcharakteristik zu authentifizieren.
-
In anderen Ausführungsformen umfasst der ausführbare Algorithmus einen Sprachaktivitätserkennungsabschnitt, wobei der Prozessor bei Ausführung des Algorithmus konfiguriert ist, um zu bestimmen, ob Sprachaktivität im elektrischen Signal vorhanden ist, und wobei der Prozessor konfiguriert ist, um zu bestimmen, ob die Sprachcharakteristik erst nach dem Bestimmen, dass Sprachaktivität vorhanden ist, vorhanden ist. In Implementierungen dieser Ausführungsform können Daten, die das elektrische Signal repräsentieren, auch im Puffer gepuffert werden, während bestimmt wird, ob eine Sprachaktivität vorhanden ist, während bestimmt wird, ob die Sprachcharakteristik vorhanden ist, und während versucht wird, die Sprachcharakteristik zu authentifizieren.
-
Wie hierin erläutert, wird ein Großteil der Funktionalität der Mikrofonanordnung durch eine integrierte Schaltung der Mikrofonvorrichtung ausgeführt. Die integrierte Schaltung umfasst im Allgemeinen einen Eingang, der konfiguriert ist, um ein elektrisches Signal zu empfangen, das für akustische Energie repräsentativ ist, einen Signalwandler, der mit dem Eingang gekoppelt und konfiguriert ist, um ein digitales Signal aus dem elektrischen Signal zu erzeugen, einen Speicher, der einen prozessorausführbaren Algorithmus speichert, der wenigstens einen Sprachcharakteristik-Erfassungsabschnitt und einen Sprachauthentifizierungsabschnitt umfasst, und einen Prozessor, der mit dem Speicher, dem Signalwandler und einer Schnittstelle der integrierten Schaltung gekoppelt ist. Bei der Ausführung des prozessorausführbaren Algorithmus ist der Prozessor konfiguriert, um zu bestimmen, ob eine Sprachcharakteristik im elektrischen Signal vorhanden ist, den Versuch, die Sprachcharakteristik nur dann zu authentifizieren, wenn die Sprachcharakteristik vorhanden ist, während Daten, die das digitale Signal repräsentieren, im Puffer gepuffert sind, und ein Unterbrechungssignal an der Schnittstelle nur dann bereitzustellen, wenn die Sprachcharakteristik authentifiziert ist.
-
In einigen Ausführungsformen umfasst die integrierte Schaltung optional einen mit dem Signalwandler gekoppelten Puffer, und der Prozessor ist konfiguriert, um Daten während der Spracherkennung und Authentifizierung zu puffern, um einen möglichen Verlust von Sprache oder Spracheingabe zu vermeiden. In einer zugehörigen Ausführungsform umfasst der prozessorausführbare Algorithmus der integrierten Schaltung optional einen Sprachaktivitätserkennungsabschnitt, wobei der Prozessor nach Ausführung des prozessorausführbaren Algorithmus konfiguriert ist, um zu bestimmen, ob Sprachaktivität im elektrischen Signal vorhanden ist, während Daten, die das digitale Signal repräsentieren, im Puffer gepuffert sind, und der Prozessor konfiguriert ist, um zu bestimmen, ob die Sprachcharakteristik nur bei der Bestimmung, dass Sprachaktivität vorhanden ist, vorhanden ist.
-
In Ausführungsformen, die Pufferung umfassen, umfasst die integrierte Schaltung einen Multiplexer, der mit dem Puffer, dem Signalwandler und der Schnittstelle gekoppelt ist, wobei der Prozessor konfiguriert ist, um einen gemultiplexten Datenstrom vom Multiplexer zur Schnittstelle erst bereitzustellen, nachdem die Sprachcharakteristik authentifiziert wurde. Der gemultiplexte Datenstrom umfasst einen gepufferten Datenstrom und einen anschließend empfangenen Echtzeit-Datenstrom, der das elektrische Signal darstellt. Die integrierte Schaltung kann auch eine Protokollschnittstelle zum Konfigurieren von Ausgangsdaten umfassen, die der externen Vorrichtungsschnittstelle der Mikrofonanordnung gemäß einem bestimmten Protokoll bereitgestellt werden. Zu diesen Protokollen gehören unter anderem PDM, SoundWire, I2S und I2C.
-
In Implementierungen, bei denen die Mikrofonanordnung mit einer Host-Vorrichtung integriert ist, die während der Verarbeitung durch eine immer eingeschaltete Mikrofonanordnung schläft, umfasst die integrierte Schaltung der Mikrofonanordnung eine Taktschaltung, die konfiguriert ist, um ein internes Taktsignal bereitzustellen, wobei die integrierte Schaltung durch das interne Taktsignal getaktet wird, bevor das Unterbrechungssignal an der Schnittstelle der integrierten Schaltung bereitgestellt wird. In einigen Implementierungen ist das Unterbrechungssignal ein Host-Vorrichtungs-Wecksignal und die Taktschaltung ist konfiguriert, um die integrierte Schaltung basierend auf einem externen Taktsignal, das an der Schnittstelle als Reaktion auf das an der Schnittstelle bereitgestellte Host-Vorrichtungs-Wecksignal empfangen wird, zu taktet.
-
In einigen Ausführungsformen umfasst der prozessorausführbare Algorithmus der integrierten Schaltung optional einen Rauschunterdrückungsabschnitt, wobei der Prozessor bei Ausführung des prozessorausführbaren Algorithmus konfiguriert ist, um Rauschen im elektrischen Signal zu unterdrücken, wobei die Rauschunterdrückung die Genauigkeit der Spracherkennung oder Authentifizierung oder beides verbessert.
-
In 3 ist eine Mikrofonanordnung mit einer Host-Elektronikvorrichtung 200 integriert, deren Beispiele hierin offenbart sind. Die Host-Vorrichtung 200 kann eine Benutzerschnittstelle 210 umfassen, die spezifisch für den Typ der Host-Vorrichtung und ihre vorgesehene Anwendung ist. Die Benutzeroberfläche kann einen oder mehrere Bildschirme, einen Touchscreen, eine Tastatur, Tasten (beispielsweise eine Heimtaste, Lautstärketasten, eine Ein-/Aus-Taste usw.) und andere Oberflächenkomponenten umfassen. Die Host-Vorrichtung umfasst auch einen Nicht-Sprachsensor 220, der von anderen Elementen der Benutzeroberfläche getrennt oder mit diesen integriert sein kann, und eine elektrische Schaltung 250. Die externe Geräteschnittstelle der Mikrofonanordnung 100 ist mechanisch und elektrisch mit einer Kommunikationsschnittstelle 254 und dem Nicht-Sprachsensor 220 gekoppelt. Alternativ kann die Mikrofonanordnung über eine sichere drahtlose Verbindung mit dem Nicht-Sprachsensor gekoppelt werden.
-
Der Nicht-Sprachsensor 220 kann als Touch-Interface-Sensor, Fingerabdrucksensor, Bildsensor und andere Nicht-Sprachsensoren ausgeführt werden. So kann beispielsweise der Sensor als eine Kameravorrichtung ausgeführt sein oder diese umfassen, die konfiguriert ist, um die Durchführung von Netzhautabtastungen und/oder Gesichtserkennung zu erleichtern. Als ein weiteres Beispiel kann der Sensor ein Fingerabdruckscanner sein oder umfassen, der konfiguriert ist, um das Scannen eines Fingerabdrucks eines Bedieners der Benutzervorrichtung 200 zu erleichtern. Der Sensor 220 kann unter anderem auch als alphanumerische Eingabevorrichtung oder als Mustererkennungsschnittstelle ausgeführt sein.
-
In einer Ausführungsform erkennt und authentifiziert die Mikrofonanordnung 100 eine Benutzereingabe an den Nicht-Sprachsensor 220 der Host-Vorrichtung 200. In 2 ist der Prozessor bei der Ausführung des Authentifizierungscodesegments des Algorithmus konfiguriert, um das Vorhandensein des Nicht-Sprachsensors zu erkennen und zu versuchen, die Benutzereingaben zu authentifizieren. Gemäß dieser Ausführungsform stellt die Mikrofonanordnung eine Unterbrechung für die Host-Vorrichtung bereit, wenn der Eingang am Nicht-Sprachsensor erfolgreich authentifiziert wurde. Eine solche Konfiguration bietet immer eine Funktion zur Erkennung von Nicht-Spracheingaben, während die Host-Vorrichtung in den Ruhezustand versetzt wird. Die Host-Vorrichtung wird dadurch entlastet, dass sie den peripheren Nicht-Sprachsensor nicht aufwecken und nach Eingabe durchsuchen muss. So konfiguriert, kann das Host-Gerät entweder über Sprachbefehle oder andere traditionelle, nicht sprachgesteuerte Benutzerinteraktionen geweckt werden. In einer Ausführungsform ist der Nicht-Sprachsensor auch direkt mit der Host-Vorrichtung gekoppelt. Gemäß dieser Ausführungsform akzeptiert die Host-Vorrichtung Eingaben am Nicht-Sprachsensor, wenn der Host wach ist, aber nicht, wenn der Host schläft. Sollte also die Benutzeroberfläche bei wachem Host-Gerät gesperrt werden, kann der Benutzer die Schnittstelle mit dem Nicht-Sprachsensor ohne Kommunikation über die Mikrofonanordnung entsperren.
-
Während die Offenbarung und das, was derzeit als die beste Art und Weise davon angesehen wird, in einer Weise beschrieben wurde, die den Besitz des Erfinders begründet und es denjenigen mit gewöhnlichen Fähigkeiten in der Technik ermöglicht, dasselbe zu tun und zu benutzen, wird verstanden und anerkannt, dass es viele Äquivalente zu den hierin offenbarten Ausführungsformen gibt und dass unzählige Änderungen und Variationen daran vorgenommen werden können, ohne vom Umfang und Geist der Erfindung abzuweichen, die nicht durch die exemplarischen Ausführungsformen, sondern durch die beigefügten Ansprüche und ihre Äquivalente begrenzt werden sollen.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- US 62441145 [0001]
- US 14282101 [0001]
- US 9712923 [0001]
- US 61/826587 [0001]
- US 15259473 [0001]
- US 9711144 [0001]
- US 14797310 [0001]
- US 9478234 [0001]