DE112017006684T5 - Mikrofonanordnung mit authentifizierung - Google Patents

Mikrofonanordnung mit authentifizierung Download PDF

Info

Publication number
DE112017006684T5
DE112017006684T5 DE112017006684.0T DE112017006684T DE112017006684T5 DE 112017006684 T5 DE112017006684 T5 DE 112017006684T5 DE 112017006684 T DE112017006684 T DE 112017006684T DE 112017006684 T5 DE112017006684 T5 DE 112017006684T5
Authority
DE
Germany
Prior art keywords
signal
voice
interface
external device
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112017006684.0T
Other languages
English (en)
Inventor
Roland K. Bowler II
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Knowles Electronics LLC
Original Assignee
Knowles Electronics LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Knowles Electronics LLC filed Critical Knowles Electronics LLC
Publication of DE112017006684T5 publication Critical patent/DE112017006684T5/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4014Identity check for transactions
    • G06Q20/40145Biometric identity checks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R19/00Electrostatic transducers
    • H04R19/04Microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R19/00Electrostatic transducers
    • H04R19/005Electrostatic transducers using semiconductor materials
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/003Mems transducers or their use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Accounting & Taxation (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Eine Mikrofonanordnung wird offenbart, die einen Wandler für ein mikroelektromechanisches System (MEMS) und eine elektrische Schaltung umfasst, die in einem Gehäuse mit einer externen Geräteschnittstelle angeordnet ist. Die elektrische Schaltung ist konfiguriert, um zu bestimmen, ob eine Sprachcharakteristik in einem vom Wandler erzeugten elektrischen Signal vorhanden ist, um zu versuchen, die Sprachcharakteristik zu authentifizieren und ein Unterbrechungssignal an die externe Geräteschnittstelle nur bei erfolgreicher Authentifizierung der Sprachcharakteristik bereitzustellen.

Description

  • QUERVERWEIS AUF VERWANDTE ANWENDUNGEN
  • Diese Anmeldung beansprucht die Priorität der am 30. Dezember 2016 eingereichten U.S. Provisional Patent Application Nr. 62/441,145 . Die vorliegende Anmeldung bezieht sich auf die am 20. Mai 2014 eingereichte US-Anmeldung Nr. 14/282,101 mit dem Titel „VAD Detection Microphone and Method of Operating the Same“, jetzt U.S. Patent Nr. 9,712,923 , die die Priorität der am 23. Mai 2013 eingereichten US Provisional Patent Application Nr. 61/826,587 in Anspruch nimmt. Die vorliegende Anmeldung bezieht sich auch auf die am 8. September 2016 eingereichte US-Anmeldung Nr. 15/259,473 mit dem Titel „Microphone Apparatus and Method With Catch-up Buffer“, jetzt U.S. Patent Nr. 9,711,144 , die eine Fortsetzung der am 13. Juli 2015 eingereichten US-Anmeldung Nr. 14/797,310 ist, jetzt U.S. Patent Nr. 9,478,234 . Der Inhalt jeder der oben genannten Anmeldungen wird hierin durch Verweis in ihrer Gesamtheit aufgenommen.
  • GEBIET DER OFFENBARUNG
  • Die vorliegende Offenbarung bezieht sich im Allgemeinen auf Mikrofone und insbesondere auf Mikrofonkomponenten oder -baugruppen, integrierte Schaltungen und Verfahren zur Authentifizierung einer Benutzereingabe.
  • HINTERGRUND
  • Die folgende Beschreibung dient dem Verständnis des Lesers. Keine der genannten Informationen oder Referenzen gilt als Stand der Technik.
  • Die Sprachsteuerung wird zunehmend als bevorzugter Interaktionsmodus mit einer Vielzahl von elektronischen Vorrichtungen eingesetzt, darunter drahtlose Kommunikationshandys, Tablets, Laptops und PCs (PCs) unter anderem, sowie mit elektronischen Vorrichtungen, die in Fahrzeuge und Geräte eingebettet sind, sowie mit anderen Industrie- und Gebrauchsgütern. In einigen Fällen kann die Verwendung traditionellerer Benutzerauthentifizierungstechniken, die auf taktilen Eingaben (beispielsweise Passcodes, Fingerabdrücke und Mustererkennung) und visuellen Eingaben (beispielsweise Netzhaut- und Gesichtsscannen) basieren, den mit jeder Sprachinteraktion verbundenen Komfort mindern, da diese traditionelleren Ansätze eine Berührung oder visuelle Interaktion mit einer Benutzeroberfläche erfordern. Generell wird die Authentifizierungsverarbeitung typischerweise von Schaltungen auf dem elektronischen Gerät durchgeführt, was die Systemarchitektur verkompliziert und den Stromverbrauch potenziell erhöht, insbesondere in Immer-An-Anwendungen. Der Übergang solcher Vorrichtungen von einem Ruhezustand in einen höheren Leistungszustand, in dem Authentifizierungsschaltungen aktiviert sind, kann je nach Zeitpunkt des Übergangs zu Latenzzeiten oder unnötigem Stromverbrauch führen. Daher gibt es konkurrierende Wünsche, den Stromverbrauch zu senken und eine reaktionsfähige Benutzeroberfläche bereitzustellen, die den Erwartungen der Benutzer entspricht.
  • Figurenliste
  • Die Objekte, Merkmale und Vorteile der vorliegenden Offenbarung werden unter sorgfältiger Berücksichtigung der folgenden detaillierten Beschreibung und der beigefügten Ansprüche in Verbindung mit den nachstehend beschriebenen begleitenden Zeichnungen den gewöhnlichen Fachleuten in der Technik näher kommen.
    • 1 ist eine perspektivische Ansicht einer Mikrofonkomponente oder -baugruppe.
    • 2 ist ein schematisches Funktionsblockdiagramm der Mikrofonanordnung von 1.
    • 3 ist ein schematisches Blockdiagramm einer elektronischen Vorrichtung mit der Mikrofonkomponente von 1.
    • 4 ist ein schematisches Prozessdiagramm zur Durchführung der Sprachverarbeitung in einem Mikrofon.
  • In der folgenden Detailbeschreibung wird auf die beigefügten Zeichnungen verwiesen, die einen Teil davon bilden. In den Zeichnungen identifizieren ähnliche Symbole typischerweise ähnliche Komponenten, sofern der Kontext nichts anderes vorschreibt. Die offenbarten Ausführungsformen sind nicht so zu verstehen, dass sie die hierin enthaltenen Lehren einschränken, sondern vielmehr denjenigen, die über gewöhnliche Fähigkeiten in der Technik verfügen, ermöglichen, diese zu machen und zu nutzen. Diejenigen mit gewöhnlichen Fähigkeiten werden erkennen und verstehen, dass die repräsentativen Ausführungsformen in einer Vielzahl von Implementierungen mit vielen Anordnungen, Substitutionen, Kombinationen und Designs verkörpert werden können, die alle ausdrücklich in Betracht gezogen und Teil dieser Offenbarung sind.
  • AUSFÜHRLICHE BESCHREIBUNG
  • 1 veranschaulicht eine Mikrofonanordnung 100, die ein Substrat oder eine Basis 120 mit einer Abdeckung oder einem Deckel 130 umfasst, die sicher darauf angeordnet und durch einen Klebstoff, ein Lötmittel oder einen anderen bekannten Befestigungsmechanismus versiegelt ist. Basis und Deckel bilden zusammenwirkend ein Gehäuse 110 mit einem inneren Hohlraum 112, in dem ein Wandler und eine elektrische Schaltung wie im Folgenden beschrieben angeordnet sind. Die Basis kann als Schichtmaterial wie FR4 mit eingebetteten Leitern, die eine Leiterplatte bilden, ausgeführt werden. Die Abdeckung kann als Metalldose oder als geschichtetes FR4-Material ausgeführt sein, das auch eingebettete Leiter umfassen kann. Die Abdeckung oder der Deckel kann auch aus anderen Materialien wie Kunststoffen und Keramiken bestehen und kann auch eine elektromagnetische Abschirmung umfassen.
  • In einigen Ausführungsformen umfasst das Gehäuse externe Kontakte, die eine externe Geräteschnittstelle bilden, um mit einer externen Vorrichtung wie einem Host verbunden zu werden. In einer Ausführungsform umfasst die Schnittstelle Strom, Masse, Takt, Daten und ausgewählte Kontakte. Die einzelnen Kontakte, aus denen sich die Schnittstelle zusammensetzt, können teilweise von dem Protokoll abhängen, mit dem Daten zwischen der Mikrofonanordnung und der Host-Vorrichtung übertragen werden. Solche Protokolle umfassen unter anderem PDM, SoundWire, I2S und I2C sowie andere bekannte und zukünftige Protokolle.
  • In 1 ist die externe Geräteschnittstelle auf der Basis angeordnet, aber in anderen Ausführungsformen kann die Schnittstelle auch auf anderen Teilen des Gehäuses angeordnet sein. Eine Mikrofonanordnung mit einer externen Geräteschnittstelle kann auch als Oberflächenmontagevorrichtung zur Integration mit einem Host oder einer anderen Vorrichtung konfiguriert werden, beispielsweise durch Reflow- oder Wellenlöten auf eine Leiterplatte oder ein anderes Substrat. Alternativ kann die externe Geräteschnittstelle für das Durchlöten einer Montagefläche oder eines Substrats konfiguriert werden.
  • In einer Ausführungsform ist der Wandler ein mikroelektromechanisches (MEMS) System, das als kapazitiver Sensor ausgeführt ist, der hörbare Frequenzen erfassen kann (manchmal auch als Kondensatormikrofon bezeichnet). Alternativ kann der MEMS-Die auch als piezoelektrischer Sensor ausgeführt sein, der hörbare Frequenzen erfassen kann (manchmal auch als Kristallmikrofon bezeichnet). MEMS-Dies können aus einem Halbleitermaterial (beispielsweise Silizium) und anderen Materialien gebildet werden. In 1 ist der Wandler ein Sensor 140 für kapazitive mikroelektromechanische (MEMS) Systeme, der einen Motor 144 mit einer Membran und einer Rückplatte umfasst. In anderen Ausführungsformen können andere elektroakustische Wandler verwendet werden. In einigen Ausführungsformen erkennt der akustische Wandler auch Druckänderungen über und unter dem Frequenzbereich (beispielsweise 20Hz - 20kHz), die für den menschlichen Hörer hörbar sind.
  • Das Mikrofongehäuse umfasst auch eine akustische Öffnung, auch als Schallbohrung bezeichnet, die die Verbindung des Luftdrucks zwischen dem inneren Hohlraum und einer äußeren Umgebung ermöglicht. Die Öffnung kann auf dem Deckel, dem Boden oder einer Seitenwand angeordnet sein. Der Wandler ist innerhalb des Innenhohlraums so angeordnet, dass er Luftdruckänderungen über die Öffnung erfassen kann. In 1 ist ein Sensor 140 für kapazitive mikroelektromechanische (MEMS) Systeme auf der Basis 120 über eine Schallbohrung angeordnet. Eine solche Mikrofonmontagekonfiguration kann als untere Anschlussvorrichtung bezeichnet werden. In anderen Ausführungsformen kann der Wandler jedoch an einer bestimmten Struktur als innerhalb des Hohlraums mit Ausnahme der Basis angeordnet sein. So kann sich beispielsweise der Wandler in Ausführungsformen auf der Abdeckung befinden, bei denen die Öffnung auf der Abdeckung angeordnet ist. Eine solche Mikrofonmontagekonfiguration kann als Top-Port-Vorrichtung bezeichnet werden. Auch Side-Port-Geräte werden in Betracht gezogen. In anderen Implementierungen können andere Arten von Aufnehmern alternativ verwendet werden, wie hier vorgeschlagen. Die Funktionsprinzipien eines MEMS-Sensors, der in einem Gehäuse einer Mikrofonanordnung angeordnet ist, sind denjenigen mit gewöhnlichen Kenntnissen in der Technik gut bekannt und werden hier nicht weiter erläutert.
  • In 1 umfasst die Mikrofonanordnung eine elektrische Schaltung 150, die als eine oder mehrere integrierte Schaltungen (beispielsweise anwendungsspezifische integrierte Schaltungen (ASICs)) ausgeführt sein kann, die im inneren Hohlraum und in elektrischer Verbindung mit dem Wandler und den Kontakten der externen Geräteschnittstelle angeordnet sind. Die eine oder mehreren integrierten Schaltungen können teilweise oder vollständig in der Basis 120 oder an einer anderen Stelle im Hohlraum 112 montiert oder eingebettet sein. In 2 umfasst die elektrische Schaltung einen Signalwandler 180, der konfiguriert ist, um analoge Ausgangssignale in ein digitales Signal umzuwandeln. In einer Ausführungsform ist der Wandler als Sigma-Delta-Modulator ausgeführt, aber in anderen Ausführungsformen können alternativ auch andere A/D-Wandler verwendet werden. Das digitale Signal kann ein PDM- oder PCM-Signal sein, oder es kann ein anderes Signalformat haben, dessen Beispiele hierin beschrieben sind.
  • In Ausführungsformen, in denen die Host-Vorrichtung während der Verarbeitung durch die Mikrofonanordnung schläft, umfasst die elektrische Schaltung auch einen internen Taktsignalgenerator, der von einem lokalen Oszillator zum Takterzeugung der elektrischen Schaltung angetrieben wird. 2 zeigt die elektrische Schaltung mit einem internen Taktsignalgenerator 186 zu diesem Zweck. Der interne Taktsignalgenerator muss jedoch in Ausführungsformen, in denen die Host-Vorrichtung der Mikrofonanordnung jederzeit ein Taktsignal zur Verfügung stellt, nicht erforderlich sein.
  • In 2 umfasst die elektrische Schaltung auch einen Prozessor 152, der über den Umrichter 180 mit dem Wandler gekoppelt ist. In Ausführungsformen, die für das elektrische Signal repräsentative Daten puffern, die im Folgenden näher erläutert werden, ist der Prozessor auch mit einem Puffer 182 gekoppelt. In Ausführungsformen, in denen die Schaltung durch ein intern erzeugtes Taktsignal getaktet wird, ist der Prozessor mit dem internen Taktsignalgenerator 186 gekoppelt. Der Prozessor ist ebenfalls mit dem Speicher 158 gekoppelt und umfasst einen Ausgang, der mit dem externen Geräteschnittstelle 188 der Mikrofonanordnung gekoppelt ist. Der Speicher speichert prozessorausführbaren algorithmischen Code, der bei Ausführung durch den Prozessor den Prozessor konfiguriert, um verschiedene Funktionen an der Mikrofonanordnung auszuführen. In 2 umfasst der Speicher mehrere Codesegmente oder Abschnitte 160, 162, 164, 166, 166, 168 und 170, die verschiedenen Funktionen zugeordnet sind, die von der Mikrofonanordnung ausgeführt werden, wie hierin in Verbindung mit repräsentativen Ausführungsformen beschrieben. Nicht alle Ausführungsformen der Mikrofonanordnung umfassen alle in 2 dargestellten Codesegmente, wie hierin näher erläutert. Während 2 die Codesegmente als diskrete Elemente darstellt, können die Segmente je nach Architektur der Schaltung als ein oder mehrere Programme dargestellt werden. Auch wenn der Prozessor 152 als einzelner Prozessor dargestellt wird, kann er als mehrere Prozessoren implementiert werden. So kann beispielsweise ein Prozessor relativ weniger komplexe Operationen wie Sprachaktivitätserkennung und Datenpufferung durchführen, während ein anderer Prozessor, wie ein DSP, mit komplexeren Operationen wie Rauschunterdrückung, Spracherkennung und Authentifizierung beauftragt werden kann. Außerdem können der eine oder die mehreren Prozessoren so ausgelegt sein, dass sie bestimmte Funktionen durch spezielle Logikgatter ausführen, um die Verarbeitung zu beschleunigen. Wie vorgeschlagen, kann die elektrische Schaltung 150 am typischsten als integrierte Schaltung (IC) ausgeführt werden, die je nach gewünschter Architektur einen einzelnen IC oder mehrere ICs umfassen kann. Die Zuordnung verschiedener Funktionen zu verschiedenen Prozessoren kann wenigstens teilweise die Architektur der Programmsegmente bestimmen, die den hierin beschriebenen prozessorausführbaren algorithmischen Code bilden.
  • In 3 ist eine Mikrofonanordnung 100 in eine elektronische Vorrichtung oder einen Host 200 eingebettet oder anderweitig mit dieser integriert. Der Host kann als drahtloses Kommunikationshandy, Tablett, Laptop oder Personalcomputer (PC), Spielstation, tragbares oder stationäres Fernbedienungsgerät, tragbares Gerät wie eine intelligente Uhr und andere Geräte ausgeführt sein. Die Mikrofonanordnung kann auch in eine Vorrichtung wie Kühlschrank, Backofen, Waschmaschine, Trockner und andere langlebige Güter sowie in Industriemaschinen und Boden-, Luft- und Wasserfahrzeugen eingebettet sein. Die Integration der Mikrofonanordnung ermöglicht eine sprachgesteuerte Interaktion mit dem Hostgerät. In einigen Ausführungsformen ermöglicht die Mikrofonanordnung eine nicht sprachgesteuerte Interaktion mit der Host-Vorrichtung. Diese und andere Aspekte der Offenlegung werden im Folgenden näher erläutert.
  • Gemäß einem Aspekt der Offenbarung verarbeitet die Mikrofonanordnung Daten, die für ein elektrisches Signal repräsentativ sind, das vom Wandler erzeugt wird, während die Host-Vorrichtung, in die das Mikrofon integriert ist, in einem Niedrigleistungsmodus (beispielsweise einem Teil- oder Vollschlafmodus) arbeitet. Während der Host schläft, wird die Mikrofonanordnung durch ein internes Taktsignal getaktet, das von einem lokalen Oszillator erzeugt wird, da der schlafende Host möglicherweise nicht in der Lage ist, dem Mikrofon ein Taktsignal zur Verfügung zu stellen. Die Mikrofonanordnung weckt die Host-Vorrichtung anschließend nur bei Erfüllung eines oder mehrerer Kriterien, für die hierin Beispiele erläutert werden. Die Ausführung solcher Funktionen an der Mikrofonanordnung während des Ruhezustands der Host-Vorrichtung reduziert den Stromverbrauch des Hosts. Die Leistungsaufnahme der Mikrofonanordnung kann auch reduziert werden, indem das Mikrofon je nach Funktion mit unterschiedlichen Leistungsaufnahmen betrieben wird. Schaltkreise, die speziell für die vom Mikrofon ausgeführten Funktionen ausgelegt sind, ermöglichen auch eine effiziente Leistungsaufnahme des Mikrofons im Verhältnis zu der Leistung, die sonst von vielen Host-Vorrichtungen mit den gleichen Funktionen verbraucht würde. Dadurch kann das Mikrofon im Immer-An-Modus bei sehr niedrigen Leistungspegeln mit reduzierter Latenzzeit bei der Reaktion auf Benutzerbefehle betrieben werden. In anderen Ausführungsformen verarbeitet die Mikrofonanordnung jedoch Daten, die für ein elektrisches Signal repräsentativ sind, das vom Wandler erzeugt wird, während die Host-Vorrichtung wach bleibt. Repräsentative Ausführungsformen und Umsetzungsbeispiele werden ebenfalls diskutiert.
  • In verschiedenen Ausführungsformen implementiert die Mikrofonanordnung einen Teil oder den gesamten algorithmischen Prozess, der in 4 dargestellt ist. Bei 402 arbeitet die Mikrofonanordnung in einem ersten Leistungsmodus während der Sprachaktivitätserkennung, der als Sprachrauschenunterscheidung bezeichnet werden kann. Bei 404 bestimmt das Mikrofon, ob eine Sprachaktivität in dem vom Wandler erzeugten elektrischen Signal vorliegt. In 2 ist der Prozessor bei der Ausführung des im Speicher 158 gespeicherten VAD-Codes 162 konfiguriert, um zu bestimmen, ob Sprachaktivität im elektrischen Signal vorhanden ist, indem er Daten verarbeitet, die für das elektrische Signal repräsentativ sind. Alternativ kann die Sprachaktivitätserkennung auch durch gleichwertige Hardware oder eine Kombination aus Hard- und Software durchgeführt werden. Wie vorstehend vorgeschlagen, können diese Daten im PCM-Format, PDM-Format oder einem anderen Signalformat vorliegen. Verschiedene Schemata zur Erkennung von Stimmaktivität sind im Allgemeinen denen bekannt, die über gewöhnliche Fähigkeiten in der Technik verfügen, und solche Schemata werden hierin nicht weiter erläutert. Bei 406 wiederholt der Algorithmus im Sprachaktivitätserkennungsmodus, bis die Sprachaktivität erkannt wird. Bei der Sprachaktivitätserkennung, die in Immer-An-Anwendungen oft aktiviert ist, kann es wünschenswert sein, den Stromverbrauch zu reduzieren, insbesondere bei batteriebetriebenen Vorrichtungen. Die Leistungsaufnahme kann reduziert werden, indem nicht benötigte Schaltungen zur Sprachaktivitätserkennung deaktiviert und das Mikrofon mit einer niedrigen Frequenz getaktet wird. Die vom Sprachaktivitätsalgorithmus geforderte minimale Abtastrate kann jedoch eine untere Grenze für die Taktfrequenz in diesem Modus festlegen.
  • In 4, bei 410, leitet das Mikrofon nach dem Erfassen der Sprachaktivität die Erkennung der Sprachcharakteristik ein. Zu den Sprach- oder Sprachmerkmalen gehören Phoneme, Schlüsselwörter, Sprachbefehle, Phrasen usw., die zur Interaktion mit dem Mikrofon oder mit der Host-Vorrichtung über das Mikrofon verwendet werden. Somit unterscheidet sich die Erkennung von Sprachmerkmalen von der Erkennung von Sprachaktivitäten. In 2 ist der Prozessor bei der Ausführung des im Speicher 158 gespeicherten Sprachmerkmal-Erfassungscodes 164 konfiguriert, um zu versuchen, zu bestimmen, ob eine Sprachcharakteristik im elektrischen Signal vorhanden ist, indem er Daten verarbeitet, die das elektrische Signal darstellen. Alternativ kann die Spracherkennung auch durch gleichwertige Hardware oder eine Kombination aus Hard- und Software erfolgen. Wie vorstehend vorgeschlagen, kann die Spracherkennungsverarbeitung für Daten mit einem PCM-Format, einem PDM-Format oder einem anderen Format durchgeführt werden. Verschiedene Schemata zur Erkennung von Sprachmerkmalen sind denjenigen mit gewöhnlichen Fähigkeiten in der Technik allgemein bekannt, und solche Schemata werden hier nicht weiter erläutert.
  • Bei der Erkennung von Sprachmerkmalen wird der Stromverbrauch im Allgemeinen im Vergleich zum Stromverbrauch bei der Erkennung von Sprachaktivitäten erhöht, was zum Teil auf eine zusätzliche Belastung des Prozessors zurückzuführen ist, die mit der Durchführung von Sprachaktivitäten und der Spracherkennung verbunden ist. So kann beispielsweise die Taktfrequenz erhöht oder ein anderer Prozessor aktiviert werden, um die Spracherkennungsfunktion auszuführen. Diese leistungsbezogenen Faktoren können vom Prozessor bei Ausführung des Leistungscodes 160 oder des Spracherkennungscodes 164 oder einer Kombination davon gesteuert werden. In Ausführungsformen, in denen die Sprachaktivitätserkennung implementiert ist, erfolgt die Spracherkennung erst nach der Erkennung der Sprachaktivität. Auch bei 412 in 4, wenn Sprache während der Spracherkennung nicht erkannt wird, wechselt die Schaltung bei 402 in den Sprachaktivitätserkennungsmodus mit geringerer Leistung.
  • In 4 bei 416 versucht das Mikrofon bei Spracherkennung, die erfasste Sprache zu authentifizieren. Wie vorstehend vorgeschlagen, könnte ein solches Sprachmerkmal ein Schlüsselwort oder eine Phrase sein, beispielsweise „OK Knowles“ oder ein anderes Wort oder Befehl. Die Authentifizierung stellt sicher, dass ein Benutzer, der versucht, über die Mikrofonanordnung mit der Host-Vorrichtung zu interagieren, dazu berechtigt ist. In 2 ist der Prozessor bei der Ausführung des Authentifizierungscodes 166 konfiguriert, um zu versuchen, die bei der Spracherkennung erkannte Sprachcharakteristik zu authentifizieren. Alternativ kann die Authentifizierung auch durch gleichwertige Hardware oder eine Kombination aus Hard- und Software erfolgen. Wie vorstehend vorgeschlagen, können die Daten, bei denen die Authentifizierungsverarbeitung stattfindet, das PCM-Format, das PDM-Format oder ein anderes Format sein. Verschiedene Schemata zur Authentifizierung von Spracheigenschaften sind im Allgemeinen denen gewöhnlicher Kunstfertigkeit bekannt, und solche Schemata werden hier nicht weiter erläutert.
  • Während der Authentifizierung kann der Stromverbrauch im Verhältnis zum Stromverbrauch bei der Spracherkennung erhöht werden, was zum Teil auf zusätzliche Verarbeitungslast zurückzuführen ist. So kann beispielsweise die Taktfrequenz erhöht oder ein anderer Prozessor aktiviert werden, um die mit der Authentifizierungsverarbeitung verbundene zusätzliche Last aufzunehmen. Diese leistungsbezogenen Faktoren können vom Prozessor bei Ausführung des Leistungscodes 160 oder des Authentifizierungscodes 166 oder einer Kombination davon gesteuert werden. Bei 418 in 4, wenn die erfasste Sprache nicht authentifiziert wird, wechselt die Schaltung in den Sprachaktivitätserkennungsmodus mit geringerer Leistung bei 402.
  • In 4, bei 420, wenn die erfasste Stimme erfolgreich authentifiziert wird, stellt die Mikrofonanordnung ein Unterbrechungssignal für eine externe Schnittstelle der Mikrofonanordnung zur Verfügung. Das Unterbrechungssignal kann viele verschiedene Formen annehmen. In einer Implementierung wird das von der Mikrofonanordnung erzeugte interne Taktsignal auf einem Kontakt der externen Geräteschnittstelle bereitgestellt. Alternativ ist die Unterbrechung ein High oder Low-Select-Signal, das auf dem externen Geräteschnittstelle der Mikrofonanordnung bereitgestellt wird. Das interne Taktsignal oder das Auswahlsignal kann an einem Auswahlkontakt oder einem anderen Kontakt der Schnittstelle bereitgestellt werden. In einer anderen Implementierung können Daten, die auf einem Datenkontakt der Schnittstelle bereitgestellt werden, als Interrupt interpretiert werden. Alternativ können auch andere Signale verwendet werden. In 2 ist der Prozessor bei Ausführung des Aktivierungscodes 170 konfiguriert, um das Unterbrechungssignal an der externen Geräteschnittstelle über eine Schnittstelle der elektrischen Schaltung bereitzustellen. Die Bereitstellung der Unterbrechung nach erfolgreicher Authentifizierung der erkannten Sprache auf der Mikrofonanordnung entbindet die Host-Vorrichtung wenigstens vorläufig von der Erfüllung dieser Funktion. In Ausführungsformen, in denen die Host-Vorrichtung schläft, reduziert die Authentifizierung vor dem Aufwachen des Hosts die Wahrscheinlichkeit, dass der Host unnötig geweckt wird. In einigen Anwendungen, unabhängig davon, ob der Host schläft oder nicht, kann die Host-Vorrichtung nach dem Empfang des Interrupts vom Mikrofon eine robustere Authentifizierungsverarbeitung durchführen.
  • Im Allgemeinen ist die elektrische Schaltung konfiguriert, um Daten bereitzustellen, die das elektrische Signal an die externe Geräteschnittstelle darstellen, nachdem, aber im Allgemeinen nicht vorher, die Unterbrechung an die externe Geräteschnittstelle bereitgestellt wurde. Somit zeigt die Unterbrechung an, dass die Mikrofonanordnung Daten für die Host-Vorrichtung enthält. In Ausführungsformen, in denen die Host-Vorrichtung während der Verarbeitung durch die Mikrofonanordnung schläft, kann die Unterbrechung auch ein Weckimpuls für die Host-Vorrichtung sein. In Ausführungsformen, in denen die Host-Vorrichtung während der Verarbeitung durch das Mikrofon nicht schläft, kann die Unterbrechung darauf hinweisen, dass die Mikrofonanordnung Daten zur Verfügung stellt, die der Host-Vorrichtung bereitgestellt werden müssen. In einer Implementierung stellt die Host-Vorrichtung der externen Geräteschnittstelle des Mikrofons ein externes Taktsignal zur Verfügung, beispielsweise auf einem externen Taktkontakt der Schnittstelle. Als Reaktion darauf taktet die elektrische Schaltung die Mikrofonanordnung basierend auf dem externen Taktsignal. So kann beispielsweise das interne Taktsignal mit einem externen Taktsignal mit etwa gleicher Frequenz synchronisiert werden. Alternativ kann die Mikrofonanordnung auch durch das externe Taktsignal getaktet werden, das eine andere Frequenz aufweisen kann als das interne Taktsignal des Mikrofons. In jedem Fall sind das Mikrofon und der Host synchronisiert. In Ausführungsformen, in denen die Host-Vorrichtung dem Mikrofon als Reaktion auf ein Unterbrechungssignal ein externes Taktsignal zur Verfügung stellt, kann das Mikrofon auf das externe Taktsignal warten, um die Synchronisation sicherzustellen, bevor es Daten an die externe Vorrichtungsschnittstelle sendet. In 2 umfasst die elektrische Schaltung eine externe Takterkennungsfunktion, die bestimmt, ob das Mikrofon über den internen Taktgeber oder über den externen Taktgeber getaktet werden soll. Das Mikrofon wird basierend auf dem externen Taktsignal getaktet, wenn der externe Takt am externen Geräteschnittstelle erkannt wird.
  • In einigen Ausführungsformen führt die Mikrofonanordnung eine Rauschunterdrückung bei Daten durch, die für das elektrische Signal repräsentativ sind, vor der Erkennung der Sprachcharakteristik oder wenigstens vor der Authentifizierung. Wie oben vorgeschlagen, kann die Rauschunterdrückung Teil eines robusteren Authentifizierungsprozesses sein, der nach einem erfolgreichen vorläufigen Authentifizierungsverfahren stattfindet. Wie hierin verwendet, umfasst die Rauschunterdrückung Rauschreduzierung, Sprachverbesserung, Echokompensation und andere Signalverarbeitung, die die Qualität der erfassten Sprach- oder Sprachsignale verbessert. Die Rauschunterdrückung kann verwendet werden, um die Genauigkeit der Spracherkennung, der Authentifizierung oder beider zu verbessern, kann dies jedoch auf Kosten eines höheren Bedarfs an Verarbeitungs- und Speicherressourcen und einer möglichen Verzögerung der Verarbeitung erfolgen. In 2 ist der Prozessor bei der Ausführung des Rauschunterdrückungscodes 168 konfiguriert, um Rauschen in Daten zu unterdrücken, die für das vom Wandler erzeugte elektrische Signal repräsentativ sind. Die Rauschunterdrückung kann vor oder nach der Spracherkennung durchgeführt werden. Die Daten, bei denen die Rauschunterdrückung stattfindet, können das PCM-Format, das PDM-Format oder ein anderes Format sein. Verschiedene Schemata zur Unterdrückung von Lärm sind im Allgemeinen denjenigen bekannt, die in der Technik gewöhnlich geschickt sind, und solche Schemata werden hier nicht weiter erläutert.
  • In einigen Ausführungsformen umfasst die elektrische Schaltung der Mikrofonanordnung in 2 einen Puffer 182, wobei Daten, die das vom Wandler erfasste elektrische Signal repräsentieren, während der Verarbeitung durch das Mikrofon gepuffert werden. Die Pufferung der Daten verhindert den Verlust von während der Verarbeitung empfangenen Daten, wie hierin beschrieben. Die gepufferten Daten können im PDM- oder PCM-Format oder in einem anderen Format vorliegen. In einigen Ausführungsformen kann die Abtastrate des digitalen Signals durch einen Dezimator reduziert werden, um den Bedarf an Verarbeitungs- und Speicherressourcen zu verringern. In einer Implementierung werden Daten von einem Sigma-Delta-Modulator dezimiert, um die Abtastrate und damit den Speicherbedarf für die Pufferung der Daten zu reduzieren. Die Abtastrate der aus dem Puffer gelesenen Daten kann durch einen Interpolator erhöht werden, um die Dezimierung vor der Pufferung zu kompensieren. Die Dezimierung und Interpolation wird durch den Konditionierungsblock 180 schematisch dargestellt. In der Praxis sind diese Geräte jedoch nicht unbedingt mit dem Signalwandler ko-lokalisiert. Der Sprachaktivitätsalgorithmus kann die Abtastrate der Daten begrenzen, so dass die Abtastrate der gepufferten Daten von der Abtastrate der Daten, an denen die Sprachaktivitätserkennung durchgeführt wird, abweichen kann. Das Format der gepufferten Daten kann sich vom Format der Daten unterscheiden, an denen die Sprachaktivitätserkennung durchgeführt wird. Die Pufferungsfunktion kann vom Prozessor beim Ausführen eines oder mehrerer Codesegmente, die im Speicher gespeichert sind, oder durch gleichwertige Hardware-Schaltungen gesteuert werden.
  • In Ausführungsformen, in denen die Mikrofonanordnung nur die Spracherkennung und -authentifizierung durchführt, ohne die Sprachaktivitätserkennung durchzuführen, erfolgt die Pufferung während der Spracherkennung und -authentifizierung. In diesem Fall verfügt der Puffer über genügend Kapazität, um Daten zu speichern, die für das vom Wandler erzeugte elektrische Signal repräsentativ sind, während der Zeit, die benötigt wird, um Sprache zu erfassen und zu authentifizieren, den Host aufzuwecken und das Mikrofon für die Datenübertragung zu konfigurieren. In Ausführungsformen, in denen die Mikrofonanordnung auch die Sprachaktivitätserkennung durchführt, erfolgt die Pufferung während der Sprachaktivitätserkennung, Spracherkennung und Authentifizierung. In diesem Fall muss der Puffer über eine ausreichende Kapazität verfügen, um Daten zu speichern, die das vom Wandler erzeugte elektrische Signal während der Zeit darstellen, die auch für die Sprachaktivitätserkennung benötigt wird. Bei Anwendung der Rauschunterdrückung kann eine zusätzliche Pufferkapazität erforderlich sein.
  • Im Allgemeinen werden nach erfolgreicher Authentifizierung und Unterbrechung der Host-Vorrichtung Daten an die externe Geräteschnittstelle übermittelt. Die vom Wandler erhaltenen Daten werden an die externe Geräteschnittstelle gestreamt, um mit der Host-Vorrichtung zu kommunizieren. In Ausführungsformen, die keine Pufferung umfassen, können nach der Authentifizierung empfangene Daten in Echtzeit an die externe Geräteschnittstelle übermittelt werden, und jede Sprache in den vor der Authentifizierung empfangenen Daten geht verloren. In Ausführungsformen, die eine Pufferung umfassen, kann der gesamte Sprachstrom rekonstruiert werden, indem die gepufferten Daten mit den nach der Authentifizierung empfangenen Daten verknüpft werden. Die Nähte können an der Mikrofonanordnung oder an der Host-Vorrichtung auftreten. Somit werden in Ausführungsformen, die Pufferung umfassen, sowohl gepufferte Daten als auch Daten, die nach einer Unterbrechung empfangen werden, an der externen Geräteschnittstelle bereitgestellt. In einigen Ausführungsformen gibt es einige zeitliche Überschneidungen zwischen gepufferten Daten und Echtzeitdaten, um die Kontinuität zu gewährleisten und Übergangsartefakte zu beseitigen oder zu reduzieren. In einer Ausführungsform werden die an die externe Geräteschnittstelle gelieferten Daten um die Zeit verzögert, die für die Verarbeitung benötigt wird, bevor die Unterbrechung Host Wake-up und jede Rekonfiguration des Mikrofons für die Datenübertragung bereitgestellt wird, aber diese Latenzzeit kann für einige Anwendungen unannehmbar sein. In einer weiteren Ausführungsform werden die gepufferten Daten schneller als in Echtzeit an die externe Vorrichtung geliefert. Schneller als Echtzeit kann bedeuten, dass diese Daten (beispielsweise die gepufferten Daten, die Echtzeitdaten usw.) schneller empfangen werden (d.h. übertaktet) oder dass Daten gleichzeitig und praktisch gleichzeitig (beispielsweise gemultiplext) gesendet werden.
  • In einer Implementierung werden nach Bereitstellung einer Unterbrechung und einer erforderlichen Rekonfiguration der Mikrofonanordnung für die Datenübertragung (beispielsweise Taktsynchronisation) gepufferte Daten mit Echtzeitdaten gemultiplext und die gemultiplexten Daten auf einem Datenkontakt der externen Vorrichtung getaktet. Das Multiplexen erfolgt, bis der gepufferte Datenstrom mit dem Echtzeit-Datenstrom übereinstimmt und sich in einigen Implementierungen mit diesem überschneidet. Wie bereits erwähnt, gewährleistet eine gewisse zeitliche Überlappung die Kontinuität des Übergangs und ermöglicht reduzierte Übergangsartefakte. In 2 multipliziert ein Multiplexer 180 Daten, die aus dem Puffer 182 erhalten wurden, mit Echtzeitdaten, die aus dem Konverter 180 erhalten wurden. In einer Ausführungsform werden die Echtzeitdaten an einer Flanke eines Taktsignals und die gepufferten Daten an einer anderen Flanke des Taktsignals getaktet. Das Taktsignal kann auf einem externen Takt basieren.
  • In einigen Ausführungsformen führt die Mikrofonvorrichtung, wie vorstehend vorgeschlagen, nur die Spracherkennung und -authentifizierung durch, ohne eine Sprachaktivitätserkennung oder Geräuschunterdrückung durchzuführen. In solchen Implementierungen versucht die Mikrofonanordnung zunächst, Sprachmerkmale in dem vom Wandler erzeugten elektrischen Signal zu erfassen, ohne vorher eine Sprachaktivitätserkennung durchzuführen. Ein solcher Ansatz kann mehr Strom verbrauchen, insbesondere in Immer-An-Anwendungen. Einige Anwendungen haben jedoch keine starken Leistungseinschränkungen, z. B. Geräte, die durch den Anschluss an ein Stromnetz versorgt werden. Ein solcher direkter Ansatz kann die Antwortverzögerung bei Benutzereingaben verringern.
  • So umfasst eine akustische Mikrofonanordnung in einer Implementierung einen elektroakustischen MEMS-Sensor und eine in einem Gehäuse des Mikrofons angeordnete elektrische Schaltung. Die elektrische Schaltung umfasst einen Speicher, der prozessorausführbaren Code speichert, der einen Sprachcharakteristik-Erfassungsabschnitt und einen Authentifizierungsabschnitt umfasst. 2 zeigt das Spracherkennungscodesegment 164 und das Authentifizierungscodesegment 166 als diskrete Komponenten, aber diese Segmente können in einem einzigen Programm kombiniert werden. In dieser Ausführungsform gibt es keine Pufferung oder Rauschunterdrückung, da diese Programmabschnitte nicht benötigt werden oder deaktiviert werden können. Somit ist der Prozessor bei der Ausführung des prozessorausführbaren Codes konfiguriert, um zu bestimmen, ob eine Sprachcharakteristik im elektrischen Signal vorhanden ist, den Versuch, die Sprachcharakteristik erst nach dem Bestimmen der Sprachcharakteristik zu authentifizieren, und ein Unterbrechungssignal an die externe Geräteschnittstelle nur bei erfolgreicher Authentifizierung der Sprachcharakteristik bereitzustellen. In einigen Implementierungen dieser Ausführungsform werden Daten, die das elektrische Signal repräsentieren, in einem Puffer gepuffert, während bestimmt wird, ob die Sprachcharakteristik vorhanden ist, und während versucht wird, die Sprachcharakteristik zu authentifizieren.
  • In anderen Ausführungsformen umfasst der ausführbare Algorithmus einen Sprachaktivitätserkennungsabschnitt, wobei der Prozessor bei Ausführung des Algorithmus konfiguriert ist, um zu bestimmen, ob Sprachaktivität im elektrischen Signal vorhanden ist, und wobei der Prozessor konfiguriert ist, um zu bestimmen, ob die Sprachcharakteristik erst nach dem Bestimmen, dass Sprachaktivität vorhanden ist, vorhanden ist. In Implementierungen dieser Ausführungsform können Daten, die das elektrische Signal repräsentieren, auch im Puffer gepuffert werden, während bestimmt wird, ob eine Sprachaktivität vorhanden ist, während bestimmt wird, ob die Sprachcharakteristik vorhanden ist, und während versucht wird, die Sprachcharakteristik zu authentifizieren.
  • Wie hierin erläutert, wird ein Großteil der Funktionalität der Mikrofonanordnung durch eine integrierte Schaltung der Mikrofonvorrichtung ausgeführt. Die integrierte Schaltung umfasst im Allgemeinen einen Eingang, der konfiguriert ist, um ein elektrisches Signal zu empfangen, das für akustische Energie repräsentativ ist, einen Signalwandler, der mit dem Eingang gekoppelt und konfiguriert ist, um ein digitales Signal aus dem elektrischen Signal zu erzeugen, einen Speicher, der einen prozessorausführbaren Algorithmus speichert, der wenigstens einen Sprachcharakteristik-Erfassungsabschnitt und einen Sprachauthentifizierungsabschnitt umfasst, und einen Prozessor, der mit dem Speicher, dem Signalwandler und einer Schnittstelle der integrierten Schaltung gekoppelt ist. Bei der Ausführung des prozessorausführbaren Algorithmus ist der Prozessor konfiguriert, um zu bestimmen, ob eine Sprachcharakteristik im elektrischen Signal vorhanden ist, den Versuch, die Sprachcharakteristik nur dann zu authentifizieren, wenn die Sprachcharakteristik vorhanden ist, während Daten, die das digitale Signal repräsentieren, im Puffer gepuffert sind, und ein Unterbrechungssignal an der Schnittstelle nur dann bereitzustellen, wenn die Sprachcharakteristik authentifiziert ist.
  • In einigen Ausführungsformen umfasst die integrierte Schaltung optional einen mit dem Signalwandler gekoppelten Puffer, und der Prozessor ist konfiguriert, um Daten während der Spracherkennung und Authentifizierung zu puffern, um einen möglichen Verlust von Sprache oder Spracheingabe zu vermeiden. In einer zugehörigen Ausführungsform umfasst der prozessorausführbare Algorithmus der integrierten Schaltung optional einen Sprachaktivitätserkennungsabschnitt, wobei der Prozessor nach Ausführung des prozessorausführbaren Algorithmus konfiguriert ist, um zu bestimmen, ob Sprachaktivität im elektrischen Signal vorhanden ist, während Daten, die das digitale Signal repräsentieren, im Puffer gepuffert sind, und der Prozessor konfiguriert ist, um zu bestimmen, ob die Sprachcharakteristik nur bei der Bestimmung, dass Sprachaktivität vorhanden ist, vorhanden ist.
  • In Ausführungsformen, die Pufferung umfassen, umfasst die integrierte Schaltung einen Multiplexer, der mit dem Puffer, dem Signalwandler und der Schnittstelle gekoppelt ist, wobei der Prozessor konfiguriert ist, um einen gemultiplexten Datenstrom vom Multiplexer zur Schnittstelle erst bereitzustellen, nachdem die Sprachcharakteristik authentifiziert wurde. Der gemultiplexte Datenstrom umfasst einen gepufferten Datenstrom und einen anschließend empfangenen Echtzeit-Datenstrom, der das elektrische Signal darstellt. Die integrierte Schaltung kann auch eine Protokollschnittstelle zum Konfigurieren von Ausgangsdaten umfassen, die der externen Vorrichtungsschnittstelle der Mikrofonanordnung gemäß einem bestimmten Protokoll bereitgestellt werden. Zu diesen Protokollen gehören unter anderem PDM, SoundWire, I2S und I2C.
  • In Implementierungen, bei denen die Mikrofonanordnung mit einer Host-Vorrichtung integriert ist, die während der Verarbeitung durch eine immer eingeschaltete Mikrofonanordnung schläft, umfasst die integrierte Schaltung der Mikrofonanordnung eine Taktschaltung, die konfiguriert ist, um ein internes Taktsignal bereitzustellen, wobei die integrierte Schaltung durch das interne Taktsignal getaktet wird, bevor das Unterbrechungssignal an der Schnittstelle der integrierten Schaltung bereitgestellt wird. In einigen Implementierungen ist das Unterbrechungssignal ein Host-Vorrichtungs-Wecksignal und die Taktschaltung ist konfiguriert, um die integrierte Schaltung basierend auf einem externen Taktsignal, das an der Schnittstelle als Reaktion auf das an der Schnittstelle bereitgestellte Host-Vorrichtungs-Wecksignal empfangen wird, zu taktet.
  • In einigen Ausführungsformen umfasst der prozessorausführbare Algorithmus der integrierten Schaltung optional einen Rauschunterdrückungsabschnitt, wobei der Prozessor bei Ausführung des prozessorausführbaren Algorithmus konfiguriert ist, um Rauschen im elektrischen Signal zu unterdrücken, wobei die Rauschunterdrückung die Genauigkeit der Spracherkennung oder Authentifizierung oder beides verbessert.
  • In 3 ist eine Mikrofonanordnung mit einer Host-Elektronikvorrichtung 200 integriert, deren Beispiele hierin offenbart sind. Die Host-Vorrichtung 200 kann eine Benutzerschnittstelle 210 umfassen, die spezifisch für den Typ der Host-Vorrichtung und ihre vorgesehene Anwendung ist. Die Benutzeroberfläche kann einen oder mehrere Bildschirme, einen Touchscreen, eine Tastatur, Tasten (beispielsweise eine Heimtaste, Lautstärketasten, eine Ein-/Aus-Taste usw.) und andere Oberflächenkomponenten umfassen. Die Host-Vorrichtung umfasst auch einen Nicht-Sprachsensor 220, der von anderen Elementen der Benutzeroberfläche getrennt oder mit diesen integriert sein kann, und eine elektrische Schaltung 250. Die externe Geräteschnittstelle der Mikrofonanordnung 100 ist mechanisch und elektrisch mit einer Kommunikationsschnittstelle 254 und dem Nicht-Sprachsensor 220 gekoppelt. Alternativ kann die Mikrofonanordnung über eine sichere drahtlose Verbindung mit dem Nicht-Sprachsensor gekoppelt werden.
  • Der Nicht-Sprachsensor 220 kann als Touch-Interface-Sensor, Fingerabdrucksensor, Bildsensor und andere Nicht-Sprachsensoren ausgeführt werden. So kann beispielsweise der Sensor als eine Kameravorrichtung ausgeführt sein oder diese umfassen, die konfiguriert ist, um die Durchführung von Netzhautabtastungen und/oder Gesichtserkennung zu erleichtern. Als ein weiteres Beispiel kann der Sensor ein Fingerabdruckscanner sein oder umfassen, der konfiguriert ist, um das Scannen eines Fingerabdrucks eines Bedieners der Benutzervorrichtung 200 zu erleichtern. Der Sensor 220 kann unter anderem auch als alphanumerische Eingabevorrichtung oder als Mustererkennungsschnittstelle ausgeführt sein.
  • In einer Ausführungsform erkennt und authentifiziert die Mikrofonanordnung 100 eine Benutzereingabe an den Nicht-Sprachsensor 220 der Host-Vorrichtung 200. In 2 ist der Prozessor bei der Ausführung des Authentifizierungscodesegments des Algorithmus konfiguriert, um das Vorhandensein des Nicht-Sprachsensors zu erkennen und zu versuchen, die Benutzereingaben zu authentifizieren. Gemäß dieser Ausführungsform stellt die Mikrofonanordnung eine Unterbrechung für die Host-Vorrichtung bereit, wenn der Eingang am Nicht-Sprachsensor erfolgreich authentifiziert wurde. Eine solche Konfiguration bietet immer eine Funktion zur Erkennung von Nicht-Spracheingaben, während die Host-Vorrichtung in den Ruhezustand versetzt wird. Die Host-Vorrichtung wird dadurch entlastet, dass sie den peripheren Nicht-Sprachsensor nicht aufwecken und nach Eingabe durchsuchen muss. So konfiguriert, kann das Host-Gerät entweder über Sprachbefehle oder andere traditionelle, nicht sprachgesteuerte Benutzerinteraktionen geweckt werden. In einer Ausführungsform ist der Nicht-Sprachsensor auch direkt mit der Host-Vorrichtung gekoppelt. Gemäß dieser Ausführungsform akzeptiert die Host-Vorrichtung Eingaben am Nicht-Sprachsensor, wenn der Host wach ist, aber nicht, wenn der Host schläft. Sollte also die Benutzeroberfläche bei wachem Host-Gerät gesperrt werden, kann der Benutzer die Schnittstelle mit dem Nicht-Sprachsensor ohne Kommunikation über die Mikrofonanordnung entsperren.
  • Während die Offenbarung und das, was derzeit als die beste Art und Weise davon angesehen wird, in einer Weise beschrieben wurde, die den Besitz des Erfinders begründet und es denjenigen mit gewöhnlichen Fähigkeiten in der Technik ermöglicht, dasselbe zu tun und zu benutzen, wird verstanden und anerkannt, dass es viele Äquivalente zu den hierin offenbarten Ausführungsformen gibt und dass unzählige Änderungen und Variationen daran vorgenommen werden können, ohne vom Umfang und Geist der Erfindung abzuweichen, die nicht durch die exemplarischen Ausführungsformen, sondern durch die beigefügten Ansprüche und ihre Äquivalente begrenzt werden sollen.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 62441145 [0001]
    • US 14282101 [0001]
    • US 9712923 [0001]
    • US 61/826587 [0001]
    • US 15259473 [0001]
    • US 9711144 [0001]
    • US 14797310 [0001]
    • US 9478234 [0001]

Claims (26)

  1. Akustische Mikrofonanordnung, die umfasst: ein Gehäuse, das einen inneren Hohlraum und eine Schallbohrung definiert; einen mikroelektromechanischen System (MEMS) -Sensor, der innerhalb des inneren Hohlraums angeordnet ist, wobei der Sensor so positioniert ist, dass er Schall durch die Schallbohrung empfängt, und konfiguriert ist, um den Schall in ein elektrisches Signal umzuwandeln; eine externe Geräteschnittstelle, die auf einer Außenfläche des Gehäuses angeordnet ist; und eine elektrische Schaltung, die in dem inneren Hohlraum angeordnet ist, wobei die elektrische Schaltung einen Speicher umfasst, der einen ausführbaren Algorithmus speichert, der einen Sprachcharakteristik-Erfassungsabschnitt und einen Authentifizierungsabschnitt umfasst, wobei die elektrische Schaltung einen mit dem Sensor und der externen Geräteschnittstelle gekoppelten Prozessor umfasst, wobei bei Ausführung des Algorithmus der Prozessor konfiguriert ist zum: Bestimmen, ob eine Sprachcharakteristik im elektrischen Signal vorhanden ist; Versuchen, die Sprachcharakteristik erst zu authentifizieren, nachdem bestimmt wurde, dass die Sprachcharakteristik vorhanden ist; und Bereitstellen eines Unterbrechungssignals an die externe Geräteschnittstelle nur bei erfolgreicher Authentifizierung der Sprachcharakteristik.
  2. Anordnung nach Anspruch 1, wobei der ausführbare Algorithmus einen Sprachaktivitätserfassungsabschnitt umfasst, wobei bei der Ausführung des Algorithmus der Prozessor konfiguriert ist, um zu bestimmen, ob Sprachaktivität in dem elektrischen Signal vorhanden ist, und wobei der Prozessor konfiguriert ist, um zu bestimmen, ob die Sprachcharakteristik erst nach dem Bestimmen, dass Sprachaktivität vorhanden ist, vorhanden ist.
  3. Anordnung nach Anspruch 2, die des Weiteren einen Puffer umfasst, wobei Daten, die das elektrische Signal repräsentieren, in dem Puffer gepuffert werden, während bestimmt wird, ob eine Sprachaktivität vorhanden ist, während bestimmt wird, ob die Sprachcharakteristik vorhanden ist, und während versucht wird, die Sprachcharakteristik zu authentifizieren.
  4. Anordnung nach Anspruch 3, wobei die elektrische Schaltung einen lokalen Oszillator umfasst, der die Mikrofonanordnung mit einem internen Taktsignal taktet, bevor das Unterbrechungssignal an die externe Vorrichtungsschnittstelle geliefert wird.
  5. Anordnung nach Anspruch 4, wobei die Mikrofonanordnung mit einem ersten Leistungspegel während der Ausführung des Sprachaktivitätserfassungsabschnitts und mit einem zweiten Leistungspegel während der Ausführung des Sprachcharakteristik-Erfassungsabschnitts arbeitet, wobei der erste Leistungspegel kleiner als der zweite Leistungspegel ist.
  6. Anordnung nach Anspruch 5, wobei die elektrische Schaltung konfiguriert ist, um Daten bereitzustellen, die das elektrische Signal an die externe Vorrichtungsschnittstelle darstellen, nachdem, aber nicht vorher, die Unterbrechung an die externe Vorrichtungsschnittstelle bereitgestellt wurde, wobei wenigstens ein Teil der Daten, die der externen Vorrichtungsschnittstelle basierend auf den gepufferten Daten bereitgestellt wurden.
  7. Integrierte Schaltung für eine Mikrofonvorrichtung, wobei die integrierte Schaltung umfasst: einen Eingang, der konfiguriert ist, um ein elektrisches Signal zu empfangen, das für akustische Energie repräsentativ ist; einen Signalwandler, der mit dem Eingang gekoppelt und konfiguriert ist, um ein digitales Signal aus dem elektrischen Signal zu erzeugen; einen Puffer, der mit dem Signalwandler gekoppelt ist; einen Speicher, der einen prozessorausführbaren Algorithmus mit einem Sprachcharakteristik-Erfassungsabschnitt und einem Sprachauthentifizierungsabschnitt speichert; und einen Prozessor, der mit wenigstens einem der Speicher, dem Signalwandler und einer Schnittstelle der integrierten Schaltung gekoppelt ist, wobei bei der Ausführung des prozessorausführbaren Algorithmus der Prozessor konfiguriert ist zum: Bestimmen, ob eine Sprachcharakteristik im elektrischen Signal vorhanden ist, während Daten, die das digitale Signal darstellen, im Puffer gepuffert werden; Versuchen, die Sprachcharakteristik nur dann zu authentifizieren, wenn die Sprachcharakteristik vorhanden ist, während Daten, die das digitale Signal repräsentieren, in dem Puffer gepuffert werden; und Bereitstellen eines Unterbrechungssignal an der Schnittstelle nur dann, wenn die Sprachcharakteristik authentifiziert ist.
  8. Integrierte Schaltung nach Anspruch 7, wobei, der prozessorausführbare Algorithmus einen Sprachaktivitätserfassungsabschnitt umfasst, wobei bei Ausführung des prozessorausführbaren Algorithmus, der Prozessor konfiguriert ist, um zu bestimmen, ob Sprachaktivität im elektrischen Signal vorhanden ist, während Daten, die das digitale Signal darstellen, im Puffer gepuffert werden, der Prozessor konfiguriert ist, um zu bestimmen, ob die Sprachcharakteristik nur beim Bestimmen der vorhandenen Sprachaktivität vorhanden ist.
  9. Integrierte Schaltung nach Anspruch 8, wobei die Sprachcharakteristik wenigstens eines von einem Phonem, einem Schlüsselwort, einem Sprachbefehl oder einer Phrase umfasst.
  10. Integrierte Schaltung nach Anspruch 8, wobei der Prozessor konfiguriert ist, um die integrierte Schaltung in einer ersten Betriebsart während der Ausführung des Sprachaktivitätserfassungsabschnitts und in einer zweiten Betriebsart während der Ausführung des Sprachcharakteristik-Erfassungsabschnitts zu betreiben, wobei eine Leistungsaufnahme während der ersten Betriebsart geringer ist als eine Leistungsaufnahme während der zweiten Betriebsart.
  11. Integrierte Schaltung nach Anspruch 7, wobei der prozessorausführbare Algorithmus einen Rauschunterdrückungsabschnitt umfasst, wobei der Prozessor nach Ausführung des prozessorausführbaren Algorithmus konfiguriert ist, um Rauschen im elektrischen Signal zu unterdrücken, wobei die Rauschunterdrückung die Genauigkeit von wenigstens einem der Sprachmerkmalserkennung oder -authentifizierung verbessert.
  12. Integrierte Schaltung nach Anspruch 7, die des Weiteren einen Multiplexer umfasst, der mit dem Puffer, dem Signalkonverter und der Schnittstelle gekoppelt ist, wobei der Prozessor konfiguriert ist, um einen gemultiplexten Datenstrom vom Multiplexer an die Schnittstelle erst bereitzustellen, nachdem die Sprachcharakteristik authentifiziert ist, wobei der gemultiplexte Datenstrom einen gepufferten Datenstrom und einen für das elektrische Signal repräsentativen Echtzeit-Datenstrom umfasst, wobei der gemultiplexte Datenstrom an der Schnittstelle bereitgestellt wird, wenigstens bis ein Abschnitt des gepufferten Datenstroms einen Abschnitt des Echtzeit-Datenstroms überlappt.
  13. Integrierte Schaltung nach Anspruch 7, der des Weiteren eine Taktschaltung umfasst, die konfiguriert ist, um ein internes Taktsignal bereitzustellen, wobei der Prozessor durch das interne Taktsignal getaktet wird, bevor das Unterbrechungssignal an der Schnittstelle der integrierten Schaltung bereitgestellt wird.
  14. Integrierte Schaltung nach Anspruch 13, wobei das Unterbrechungssignal ein Host-Vorrichtungs-Wecksignal ist, und wobei die Taktschaltung konfiguriert ist, um die integrierte Schaltung basierend auf einem externen Taktsignal, das an der Schnittstelle als Reaktion auf das Host-Vorrichtungs-Wecksignal empfangen wird, das an der Schnittstelle bereitgestellt wird, zu taktieren.
  15. Verfahren in einer Mikrofonvorrichtung mit einem akustischen Sensor und einer elektrischen Schaltung, die in einem Gehäuse mit einer externen Geräteschnittstelle angeordnet ist, wobei das Verfahren umfasst: Erzeugen eines elektrischen Signals, das für die vom akustischen Sensor erfasste akustische Energie repräsentativ ist; Bestimmen, ob eine Sprachcharakteristik im elektrischen Signal vorhanden ist, während Daten, die das elektrische Signal darstellen, in einem Puffer der elektrischen Schaltung gepuffert werden; Versuchen, die Sprachcharakteristik zu authentifizieren, die bestimmt wurde, um im elektrischen Signal vorhanden zu sein, erst nach dem Bestimmen, dass die Sprachcharakteristik vorhanden ist, wobei die Authentifizierung an der Mikrofonvorrichtung erfolgt; und Bereitstellen eines Unterbrechungssignals an der externen Geräteschnittstelle erst nach erfolgreicher Authentifizierung der Sprachcharakteristik.
  16. Verfahren nach Anspruch 15, das des Weiteren Takten der Mikrofonvorrichtung mit einem Taktsignal umfasst, das von einem Oszillator der elektrischen Schaltung erhalten wird, bevor das Unterbrechungssignal an der externen Geräteschnittstelle bereitgestellt wird.
  17. Verfahren nach Anspruch 16, wobei das Unterbrechungssignal ein Host-Vorrichtungs-Wecksignal ist, wobei das Verfahren des Weiteren umfasst: Empfangen eines externen Taktsignals an der Schnittstelle der externen Vorrichtung als Reaktion auf das Bereitstellen des Wecksignals der Host-Vorrichtung; und Takterzeugung der Mikrofonvorrichtung mit dem Taktsignal, das wenigstens teilweise auf dem an der externen Geräteschnittstelle empfangenen externen Taktsignal basiert.
  18. Verfahren nach Anspruch 17, das des Weiteren Bereitstellen eines gepufferten Datenstroms umfasst, der mit einem Echtzeit-Datenstrom an der externen Vorrichtungsschnittstelle gemultiplext ist, nachdem die Sprachcharakteristik wenigstens so lange authentifiziert wurde, bis ein Teil des gepufferten Datenstroms einen Teil des Echtzeit-Datenstroms überlappt, wobei der gepufferte Datenstrom und der Echtzeit-Datenstrom repräsentativ für Teile des elektrischen Signals sind.
  19. Verfahren nach Anspruch 15, das des Weiteren umfasst: Bestimmen einer wahrscheinlichen Anwesenheit von Sprachaktivität im elektrischen Signal, wenn die Mikrofonvorrichtung in einem ersten Modus betrieben wird; Puffern von Daten, die für das elektrische Signal im Puffer repräsentativ sind, während das wahrscheinliche Vorhandensein von Sprachaktivität bestimmt wird; Bestimmen, ob die Sprachcharakteristik vorhanden ist, während die Mikrofonvorrichtung in einem zweiten Modus betrieben wird, nur nach dem Bestimmen des wahrscheinlichen Vorhandenseins von Sprachaktivität; Zurückkehren vom zweiten Modus in den ersten Modus, wenn die Sprachcharakteristik nicht vorhanden ist oder die Authentifizierung erfolglos ist; Takterzeugen der Mikrofonvorrichtung mit einem Taktsignal, das von einem Oszillator der Mikrofonvorrichtung erhalten wird, bevor das Unterbrechungssignal bereitgestellt wird, wobei eine Leistungsaufnahme des ersten Modus geringer ist als die Leistungsaufnahme des zweiten Modus.
  20. Verfahren nach Anspruch 15, das des Weiteren Durchführen einer Rauschunterdrückung von Daten umfasst, die für das elektrische Signal repräsentativ sind, bevor bestimmt wird, ob die Sprachcharakteristik vorhanden ist, wobei die Rauschunterdrückung an der Mikrofonvorrichtung auftritt.
  21. Akustische Mikrofonanordnung, die umfasst: ein Gehäuse mit einer externen Geräteschnittstelle, die auf einer Außenfläche des Gehäuses angeordnet ist; einen im Gehäuse angeordneten elektroakustischen Wandler; eine im Gehäuse angeordnete elektrische Schaltung, wobei die elektrische Schaltung konfiguriert ist zum: Bestimmen, ob eine Sprachcharakteristik in einem vom Wandler erzeugten elektrischen Signal vorhanden ist; Versuchen, die Sprachcharakteristik erst zu authentifizieren, nachdem bestimmt wurde, dass die Sprachcharakteristik vorhanden ist; und Bereitstellen eines Unterbrechungssignals an die externe Geräteschnittstelle nur bei erfolgreicher Authentifizierung der Sprachcharakteristik.
  22. Anordnung nach Anspruch 21, wobei die elektrische Schaltung konfiguriert ist, um zu bestimmen, ob Sprachaktivität in dem elektrischen Signal vorhanden ist, bevor bestimmt wird, ob die Sprachcharakteristik vorhanden ist.
  23. Anordnung nach Anspruch 22, wobei die elektrische Schaltung einen Puffer umfasst, wobei die elektrische Schaltung konfiguriert ist, um Daten zu puffern, die das elektrische Signal darstellen, während sie bestimmt, ob eine Sprachaktivität vorhanden ist, während sie bestimmt, ob die Sprachcharakteristik vorhanden ist, und während des Versuchs, die Sprachcharakteristik zu authentifizieren.
  24. Die Anordnung nach Anspruch 23, wobei die elektrische Schaltung einen lokalen Oszillator umfasst, der konfiguriert ist, um die Mikrofonanordnung zu taktet, bevor ein Unterbrechungssignal von der externen Geräteschnittstelle bereitgestellt wird.
  25. Anordnung nach Anspruch 24, wobei die elektrische Schaltung konfiguriert ist, um mit einem ersten Leistungspegel während der Ausführung des Sprachaktivitätserfassungsabschnitts zu arbeiten und mit einem zweiten Leistungspegel während der Ausführung des Sprachcharakteristik-Erfassungsabschnitts zu arbeiten, wobei der erste Leistungspegel kleiner als der zweite Leistungspegel ist.
  26. Die Anordnung nach Anspruch 25, wobei die elektrische Schaltung konfiguriert ist, um Daten bereitzustellen, die das elektrische Signal an die Schnittstelle der externen Vorrichtung darstellen, nachdem, aber nicht vorher, die Unterbrechung an die Schnittstelle der externen Vorrichtung bereitgestellt wurde, wobei wenigstens ein Teil der Daten, die an die Schnittstelle der externen Vorrichtung bereitgestellt wurden, basierend auf den gepufferten Daten.
DE112017006684.0T 2016-12-30 2017-12-29 Mikrofonanordnung mit authentifizierung Withdrawn DE112017006684T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662441145P 2016-12-30 2016-12-30
US62/441,145 2016-12-30
PCT/US2017/068980 WO2018126151A1 (en) 2016-12-30 2017-12-29 Microphone assembly with authentication

Publications (1)

Publication Number Publication Date
DE112017006684T5 true DE112017006684T5 (de) 2019-10-17

Family

ID=62710678

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112017006684.0T Withdrawn DE112017006684T5 (de) 2016-12-30 2017-12-29 Mikrofonanordnung mit authentifizierung

Country Status (4)

Country Link
US (1) US11163521B2 (de)
CN (1) CN110100259A (de)
DE (1) DE112017006684T5 (de)
WO (1) WO2018126151A1 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190183365A1 (en) * 2017-12-15 2019-06-20 Chia-Hsing Liu Capacitive accelerometer device and sensing method thereof
TWI713016B (zh) * 2019-01-03 2020-12-11 瑞昱半導體股份有限公司 語音偵測處理系統與語音偵測方法
WO2020210758A1 (en) * 2019-04-12 2020-10-15 Knowles Electronics, Llc Microphone device with communication interface
US11259104B2 (en) 2020-06-23 2022-02-22 Knowles Electronics, Llc Adapters for microphones and combinations thereof
CN115052235B (zh) * 2022-08-12 2022-12-06 深圳市乐可可电子商务有限公司 无线领夹麦克风低功耗方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US9712923B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc VAD detection microphone and method of operating the same

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6070140A (en) 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
US5822598A (en) 1996-07-12 1998-10-13 Ast Research, Inc. Audio activity detection circuit to increase battery life in portable computers
DE69831991T2 (de) 1997-03-25 2006-07-27 Koninklijke Philips Electronics N.V. Verfahren und Vorrichtung zur Sprachdetektion
US6249757B1 (en) 1999-02-16 2001-06-19 3Com Corporation System for detecting voice activity
US6397186B1 (en) 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
US8266451B2 (en) 2001-08-31 2012-09-11 Gemalto Sa Voice activated smart card
US6756700B2 (en) 2002-03-13 2004-06-29 Kye Systems Corp. Sound-activated wake-up device for electronic input devices having a sleep-mode
GB2405949A (en) 2003-09-12 2005-03-16 Canon Kk Voice activated device with periodicity determination
US7418392B1 (en) 2003-09-25 2008-08-26 Sensory, Inc. System and method for controlling the operation of a device by voice commands
US20060074658A1 (en) 2004-10-01 2006-04-06 Siemens Information And Communication Mobile, Llc Systems and methods for hands-free voice-activated devices
US7957972B2 (en) 2006-09-05 2011-06-07 Fortemedia, Inc. Voice recognition system and method thereof
NZ580288A (en) 2007-03-14 2012-07-27 Epos Dev Ltd A MEMS microphone including a case, a MEMS membrane, and a mesh covering
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8275148B2 (en) 2009-07-28 2012-09-25 Fortemedia, Inc. Audio processing apparatus and method
WO2012083552A1 (en) 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection
US8996381B2 (en) 2011-09-27 2015-03-31 Sensory, Incorporated Background speech recognition assistant
US8666751B2 (en) 2011-11-17 2014-03-04 Microsoft Corporation Audio pattern matching for device activation
CN103209379B (zh) * 2012-01-16 2015-09-02 上海耐普微电子有限公司 一种单线可编程的mems麦克风及其编程方法和系统
US9838810B2 (en) 2012-02-27 2017-12-05 Qualcomm Technologies International, Ltd. Low power audio detection
TWI474317B (zh) 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
EP2962403A4 (de) * 2013-02-27 2016-11-16 Knowles Electronics Llc Sprachgesteuerte kommunikationsverbindungen
US10395651B2 (en) 2013-02-28 2019-08-27 Sony Corporation Device and method for activating with voice input
US9349386B2 (en) 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
US9542933B2 (en) * 2013-03-08 2017-01-10 Analog Devices Global Microphone circuit assembly and system with speech recognition
US11393461B2 (en) * 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9112984B2 (en) 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US20140270259A1 (en) * 2013-03-13 2014-09-18 Aliphcom Speech detection using low power microelectrical mechanical systems sensor
US9809448B2 (en) * 2013-03-13 2017-11-07 Invensense, Inc. Systems and apparatus having MEMS acoustic sensors and other MEMS sensors and methods of fabrication of the same
US9703350B2 (en) 2013-03-15 2017-07-11 Maxim Integrated Products, Inc. Always-on low-power keyword spotting
EP2801974A3 (de) 2013-05-09 2015-02-18 DSP Group Ltd. Aktivierung niedriger Leistung einer sprachaktivierten Vorrichtung
US20140343949A1 (en) 2013-05-17 2014-11-20 Fortemedia, Inc. Smart microphone device
US9245527B2 (en) 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US20150112690A1 (en) 2013-10-22 2015-04-23 Nvidia Corporation Low power always-on voice trigger architecture
US10079019B2 (en) 2013-11-12 2018-09-18 Apple Inc. Always-on audio control for mobile device
US20150237429A1 (en) * 2014-02-14 2015-08-20 Knowles Electronics, Llc Microphone In Speaker Assembly
US20150256916A1 (en) * 2014-03-04 2015-09-10 Knowles Electronics, Llc Programmable Acoustic Device And Method For Programming The Same
CN203813960U (zh) * 2014-03-04 2014-09-03 钰太芯微电子科技(上海)有限公司 一种mems麦克风声学结构
US9799215B2 (en) * 2014-10-02 2017-10-24 Knowles Electronics, Llc Low power acoustic apparatus and method of operation
CN105430543A (zh) * 2016-01-07 2016-03-23 歌尔声学股份有限公司 数字麦克风和电子设备
CN109155881A (zh) * 2016-05-10 2019-01-04 罗伯特·博世有限公司 有音频信号检测的包括麦克风和低功率电路的微机电系统(mems)
WO2018039045A1 (en) * 2016-08-24 2018-03-01 Knowles Electronics, Llc Methods and systems for keyword detection using keyword repetitions
WO2018081278A1 (en) * 2016-10-28 2018-05-03 Knowles Electronics, Llc Transducer assemblies and methods

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9712923B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc VAD detection microphone and method of operating the same
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US9711144B2 (en) 2015-07-13 2017-07-18 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer

Also Published As

Publication number Publication date
WO2018126151A1 (en) 2018-07-05
US11163521B2 (en) 2021-11-02
CN110100259A (zh) 2019-08-06
US20200117417A1 (en) 2020-04-16

Similar Documents

Publication Publication Date Title
DE112017006684T5 (de) Mikrofonanordnung mit authentifizierung
DE112019001297B4 (de) Systeme und verfahren zur erfassung von geräuschen zur mustererkennungsverarbeitung
DE112014000709B4 (de) Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
DE112016003152T5 (de) Mikrofonvorrichtung und verfahren mit aufhol-zwischenspeicher
DE10391056B4 (de) Zusatzgerät-Steuerschnittstelle
CN111554321B (zh) 降噪模型训练方法、装置、电子设备及存储介质
DE112018002871T5 (de) System und verfahren zur audiomustererkennung
CN109643155A (zh) 具有振动器组件的设备壳体
DE112016005688T5 (de) System zur Tonerfassung und -erzeugung über Nasalvibration
CN104282307A (zh) 唤醒语音控制系统的方法、装置及终端
CN109119090A (zh) 语音处理方法、装置、存储介质及电子设备
DE112017005458T5 (de) Wandleranordnungen und verfahren
CN102480561A (zh) 不雅语音屏蔽装置及其方法
US20210201894A1 (en) N/a
CN109712623A (zh) 语音控制方法、装置及计算机可读存储介质
CN111323783A (zh) 场景识别方法、装置、存储介质及电子设备
DE102017109503A1 (de) Audiogeräteanordnungen in konvertierbaren elektronischen Geräten
CN105430724B (zh) 一种通信终端中的频段处理方法、装置及通信终端
DE112014005087B4 (de) Mikrofon-Einrichtung und Verfahren in einem Mikrofon
CN104049707B (zh) 永远接通低功率关键字检出
DE102013002963A1 (de) Steuerung unter Anwendung zeitlich und/oder spektral kompakter Audiobefehle
CN110517682A (zh) 语音识别方法、装置、设备及存储介质
CN105611061A (zh) 一种语音传输的方法、装置及移动终端
CN112885323A (zh) 音频信息处理方法、装置及电子设备
CN106331916A (zh) 一种选频装置及超声波麦克风及终端设备

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06Q0020400000

Ipc: G06F0003160000

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee