DE112019001297B4 - Systeme und verfahren zur erfassung von geräuschen zur mustererkennungsverarbeitung - Google Patents

Systeme und verfahren zur erfassung von geräuschen zur mustererkennungsverarbeitung Download PDF

Info

Publication number
DE112019001297B4
DE112019001297B4 DE112019001297.5T DE112019001297T DE112019001297B4 DE 112019001297 B4 DE112019001297 B4 DE 112019001297B4 DE 112019001297 T DE112019001297 T DE 112019001297T DE 112019001297 B4 DE112019001297 B4 DE 112019001297B4
Authority
DE
Germany
Prior art keywords
audio data
audio
speech
continuously
onset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112019001297.5T
Other languages
English (en)
Other versions
DE112019001297T5 (de
Inventor
Robert Zopf
Victor Simileysky
Ashutosh Pandey
Patrick Cruise
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cypress Semiconductor Corp
Original Assignee
Cypress Semiconductor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cypress Semiconductor Corp filed Critical Cypress Semiconductor Corp
Publication of DE112019001297T5 publication Critical patent/DE112019001297T5/de
Application granted granted Critical
Publication of DE112019001297B4 publication Critical patent/DE112019001297B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/162Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Abstract

Ein Verfahren, das Folgendes beinhaltet:Erfassen (402) einer ersten Vielzahl von Teilen von Audiodaten (110) durch periodisches Erfassen der Audiodaten mit ersten Intervallen;Detektieren (404) von Sprachbeginn (110.2) in den Audiodaten (110);als Reaktion auf das Detektieren des Sprachbeginns (110.2), Umschalten (406) von periodischem Erfassen der Audiodaten (110) auf kontinuierliches Erfassen der Audiodaten (110); undKombinieren (408) von mindestens einem erfassten Teil der ersten Vielzahl von Teilen von Audiodaten mit den kontinuierlich erfassten Audiodaten, um zusammenhängende Audiodaten bereitzustellen.

Description

  • VERWANDTE ANMELDUNGEN
  • Diese Anmeldung ist eine internationale Anmeldung der nicht provisorischen US-Patentanmeldung Nr. 16/016,344 , eingereicht am 22. Juni 2018, die das Prioritätsrecht aus der provisorischen US-Patentanmeldung Nr. 62/641,767 , eingereicht am 12. März 2018, in Anspruch nimmt, die alle hierin durch Bezugnahme in ihrer Gesamtheit einbezogen sind.
  • TECHNISCHES GEBIET
  • Der Gegenstand bezieht sich auf das Feld der Mustererkennungslösungen. Insbesondere, aber ohne Beschränkung, offenbart der Gegenstand Techniken zum Erfassen von Geräuschen zur Mustererkennungsverarbeitung.
  • HINTERGRUND
  • Vorrichtungen mit „Immer-eingeschaltet“- oder „Immer-Hören“-Schnittstellenfähigkeiten, wie etwa sprachfähige digitale Assistenten, Smart-Lautsprecher und Freisprechschnittstellen erfordern herkömmlicherweise einen konstanten Strom, der entweder den Batteriestrom erschöpft oder eine elektrische Steckdose erfordert. Teile von Vorrichtungen mit Spracherkennungsfähigkeiten können in einem Niedrigstromverbrauchsmodus bleiben, bis sprachähnliche Laute detektiert werden, wonach eine Phrasendetektion bestimmen kann, ob ein spezifisches Wort oder eine spezifische Phrase (d. h. eine Weckphrase) gesprochen wurde. Die Implementierung einer Weckphrasendetektion resultiert in erhöhtem Stromverbrauch, da Teile der Vorrichtung über längere Zeiträume in einem bestromten Zustand (z. B. „Immer-eingeschaltet“) bleiben.
  • Weiterhin sind die Offenbarungen der DE 10 2013 003 273 A1 , US 2014/0 270 197 A1 und US 2016 / 0 196 838 A1 gegebenenfalls hilfreich für das Verständnis der vorliegenden Erfindung.
  • Die DE 10 2013 003 273 A1 beschreibt Vorrichtungen und Verfahren zum Detektieren eines vorbestimmten Audiosignals in Audiosignalen. Eine Vorrichtung umfasst einen mit einem Taktsignalgenerator gekoppelten Prozessor, eine Leistungssteuerung und einen Audiodetektor. Die Leistungssteuerung steuert eine dem Prozessor durch den Taktsignalgenerator zugeführte Taktrate, um die Vorrichtung zu steuern, in einem Kleinleistungsmodus, der einen relativ niedrigen Stromverbrauch aufweist, oder in einem Normalleistungsmodus, der einen relativ hohen Stromverbrauch aufweist, zu arbeiten. Der Audiodetektor empfängt Audiosignale und detektiert im Kleinleistungsmodus eine wahrscheinliche Anwesenheit eines vorbestimmten Audiosignals in den Audiosignalen. Die Leistungssteuerung steuert die Vorrichtung, in Reaktion auf die detektierte Anwesenheit des vorbestimmten Audiosignals durch den Audiodetektor vom Kleinleistungsmodus in den Normalleistungsmodus umzuschalten.
  • In der US 2014 / 0 270 197 A1 werden Systeme und Verfahren beschrieben, die ein Audio-Frontend eines mobilen Geräts verwenden, um während eines ersten Abschnitts eines periodischen Erfassungsfensters Audiosignale aus einem Audiosignal abzutasten. Der Stromverbrauch einer oder mehrerer Komponenten des Audio-Frontends wird während eines zweiten Abschnitts des periodischen Erfassungsfensters reduziert. Darüber hinaus kann, zumindest teilweise auf der Grundlage des abgetasteten Audiosignals, bestimmt werden, ob eine Sprachaktivität im Audiosignal vorhanden ist. In einem Beispiel werden die Länge des ersten Abschnitts und die Länge des zweiten Abschnitts durch ein Tastverhältnis des periodischen Erfassungsfensters definiert.
  • Die US 2016 / 0 196 838 A1 beschreibt Systeme und Verfahren zur Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung. Ein Beispielverfahren umfasst das Empfangen eines ersten akustischen Signals, das wenigstens einen von einem digitalen Mikrofon aufgenommenen Ton angibt. Das erste akustische Signal enthält gepufferte Daten, die auf einem einzigen Kanal mit einer ersten Taktfrequenz übertragen werden. Das digitale Mikrofon kann eine Sprachaktivitätserkennung bereitstellen. Das Beispielverfahren umfasst auch das Empfangen wenigstens eines zweiten akustischen Signals, das den wenigstens einen Ton angibt, der von wenigstens einem zweiten Mikrofon aufgenommen wird, wobei das wenigstens eine zweite akustische Signal Echtzeitdaten enthält. Das erste und das zweite akustische Signal werden einem Audioverarbeitungssystem zur Verfügung gestellt, das eine Rauschunterdrückung und eine Schlüsselworterkennung umfassen kann. Der gepufferte Teil kann mit einer höheren, zweiten Taktfrequenz gesendet werden, um eine Verzögerung des ersten akustischen Signals aus dem zweiten akustischen Signal zu entfernen. Das Bereitstellen der Signale kann auch das Verzögern des zweiten akustischen Signals umfassen.
  • Figurenliste
  • Einige Ausführungsformen werden beispielhaft und nicht beschränkend in den Figuren der beiliegenden Zeichnungen illustriert, in denen:
    • 1 eine Blockdarstellung ist, die eine vernetzte Audioverarbeitungsvorrichtung gemäß verschiedenen Ausführungsformen illustriert;
    • 2 eine Blockdarstellung ist, die Komponenten einer Audioverarbeitungsvorrichtung gemäß Ausführungsformen illustriert;
    • 3 eine Blockdarstellung ist, die Stromdomänen einer Audioverarbeitungsvorrichtung gemäß Ausführungsformen illustriert;
    • 4 eine Flussdarstellung ist, die ein Verfahren zum periodischen Erfassen von Audiodaten, um zusammenhängende Audiodaten zur Spracherkennung bereitzustellen, gemäß Ausführungsformen illustriert;
    • 5 eine interaktive Zeitsteuerungsdarstellung ist, die das periodische Erfassen von Audiodaten gemäß einer Ausführungsform illustriert;
    • 6 eine Tabellendarstellung ist, die die resultierende prozentuale Erkennung einer Weckphrase gemäß Ausführungsformen illustriert;
    • 7 eine Flussdarstellung ist, die ein Verfahren zur periodischen Aktivierungsschwellenberechnung gemäß Ausführungsformen illustriert;
    • 8 eine interaktive Zeitsteuerungsdarstellung ist, die eine periodische Aktivierungsschwellenberechnung gemäß Ausführungsformen illustriert; und
    • 9 eine Blockdarstellung ist, die eine elektronische Vorrichtung gemäß Ausführungsformen illustriert.
  • DETAILLIERTE BESCHREIBUNG
  • Es werden Systeme und Verfahren zur Erfassung von Geräuschen zur Mustererkennung beschrieben. In der folgenden Beschreibung werden, zum Zwecke der Erklärung, zahlreiche Beispiele und Ausführungsformen dargelegt, um ein gründliches Verständnis des beanspruchten Gegenstands bereitzustellen. Es wird einem Fachmann auf dem Gebiet jedoch klar sein, dass der beanspruchte Gegenstand in anderen Ausführungsformen praktisch umgesetzt werden kann. Einige Ausführungsformen werden nun kurz vorgestellt und dann ausführlich zusammen mit anderen Ausführungsformen beginnend mit 1 erläutert.
  • Smart-Lautsprecher, Hörgeräte, sprachgesteuerte Hubs, Mobiltelefone, weiße Waren und industrielle Maschinen sind Beispiele für Produkte, die zunehmend sprachschnittstellenfähig sind. Systeme, die „Immer-eingeschaltet“- oder „Immer-Hören“-Sprachschnittstellenfähigkeiten bereitstellen, können mehrere Stromdomänen umfassen, die jeweils in einem oder mehreren Stromverbrauchszuständen arbeiten können. Zum Beispiel kann eine Weckphrasendetektionsstromdomäne in einem Niedrigstromverbrauchsmodus bleiben, bis eine Sprachbeginndetektionsstromdomäne sprachähnliche Laute detektiert. Danach wird die Aufweckphrasendetektionsstromdomäne in einen aktiven Modus überführt, um eine Aufweckphrasendetektion durchzuführen. Ein typischer Aufweckphrasendetektor (Wake Up Phrase Detector, WUPD) erfordert die Geräusche (z. B. die führenden Geräusche oder Hintergrundgeräusche), die der Weckphrase vorausgehen, sodass er die gesamte Weckphrase verarbeiten kann, und zur Geräuschstatistikschätzung. Bei existierenden Techniken wird der Systemstrom durch die Sprachbeginndetektionsstromdomäne dominiert, da ihre Mikrofone stets eingeschaltet bleiben müssen, ihre Digitalisierungselektronik stets Hochqualitätsaudio bereitstellen muss und ihre Speicherpuffer stets bestromt sein müssen, verwaltet werden müssen und die Hintergrundgeräusche für den WUPD erfassen müssen.
  • Hierin beschriebene Ausführungsformen können den durch eine Audioverarbeitungsvorrichtung verbrauchten Strom durch periodisches Erfassen der Hintergrundgeräusche für spätere Verwendung durch den WUPD reduzieren, während Spracherkennungsraten bereitgestellt werden, die mit jenen vergleichbar sind, die von Vorrichtungen bereitgestellt werden, die konstant und wiederholt Hintergrundgeräusche erfassen. Folglich muss ein Mikrofon der offenbarten Audioverarbeitungsvorrichtung nicht immer vollständig bestromt sein und kann der Sprachbeginndetektor (Speech Onset Detector, SOD) eine Sprachbeginndetektion unter Verwendung von Audiodaten mit niedriger Qualität als jene, die von WUPD dem verwendet werden, durchführen. Bei Ausführungsformen können periodisch erfasste Hintergrundgeräusche auch verwendet werden, um zu bestimmen, ob eine Aktivierungsschwelle des Mikrofons verstellt werden soll, um unnötigen Stromverbrauch durch den SOD zu vermeiden. Verglichen mit früheren Techniken können Ausführungsformen „Immer-eingeschaltet“- oder „Immer-Hören“-Funktionalität mit niedrigerem Stromverbrauch ermöglichen. Diese und andere Ausführungsformen werden hierin ausführlicher beschrieben.
  • Die nachstehende detaillierte Beschreibung umfasst Bezüge auf die beiliegenden Zeichnungen, die Teil der detaillierten Beschreibung bilden. Die Zeichnungen zeigen Illustrationen gemäß Ausführungsformen. Diese Ausführungsformen, die hierin auch als „Beispiele“ bezeichnet werden, werden ausführlich genug beschrieben, um es Fachleuten auf dem Gebiet zu ermöglichen, Ausführungsformen des beanspruchten Gegenstands auszuüben. Die Ausführungsformen können kombiniert werden, andere Ausführungsformen können benutzt werden oder strukturelle, logische und elektrische Änderungen können vorgenommen werden, ohne vom Umfang des beanspruchten Gegenstands abzuweichen. Die nachfolgende ausführliche Beschreibung ist daher nicht im einschränkenden Sinne zu verstehen und der Umfang wird durch die anhängenden Ansprüche und deren Äquivalente definiert.
  • 1 ist eine Blockdarstellung 100, die eine vernetzte Audioverarbeitungsvorrichtung 102 gemäß verschiedenen Ausführungsformen illustriert. Es wird gezeigt, dass die Audioverarbeitungsvorrichtung 102 mit der Mustererkennungsanwendung 112 und der gesteuerten Vorrichtung 103 über das/die Netzwerk(e) 114 gekoppelt ist. Die Audioverarbeitungsvorrichtung 102 wird eine Audiomustererkennung durch Verarbeiten von Audiodaten 110, die basierend auf einer oder mehreren der Schallwellen 105 und 107 (z. B. Audiosignalen), die von der Audiomusterquelle 104 bzw. der Geräuschquelle 106 empfangen werden, generiert werden, ermöglichen. Wie unten ausführlicher beschrieben wird, kann die Audioverarbeitungsvorrichtung 102 eine Audiomustererkennung ermöglichen, indem bestimmt wird, ob die Weckphrase 110.3 geäußert wurde. Bei einigen Ausführungsformen kann die Audioverarbeitungsvorrichtung 102 auch die Abfrage oder den Befehl 110.4 erkennen und/oder verarbeiten, die/der auf die Weckphrase 110.3 folgt. Die Audioverarbeitungsvorrichtung 102 muss nicht mit dem/den Netzwerk(en) 114 gekoppelt sein, um die hierin beschriebenen Ausführungsformen zu implementieren.
  • Die Audiomusterquelle 104 stellt die Schallwellen 105 bereit, die einem erkennbaren Audiomuster entsprechen. Bei Ausführungsformen ist ein Audiomuster ein vorher festgelegtes Audiomuster und/oder ein Audiomuster, das durch eine mit der Audioverarbeitungsvorrichtung 102 assoziierte Mustererkennungsanwendung erkennbar ist. Die Audiomusterquelle 104 kann belebt (z. B. menschlich) oder ein unbelebtes Objekt oder unbelebte Objekte (z. B. eine Maschine) sein.
  • Geräuschquellen 106 stellen die Schallwellen 107 bereit, die nicht dem erkennbaren Audiomuster oder den Schallwellen 105 entsprechen. Die Geräuschquellen 106 können ebenfalls belebt oder unbelebt sein und können Umfeld-/Umgebungsgeräusche von Lautsprechern, Fernsehgeräten, Videospiel, Straßenverkehrslärm, menschlichen Sprechern, industriellen oder anderen Geräuschquellen, die Umgebungsgeräusche generieren, umfassen.
  • Ein Netzwerk(e) 114 kann/können ein oder mehrere Arten von drahtgebundenen und/oder drahtlosen Netzwerken zum kommunikativen Koppeln der Netzwerkknoten von 1 miteinander umfassen. Zum Beispiel und nicht zur Beschränkung kann/können das/die Netzwerk(e) 114 ein drahtloses lokales Bereichsnetzwerk (Wireless Local Area Network, WLAN) (z. B. WiFi, 802.11-konform), PANs (z. B. Bluetooth-SIG-Standard oder Zigbee, IEEE-802.15.4-konform) und das Internet umfassen. Bei einer Ausführungsform ist die Audioverarbeitungsvorrichtung 102 über Wifi und das Internet mit der Mustererkennungsanwendung 112 kommunikativ gekoppelt und über Bluetooth und/oder WiFi mit der gesteuerten Vorrichtung 103 gekoppelt.
  • Die Mustererkennungsanwendung 112 arbeitet, um Audiomuster zu erkennen und die erkannten Audiomuster mit einer entsprechenden Bedeutung zu assoziieren. Die Mustererkennungsanwendung 112 kann auf einer oder mehreren Rechenvorrichtungen vorliegen, die über die Verbindung(en) mit dem/den Netzwerk(en) 114 gekoppelt sind, und Prozessoren, Speicher, Elektronik, arithmetische Logik, Software, Algorithmen und Datenstrukturen verwenden oder durch diese implementiert werden, um Attribute von hörbarem Schall, einschließlich Höhe, Lautstärke, Ton, sich wiederholende oder rhythmische Laute und/oder sprachliche Laute, wie etwa Wörter, Phrasen und dergleichen, zu organisieren und zu verarbeiten. Bei einigen Ausführungsformen erkennt die Mustererkennungsanwendung 112 den Befehls- oder Abfrageteil 110.4 der Audiodaten 110 als Reaktion auf das Detektieren oder Erkennen des Weckphrasenteils (110.3) der Audiodaten 110 durch die Audioverarbeitungsvorrichtung 102. Bei anderen Ausführungsformen kann die Mustererkennungsanwendung 112 auf der Audioverarbeitungsvorrichtung 102 selbst implementiert werden.
  • Bei einer Ausführungsform umfasst die Mustererkennungsanwendung 112 automatisierte Spracherkennungstechnologie (ASR-Technologie, ASR = Automated Speech Recognition), welche vorher festgelegte Audiomuster identifiziert und diese miteinander (z. B. unter Verwendung einer Datenstruktur) und/oder mit einer entsprechenden Bedeutung assoziiert. Durch die Mustererkennungsanwendung 112 erkennbare Muster können zum Beispiel und nicht zur Beschränkung Musikerkennung, Liederkennung, Stimmerkennung, Bilderkennung und Spracherkennung oder andere erfasste Muster ermöglichen. Bei Ausführungsformen stellt die Mustererkennungsanwendung 112 ihre Resultate der Audioverarbeitungsvorrichtung 102 bereit, welche nach dem Befehl oder der Abfrage handeln kann.
  • Es wird gezeigt, dass die gesteuerte Vorrichtung 103 über die Verbindung(en) mit dem/den Netzwerk(en) 114 gekoppelt ist. Die gesteuerte Vorrichtung 103 kann eine beliebige Vorrichtung mit einer Funktion, die als Reaktion auf eine durch die Audioverarbeitungsvorrichtung 102 ermöglichte Audiomustererkennung initiiert wird, umfassen. Bei einigen Ausführungsformen steuert die Audioverarbeitungsvorrichtung die gesteuerte Vorrichtung 103 basierend auf den Resultaten der durch die Mustererkennungsanwendung 112 durchgeführten Audiomustererkennung. Beispielhafte gesteuerte Vorrichtungen umfassen weiße Waren, Thermostate, Beleuchtung, automatisierte Verdunkelungen, automatisierte Türschlösser, Automobilsteuerungen, Fenster, industrielle Steuerungen und Betätigungsvorrichtungen. Wie hierin verwendet, können gesteuerte Vorrichtungen jede beliebige Logik, Firmware oder Softwareanwendung umfassen, die auf der gesteuerten Vorrichtung 103 laufen.
  • Wie oben vorgestellt, kann die Audioverarbeitungsvorrichtung 102 eine Audiomustererkennung durch Verarbeiten von Audiodaten 110 ermöglichen. Es wird gezeigt, dass die Audiodaten führende Geräusche 110.1 (z. B. Hintergrundgeräusche), Sprachbeginn 110.2, eine Weckphrase 110.3 und eine Abfrage oder einen Befehl 110.4 umfassen. Die führenden Geräusche 110.1 sind Audiodaten, die den Schallwellen 107 entsprechen, und umfassen Umgebungsgeräusche im Umfeld, die dem Beginn 110.2 vorausgehen. Der Sprachbeginn 110.2, die Weckphrase 110.3 und die Abfrage oder der Befehl 110.4 sind Audiodaten, die sowohl den Schallwellen 105 (z. B. der zu erkennenden Sprache) als auch den Schallwellen 107 (z. B. Umgebungsgeräuschen) entsprechen. Der Sprachbeginn 110.2 ist der Anfang der Sprache in den Audiodaten 110 und wird als anfänglicher Teil oder Teilsatz der Weckphrase 110.3 gezeigt. Die Weckphrase 110.2 ist eine vorher festgelegte Phrase, die von einem Benutzer geäußert wird (z. B. „ok Telefon“). Nachdem die Weckphrase 110.2 geäußert wurde, äußert der Benutzer die Abfrage oder den Befehl 110.3 (z. B. „die Tür aufsperren“), nach der/dem gehandelt werden soll (z. B. durch die gesteuerte Vorrichtung 103).
  • Um Strom zu sparen, kann die Audioverarbeitungsvorrichtung 102 eine Detektion der Weckphrase 110.3 nur dann versuchen, wenn die Audioverarbeitungsvorrichtung 102 bereits einen Sprachbeginn 110.2 detektiert hat. Gleichermaßen kann eine Spracherkennung des Befehls oder der Abfrage 110.4 nur dann versucht werden, wenn die Audioverarbeitungsvorrichtung 102 die Weckphrase 110.3 detektiert hat. Bei früheren „Immer-Hören“-Lösungen füllt die Audioverarbeitungsvorrichtung 102 kontinuierlich und wiederholt ihren Puffer mit den führenden Geräuschen 110.1 (z. B. 250 ms mit führenden Geräuschen) zur Verwendung beim Schätzen von Geräuschen (z. B. Umgebungsgeräuschen) und Vermeidung einer Phrasenverstümmelung. Die Vermeidung einer Phrasenverstümmelung bedeutet Bereitstellen der Weckphrase 110.3 zur Weckphrasendetektion ohne Verzögerung, die die Weckphrase 110.3 abschneidet oder verstümmelt. Eine Phrasenverstümmelung würde durch die Verzögerung beim Detektieren des Sprachbeginns und Wecken des WUPD verursacht werden. Folglich bleiben die Stromdomänen von früheren Lösungen, die mit einem kontinuierlichen und wiederholten Füllen des Puffers assoziiert sind, in einem aktiven Stromverbrauchsmodus, unabhängig davon, ob ein Sprachbeginn detektiert wird. Die geschätzten Geräusche unterstützen die Audioverarbeitungsvorrichtung 102 beim Beseitigen von Geräuschen (z. B. Umgebungsgeräuschen) von der Weckphrase 110.3 zwecks Weckphrasendetektion. Die kontinuierliche und wiederholte Erfassung (z. B. Abtasten und Puffern) der führenden Geräusche 110.1 kann einen erheblichen Stromverbrauch beinhalten, was speziell bei einer batteriebestromten Audioverarbeitungsvorrichtung Auswirkungen haben kann. Des Weiteren können Änderungen von Umgebungsgeräuschbedingungen falsche Positive bei der Sprachbeginndetektion auslösen.
  • Bei ihrer Untersuchung zur Lösung dieser und anderer technischer Herausforderungen stellten die Erfinder fest, dass sich Geräuschstatistiken (z. B. basierend auf Hintergrundgeräuschen 107) in einigen Umfeldern über einen relativ kurzen Zeitraum (z. B. 10-30 s) nicht erheblich ändern. Einige transiente Geräusche können auftreten (z. B. eine Autohupe), dies kann aber möglicherweise während des kontinuierlich gefüllten führenden Geräuschpuffers (z. B. 250 ms) auftreten, da dieser eine kurze Zeit davor liegt. Die Erfinder entdeckten, dass Abtasten und Puffern der Geräusche in periodischen Intervallen eine statistische Stichprobe der Geräusche bereitstellen kann, die hinreichend repräsentativ für die Geräusche ist, die bei den früheren Techniken kontinuierlich und wiederholt gesammelt wurden. Die Erfinder entdeckten außerdem, dass Verstümmelungen (z. B. bis zu 10 ms) möglicherweise zu keiner Verschlechterung der Weckphrasendetektionsrate führen und dass größere Verstümmelungen (z. B. 10-20 ms) auftreten können, bevor es zu einer erheblichen Verschlechterung der Detektionsrate kommt. Die Erfinder nutzten ihre Entdeckungen bei der Ausarbeitung der hierin beschriebenen erfinderischen technischen Systeme, Einrichtungen und Verfahren, die verglichen mit früheren Techniken eine Audiomustererkennung mit reduziertem Energieverbrauch ermöglichen, während sie mindestens vergleichbare Erkennungsraten bereitstellen.
  • 2 ist eine Blockdarstellung, die Komponenten einer Audioverarbeitungsvorrichtung 202 gemäß Ausführungsformen illustriert. Es wird gezeigt, dass die Audioverarbeitungsvorrichtung 202 funktionelle Blöcke umfasst, einschließlich einer Mikrofongruppierung 220, einer Audioschnittstelle 221, eines Schwellenberechnungsmoduls 222, SOD 223, einer Audioschnittstellensteuerung 224, eines Puffers 225, eines Kombinierers 226 und eines WUPD 228. Jeder funktionelle Block kann mit dem Bussystem 227 (z. B. 12C, 12S) gekoppelt und unter Verwendung von Hardware (z. B. Elektronik), Anweisungen (z. B. Software und/oder Firmware) oder einer Kombination von Hardware und Anweisungen implementiert werden. Bei einer Ausführungsform wird ein Teil oder die ganze Audioverarbeitungsvorrichtung 202 mittels Elektronik in einer integrierten Schaltungsvorrichtung (d. h. auf einem einzelnen integrierten Schaltungssubstrat) oder in einem einzelnen Vorrichtungspaket implementiert. Bei alternativen Ausführungsformen sind die Komponenten der Audioverarbeitungsvorrichtung 202 in mehreren integrierten Schaltungsvorrichtungen, Vorrichtungspaketen oder anderer Elektronik verteilt.
  • Die Mikrofongruppierung 220 dient dem Empfangen von Schallwellen, wie etwa 105 und 107 von 1. Jedes Mikrofon der Mikrofongruppierung 220 umfasst einen Wandler oder anderen Mechanismus (z. B. einen, der eine Membran umfasst), um die Energie von Schallwellen in ein elektronisches Signal oder digitales Signal (z. B. Audiodaten) umzuwandeln. Die Mikrofongruppierung 220 kann auch eine oder mehrere Mikrofone umfassen und wird hierin manchmal als Mikrofon 220 bezeichnet. Wenn die Schallwellen 105 und 107 während einer einheitlichen Periode empfangen werden, umfassen die Audiodaten Komponenten, die den beiden Schallwellen 105 und 107 entsprechen. Bei einigen Ausführungsformen können ein oder mehrere Mikrofone der Gruppierung 220 ein digitales Mikrofon sein. Die Mikrofongruppierung 220 kann Teil der Audioschnittstelle 221 oder eine separate periphere Vorrichtung sein, die außerhalb der Audioverarbeitungsvorrichtung 202 liegt, aber mit dem Bussystem 227 gekoppelt ist. Bei einigen Ausführungsformen kann die Mikrofongruppierung Schwellen-/Hystereseeinstellungen für die Aktivitätsdetektion und Mess- und/oder Verarbeitungslogik umfassen, um zu bestimmen, ob eine durch die Mikrofongruppierung 220 empfangene Schallwelle eine Aktivierungsschwelle erfüllt oder überschreitet und ob entsprechende Audiodaten zwecks Verarbeitung an den SOD 223 übermittelt werden sollen. Bei verschiedenen Ausführungsformen kann das Schwellenaktivitätsniveau ein Energieniveau, eine Amplitude, eine Frequenz oder ein anderes Attribut einer Schallwelle sein. Die Mikrofongruppierung 220 kann mit einem Speicher gekoppelt sein, der die Aktivierungsschwelle speichert, welche dynamisch neu programmiert werden kann (z. B. durch das Schwellenberechnungsmodul 222).
  • Die Audioschnittstelle 221 umfasst Elektronik zum Verarbeiten und Analysieren der Audiodaten, die von der Mikrofongruppierung 220 empfangen werden. Bei einigen Ausführungsformen digitalisiert die Audioschnittstelle 221 die elektronischen Audiosignale. Nachdem sie digitalisiert wurden, kann die Audioschnittstelle 221 Signalverarbeitung (z. B. Demodulation, Mischen, Filtern) bereitstellen, um Attribute der Audiodaten (z. B. Phase, Wellenlänge, Frequenz) zu analysieren oder zu manipulieren.
  • Bei einer Ausführungsform umfasst die Audioschnittstelle 221 ein Pulsdichtenmodulator-Frontende (PDM-Frontende), das mit der Mikrofongruppierung 220 verbunden ist. Im PDM-Frontende generiert der PDM einen pulsdichtenmodulierten Bitstream basierend auf einem elektronischen Signal von der Mikrofongruppierung 220. Der PDM stellt dem Mikrofon 220, das die anfängliche Abtastrate bestimmt, ein Taktsignal bereit und empfängt dann von dem Mikrofon 220 ein Datensignal, welches das aus dem Umfeld erfasste Audio repräsentiert. Der PDM generiert aus dem Datensignal einen PDM-Bitstream und kann den Bitstream einem Dezimator bereitstellen, der die Audiodaten generieren kann, die dem Bussystem 227 bereitgestellt werden, indem entweder Hochqualitätsaudiodaten bereitgestellt werden oder eine Abtastrate des pulsdichtenmodulierten Bitstreams von dem PDM auf Niedrigqualitätsaudiodaten reduziert wird. Bei einer alternativen Ausführungsform ist die Audiodatenquelle Hilfs-Analog-Digital-Wandler-Frontende (AUX ADC-Frontende, AUX ADC = Auxiliary Analog To Digital Converter). Im Hilfs-ADC-Frontende wandelt ein Analog-Digital-Wandler ein analoges Signal von dem Mikrofon 220 in ein digitales Audiosignal um. Das digitale Audiosignal kann einem Dezimator bereitgestellt werden, um die Audiodaten zu generieren, die dem Bussystem 227 bereitgestellt werden, indem entweder Hochqualitätsaudiodaten bereitgestellt werden oder eine Abtastrate des digitalen Audiosignals von dem ADC auf Niedrigqualitätsaudiodaten reduziert wird.
  • Die Audioschnittstellensteuerung 224 dient dem Steuern der Zeitsteuerung für das Abtasten durch die Audioschnittstelle 221 oder die Mikrofongruppierung 220 und der Abtastrate für das Abtasten durch die Audioschnittstelle 221 oder die Mikrofongruppierung 220. Die Audioschnittstellensteuerung 224 kann zum Beispiel die Audioqualität (z. B. Abtastrate) von Audiodaten steuern, die dem SOD 223 und dem Puffer 225 bereitgestellt werden, und kann außerdem die Zeiten steuern, in denen solche Audiodaten dem Bussystem 227 periodisch oder kontinuierlich bereitgestellt werden sollen. Obwohl sie als separater funktioneller Block gezeigt wird, kann die Funktionalität der Audioschnittstellensteuerung 224 durch den SOD 223 und/oder den Puffer 225 oder einen anderen funktionellen Block erfolgen. Alternativ oder zusätzlich kann die Audioschnittstellensteuerung 224 in einer oder mehreren Stromdomänen vorliegen, die unten in Bezug auf 3 erörtert werden.
  • Der SOD 223 dient dazu, zu bestimmen, ob es sich bei den von der Audioschnittstelle 221 empfangenen Audiodaten um Sprachbeginn handelt. Der SOD 223 kann beliebige der Sprachbeginndetektionsalgorithmen oder -techniken verwenden, die auf dem Gebiet bekannt sind. Bei einer Ausführungsform sind Audiodaten mit einer reduzierten Abtastrate (z. B. 2-4 kHz) ausreichend, um Sprachbeginn (oder ein anderes Beginnereignis) zu detektieren, während dem SOD 223 erlaubt wird, mit einer niedrigeren Frequenz getaktet zu werden, wodurch der Stromverbrauch und die Komplexität des SOD 223 reduziert wird. Nach Erfassen eines Sprachbeginnereignisses schaltet der SOD 223 ein Statussignal auf den Bus 227 auf, um den WUPD 228 von einem Niedrigstromverbrauchszustand (z. B. Schlafzustand) auf einen höheren Stromverbrauchszustand (z. B. aktiven Zustand) zu wecken, um eine Phasendetektion durchzuführen, wie weiter unten erörtert wird.
  • Das Schwellenberechnungsmodul 222 überwacht Umgebungsgeräusche, um die Aktivierungsschwelle des Audios, welche eine Sprachbeginndetektion auslösen soll, dynamisch zu berechnen und potenziell neu einzustellen, um eine unnötige Verarbeitung durch den SOD 223 zu vermeiden. Bei einer Ausführungsform veranlasst die Audioschnittstellensteuerung 224 die Audioschnittstelle 221, dem Schwellenberechnungsmodul 222 periodisch in Intervallen Audiodaten (z. B. Umgebungsgeräusche) bereitzustellen. Bei einer Ausführungsform kann das Schwellenberechnungsmodul 222 den Aktivierungsschwellenpegel von unterhalb des aktuellen Pegels der Umgebungsgeräusche auf oberhalb des aktuellen Pegels der Umgebungsgeräusche neu einstellen.
  • Der Puffer 225 dient dazu, abgetastete führende Geräuschaudiodaten periodisch zu speichern. Bei einer Ausführungsform ist der Puffer 225 entsprechend bemessen, um etwas mehr als 250 ms an Audiodaten (z. B. 253 ms) zu speichern, um das wie unten erörterte Kombinieren zu fassen. Alternativ oder zusätzlich kann der Puffer 225, nachdem der SOD 223 einen Sprachbeginn detektiert hat, als Kanal wirken, um die kontinuierlich abgetasteten Audiodaten, die die Weckphrase 110.3 und den Befehl oder die Abfrage 110.4 beinhalten, durchzuleiten. Bei einer Ausführungsform veranlasst die Audioschnittstellensteuerung 224 die Audioschnittstelle 221, dem Puffer 225 periodisch in Intervallen führende Geräusche bereitzustellen. Sobald der SOD 223 sprachähnliche Laute detektiert hat, kann die Audioschnittstellensteuerung 224 die Audioschnittstelle 221 veranlassen, dem Puffer die restlichen Audiodaten 110.2, 110.3. und 110.4 kontinuierlich bereitzustellen.
  • Der Kombinierer 226 dient dazu, unter Verwendung der periodisch erfassten führenden Geräusche 110.1 der kontinuierlich erfassten restlichen Audiodaten 110.2, 110.3. und 110.4 zusammenhängende Audiodaten zu generieren. Bei einer Ausführungsform vereinigt der Kombinierer 226 einen Teil eines Endes der letzten periodisch erfassten Audiodaten mit einem Teil des Anfangs der kontinuierlich erfassten Audiodaten. Der Kombinierer 226 kann zum Beispiel eine Überlappungs-Hinzufügungs-Operation verwenden, um 3 ms der führenden Geräusche mit den kontinuierlich erfassten Audiodaten zu überlappen. Der Kombinierer 226 kann die zusammenhängenden Audiodaten über das Bussystem 227 an den WUPD 228 ausgeben
  • Der WUPD 228 dient dazu, zu bestimmen, ob die von dem Kombinierer 226 ausgegebenen zusammenhängenden Audiodaten eine Weckphrase umfassen. Der WUPD 228 kann eine Verarbeitungseinheit umfassen, die, wenn der WUPD 228 aktiviert wird, Berechnungen mit höherer Komplexität und höherem Strombedarf (z. B. relativ zum SOD 223) durchführt, um zu bestimmen, ob ein Aufweckwort oder eine Aufweckphrase gesprochen wurde. Der WUPD 228 nimmt diese Bestimmung basierend auf den in dem Puffer 225 gespeicherten Audiodaten (entsprechend einer Zeit vor einem Sprachbeginn) und den Hochqualitätsaudiodaten, die empfangen werden, nachdem ein Sprachbeginn detektiert wird, vor.
  • 3 ist eine Blockdarstellung, die Stromdomänen einer Audioverarbeitungsvorrichtung 300 gemäß Ausführungsformen illustriert. Die Stromdomänen der Audioverarbeitungsvorrichtung 300 können abhängig von dem Bedarf des Systembetriebs zu unterschiedlichen Zeiten in unterschiedlichen Stromverbrauchsmodi arbeiten. Zum Beispiel und nicht zur Beschränkung kann eine Stromdomäne in einem aktiven Modus, einem Überwachungsmodus oder im Schlafmodus arbeiten. Bei Ausführungsformen kann der aktive Modus einer Stromdomäne eine höhere Stromverbrauchsrate als der Überwachungsmodus und der Schlafmodus aufweisen.
  • Es wird gezeigt, dass die Sensorstromdomäne 330 die Mikrofongruppierung und die Audioschnittstelle aufweist. Bei Ausführungsformen arbeitet die Sensorstromdomäne 330 in einem Überwachungsmodus, wenn die Mikrofongruppierung Audioaktivität, die eine Aktivierungsschwelle erfüllt oder überschreitet, abhört und überwacht. Wenn die Audioschnittstelle die Audiodaten abtastet, arbeitet die Sensorstromdomäne 330 in einem aktiven Modus. Der aktive Modus kann als aktiver Modus mit niedriger Qualität betrachtet werden, wenn die Audioschnittstelle mit niedrigeren Abtastraten (z. B. 2-8 kHz) abtastet, und als aktiver Modus mit hoher Qualität betrachtet werden, wenn die Audioschnittstelle mit höheren Abtastraten (z. B. Mehr als 8 kHz) abtastet. In Ausführungsformen, bis auf eine, arbeitet die Sensorstromdomäne 330 ungefähr 98 % der Zeit im Überwachungsmodus, ungefähr 1 % der Zeit im aktiven Modus mit niedriger Qualität und ungefähr 1 % der Zeit im aktiven Modus mit hoher Qualität.
  • Es wird gezeigt, dass die SOD-Stromdomäne 340 den SOD und das Schwellenberechnungsmodul umfasst. Bei Ausführungsformen arbeitet die SOD-Stromdomäne 340 in einem aktiven Modus, wenn das Schwellenberechnungsmodul Audiodaten verarbeitet, um eine aktualisierte Aktivierungsschwelle zu berechnen. Wenn das Schwellenberechnungsmodul keine Audiodaten verarbeitet, arbeitet die SOD-Stromdomäne 340 in einem Schlafmodus. Zum Beispiel in Bezug auf die periodische Aktivierungsschwellenberechnung in Intervallen kann die SOD-Stromdomäne 340 einem Arbeitszyklus unterworfen werden, um 1 % (z. B. 100 ms EIN) der Zeit in einem aktiven Modus zu arbeiten (z. B. zur Berechnung) und 99 % (z. B. 10 s AUS) der Zeit in einem Schlafmodus zu arbeiten (z. B. während Intervallen). Die SOD-Stromdomäne 340 arbeitet außerdem intermittierend im aktiven Modus (z. B. ausgelöst durch ein Audio an der Aktivierungsschwelle), wenn sie Audiodaten verarbeitet, um zu bestimmen, ob die Audiodaten sprachähnliche Laute umfassen. Durch Aktualisierung der Aktivierungsschwelle auf einen Pegel oberhalb der aktuellen Umgebungsgeräusche kann ein unnötiges Aufwecken des SOD, um eine Sprachbeginndetektion durchzuführen, vermieden werden.
  • Es wird gezeigt, dass die Pufferstromdomäne 360 den Puffer und den Kombinierer umfasst. Die Pufferstromdomäne 360 kann in einem aktiven Modus arbeiten, wenn der Puffer aktiv seinen Puffer füllt, und kann in einem Schlafmodus arbeiten, wenn der Puffer gespeicherte Audiodaten hält, aber nicht aktiv füllt. In Bezug auf periodisches Puffern in Intervallen kann die Pufferstromdomäne 360 einem Arbeitszyklus unterworfen werden, um 1 % (z. B. 250 ms EIN) der Zeit in einem aktiven Modus zu arbeiten und 99 % (z. B. 25 s AUS) der Zeit in einem Schlafmodus zu arbeiten. Bei einigen Ausführungsformen kann die Pufferstromdomäne 360 auch in einem aktiven Modus arbeiten, wenn der Kombinierer Vereinigungsoperationen durchführt, um führende Geräusche mit kontinuierlich durchgeleiteten Audiodaten für den WUPD zu kombinieren.
  • Bei Ausführungsformen arbeitet die WUPD-Stromdomäne 380 in einem Schlafmodus, bis sie durch den SOD ausgelöst wird, um in einen aktiven Modus einzutreten, um Audiodaten zur Weckphrasendetektion zu verarbeiten. 99 % Prozent der Zeit arbeitet die WUPD-Stromdomäne 380 in einem Schlafmodus, kann aber dennoch aufgrund falscher Auslöser durch den SOD irrtümlich zum aktiven Modus aufgeweckt werden.
  • 4 ist eine Flussdarstellung, die ein Verfahren zum periodischen Erfassen von Audiodaten (z. B. der führenden Geräusche), um zusammenhängende Audiodaten zur Spracherkennung bereitzustellen, gemäß Ausführungsformen illustriert. Das Verfahren 400 kann durch Verarbeitungslogik durchgeführt werden, die Hardware (Schaltungen, zweckgebundene Logik usw.), Software (wie sie beispielsweise auf einem Allzweck-Rechnersystem oder einer zweckgebundenen Maschine ausgeführt wird), Firmware (eingebettete Software) oder eine Kombination davon beinhaltet. Bei verschiedenen Ausführungsformen kann das Verfahren 400 wie gezeigt und wie in Bezug auf 2, 3 und 5 beschrieben durchgeführt werden. 5 ist eine interaktive Zeitsteuerungsdarstellung, die das periodische Erfassen von Audiodaten gemäß einer Ausführungsform illustriert.
  • Zum Beispiel erfassen in Block 402 Komponenten der Sensorstromdomäne 330 und der Pufferstromdomäne 360 eine erste Vielzahl von Teilen von Audiodaten durch periodisches Erfassen der Audiodaten mit ersten Intervallen. Bezugnehmend auf 5 beinhaltet das periodische Erfassen der Audiodaten das Betreiben der Sensorstromdomäne 330 in einem aktiven Modus, um die Audiodaten abzutasten, und das Betreiben der Pufferstromdomäne in einem aktiven Modus, um die abgetasteten Audiodaten zu puffern. Während der Intervalle kann die Sensorstromdomäne 330 in einem Überwachungsmodus mit niedrigerem Stromverbrauch (z. B. verglichen mit in ihrem aktiven Modus) arbeiten und kann die Pufferstromdomäne 360 in einem Schlafmodus mit niedrigerem Stromverbrauch (z. B. verglichen mit in ihrem aktiven Modus) arbeiten.
  • Bei Ausführungsformen kann die Audioschnittstellensteuerung 224 eines oder beide Intervalle basierend auf geschätzten Geräuschcharakteristika des Umfelds oder Stromverbrauchsanforderungen der Audioverarbeitungsvorrichtung einstellen oder dynamisch verstellen. Zum Beispiel können die Intervalle anfänglich während einer Fertigungsphase basierend auf einem erwarteten Betriebsumfeld und erwarteten Betriebsbedingungen eingestellt werden. Alternativ oder zusätzlich kann die Audioschnittstellensteuerung 224 während der Laufzeit Geräuschamplituden, Geräuschabweichungen, Tageszeit, Vorrichtungsstandort, Batteriestrom und/oder andere Messungen überwachen, entsprechende Analysen durchführen und die Intervalle unter Verwendung der Resultate der Analysen dynamisch verstellen, um Leistungsziele zu erfüllen.
  • In Block 404 detektieren Komponenten der SOD-Stromdomäne 340 Sprachbeginn in den Audiodaten. Wie in 5 gezeigt kann die SOD-Stromdomäne 340, vor dem Detektieren eines Sprachbeginns, in einem Schlafmodus arbeiten. Wenn Audiodaten an der Mikrofongruppierung 220 die Aktivierungsschwelle erfüllen oder übertreffen, weckt die Mikrofongruppierung 220 den SOD 223 auf, um einen Sprachbeginndetektionsalgorithmus auszuführen, um zu bestimmen, ob in den Audiodaten sprachähnliche Signale vorhanden sind.
  • Es wird darauf hingewiesen, dass der SOD 223 den Sprachbeginn in den Audiodaten ohne Verwendung der erfassten Vielzahl von Teilen von Audiodaten detektieren kann. Zum Beispiel kann die Audioschnittstelle die Audiodaten hinsichtlich der periodisch erfassten Audiodaten mit einer ersten Abtastrate (z. B. 16 kHz) abtasten, während sie die Audiodaten zur SOD-223-Analyse mit einer zweiten Abtastrate (z. B. 4 kHz) abtastet, die kleiner als die erste Abtastrate ist. Bei einer Ausführungsform ist der SOD 223 ein SOD mit niedriger Latenz, der fähig ist, eine Anzahl an Stichproben von Audiodaten zu verarbeiten, um einen Sprachbeginn zu detektieren und Signale bereitzustellen, um den WUPD 228 zu wecken und eine kontinuierliche Erfassung der Audiodaten schnell genug zu initiieren, um unakzeptable Verstümmelungen zu vermeiden. Die Anzahl an Stichproben von Audiodaten kann entsprechend ausgewählt werden, um die Genauigkeit der Sprachbeginndetektion mit Latenzverursachung durch Verarbeitung auszugleichen.
  • In Block 406 werden als Reaktion auf die Detektion des Sprachbeginns die Sensorstromdomäne 330 und die Pufferstromdomäne 360 (z. B. durch die Audioschnittstellensteuerung) von periodischem Erfassen der Audiodaten auf kontinuierliches Erfassen der Audiodaten umgeschaltet. Bezugnehmend auf 5 kann das kontinuierliche Erfassen der Audiodaten das kontinuierliche Abtasten der Audiodaten und das kontinuierliche Puffern der abgetasteten Audiodaten umfassen. Bei einer Ausführungsform bedeutet das kontinuierliche Abtasten und Puffern das Betreiben in einem aktiven Modus, um Audiodaten ohne Intervall für einen Betrieb in einem Schlafmodus konstant abzutasten und zu puffern. Kontinuierliches Puffern kann auch das Verwenden des Puffers 225 als Kanal umfassen, um die kontinuierlich abgetasteten Audiodaten zwecks Verarbeitung an den WUPD 228 durchzuleiten.
  • In Block 408 kombiniert der Kombinierer 226 der Pufferstromdomäne 360 mindestens einen erfassten Teil der ersten Vielzahl von erfassten Teilen von Audiodaten mit den kontinuierlich erfassten Audiodaten, um zusammenhängende Audiodaten bereitzustellen. Für einige Ausführungsformen verwendet der Kombinierer 226 ein Überlappungs-Hinzufügungs-Fenster, das dazu dient, einen Teil von einem Ende des letzten erfassten Teils von Audiodaten mit einem Teil von einem Ende der kontinuierlich erfassten Audiodaten anzufügen. Bei verschiedenen Ausführungsformen liegt der Teil des einen Endes des letzten erfassten Teils im Bereich von 1 ms bis 20 ms, kann aber von einer kürzeren oder längeren Dauer sein. Bei einigen Ausführungsformen ist der mindestens eine erfasste Teil der ersten Vielzahl von erfassten Teilen von Audiodaten der zuletzt erfasste Teil der ersten Vielzahl von erfassten Teilen von Audiodaten. Bei anderen Ausführungsformen kann der letzte erfasste Teil eine Repräsentation von mehreren erfassten Teilen umfassen und kann der Kombinierer 226 die Repräsentation verwenden, um die zusammenhängenden Audiodaten zu generieren. In Block 410 verarbeiten Komponenten der WUPD-Stromdomäne 380 die zusammenhängenden Audiodaten, um in den kontinuierlich erfassten Audiodaten Sprache (z. B. eine Weckphrase) zu erkennen.
  • 6 ist eine Tabellendarstellung, die die resultierende prozentuale Erkennung einer Weckphrase gemäß Ausführungsformen illustriert. Die Tabelle vergleicht die prozentuale Erkennung, die durch die existierende Technik des kontinuierlichen und wiederholten Pufferns von führenden Geräuschen erreicht wird, mit der prozentuale Anerkennung, die durch das in den Ausführungsformen beschriebene periodische Puffern erreicht wird. Die prozentuale Erkennung der Ausführungsformen liegt eng bei der existierenden Technik von einem reinen SNR bis 20 dB und beginnt dann, bei 10 dB abzuweichen. Das hierin beschriebene periodische Puffern kann daher eine ähnliche prozentuale Erkennung bereitstellen, während weniger Strom als bei traditionellen Lösungen verbraucht wird.
  • Bei einer Ausführungsform kann der oben illustrierte Ansatz des periodischen Erfassens von Hintergrundgeräuschen neben der Spracherkennung auch bei anderen Anwendungen verwendet werden. Für solche Anwendungen kann der Sensoreingang nur periodisch erfasst werden, um Strom zu sparen, bis durch ein Beginnereignis ein Mustererkennungsbetrieb mit höherem Strombedarf ausgelöst wird. Zum Beispiel können Bilddaten vor einem Mustererkennungsprozess mit höherem Stromverbrauch (z. B. Aktivität in einem Raum), bei dem sowohl periodisch erfasste Bilddaten als auch Videostrom mit höherer Qualität verwendet werden, periodisch erfasst werden. Weitere Handlungen können basierend auf dem Resultat der Mustererkennung durchgeführt werden, wie etwa Aufzeichnen von Audio, Video oder Festbildern, Senden einer Mitteilung etc. Bei alternativen Ausführungsformen kann sich der Mustererkennungsprozess mit höherem Strombedarf auf Änderungen der Temperatur, des Umgebungslichts, der Umfeldbedingungen oder einer Reihe von Bedingungen oder Ereignissen, die erfasst werden können, beziehen.
  • 7 ist eine Flussdarstellung, die ein Verfahren 700 zur periodischen Aktivierungsschwellenberechnung gemäß Ausführungsformen, gemäß einer Ausführungsform illustriert. Das Verfahren 700 kann durch Verarbeitungslogik durchgeführt werden, die Hardware (Schaltungen, zweckgebundene Logik usw.), Software (wie sie beispielsweise auf einem Allzweck-Rechnersystem oder einer zweckgebundenen Maschine ausgeführt wird), Firmware (eingebettete Software) oder eine Kombination davon beinhaltet. Bei verschiedenen Ausführungsformen kann das Verfahren 700 durch die Audioverarbeitungsvorrichtung von 2, 3 und 8 durchgeführt werden. 8 ist eine interaktive Zeitsteuerungsdarstellung, die eine periodische Aktivierungsschwellenberechnung gemäß Ausführungsformen illustriert.
  • In Block 702 erfassen Komponenten der Sensorstromdomäne 330 eine Vielzahl von Teilen der Audiodaten durch periodisches Erfassen der Audiodaten mit Intervallen. In Block 704 verwendet das Schwellenberechnungsmodul 222 der SOD-Stromdomäne 340 einen oder mehrere Teile der Vielzahl von erfassten Teilen, um eine Aktivierungsschwelle zu berechnen. Die Sensorstromdomäne 330 und die SOD-Stromdomäne 340 können in einem aktiven Modus arbeiten, um die Vielzahl von Teilen der Audiodaten zu erfassen, um jeweils die Aktivierungsschwelle zu berechnen. Während der Intervalle kann die Sensorstromdomäne 330 in einem Überwachungsmodus arbeiten bzw. kann die SOD-Stromdomäne 340 in einem Schlafmodus arbeiten. In Block 706 stellt das Schwellenberechnungsmodul 222 der SOD-Stromdomäne 340 der Audioschnittstelle 221 oder der Mikrofongruppierung 220 der Sensorstromdomäne 330 die Aktivierungsschwelle bereit. Das Schwellenberechnungsmodul 222 muss die Aktivierungsschwelle in der Mikrofongruppierung 220 nicht neu einstellen. Das Schwellenberechnungsmodul kann bestimmen, dass die allerletzten Umgebungsgeräuschstichproben keine Änderung der Aktivierungsschwelle rechtfertigen. Andererseits kann das Schwellenberechnungsmodul, basierend auf abgetasteten Umgebungsgeräuschen, bestimmen, dass die Aktivierungsschwelle aktualisiert werden soll. Zum Beispiel kann durch Einstellen der Aktivierungsschwelle auf einen Pegel oberhalb der Umgebungsgeräusche ein Wecken des SOD 223 vermieden werden, wodurch irrtümlich oder unnötigerweise Strom verbraucht wird, um lediglich Umgebungsgeräusche hinsichtlich Sprachbeginn zu verarbeiten.
  • 9 ist eine Blockdarstellung, die eine elektronische Vorrichtung 900 gemäß Ausführungsformen illustriert. Die elektronische Vorrichtung 900 kann vollständig oder teilweise die beispielhaften Ausführungsformen der Audioverarbeitungsvorrichtung 102, der Audiomusterquelle 104, der Geräuschquellen 106 und 108, der gesteuerten Vorrichtungen 103 und 110 und/oder der Mustererkennungsanwendung 112 von 1 umfassen oder diese betreiben. Die elektronische Vorrichtung 900 kann in Form eines Rechnersystems vorliegen, in dem Sätze von Anweisungen ausgeführt werden können, um die elektronische Vorrichtung 900 zu veranlassen, eine oder mehrere der hierin erörterten Verfahrensweisen durchzuführen. Die elektronische Vorrichtung 900 kann als eine unabhängige Vorrichtung arbeiten oder kann mit anderen Maschinen verbunden (z. B. vernetzt) sein. Bei einem vernetzten Einsatz kann die elektronische Vorrichtung 900 in der Kapazität einer Server- oder Client-Maschine in einem Server-Client-Netzwerkumfeld oder als eine Peer-Maschine in einem P2P-Netzumfeld (oder verteilten Netzumfeld) arbeiten.
  • Die elektronische Vorrichtung 900 kann eine Internet-der-Dinge-Vorrichtung (loT-Vorrichtung, loT = Internet of Things), ein Server-Rechner, ein Client-Rechner, ein persönlicher Rechner (PC), ein Tablet, eine Set-Top Box (STB), ein VCH, ein persönlicher digitaler Assistent (PDA), ein Mobiltelefon, ein Webgerät, ein Netzwerkrouter, ein Schalter oder eine Brücke, ein Fernsehgerät, Lautsprecher, eine Fernsteuerung, ein Monitor, eine handgehaltene Multimedien-Vorrichtung, ein handgehaltenes Videospiel, eine handgehaltene Gaming-Vorrichtung oder eine Steuerungskonsole oder eine beliebige andere Maschine sein, die fähig ist, einen Satz Anweisungen (sequenzielle oder anderweitig) auszuführen, die von dieser Maschine vorzunehmende Handlungen spezifizieren. Des Weiteren ist der Begriff „Vorrichtung“, während lediglich eine einzelne elektronische Vorrichtung 900 illustriert wird, derart zu verstehen, dass er eine beliebige Zusammenstellung von Maschinen umfasst, die einzeln oder gemeinsam einen Satz (oder mehrere Sätze) von Anweisungen ausführen, um eine oder mehrere der hierin erörterten Verfahrensweisen durchzuführen.
  • Es wird gezeigt, dass die elektronische Vorrichtung 900 (einen) Prozessor(en) 902 umfasst. Bei Ausführungsformen können die elektronische Vorrichtung 900 und/oder der/die Prozessor(en) 902 eine Verarbeitungsvorrichtung(en) 905, wie etwa eine System-on-a-Chip-Verarbeitungsvorrichtung, entwickelt von Cypress Semiconductor Corporation, San Jose, Kalifornien, umfassen. Alternativ kann die elektronische Vorrichtung 900 eine oder mehrere andere Verarbeitungsvorrichtungen umfassen, die Fachleuten auf dem Gebiet bekannt sind, wie etwa einen Mikroprozessor oder eine zentrale Verarbeitungseinheit, einen Anwendungsprozessor, einen Host-Controller, einen Controller, einen Spezialprozessor, DSP, eine anwendungsspezifische, integrierte Schaltung (ASIC), ein frei programmierbares Gatearray („FPGA“) oder dergleichen. Das Bussystem 901 kann einen Kommunikationsblock (nicht gezeigt) umfassen, um mit einer internen oder externen Komponente, wie etwa einem eingebetteten Controller oder einem Anwendungsprozessor, über die Kommunikationsschnittstelle(en) 909 und/oder das Bussystem 901 zu kommunizieren.
  • Komponenten der elektronischen Vorrichtungen 900 können auf einem gemeinsamen Trägersubstrat, wie zum Beispiel einem integrierten Schaltungs(„IC“)-Die-Substrat, einem Multi-Chip-Modul-Substrat oder dergleichen, vorliegen. Alternativ können Komponenten der elektronischen Vorrichtung 900 eine oder mehrere integrierte Schaltungen und/oder diskrete Komponenten sein.
  • Das Speichersystem 904 kann einen flüchtigen Speicher und/oder nicht flüchtigen Speicher umfassen, die miteinander über das Bussystem 901 kommunizieren können. Das Speichersystem 904 kann zum Beispiel einen Direktzugriffsspeicher (Random Access Memory, RAM) und Programm-Flash umfassen. Der RAM kann ein statischer RAM („SRAM“) sein und der Programm-Flash kann eine nicht flüchtige Speicherung sein, die verwendet werden kann, um Firmware (z. B. Steuerungsalgorithmen, die durch (einen) Prozessor(en) 902 ausführbar sind, um die hierin beschriebenen Vorgänge zu implementieren) zu speichern. Das Speichersystem 904 kann Anweisungen 903 umfassen, die, wenn sie ausgeführt werden, die hierin beschriebenen Verfahren durchführen. Teile des Speichersystems 904 können dynamisch zugeteilt werden, um Zwischenspeichern, Puffern und andere speicherbasierte Funktionalitäten bereitzustellen.
  • Das Speichersystem 904 kann ein Laufwerk umfassen, das ein maschinenlesbares Medium bereitstellt, auf dem ein oder mehrere Sätze Anweisungen 903 (z. B. Software) gespeichert sind, die eine oder mehrere der hierin beschriebenen Verfahrensweisen oder Funktionen enthalten. Die Anweisungen 903 können vollständig oder mindestens teilweise innerhalb der anderen Speichervorrichtungen des Speichersystems 904 und/oder innerhalb des Prozessors/der Prozessoren 902 während der Ausführung dieser durch die elektronische Vorrichtung 900 vorliegen, welche in einigen Ausführungsformen maschinenlesbare Medien darstellen. Die Anweisungen 903 können ferner mittels der Kommunikationsschnittstelle(n) 909 über ein Netzwerk übertragen oder empfangen werden.
  • Während ein maschinenlesbares Medium bei einigen Ausführungsformen ein einzelnes Medium ist, sollte der Begriff „maschinenlesbares Medium“ so verstanden werden, dass er ein einzelnes Medium oder mehrere Medien (z. B. eine zentralisierte oder verteilte Datenbank und/oder zugehörige Caches und Server) umfasst, die den einen oder die mehreren Sätze Anweisungen speichern. Der Begriff „maschinenlesbares Medium“ sollte auch so verstanden werden, dass er ein beliebiges Medium umfasst, das einen Satz Anweisungen zur Ausführung durch die Maschine speichern oder codieren kann, und dass die Maschine veranlassen kann, eine oder mehrere der hierin beschriebenen beispielhaften Operationen durchzuführen. Der Begriff „maschinenlesbares Medium“ soll daher, ohne darauf beschränkt zu sein, Festkörperspeicher, optische Medien und magnetische Medien umfassen.
  • Es wird ferner gezeigt, dass die elektronische Vorrichtung 900 (eine) Anzeigeschnittstelle(en) 906 (z. B. eine Flüssigkristallanzeige (LCD), einen Berührungsbildschirm, eine Kathodenstrahlröhre (CRT) und Software- und Hardwareunterstützung für Anzeigetechnologien), Audioschnittstelle(en) 908 (z. B. Mikrofone, Lautsprecher und Software- und Hardwareunterstützung für Mikrofoneingang/-ausgang und Lautsprechereingang/-ausgang) umfasst. Es wird außerdem gezeigt, dass die elektronische Vorrichtung 900 (eine) Benutzerschnittstelle(en) 910 (z. B. Tastatur, Tasten, Schalter, Touchpad, Berührungsbildschirme und Software- und Hardwareunterstützung für Benutzerschnittstellen) umfasst.
  • Die obige Beschreibung ist illustrativ und nicht beschränkend gemeint. Die oben beschriebenen Ausführungsformen (oder ein oder mehrere Aspekte davon) können in Kombination miteinander verwendet werden. Andere Ausführungsformen werden Fachleuten auf dem Gebiet nach Durchsicht der obigen Beschreibung ersichtlich sein. In diesem Dokument werden die Begriffe „ein“, „eine“ oder „einer“, wie in Patentdokumenten üblich, so verwendet, dass sie eines oder mehr als eines umfassen. In diesem Dokument wird der Begriff „oder“ verwendet, um Nichtausschließliches zu bezeichnen, oder so, dass „A oder B“ „A, aber nicht B“, „B, aber nicht A“ und „A und B“ umfasst, sofern nicht anders angegeben. Im Fall von inkonsistenten Benutzungen dieses Dokuments und jenen durch Bezugnahme einbezogenen Dokumenten ist die Benutzung in den einbezogenen Bezugnahmen als Ergänzung zu diesem Dokument zu betrachten; bei unvereinbaren Inkonsistenzen löst die Benutzung dieses Dokuments die Benutzung in einbezogenen Bezugnahmen ab.
  • Obwohl der beanspruchte Gegenstand unter Bezugnahme auf spezifische Ausführungsformen beschrieben wurde, liegt es auf der Hand, dass verschiedene Modifikationen und Änderungen an diesen Ausführungsformen vorgenommen werden können, ohne vom umfassenderen Wesen und Umfang des Beanspruchten abzuweichen. Demgemäß sind die Patentschrift und Zeichnungen als illustrativ und nicht beschränkend aufzufassen. Der Umfang der Ansprüche sollte daher unter Bezugnahme auf die anhängenden Ansprüche zusammen mit dem vollen Umfang von Äquivalenten, auf die solche Ansprüche Anrecht haben, bestimmt werden. In den anhängenden Ansprüchen werden die Begriffe „umfassend“ und „bei denen“ als einfache Äquivalente der jeweiligen Begriffe „beinhaltend“ und „wobei“ verwendet. In den nachfolgenden Ansprüchen sind die Begriffe „umfassend“ und „beinhaltend“ außerdem offen; ein System, Gerät, Artikel oder Prozess, der Elemente zusätzlich zu den nach einem solchen Begriff in einem Anspruch aufgelisteten umfasst, soll dennoch in den Umfang dieses Anspruchs fallen. Außerdem werden in den nachfolgenden Ansprüchen die Begriffe „erste/r/s“, „zweite/r/s“ und „dritte/r/s“ etc. nur als Kennzeichnungen verwendet und sollen ihren Objekten keine numerischen Anforderungen auferlegen.
  • Die Zusammenfassung der Offenbarung wird bereitgestellt, um 37 C.F.R. §1.72(b) zu erfüllen, wonach eine Zusammenfassung erforderlich ist, die dem Leser erlauben wird, die Art der technischen Offenbarung schnell festzustellen. Sie wird mit dem Verständnis eingereicht, dass sie nicht verwendet werden wird, um den Umfang oder die Bedeutung der Ansprüche zu interpretieren oder zu begrenzen.

Claims (22)

  1. Ein Verfahren, das Folgendes beinhaltet: Erfassen (402) einer ersten Vielzahl von Teilen von Audiodaten (110) durch periodisches Erfassen der Audiodaten mit ersten Intervallen; Detektieren (404) von Sprachbeginn (110.2) in den Audiodaten (110); als Reaktion auf das Detektieren des Sprachbeginns (110.2), Umschalten (406) von periodischem Erfassen der Audiodaten (110) auf kontinuierliches Erfassen der Audiodaten (110); und Kombinieren (408) von mindestens einem erfassten Teil der ersten Vielzahl von Teilen von Audiodaten mit den kontinuierlich erfassten Audiodaten, um zusammenhängende Audiodaten bereitzustellen.
  2. Verfahren gemäß Anspruch 1, das ferner das Verarbeiten (410) der zusammenhängenden Audiodaten beinhaltet, um in den kontinuierlich erfassten Audiodaten Sprache zu erkennen.
  3. Verfahren gemäß Anspruch 1, das das Betreiben von mindestens einer Stromdomäne (330, 360) in einem ersten Stromverbrauchsmodus, um die erste Vielzahl von Teilen von Audiodaten zu empfangen, und das Betreiben in einem zweiten Stromverbrauchsmodus während der ersten Intervalle beinhaltet, wobei der erste Stromverbrauchsmodus eine größere Stromverbrauchsrate als die des zweiten Stromverbrauchsmodus aufweist.
  4. Verfahren gemäß Anspruch 3, wobei das Betreiben in dem zweiten Stromverbrauchsmodus das Betreiben einer Sensorstromdomäne (330) in einem Überwachungsmodus und das Betreiben einer Pufferstromdomäne (360) in einem Schlafmodus beinhaltet.
  5. Verfahren gemäß Anspruch 1, wobei das periodische Erfassen der Audiodaten (110) das Abtasten der Audiotasten mit einer ersten Abtastrate umfasst und das Detektieren des Sprachbeginns das Abtasten der Audiodaten mit einer zweiten Abtastrate umfasst, wobei die erste Abtastrate größer als die zweite Abtastrate ist.
  6. Verfahren gemäß Anspruch 1, das ferner das Einstellen oder dynamische Verstellen des ersten Intervalls basierend auf einer oder mehreren Geräuschcharakteristika oder Stromverbrauchsanforderungen beinhaltet.
  7. Verfahren gemäß Anspruch 1, wobei das periodische Erfassen der Audiodaten (110) das periodische Abtasten der Audiodaten und das periodische Puffern der abgetasteten Audiodaten beinhaltet und das kontinuierliche Erfassen der Audiodaten das kontinuierliche Abtasten der Audiodaten und das kontinuierliche Puffern der abgetasteten Audiodaten beinhaltet.
  8. Verfahren gemäß Anspruch 1, wobei der mindestens eine erfasste Teil der ersten Vielzahl von erfassten Teilen von Audiodaten der zuletzt erfasste Teil der ersten Vielzahl von erfassten Teilen von Audiodaten ist.
  9. Verfahren gemäß Anspruch 8, wobei das Kombinieren das Überlappen eines Teils von einem Ende des zuletzt erfassten Teils von Audiodaten mit einem Teil von einem Ende der kontinuierlich erfassten Audiodaten beinhaltet.
  10. Verfahren gemäß Anspruch 9, wobei der Teil von einem Ende des letzten erfassten Teils weniger als 20 ms ist.
  11. Verfahren gemäß Anspruch 1, wobei das Detektieren des Sprachbeginns in den Audiodaten (110) das Detektieren des Sprachbeginns ohne Verwendung der erfassten Vielzahl von Teilen von Audiodaten beinhaltet.
  12. Verfahren gemäß Anspruch 11, wobei das Detektieren des Sprachbeginns in den Audiodaten das Aufwecken eines Sprachbeginndetektors (223) als Reaktion darauf, dass die Audiodaten (110) eine Aktivierungsschwelle erfüllen oder überschreiten, und das Ausführen eines Sprachbeginndetektionsalgorithmus, um zu bestimmen, dass ein sprachähnliches Signal in den Audiodaten (110) vorhanden ist, beinhaltet.
  13. Verfahren gemäß Anspruch 12, das ferner Folgendes beinhaltet: Erfassen einer zweiten Vielzahl von Teilen der Audiodaten durch periodisches Erfassen der Audiodaten mit zweiten Intervallen; und unter Verwendung von einem oder mehreren Teilen der zweiten Vielzahl von erfassten Teilen, Berechnen einer anderen Aktivierungsschwelle; und Bereitstellen der anderen Aktivierungsschwelle für die Audioschnittstelle.
  14. Verfahren gemäß Anspruch 13, das das Betreiben in einem ersten Stromverbrauchsmodus, um die zweite Vielzahl von Teilen der Audiodaten zu erfassen und die Aktivierungsschwelle zu berechnen, und das Betreiben in einem zweiten Stromverbrauchsmodus während der zweiten Intervalle beinhaltet, wobei eine Stromverbrauchsrate des ersten Stromverbrauchsmodus größer als die des zweiten Stromverbrauchsmodus ist.
  15. Verfahren gemäß Anspruch 14, wobei das Betreiben in dem zweiten Stromverbrauchsmodus das Betreiben einer Sensorstromdomäne (330) in einem Überwachungsmodus und das Betreiben einer Sprachbeginndetektionsstromdomäne (340) in einem Schlafmodus beinhaltet.
  16. Eine Audioverarbeitungsvorrichtung (202), die Folgendes beinhaltet: eine Audioschnittstelle (221), die betriebsfähig ist, um Audiodaten (110) abzutasten, einen Sprachbeginndetektor (223), einen Puffer (225), einen Kombinierer (226) und eine Audioschnittstellensteuerung (224), wobei die Audioschnittstellensteuerung (224) als Reaktion auf die Detektion durch den Sprachbeginndetektor (223) von Sprachbeginn in den Audiodaten (110) betriebsfähig ist, um die Audioverarbeitungsvorrichtung (202) von periodischem Erfassen der Audiodaten (110) mit Intervallen auf kontinuierliches Erfassen der Audiodaten (110) umzuschalten, wobei der Kombinierer (226) betriebsfähig ist, um unter Verwendung mindestens eines erfassten Teils der periodisch erfassten Audiodaten (110) und der kontinuierlich erfassten Audiodaten (110) zusammenhängende Daten bereitzustellen.
  17. Audioverarbeitungsvorrichtung (202) gemäß Anspruch 16, die ferner einen Aufweckphrasendetektor (228) beinhaltet, der betriebsfähig ist, um die zusammenhängenden Audiodaten zu verarbeiten, um in den kontinuierlich erfassten Audiodaten eine Weckphrase (110.3) zu erkennen.
  18. Audioverarbeitungsvorrichtung (202) gemäß Anspruch 16, wobei sich der Puffer (225) in einer Pufferstromdomäne (360) der Audioverarbeitungsvorrichtung (202) befindet, wobei sich die Pufferstromdomäne (360) während der Intervalle in einem Schlafmodus befindet.
  19. Audioverarbeitungsvorrichtung (202) gemäß Anspruch 16, wobei die Audioschnittstelle (221) konfiguriert ist, um dem Sprachbeginndetektor (223) als Reaktion darauf, dass das Audio ein Schwellenaktivitätsniveau erfüllt oder überschreitet, die Audiodaten (110) bereitzustellen, wobei die Audioverarbeitungsvorrichtung (202) ferner ein Schwellenberechnungsmodul (222) beinhaltet, das konfiguriert ist, um periodisch aufzuwecken, um die Audioschnittstelle (221) einzuschalten, um Audiodaten (110) zu sammeln, um ein aktualisiertes Schwellenaktivitätsniveau zu errechnen, um der Audioschnittstelle (221) das aktualisierte Schwellenaktivitätsniveau bereitzustellen und um wieder in den Schlafmodus einzutreten.
  20. Eine elektronische Kommunikationsvorrichtung (900), die Folgendes beinhaltet: einen oder mehrere Prozessoren (902), ein Speichersystem (904), eine Kommunikationsschnittstelle (909) und eine Audioverarbeitungsvorrichtung (908), wobei die Audioverarbeitungsvorrichtung (908) Folgendes beinhaltet: eine Audioschnittstelle (221), um Audiodaten (110) zu verarbeiten, einen Sprachbeginndetektor (223), um Sprachbeginn in den Audiodaten (110) zu detektieren, und eine Audioschnittstellensteuerung (224), um als Reaktion auf die Detektion von Sprachbeginn einen Puffer (225) in dem Speichersystem (904) von periodischem Puffern der Audiodaten (110) auf kontinuierliches Puffern der Audiodaten (110) umzuschalten, einen Aufweckphrasendetektor (228), um unter Verwendung eines Teils von Audiodaten (110) von den periodisch gepufferten Audiodaten (110) in den kontinuierlich gepufferten Audiodaten eine Aufweckphrase (110.3) zu detektieren, wobei der eine oder die mehreren Prozessoren (902) die Kommunikationsschnittstelle (909) veranlassen, als Reaktion auf die Detektion der Aufweckphrase (110.3) die kontinuierlich gepufferten Audiodaten (110) kontinuierlich an ein Netzwerk zu übertragen.
  21. Elektronische Kommunikationsvorrichtung (900) gemäß Anspruch 20, wobei die Audioschnittstellensteuerung (224) konfiguriert ist, um ein Intervall des periodischen Pufferns einzustellen oder zu verstellen.
  22. Elektronische Kommunikationsvorrichtung (900) gemäß Anspruch 20, wobei die Audioschnittstellensteuerung (224) konfiguriert ist, um die Audioschnittstelle (221) zu Folgendem zu veranlassen: Bereitstellen von Audiodaten, die eine erste Abtastrate aufweisen, für den Sprachbeginndetektor (223) und Bereitstellen von Audiodaten, die eine zweite Abtastrate aufweisen, für den Puffer (225), wobei die erste Abtastrate kleiner als die zweite Abtastrate ist.
DE112019001297.5T 2018-03-12 2019-01-25 Systeme und verfahren zur erfassung von geräuschen zur mustererkennungsverarbeitung Active DE112019001297B4 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862641767P 2018-03-12 2018-03-12
US62/641,767 2018-03-12
US16/016,344 US10332543B1 (en) 2018-03-12 2018-06-22 Systems and methods for capturing noise for pattern recognition processing
US16/016,344 2018-06-22
PCT/US2019/015211 WO2019177699A1 (en) 2018-03-12 2019-01-25 Systems and methods for capturing noise for pattern recognition processing

Publications (2)

Publication Number Publication Date
DE112019001297T5 DE112019001297T5 (de) 2021-01-28
DE112019001297B4 true DE112019001297B4 (de) 2023-02-02

Family

ID=66996635

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112019001297.5T Active DE112019001297B4 (de) 2018-03-12 2019-01-25 Systeme und verfahren zur erfassung von geräuschen zur mustererkennungsverarbeitung

Country Status (4)

Country Link
US (2) US10332543B1 (de)
CN (1) CN111837179A (de)
DE (1) DE112019001297B4 (de)
WO (1) WO2019177699A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10916252B2 (en) * 2017-11-10 2021-02-09 Nvidia Corporation Accelerated data transfer for latency reduction and real-time processing
DE102018211758A1 (de) * 2018-05-07 2019-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, verfahren und computerprogramm zur akustischen überwachung eines überwachungsbereichs
CN109215679A (zh) * 2018-08-06 2019-01-15 百度在线网络技术(北京)有限公司 基于用户情绪的对话方法和装置
TWI713016B (zh) * 2019-01-03 2020-12-11 瑞昱半導體股份有限公司 語音偵測處理系統與語音偵測方法
EP3866157B1 (de) * 2020-02-13 2024-04-03 Deutsche Telekom AG Elektronische assistenzvorrichtung und betriebsverfahren
CN111341302B (zh) * 2020-03-02 2023-10-31 苏宁云计算有限公司 一种语音流采样率确定方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013003273A1 (de) 2012-02-27 2013-08-29 Cambridge Silicon Radio Limited Kleinleistungs-Audiodetektion
US20140270197A1 (en) 2013-03-15 2014-09-18 Lakshman Krishnamurthy Low power audio trigger via intermittent sampling
US20160196838A1 (en) 2015-01-07 2016-07-07 Audience, Inc. Utilizing Digital Microphones for Low Power Keyword Detection and Noise Suppression

Family Cites Families (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4038495A (en) * 1975-11-14 1977-07-26 Rockwell International Corporation Speech analyzer/synthesizer using recursive filters
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
DE69612480T2 (de) * 1995-02-15 2001-10-11 British Telecomm Detektion von sprechaktivität
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
WO2000058949A1 (en) 1999-03-25 2000-10-05 Kent Ridge Digital Labs Low data transmission rate and intelligible speech communication
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
JP3878482B2 (ja) * 1999-11-24 2007-02-07 富士通株式会社 音声検出装置および音声検出方法
US6920424B2 (en) * 2000-04-20 2005-07-19 International Business Machines Corporation Determination and use of spectral peak information and incremental information in pattern recognition
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
WO2002029784A1 (en) * 2000-10-02 2002-04-11 Clarity, Llc Audio visual speech processing
CN1235192C (zh) * 2001-06-28 2006-01-04 皇家菲利浦电子有限公司 传输系统以及用于接收窄带音频信号的接收机和方法
US7111739B2 (en) * 2002-07-26 2006-09-26 Sizetec, Inc. Wet fine particle sizing and separating apparatus
US7343283B2 (en) * 2002-10-23 2008-03-11 Motorola, Inc. Method and apparatus for coding a noise-suppressed audio signal
US7343284B1 (en) * 2003-07-17 2008-03-11 Nortel Networks Limited Method and system for speech processing for enhancement and detection
US7917356B2 (en) * 2004-09-16 2011-03-29 At&T Corporation Operating method for voice activity detection/silence suppression system
US8775168B2 (en) * 2006-08-10 2014-07-08 Stmicroelectronics Asia Pacific Pte, Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
US8140325B2 (en) 2007-01-04 2012-03-20 International Business Machines Corporation Systems and methods for intelligent control of microphones for speech recognition applications
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
EP2561508A1 (de) 2010-04-22 2013-02-27 Qualcomm Incorporated Sprachaktivitätserkennung
JP5556673B2 (ja) * 2011-01-11 2014-07-23 株式会社Jvcケンウッド 音声信号補正装置、音声信号補正方法及びプログラム
US8996389B2 (en) * 2011-06-14 2015-03-31 Polycom, Inc. Artifact reduction in time compression
US8862058B2 (en) * 2011-12-19 2014-10-14 Leigh M. Rothschild Systems and methods for reducing electromagnetic radiation emitted from a wireless headset
US9064503B2 (en) * 2012-03-23 2015-06-23 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
US9767828B1 (en) * 2012-06-27 2017-09-19 Amazon Technologies, Inc. Acoustic echo cancellation using visual cues
US20140122078A1 (en) 2012-11-01 2014-05-01 3iLogic-Designs Private Limited Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US9256269B2 (en) * 2013-02-20 2016-02-09 Sony Computer Entertainment Inc. Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state
US20140244273A1 (en) * 2013-02-27 2014-08-28 Jean Laroche Voice-controlled communication connections
US9349386B2 (en) 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
US10297250B1 (en) * 2013-03-11 2019-05-21 Amazon Technologies, Inc. Asynchronous transfer of audio data
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9112984B2 (en) * 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR20140135349A (ko) 2013-05-16 2014-11-26 한국전자통신연구원 복수의 마이크로폰을 이용한 비동기 음성인식 장치 및 방법
US20140358552A1 (en) 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
CN106886343B (zh) * 2013-06-14 2019-12-24 成都吉锐触摸技术股份有限公司 一种声波触摸屏实现真实多点触摸的方法
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US20150221307A1 (en) 2013-12-20 2015-08-06 Saurin Shah Transition from low power always listening mode to high power speech recognition mode
US9460735B2 (en) * 2013-12-28 2016-10-04 Intel Corporation Intelligent ancillary electronic device
US9445173B2 (en) * 2014-03-10 2016-09-13 Infineon Technologies Ag System and method for a transducer system with wakeup detection
US9406313B2 (en) * 2014-03-21 2016-08-02 Intel Corporation Adaptive microphone sampling rate techniques
CN106062661B (zh) * 2014-03-31 2021-09-07 英特尔公司 用于常开常听的语音识别系统的位置感知功率管理方案
US10360926B2 (en) 2014-07-10 2019-07-23 Analog Devices Global Unlimited Company Low-complexity voice activity detection
CN105335955B (zh) * 2014-07-17 2018-04-10 株式会社理光 对象检测方法和对象检测装置
US9398367B1 (en) * 2014-07-25 2016-07-19 Amazon Technologies, Inc. Suspending noise cancellation using keyword spotting
EP2980795A1 (de) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiokodierung und -decodierung mit Nutzung eines Frequenzdomänenprozessors, eines Zeitdomänenprozessors und eines Kreuzprozessors zur Initialisierung des Zeitdomänenprozessors
US10719115B2 (en) 2014-12-30 2020-07-21 Avago Technologies International Sales Pte. Limited Isolated word training and detection using generated phoneme concatenation models of audio inputs
US9478231B1 (en) * 2015-03-10 2016-10-25 Cadence Design Systems, Inc. Microphone interface and IP core for always-on system
US9685156B2 (en) 2015-03-12 2017-06-20 Sony Mobile Communications Inc. Low-power voice command detector
US20160284363A1 (en) * 2015-03-24 2016-09-29 Intel Corporation Voice activity detection technologies, systems and methods employing the same
US9484030B1 (en) * 2015-12-02 2016-11-01 Amazon Technologies, Inc. Audio triggered commands
CN105869637B (zh) * 2016-05-26 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
US10388273B2 (en) * 2016-08-10 2019-08-20 Roku, Inc. Distributed voice processing system
CN106385655B (zh) 2016-08-31 2020-01-14 陕西千山航空电子有限责任公司 一种音频信号放大滤波方法
US10176809B1 (en) * 2016-09-29 2019-01-08 Amazon Technologies, Inc. Customized compression and decompression of audio data
US9741360B1 (en) * 2016-10-09 2017-08-22 Spectimbre Inc. Speech enhancement for target speakers
US10027662B1 (en) * 2016-12-06 2018-07-17 Amazon Technologies, Inc. Dynamic user authentication
US10403279B2 (en) * 2016-12-21 2019-09-03 Avnera Corporation Low-power, always-listening, voice command detection and capture
US10692489B1 (en) * 2016-12-23 2020-06-23 Amazon Technologies, Inc. Non-speech input to speech processing system
US10847149B1 (en) * 2017-09-01 2020-11-24 Amazon Technologies, Inc. Speech-based attention span for voice user interface
JP6844504B2 (ja) * 2017-11-07 2021-03-17 株式会社Jvcケンウッド デジタル音声処理装置、デジタル音声処理方法、及びデジタル音声処理プログラム
US10649727B1 (en) * 2018-05-14 2020-05-12 Amazon Technologies, Inc. Wake word detection configuration
CN111199733A (zh) * 2018-11-19 2020-05-26 珠海全志科技股份有限公司 多级识别语音唤醒方法及装置、计算机存储介质及设备
CN112259128B (zh) * 2020-10-21 2023-07-28 恒玄科技(上海)股份有限公司 音频设备及语音识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102013003273A1 (de) 2012-02-27 2013-08-29 Cambridge Silicon Radio Limited Kleinleistungs-Audiodetektion
US20140270197A1 (en) 2013-03-15 2014-09-18 Lakshman Krishnamurthy Low power audio trigger via intermittent sampling
US20160196838A1 (en) 2015-01-07 2016-07-07 Audience, Inc. Utilizing Digital Microphones for Low Power Keyword Detection and Noise Suppression

Also Published As

Publication number Publication date
WO2019177699A1 (en) 2019-09-19
CN111837179A (zh) 2020-10-27
US10332543B1 (en) 2019-06-25
US20190304486A1 (en) 2019-10-03
DE112019001297T5 (de) 2021-01-28
US11264049B2 (en) 2022-03-01

Similar Documents

Publication Publication Date Title
DE112019001297B4 (de) Systeme und verfahren zur erfassung von geräuschen zur mustererkennungsverarbeitung
DE112017006411T5 (de) Ständig aufnahmebereite sprachbefehlserkennung und -erfassung mit niedriger leistungsaufnahme
CN107564518B (zh) 智能设备控制方法、装置及计算机设备
DE102018204860A1 (de) Systeme und Verfahren für energieeffiziente und leistungsarme verteilte automatische Spracherkennung auf tragbaren Vorrichtungen
DE102013003273A1 (de) Kleinleistungs-Audiodetektion
CN111210021B (zh) 一种音频信号处理方法、模型训练方法以及相关装置
KR101622493B1 (ko) 오디오 피처 데이터의 추출 및 분석
DE112014004951T5 (de) VAD-Detektions-Vorrichtung und Verfahren zum Betreiben derselben
US11315591B2 (en) Voice activity detection method
CN111223497A (zh) 一种终端的就近唤醒方法、装置、计算设备及存储介质
DE112015004522T5 (de) Akustische Vorrichtung mit niedrigem Leistungsverbrauch und Verfahren für den Betrieb
DE112018006101T5 (de) Dynamische Anmeldung einer benutzerdefinierten Aufweck-Schlüsselphrase für ein sprachfähiges Computersystem
DE112018002871T5 (de) System und verfahren zur audiomustererkennung
CH694653A5 (de) Digitales Hörhilfegerät
DE112019001316T5 (de) Doppelpipeline-architektur zur aktivierungsphrasendetektion mit sprechbeginndetektion
DE102017129484A1 (de) Spracherkennung ohne unterbrechen der audiowiedergabe
DE112012005643T5 (de) Kontextwahrnehmung für Computervorrichtungen
DE102018114658A1 (de) Eingabe während einer Unterhaltungssitzung
EP3386215B1 (de) Verfahren zum betrieb einer hörvorrichtung und hörvorrichtung
EP2200341B1 (de) Verfahren zum Betrieb eines Hörhilfegerätes sowie Hörhilfegerät mit einer Quellentrennungseinrichtung
DE112019003234T5 (de) Audioverarbeitungsvorrichtung, audioverarbeitungsverfahren und aufzeichnungsmedium
CN110517682B (zh) 语音识别方法、装置、设备及存储介质
DE102020130041A1 (de) Verbergen von phrasen in über luft laufendem audio
DE112014005087T5 (de) Mikrofon und entsprechendes digitales Interface
DE202017104587U1 (de) Gestenaktivierte Fernsteuerung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015220000

Ipc: G10L0025780000

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R082 Change of representative