DE112019001297B4

DE112019001297B4 - Systeme und verfahren zur erfassung von geräuschen zur mustererkennungsverarbeitung

Info

Publication number: DE112019001297B4
Application number: DE112019001297.5T
Authority: DE
Inventors: Robert Zopf; Victor Simileysky; Ashutosh Pandey; Patrick Cruise
Original assignee: Cypress Semiconductor Corp
Current assignee: Cypress Semiconductor Corp
Priority date: 2018-03-12
Filing date: 2019-01-25
Publication date: 2023-02-02
Anticipated expiration: 2039-01-26
Also published as: WO2019177699A1; CN111837179A; US10332543B1; US20190304486A1; DE112019001297T5; US11264049B2

Abstract

Ein Verfahren, das Folgendes beinhaltet:Erfassen (402) einer ersten Vielzahl von Teilen von Audiodaten (110) durch periodisches Erfassen der Audiodaten mit ersten Intervallen;Detektieren (404) von Sprachbeginn (110.2) in den Audiodaten (110);als Reaktion auf das Detektieren des Sprachbeginns (110.2), Umschalten (406) von periodischem Erfassen der Audiodaten (110) auf kontinuierliches Erfassen der Audiodaten (110); undKombinieren (408) von mindestens einem erfassten Teil der ersten Vielzahl von Teilen von Audiodaten mit den kontinuierlich erfassten Audiodaten, um zusammenhängende Audiodaten bereitzustellen.

Description

VERWANDTE ANMELDUNGEN
Diese Anmeldung ist eine internationale Anmeldung der nicht provisorischen US-Patentanmeldung Nr. 16/016,344 , eingereicht am 22. Juni 2018, die das Prioritätsrecht aus der provisorischen US-Patentanmeldung Nr. 62/641,767 , eingereicht am 12. März 2018, in Anspruch nimmt, die alle hierin durch Bezugnahme in ihrer Gesamtheit einbezogen sind.
TECHNISCHES GEBIET
Der Gegenstand bezieht sich auf das Feld der Mustererkennungslösungen. Insbesondere, aber ohne Beschränkung, offenbart der Gegenstand Techniken zum Erfassen von Geräuschen zur Mustererkennungsverarbeitung.
HINTERGRUND
Vorrichtungen mit „Immer-eingeschaltet“- oder „Immer-Hören“-Schnittstellenfähigkeiten, wie etwa sprachfähige digitale Assistenten, Smart-Lautsprecher und Freisprechschnittstellen erfordern herkömmlicherweise einen konstanten Strom, der entweder den Batteriestrom erschöpft oder eine elektrische Steckdose erfordert. Teile von Vorrichtungen mit Spracherkennungsfähigkeiten können in einem Niedrigstromverbrauchsmodus bleiben, bis sprachähnliche Laute detektiert werden, wonach eine Phrasendetektion bestimmen kann, ob ein spezifisches Wort oder eine spezifische Phrase (d. h. eine Weckphrase) gesprochen wurde. Die Implementierung einer Weckphrasendetektion resultiert in erhöhtem Stromverbrauch, da Teile der Vorrichtung über längere Zeiträume in einem bestromten Zustand (z. B. „Immer-eingeschaltet“) bleiben.
Weiterhin sind die Offenbarungen der DE 10 2013 003 273 A1 , US 2014/0 270 197 A1 und US 2016 / 0 196 838 A1 gegebenenfalls hilfreich für das Verständnis der vorliegenden Erfindung.
Die DE 10 2013 003 273 A1 beschreibt Vorrichtungen und Verfahren zum Detektieren eines vorbestimmten Audiosignals in Audiosignalen. Eine Vorrichtung umfasst einen mit einem Taktsignalgenerator gekoppelten Prozessor, eine Leistungssteuerung und einen Audiodetektor. Die Leistungssteuerung steuert eine dem Prozessor durch den Taktsignalgenerator zugeführte Taktrate, um die Vorrichtung zu steuern, in einem Kleinleistungsmodus, der einen relativ niedrigen Stromverbrauch aufweist, oder in einem Normalleistungsmodus, der einen relativ hohen Stromverbrauch aufweist, zu arbeiten. Der Audiodetektor empfängt Audiosignale und detektiert im Kleinleistungsmodus eine wahrscheinliche Anwesenheit eines vorbestimmten Audiosignals in den Audiosignalen. Die Leistungssteuerung steuert die Vorrichtung, in Reaktion auf die detektierte Anwesenheit des vorbestimmten Audiosignals durch den Audiodetektor vom Kleinleistungsmodus in den Normalleistungsmodus umzuschalten.
In der US 2014 / 0 270 197 A1 werden Systeme und Verfahren beschrieben, die ein Audio-Frontend eines mobilen Geräts verwenden, um während eines ersten Abschnitts eines periodischen Erfassungsfensters Audiosignale aus einem Audiosignal abzutasten. Der Stromverbrauch einer oder mehrerer Komponenten des Audio-Frontends wird während eines zweiten Abschnitts des periodischen Erfassungsfensters reduziert. Darüber hinaus kann, zumindest teilweise auf der Grundlage des abgetasteten Audiosignals, bestimmt werden, ob eine Sprachaktivität im Audiosignal vorhanden ist. In einem Beispiel werden die Länge des ersten Abschnitts und die Länge des zweiten Abschnitts durch ein Tastverhältnis des periodischen Erfassungsfensters definiert.
Die US 2016 / 0 196 838 A1 beschreibt Systeme und Verfahren zur Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung. Ein Beispielverfahren umfasst das Empfangen eines ersten akustischen Signals, das wenigstens einen von einem digitalen Mikrofon aufgenommenen Ton angibt. Das erste akustische Signal enthält gepufferte Daten, die auf einem einzigen Kanal mit einer ersten Taktfrequenz übertragen werden. Das digitale Mikrofon kann eine Sprachaktivitätserkennung bereitstellen. Das Beispielverfahren umfasst auch das Empfangen wenigstens eines zweiten akustischen Signals, das den wenigstens einen Ton angibt, der von wenigstens einem zweiten Mikrofon aufgenommen wird, wobei das wenigstens eine zweite akustische Signal Echtzeitdaten enthält. Das erste und das zweite akustische Signal werden einem Audioverarbeitungssystem zur Verfügung gestellt, das eine Rauschunterdrückung und eine Schlüsselworterkennung umfassen kann. Der gepufferte Teil kann mit einer höheren, zweiten Taktfrequenz gesendet werden, um eine Verzögerung des ersten akustischen Signals aus dem zweiten akustischen Signal zu entfernen. Das Bereitstellen der Signale kann auch das Verzögern des zweiten akustischen Signals umfassen.
Figurenliste
Einige Ausführungsformen werden beispielhaft und nicht beschränkend in den Figuren der beiliegenden Zeichnungen illustriert, in denen:

1 eine Blockdarstellung ist, die eine vernetzte Audioverarbeitungsvorrichtung gemäß verschiedenen Ausführungsformen illustriert;
2 eine Blockdarstellung ist, die Komponenten einer Audioverarbeitungsvorrichtung gemäß Ausführungsformen illustriert;
3 eine Blockdarstellung ist, die Stromdomänen einer Audioverarbeitungsvorrichtung gemäß Ausführungsformen illustriert;
4 eine Flussdarstellung ist, die ein Verfahren zum periodischen Erfassen von Audiodaten, um zusammenhängende Audiodaten zur Spracherkennung bereitzustellen, gemäß Ausführungsformen illustriert;
5 eine interaktive Zeitsteuerungsdarstellung ist, die das periodische Erfassen von Audiodaten gemäß einer Ausführungsform illustriert;
6 eine Tabellendarstellung ist, die die resultierende prozentuale Erkennung einer Weckphrase gemäß Ausführungsformen illustriert;
7 eine Flussdarstellung ist, die ein Verfahren zur periodischen Aktivierungsschwellenberechnung gemäß Ausführungsformen illustriert;
8 eine interaktive Zeitsteuerungsdarstellung ist, die eine periodische Aktivierungsschwellenberechnung gemäß Ausführungsformen illustriert; und
9 eine Blockdarstellung ist, die eine elektronische Vorrichtung gemäß Ausführungsformen illustriert.

DETAILLIERTE BESCHREIBUNG
Es werden Systeme und Verfahren zur Erfassung von Geräuschen zur Mustererkennung beschrieben. In der folgenden Beschreibung werden, zum Zwecke der Erklärung, zahlreiche Beispiele und Ausführungsformen dargelegt, um ein gründliches Verständnis des beanspruchten Gegenstands bereitzustellen. Es wird einem Fachmann auf dem Gebiet jedoch klar sein, dass der beanspruchte Gegenstand in anderen Ausführungsformen praktisch umgesetzt werden kann. Einige Ausführungsformen werden nun kurz vorgestellt und dann ausführlich zusammen mit anderen Ausführungsformen beginnend mit 1 erläutert.
Smart-Lautsprecher, Hörgeräte, sprachgesteuerte Hubs, Mobiltelefone, weiße Waren und industrielle Maschinen sind Beispiele für Produkte, die zunehmend sprachschnittstellenfähig sind. Systeme, die „Immer-eingeschaltet“- oder „Immer-Hören“-Sprachschnittstellenfähigkeiten bereitstellen, können mehrere Stromdomänen umfassen, die jeweils in einem oder mehreren Stromverbrauchszuständen arbeiten können. Zum Beispiel kann eine Weckphrasendetektionsstromdomäne in einem Niedrigstromverbrauchsmodus bleiben, bis eine Sprachbeginndetektionsstromdomäne sprachähnliche Laute detektiert. Danach wird die Aufweckphrasendetektionsstromdomäne in einen aktiven Modus überführt, um eine Aufweckphrasendetektion durchzuführen. Ein typischer Aufweckphrasendetektor (Wake Up Phrase Detector, WUPD) erfordert die Geräusche (z. B. die führenden Geräusche oder Hintergrundgeräusche), die der Weckphrase vorausgehen, sodass er die gesamte Weckphrase verarbeiten kann, und zur Geräuschstatistikschätzung. Bei existierenden Techniken wird der Systemstrom durch die Sprachbeginndetektionsstromdomäne dominiert, da ihre Mikrofone stets eingeschaltet bleiben müssen, ihre Digitalisierungselektronik stets Hochqualitätsaudio bereitstellen muss und ihre Speicherpuffer stets bestromt sein müssen, verwaltet werden müssen und die Hintergrundgeräusche für den WUPD erfassen müssen.
Hierin beschriebene Ausführungsformen können den durch eine Audioverarbeitungsvorrichtung verbrauchten Strom durch periodisches Erfassen der Hintergrundgeräusche für spätere Verwendung durch den WUPD reduzieren, während Spracherkennungsraten bereitgestellt werden, die mit jenen vergleichbar sind, die von Vorrichtungen bereitgestellt werden, die konstant und wiederholt Hintergrundgeräusche erfassen. Folglich muss ein Mikrofon der offenbarten Audioverarbeitungsvorrichtung nicht immer vollständig bestromt sein und kann der Sprachbeginndetektor (Speech Onset Detector, SOD) eine Sprachbeginndetektion unter Verwendung von Audiodaten mit niedriger Qualität als jene, die von WUPD dem verwendet werden, durchführen. Bei Ausführungsformen können periodisch erfasste Hintergrundgeräusche auch verwendet werden, um zu bestimmen, ob eine Aktivierungsschwelle des Mikrofons verstellt werden soll, um unnötigen Stromverbrauch durch den SOD zu vermeiden. Verglichen mit früheren Techniken können Ausführungsformen „Immer-eingeschaltet“- oder „Immer-Hören“-Funktionalität mit niedrigerem Stromverbrauch ermöglichen. Diese und andere Ausführungsformen werden hierin ausführlicher beschrieben.
Die nachstehende detaillierte Beschreibung umfasst Bezüge auf die beiliegenden Zeichnungen, die Teil der detaillierten Beschreibung bilden. Die Zeichnungen zeigen Illustrationen gemäß Ausführungsformen. Diese Ausführungsformen, die hierin auch als „Beispiele“ bezeichnet werden, werden ausführlich genug beschrieben, um es Fachleuten auf dem Gebiet zu ermöglichen, Ausführungsformen des beanspruchten Gegenstands auszuüben. Die Ausführungsformen können kombiniert werden, andere Ausführungsformen können benutzt werden oder strukturelle, logische und elektrische Änderungen können vorgenommen werden, ohne vom Umfang des beanspruchten Gegenstands abzuweichen. Die nachfolgende ausführliche Beschreibung ist daher nicht im einschränkenden Sinne zu verstehen und der Umfang wird durch die anhängenden Ansprüche und deren Äquivalente definiert.
1 ist eine Blockdarstellung 100, die eine vernetzte Audioverarbeitungsvorrichtung 102 gemäß verschiedenen Ausführungsformen illustriert. Es wird gezeigt, dass die Audioverarbeitungsvorrichtung 102 mit der Mustererkennungsanwendung 112 und der gesteuerten Vorrichtung 103 über das/die Netzwerk(e) 114 gekoppelt ist. Die Audioverarbeitungsvorrichtung 102 wird eine Audiomustererkennung durch Verarbeiten von Audiodaten 110, die basierend auf einer oder mehreren der Schallwellen 105 und 107 (z. B. Audiosignalen), die von der Audiomusterquelle 104 bzw. der Geräuschquelle 106 empfangen werden, generiert werden, ermöglichen. Wie unten ausführlicher beschrieben wird, kann die Audioverarbeitungsvorrichtung 102 eine Audiomustererkennung ermöglichen, indem bestimmt wird, ob die Weckphrase 110.3 geäußert wurde. Bei einigen Ausführungsformen kann die Audioverarbeitungsvorrichtung 102 auch die Abfrage oder den Befehl 110.4 erkennen und/oder verarbeiten, die/der auf die Weckphrase 110.3 folgt. Die Audioverarbeitungsvorrichtung 102 muss nicht mit dem/den Netzwerk(en) 114 gekoppelt sein, um die hierin beschriebenen Ausführungsformen zu implementieren.
Die Audiomusterquelle 104 stellt die Schallwellen 105 bereit, die einem erkennbaren Audiomuster entsprechen. Bei Ausführungsformen ist ein Audiomuster ein vorher festgelegtes Audiomuster und/oder ein Audiomuster, das durch eine mit der Audioverarbeitungsvorrichtung 102 assoziierte Mustererkennungsanwendung erkennbar ist. Die Audiomusterquelle 104 kann belebt (z. B. menschlich) oder ein unbelebtes Objekt oder unbelebte Objekte (z. B. eine Maschine) sein.
Geräuschquellen 106 stellen die Schallwellen 107 bereit, die nicht dem erkennbaren Audiomuster oder den Schallwellen 105 entsprechen. Die Geräuschquellen 106 können ebenfalls belebt oder unbelebt sein und können Umfeld-/Umgebungsgeräusche von Lautsprechern, Fernsehgeräten, Videospiel, Straßenverkehrslärm, menschlichen Sprechern, industriellen oder anderen Geräuschquellen, die Umgebungsgeräusche generieren, umfassen.
Ein Netzwerk(e) 114 kann/können ein oder mehrere Arten von drahtgebundenen und/oder drahtlosen Netzwerken zum kommunikativen Koppeln der Netzwerkknoten von 1 miteinander umfassen. Zum Beispiel und nicht zur Beschränkung kann/können das/die Netzwerk(e) 114 ein drahtloses lokales Bereichsnetzwerk (Wireless Local Area Network, WLAN) (z. B. WiFi, 802.11-konform), PANs (z. B. Bluetooth-SIG-Standard oder Zigbee, IEEE-802.15.4-konform) und das Internet umfassen. Bei einer Ausführungsform ist die Audioverarbeitungsvorrichtung 102 über Wifi und das Internet mit der Mustererkennungsanwendung 112 kommunikativ gekoppelt und über Bluetooth und/oder WiFi mit der gesteuerten Vorrichtung 103 gekoppelt.
Die Mustererkennungsanwendung 112 arbeitet, um Audiomuster zu erkennen und die erkannten Audiomuster mit einer entsprechenden Bedeutung zu assoziieren. Die Mustererkennungsanwendung 112 kann auf einer oder mehreren Rechenvorrichtungen vorliegen, die über die Verbindung(en) mit dem/den Netzwerk(en) 114 gekoppelt sind, und Prozessoren, Speicher, Elektronik, arithmetische Logik, Software, Algorithmen und Datenstrukturen verwenden oder durch diese implementiert werden, um Attribute von hörbarem Schall, einschließlich Höhe, Lautstärke, Ton, sich wiederholende oder rhythmische Laute und/oder sprachliche Laute, wie etwa Wörter, Phrasen und dergleichen, zu organisieren und zu verarbeiten. Bei einigen Ausführungsformen erkennt die Mustererkennungsanwendung 112 den Befehls- oder Abfrageteil 110.4 der Audiodaten 110 als Reaktion auf das Detektieren oder Erkennen des Weckphrasenteils (110.3) der Audiodaten 110 durch die Audioverarbeitungsvorrichtung 102. Bei anderen Ausführungsformen kann die Mustererkennungsanwendung 112 auf der Audioverarbeitungsvorrichtung 102 selbst implementiert werden.
Bei einer Ausführungsform umfasst die Mustererkennungsanwendung 112 automatisierte Spracherkennungstechnologie (ASR-Technologie, ASR = Automated Speech Recognition), welche vorher festgelegte Audiomuster identifiziert und diese miteinander (z. B. unter Verwendung einer Datenstruktur) und/oder mit einer entsprechenden Bedeutung assoziiert. Durch die Mustererkennungsanwendung 112 erkennbare Muster können zum Beispiel und nicht zur Beschränkung Musikerkennung, Liederkennung, Stimmerkennung, Bilderkennung und Spracherkennung oder andere erfasste Muster ermöglichen. Bei Ausführungsformen stellt die Mustererkennungsanwendung 112 ihre Resultate der Audioverarbeitungsvorrichtung 102 bereit, welche nach dem Befehl oder der Abfrage handeln kann.
Es wird gezeigt, dass die gesteuerte Vorrichtung 103 über die Verbindung(en) mit dem/den Netzwerk(en) 114 gekoppelt ist. Die gesteuerte Vorrichtung 103 kann eine beliebige Vorrichtung mit einer Funktion, die als Reaktion auf eine durch die Audioverarbeitungsvorrichtung 102 ermöglichte Audiomustererkennung initiiert wird, umfassen. Bei einigen Ausführungsformen steuert die Audioverarbeitungsvorrichtung die gesteuerte Vorrichtung 103 basierend auf den Resultaten der durch die Mustererkennungsanwendung 112 durchgeführten Audiomustererkennung. Beispielhafte gesteuerte Vorrichtungen umfassen weiße Waren, Thermostate, Beleuchtung, automatisierte Verdunkelungen, automatisierte Türschlösser, Automobilsteuerungen, Fenster, industrielle Steuerungen und Betätigungsvorrichtungen. Wie hierin verwendet, können gesteuerte Vorrichtungen jede beliebige Logik, Firmware oder Softwareanwendung umfassen, die auf der gesteuerten Vorrichtung 103 laufen.
Wie oben vorgestellt, kann die Audioverarbeitungsvorrichtung 102 eine Audiomustererkennung durch Verarbeiten von Audiodaten 110 ermöglichen. Es wird gezeigt, dass die Audiodaten führende Geräusche 110.1 (z. B. Hintergrundgeräusche), Sprachbeginn 110.2, eine Weckphrase 110.3 und eine Abfrage oder einen Befehl 110.4 umfassen. Die führenden Geräusche 110.1 sind Audiodaten, die den Schallwellen 107 entsprechen, und umfassen Umgebungsgeräusche im Umfeld, die dem Beginn 110.2 vorausgehen. Der Sprachbeginn 110.2, die Weckphrase 110.3 und die Abfrage oder der Befehl 110.4 sind Audiodaten, die sowohl den Schallwellen 105 (z. B. der zu erkennenden Sprache) als auch den Schallwellen 107 (z. B. Umgebungsgeräuschen) entsprechen. Der Sprachbeginn 110.2 ist der Anfang der Sprache in den Audiodaten 110 und wird als anfänglicher Teil oder Teilsatz der Weckphrase 110.3 gezeigt. Die Weckphrase 110.2 ist eine vorher festgelegte Phrase, die von einem Benutzer geäußert wird (z. B. „ok Telefon“). Nachdem die Weckphrase 110.2 geäußert wurde, äußert der Benutzer die Abfrage oder den Befehl 110.3 (z. B. „die Tür aufsperren“), nach der/dem gehandelt werden soll (z. B. durch die gesteuerte Vorrichtung 103).
Um Strom zu sparen, kann die Audioverarbeitungsvorrichtung 102 eine Detektion der Weckphrase 110.3 nur dann versuchen, wenn die Audioverarbeitungsvorrichtung 102 bereits einen Sprachbeginn 110.2 detektiert hat. Gleichermaßen kann eine Spracherkennung des Befehls oder der Abfrage 110.4 nur dann versucht werden, wenn die Audioverarbeitungsvorrichtung 102 die Weckphrase 110.3 detektiert hat. Bei früheren „Immer-Hören“-Lösungen füllt die Audioverarbeitungsvorrichtung 102 kontinuierlich und wiederholt ihren Puffer mit den führenden Geräuschen 110.1 (z. B. 250 ms mit führenden Geräuschen) zur Verwendung beim Schätzen von Geräuschen (z. B. Umgebungsgeräuschen) und Vermeidung einer Phrasenverstümmelung. Die Vermeidung einer Phrasenverstümmelung bedeutet Bereitstellen der Weckphrase 110.3 zur Weckphrasendetektion ohne Verzögerung, die die Weckphrase 110.3 abschneidet oder verstümmelt. Eine Phrasenverstümmelung würde durch die Verzögerung beim Detektieren des Sprachbeginns und Wecken des WUPD verursacht werden. Folglich bleiben die Stromdomänen von früheren Lösungen, die mit einem kontinuierlichen und wiederholten Füllen des Puffers assoziiert sind, in einem aktiven Stromverbrauchsmodus, unabhängig davon, ob ein Sprachbeginn detektiert wird. Die geschätzten Geräusche unterstützen die Audioverarbeitungsvorrichtung 102 beim Beseitigen von Geräuschen (z. B. Umgebungsgeräuschen) von der Weckphrase 110.3 zwecks Weckphrasendetektion. Die kontinuierliche und wiederholte Erfassung (z. B. Abtasten und Puffern) der führenden Geräusche 110.1 kann einen erheblichen Stromverbrauch beinhalten, was speziell bei einer batteriebestromten Audioverarbeitungsvorrichtung Auswirkungen haben kann. Des Weiteren können Änderungen von Umgebungsgeräuschbedingungen falsche Positive bei der Sprachbeginndetektion auslösen.
Bei ihrer Untersuchung zur Lösung dieser und anderer technischer Herausforderungen stellten die Erfinder fest, dass sich Geräuschstatistiken (z. B. basierend auf Hintergrundgeräuschen 107) in einigen Umfeldern über einen relativ kurzen Zeitraum (z. B. 10-30 s) nicht erheblich ändern. Einige transiente Geräusche können auftreten (z. B. eine Autohupe), dies kann aber möglicherweise während des kontinuierlich gefüllten führenden Geräuschpuffers (z. B. 250 ms) auftreten, da dieser eine kurze Zeit davor liegt. Die Erfinder entdeckten, dass Abtasten und Puffern der Geräusche in periodischen Intervallen eine statistische Stichprobe der Geräusche bereitstellen kann, die hinreichend repräsentativ für die Geräusche ist, die bei den früheren Techniken kontinuierlich und wiederholt gesammelt wurden. Die Erfinder entdeckten außerdem, dass Verstümmelungen (z. B. bis zu 10 ms) möglicherweise zu keiner Verschlechterung der Weckphrasendetektionsrate führen und dass größere Verstümmelungen (z. B. 10-20 ms) auftreten können, bevor es zu einer erheblichen Verschlechterung der Detektionsrate kommt. Die Erfinder nutzten ihre Entdeckungen bei der Ausarbeitung der hierin beschriebenen erfinderischen technischen Systeme, Einrichtungen und Verfahren, die verglichen mit früheren Techniken eine Audiomustererkennung mit reduziertem Energieverbrauch ermöglichen, während sie mindestens vergleichbare Erkennungsraten bereitstellen.
2 ist eine Blockdarstellung, die Komponenten einer Audioverarbeitungsvorrichtung 202 gemäß Ausführungsformen illustriert. Es wird gezeigt, dass die Audioverarbeitungsvorrichtung 202 funktionelle Blöcke umfasst, einschließlich einer Mikrofongruppierung 220, einer Audioschnittstelle 221, eines Schwellenberechnungsmoduls 222, SOD 223, einer Audioschnittstellensteuerung 224, eines Puffers 225, eines Kombinierers 226 und eines WUPD 228. Jeder funktionelle Block kann mit dem Bussystem 227 (z. B. 12C, 12S) gekoppelt und unter Verwendung von Hardware (z. B. Elektronik), Anweisungen (z. B. Software und/oder Firmware) oder einer Kombination von Hardware und Anweisungen implementiert werden. Bei einer Ausführungsform wird ein Teil oder die ganze Audioverarbeitungsvorrichtung 202 mittels Elektronik in einer integrierten Schaltungsvorrichtung (d. h. auf einem einzelnen integrierten Schaltungssubstrat) oder in einem einzelnen Vorrichtungspaket implementiert. Bei alternativen Ausführungsformen sind die Komponenten der Audioverarbeitungsvorrichtung 202 in mehreren integrierten Schaltungsvorrichtungen, Vorrichtungspaketen oder anderer Elektronik verteilt.
Die Mikrofongruppierung 220 dient dem Empfangen von Schallwellen, wie etwa 105 und 107 von 1. Jedes Mikrofon der Mikrofongruppierung 220 umfasst einen Wandler oder anderen Mechanismus (z. B. einen, der eine Membran umfasst), um die Energie von Schallwellen in ein elektronisches Signal oder digitales Signal (z. B. Audiodaten) umzuwandeln. Die Mikrofongruppierung 220 kann auch eine oder mehrere Mikrofone umfassen und wird hierin manchmal als Mikrofon 220 bezeichnet. Wenn die Schallwellen 105 und 107 während einer einheitlichen Periode empfangen werden, umfassen die Audiodaten Komponenten, die den beiden Schallwellen 105 und 107 entsprechen. Bei einigen Ausführungsformen können ein oder mehrere Mikrofone der Gruppierung 220 ein digitales Mikrofon sein. Die Mikrofongruppierung 220 kann Teil der Audioschnittstelle 221 oder eine separate periphere Vorrichtung sein, die außerhalb der Audioverarbeitungsvorrichtung 202 liegt, aber mit dem Bussystem 227 gekoppelt ist. Bei einigen Ausführungsformen kann die Mikrofongruppierung Schwellen-/Hystereseeinstellungen für die Aktivitätsdetektion und Mess- und/oder Verarbeitungslogik umfassen, um zu bestimmen, ob eine durch die Mikrofongruppierung 220 empfangene Schallwelle eine Aktivierungsschwelle erfüllt oder überschreitet und ob entsprechende Audiodaten zwecks Verarbeitung an den SOD 223 übermittelt werden sollen. Bei verschiedenen Ausführungsformen kann das Schwellenaktivitätsniveau ein Energieniveau, eine Amplitude, eine Frequenz oder ein anderes Attribut einer Schallwelle sein. Die Mikrofongruppierung 220 kann mit einem Speicher gekoppelt sein, der die Aktivierungsschwelle speichert, welche dynamisch neu programmiert werden kann (z. B. durch das Schwellenberechnungsmodul 222).
Die Audioschnittstelle 221 umfasst Elektronik zum Verarbeiten und Analysieren der Audiodaten, die von der Mikrofongruppierung 220 empfangen werden. Bei einigen Ausführungsformen digitalisiert die Audioschnittstelle 221 die elektronischen Audiosignale. Nachdem sie digitalisiert wurden, kann die Audioschnittstelle 221 Signalverarbeitung (z. B. Demodulation, Mischen, Filtern) bereitstellen, um Attribute der Audiodaten (z. B. Phase, Wellenlänge, Frequenz) zu analysieren oder zu manipulieren.
Bei einer Ausführungsform umfasst die Audioschnittstelle 221 ein Pulsdichtenmodulator-Frontende (PDM-Frontende), das mit der Mikrofongruppierung 220 verbunden ist. Im PDM-Frontende generiert der PDM einen pulsdichtenmodulierten Bitstream basierend auf einem elektronischen Signal von der Mikrofongruppierung 220. Der PDM stellt dem Mikrofon 220, das die anfängliche Abtastrate bestimmt, ein Taktsignal bereit und empfängt dann von dem Mikrofon 220 ein Datensignal, welches das aus dem Umfeld erfasste Audio repräsentiert. Der PDM generiert aus dem Datensignal einen PDM-Bitstream und kann den Bitstream einem Dezimator bereitstellen, der die Audiodaten generieren kann, die dem Bussystem 227 bereitgestellt werden, indem entweder Hochqualitätsaudiodaten bereitgestellt werden oder eine Abtastrate des pulsdichtenmodulierten Bitstreams von dem PDM auf Niedrigqualitätsaudiodaten reduziert wird. Bei einer alternativen Ausführungsform ist die Audiodatenquelle Hilfs-Analog-Digital-Wandler-Frontende (AUX ADC-Frontende, AUX ADC = Auxiliary Analog To Digital Converter). Im Hilfs-ADC-Frontende wandelt ein Analog-Digital-Wandler ein analoges Signal von dem Mikrofon 220 in ein digitales Audiosignal um. Das digitale Audiosignal kann einem Dezimator bereitgestellt werden, um die Audiodaten zu generieren, die dem Bussystem 227 bereitgestellt werden, indem entweder Hochqualitätsaudiodaten bereitgestellt werden oder eine Abtastrate des digitalen Audiosignals von dem ADC auf Niedrigqualitätsaudiodaten reduziert wird.
Die Audioschnittstellensteuerung 224 dient dem Steuern der Zeitsteuerung für das Abtasten durch die Audioschnittstelle 221 oder die Mikrofongruppierung 220 und der Abtastrate für das Abtasten durch die Audioschnittstelle 221 oder die Mikrofongruppierung 220. Die Audioschnittstellensteuerung 224 kann zum Beispiel die Audioqualität (z. B. Abtastrate) von Audiodaten steuern, die dem SOD 223 und dem Puffer 225 bereitgestellt werden, und kann außerdem die Zeiten steuern, in denen solche Audiodaten dem Bussystem 227 periodisch oder kontinuierlich bereitgestellt werden sollen. Obwohl sie als separater funktioneller Block gezeigt wird, kann die Funktionalität der Audioschnittstellensteuerung 224 durch den SOD 223 und/oder den Puffer 225 oder einen anderen funktionellen Block erfolgen. Alternativ oder zusätzlich kann die Audioschnittstellensteuerung 224 in einer oder mehreren Stromdomänen vorliegen, die unten in Bezug auf 3 erörtert werden.
Der SOD 223 dient dazu, zu bestimmen, ob es sich bei den von der Audioschnittstelle 221 empfangenen Audiodaten um Sprachbeginn handelt. Der SOD 223 kann beliebige der Sprachbeginndetektionsalgorithmen oder -techniken verwenden, die auf dem Gebiet bekannt sind. Bei einer Ausführungsform sind Audiodaten mit einer reduzierten Abtastrate (z. B. 2-4 kHz) ausreichend, um Sprachbeginn (oder ein anderes Beginnereignis) zu detektieren, während dem SOD 223 erlaubt wird, mit einer niedrigeren Frequenz getaktet zu werden, wodurch der Stromverbrauch und die Komplexität des SOD 223 reduziert wird. Nach Erfassen eines Sprachbeginnereignisses schaltet der SOD 223 ein Statussignal auf den Bus 227 auf, um den WUPD 228 von einem Niedrigstromverbrauchszustand (z. B. Schlafzustand) auf einen höheren Stromverbrauchszustand (z. B. aktiven Zustand) zu wecken, um eine Phasendetektion durchzuführen, wie weiter unten erörtert wird.
Das Schwellenberechnungsmodul 222 überwacht Umgebungsgeräusche, um die Aktivierungsschwelle des Audios, welche eine Sprachbeginndetektion auslösen soll, dynamisch zu berechnen und potenziell neu einzustellen, um eine unnötige Verarbeitung durch den SOD 223 zu vermeiden. Bei einer Ausführungsform veranlasst die Audioschnittstellensteuerung 224 die Audioschnittstelle 221, dem Schwellenberechnungsmodul 222 periodisch in Intervallen Audiodaten (z. B. Umgebungsgeräusche) bereitzustellen. Bei einer Ausführungsform kann das Schwellenberechnungsmodul 222 den Aktivierungsschwellenpegel von unterhalb des aktuellen Pegels der Umgebungsgeräusche auf oberhalb des aktuellen Pegels der Umgebungsgeräusche neu einstellen.
Der Puffer 225 dient dazu, abgetastete führende Geräuschaudiodaten periodisch zu speichern. Bei einer Ausführungsform ist der Puffer 225 entsprechend bemessen, um etwas mehr als 250 ms an Audiodaten (z. B. 253 ms) zu speichern, um das wie unten erörterte Kombinieren zu fassen. Alternativ oder zusätzlich kann der Puffer 225, nachdem der SOD 223 einen Sprachbeginn detektiert hat, als Kanal wirken, um die kontinuierlich abgetasteten Audiodaten, die die Weckphrase 110.3 und den Befehl oder die Abfrage 110.4 beinhalten, durchzuleiten. Bei einer Ausführungsform veranlasst die Audioschnittstellensteuerung 224 die Audioschnittstelle 221, dem Puffer 225 periodisch in Intervallen führende Geräusche bereitzustellen. Sobald der SOD 223 sprachähnliche Laute detektiert hat, kann die Audioschnittstellensteuerung 224 die Audioschnittstelle 221 veranlassen, dem Puffer die restlichen Audiodaten 110.2, 110.3. und 110.4 kontinuierlich bereitzustellen.
Der Kombinierer 226 dient dazu, unter Verwendung der periodisch erfassten führenden Geräusche 110.1 der kontinuierlich erfassten restlichen Audiodaten 110.2, 110.3. und 110.4 zusammenhängende Audiodaten zu generieren. Bei einer Ausführungsform vereinigt der Kombinierer 226 einen Teil eines Endes der letzten periodisch erfassten Audiodaten mit einem Teil des Anfangs der kontinuierlich erfassten Audiodaten. Der Kombinierer 226 kann zum Beispiel eine Überlappungs-Hinzufügungs-Operation verwenden, um 3 ms der führenden Geräusche mit den kontinuierlich erfassten Audiodaten zu überlappen. Der Kombinierer 226 kann die zusammenhängenden Audiodaten über das Bussystem 227 an den WUPD 228 ausgeben
Der WUPD 228 dient dazu, zu bestimmen, ob die von dem Kombinierer 226 ausgegebenen zusammenhängenden Audiodaten eine Weckphrase umfassen. Der WUPD 228 kann eine Verarbeitungseinheit umfassen, die, wenn der WUPD 228 aktiviert wird, Berechnungen mit höherer Komplexität und höherem Strombedarf (z. B. relativ zum SOD 223) durchführt, um zu bestimmen, ob ein Aufweckwort oder eine Aufweckphrase gesprochen wurde. Der WUPD 228 nimmt diese Bestimmung basierend auf den in dem Puffer 225 gespeicherten Audiodaten (entsprechend einer Zeit vor einem Sprachbeginn) und den Hochqualitätsaudiodaten, die empfangen werden, nachdem ein Sprachbeginn detektiert wird, vor.
3 ist eine Blockdarstellung, die Stromdomänen einer Audioverarbeitungsvorrichtung 300 gemäß Ausführungsformen illustriert. Die Stromdomänen der Audioverarbeitungsvorrichtung 300 können abhängig von dem Bedarf des Systembetriebs zu unterschiedlichen Zeiten in unterschiedlichen Stromverbrauchsmodi arbeiten. Zum Beispiel und nicht zur Beschränkung kann eine Stromdomäne in einem aktiven Modus, einem Überwachungsmodus oder im Schlafmodus arbeiten. Bei Ausführungsformen kann der aktive Modus einer Stromdomäne eine höhere Stromverbrauchsrate als der Überwachungsmodus und der Schlafmodus aufweisen.
Es wird gezeigt, dass die Sensorstromdomäne 330 die Mikrofongruppierung und die Audioschnittstelle aufweist. Bei Ausführungsformen arbeitet die Sensorstromdomäne 330 in einem Überwachungsmodus, wenn die Mikrofongruppierung Audioaktivität, die eine Aktivierungsschwelle erfüllt oder überschreitet, abhört und überwacht. Wenn die Audioschnittstelle die Audiodaten abtastet, arbeitet die Sensorstromdomäne 330 in einem aktiven Modus. Der aktive Modus kann als aktiver Modus mit niedriger Qualität betrachtet werden, wenn die Audioschnittstelle mit niedrigeren Abtastraten (z. B. 2-8 kHz) abtastet, und als aktiver Modus mit hoher Qualität betrachtet werden, wenn die Audioschnittstelle mit höheren Abtastraten (z. B. Mehr als 8 kHz) abtastet. In Ausführungsformen, bis auf eine, arbeitet die Sensorstromdomäne 330 ungefähr 98 % der Zeit im Überwachungsmodus, ungefähr 1 % der Zeit im aktiven Modus mit niedriger Qualität und ungefähr 1 % der Zeit im aktiven Modus mit hoher Qualität.
Es wird gezeigt, dass die SOD-Stromdomäne 340 den SOD und das Schwellenberechnungsmodul umfasst. Bei Ausführungsformen arbeitet die SOD-Stromdomäne 340 in einem aktiven Modus, wenn das Schwellenberechnungsmodul Audiodaten verarbeitet, um eine aktualisierte Aktivierungsschwelle zu berechnen. Wenn das Schwellenberechnungsmodul keine Audiodaten verarbeitet, arbeitet die SOD-Stromdomäne 340 in einem Schlafmodus. Zum Beispiel in Bezug auf die periodische Aktivierungsschwellenberechnung in Intervallen kann die SOD-Stromdomäne 340 einem Arbeitszyklus unterworfen werden, um 1 % (z. B. 100 ms EIN) der Zeit in einem aktiven Modus zu arbeiten (z. B. zur Berechnung) und 99 % (z. B. 10 s AUS) der Zeit in einem Schlafmodus zu arbeiten (z. B. während Intervallen). Die SOD-Stromdomäne 340 arbeitet außerdem intermittierend im aktiven Modus (z. B. ausgelöst durch ein Audio an der Aktivierungsschwelle), wenn sie Audiodaten verarbeitet, um zu bestimmen, ob die Audiodaten sprachähnliche Laute umfassen. Durch Aktualisierung der Aktivierungsschwelle auf einen Pegel oberhalb der aktuellen Umgebungsgeräusche kann ein unnötiges Aufwecken des SOD, um eine Sprachbeginndetektion durchzuführen, vermieden werden.
Es wird gezeigt, dass die Pufferstromdomäne 360 den Puffer und den Kombinierer umfasst. Die Pufferstromdomäne 360 kann in einem aktiven Modus arbeiten, wenn der Puffer aktiv seinen Puffer füllt, und kann in einem Schlafmodus arbeiten, wenn der Puffer gespeicherte Audiodaten hält, aber nicht aktiv füllt. In Bezug auf periodisches Puffern in Intervallen kann die Pufferstromdomäne 360 einem Arbeitszyklus unterworfen werden, um 1 % (z. B. 250 ms EIN) der Zeit in einem aktiven Modus zu arbeiten und 99 % (z. B. 25 s AUS) der Zeit in einem Schlafmodus zu arbeiten. Bei einigen Ausführungsformen kann die Pufferstromdomäne 360 auch in einem aktiven Modus arbeiten, wenn der Kombinierer Vereinigungsoperationen durchführt, um führende Geräusche mit kontinuierlich durchgeleiteten Audiodaten für den WUPD zu kombinieren.
Bei Ausführungsformen arbeitet die WUPD-Stromdomäne 380 in einem Schlafmodus, bis sie durch den SOD ausgelöst wird, um in einen aktiven Modus einzutreten, um Audiodaten zur Weckphrasendetektion zu verarbeiten. 99 % Prozent der Zeit arbeitet die WUPD-Stromdomäne 380 in einem Schlafmodus, kann aber dennoch aufgrund falscher Auslöser durch den SOD irrtümlich zum aktiven Modus aufgeweckt werden.
4 ist eine Flussdarstellung, die ein Verfahren zum periodischen Erfassen von Audiodaten (z. B. der führenden Geräusche), um zusammenhängende Audiodaten zur Spracherkennung bereitzustellen, gemäß Ausführungsformen illustriert. Das Verfahren 400 kann durch Verarbeitungslogik durchgeführt werden, die Hardware (Schaltungen, zweckgebundene Logik usw.), Software (wie sie beispielsweise auf einem Allzweck-Rechnersystem oder einer zweckgebundenen Maschine ausgeführt wird), Firmware (eingebettete Software) oder eine Kombination davon beinhaltet. Bei verschiedenen Ausführungsformen kann das Verfahren 400 wie gezeigt und wie in Bezug auf 2, 3 und 5 beschrieben durchgeführt werden. 5 ist eine interaktive Zeitsteuerungsdarstellung, die das periodische Erfassen von Audiodaten gemäß einer Ausführungsform illustriert.
Zum Beispiel erfassen in Block 402 Komponenten der Sensorstromdomäne 330 und der Pufferstromdomäne 360 eine erste Vielzahl von Teilen von Audiodaten durch periodisches Erfassen der Audiodaten mit ersten Intervallen. Bezugnehmend auf 5 beinhaltet das periodische Erfassen der Audiodaten das Betreiben der Sensorstromdomäne 330 in einem aktiven Modus, um die Audiodaten abzutasten, und das Betreiben der Pufferstromdomäne in einem aktiven Modus, um die abgetasteten Audiodaten zu puffern. Während der Intervalle kann die Sensorstromdomäne 330 in einem Überwachungsmodus mit niedrigerem Stromverbrauch (z. B. verglichen mit in ihrem aktiven Modus) arbeiten und kann die Pufferstromdomäne 360 in einem Schlafmodus mit niedrigerem Stromverbrauch (z. B. verglichen mit in ihrem aktiven Modus) arbeiten.
Bei Ausführungsformen kann die Audioschnittstellensteuerung 224 eines oder beide Intervalle basierend auf geschätzten Geräuschcharakteristika des Umfelds oder Stromverbrauchsanforderungen der Audioverarbeitungsvorrichtung einstellen oder dynamisch verstellen. Zum Beispiel können die Intervalle anfänglich während einer Fertigungsphase basierend auf einem erwarteten Betriebsumfeld und erwarteten Betriebsbedingungen eingestellt werden. Alternativ oder zusätzlich kann die Audioschnittstellensteuerung 224 während der Laufzeit Geräuschamplituden, Geräuschabweichungen, Tageszeit, Vorrichtungsstandort, Batteriestrom und/oder andere Messungen überwachen, entsprechende Analysen durchführen und die Intervalle unter Verwendung der Resultate der Analysen dynamisch verstellen, um Leistungsziele zu erfüllen.
In Block 404 detektieren Komponenten der SOD-Stromdomäne 340 Sprachbeginn in den Audiodaten. Wie in 5 gezeigt kann die SOD-Stromdomäne 340, vor dem Detektieren eines Sprachbeginns, in einem Schlafmodus arbeiten. Wenn Audiodaten an der Mikrofongruppierung 220 die Aktivierungsschwelle erfüllen oder übertreffen, weckt die Mikrofongruppierung 220 den SOD 223 auf, um einen Sprachbeginndetektionsalgorithmus auszuführen, um zu bestimmen, ob in den Audiodaten sprachähnliche Signale vorhanden sind.
Es wird darauf hingewiesen, dass der SOD 223 den Sprachbeginn in den Audiodaten ohne Verwendung der erfassten Vielzahl von Teilen von Audiodaten detektieren kann. Zum Beispiel kann die Audioschnittstelle die Audiodaten hinsichtlich der periodisch erfassten Audiodaten mit einer ersten Abtastrate (z. B. 16 kHz) abtasten, während sie die Audiodaten zur SOD-223-Analyse mit einer zweiten Abtastrate (z. B. 4 kHz) abtastet, die kleiner als die erste Abtastrate ist. Bei einer Ausführungsform ist der SOD 223 ein SOD mit niedriger Latenz, der fähig ist, eine Anzahl an Stichproben von Audiodaten zu verarbeiten, um einen Sprachbeginn zu detektieren und Signale bereitzustellen, um den WUPD 228 zu wecken und eine kontinuierliche Erfassung der Audiodaten schnell genug zu initiieren, um unakzeptable Verstümmelungen zu vermeiden. Die Anzahl an Stichproben von Audiodaten kann entsprechend ausgewählt werden, um die Genauigkeit der Sprachbeginndetektion mit Latenzverursachung durch Verarbeitung auszugleichen.
In Block 406 werden als Reaktion auf die Detektion des Sprachbeginns die Sensorstromdomäne 330 und die Pufferstromdomäne 360 (z. B. durch die Audioschnittstellensteuerung) von periodischem Erfassen der Audiodaten auf kontinuierliches Erfassen der Audiodaten umgeschaltet. Bezugnehmend auf 5 kann das kontinuierliche Erfassen der Audiodaten das kontinuierliche Abtasten der Audiodaten und das kontinuierliche Puffern der abgetasteten Audiodaten umfassen. Bei einer Ausführungsform bedeutet das kontinuierliche Abtasten und Puffern das Betreiben in einem aktiven Modus, um Audiodaten ohne Intervall für einen Betrieb in einem Schlafmodus konstant abzutasten und zu puffern. Kontinuierliches Puffern kann auch das Verwenden des Puffers 225 als Kanal umfassen, um die kontinuierlich abgetasteten Audiodaten zwecks Verarbeitung an den WUPD 228 durchzuleiten.
In Block 408 kombiniert der Kombinierer 226 der Pufferstromdomäne 360 mindestens einen erfassten Teil der ersten Vielzahl von erfassten Teilen von Audiodaten mit den kontinuierlich erfassten Audiodaten, um zusammenhängende Audiodaten bereitzustellen. Für einige Ausführungsformen verwendet der Kombinierer 226 ein Überlappungs-Hinzufügungs-Fenster, das dazu dient, einen Teil von einem Ende des letzten erfassten Teils von Audiodaten mit einem Teil von einem Ende der kontinuierlich erfassten Audiodaten anzufügen. Bei verschiedenen Ausführungsformen liegt der Teil des einen Endes des letzten erfassten Teils im Bereich von 1 ms bis 20 ms, kann aber von einer kürzeren oder längeren Dauer sein. Bei einigen Ausführungsformen ist der mindestens eine erfasste Teil der ersten Vielzahl von erfassten Teilen von Audiodaten der zuletzt erfasste Teil der ersten Vielzahl von erfassten Teilen von Audiodaten. Bei anderen Ausführungsformen kann der letzte erfasste Teil eine Repräsentation von mehreren erfassten Teilen umfassen und kann der Kombinierer 226 die Repräsentation verwenden, um die zusammenhängenden Audiodaten zu generieren. In Block 410 verarbeiten Komponenten der WUPD-Stromdomäne 380 die zusammenhängenden Audiodaten, um in den kontinuierlich erfassten Audiodaten Sprache (z. B. eine Weckphrase) zu erkennen.
6 ist eine Tabellendarstellung, die die resultierende prozentuale Erkennung einer Weckphrase gemäß Ausführungsformen illustriert. Die Tabelle vergleicht die prozentuale Erkennung, die durch die existierende Technik des kontinuierlichen und wiederholten Pufferns von führenden Geräuschen erreicht wird, mit der prozentuale Anerkennung, die durch das in den Ausführungsformen beschriebene periodische Puffern erreicht wird. Die prozentuale Erkennung der Ausführungsformen liegt eng bei der existierenden Technik von einem reinen SNR bis 20 dB und beginnt dann, bei 10 dB abzuweichen. Das hierin beschriebene periodische Puffern kann daher eine ähnliche prozentuale Erkennung bereitstellen, während weniger Strom als bei traditionellen Lösungen verbraucht wird.
Bei einer Ausführungsform kann der oben illustrierte Ansatz des periodischen Erfassens von Hintergrundgeräuschen neben der Spracherkennung auch bei anderen Anwendungen verwendet werden. Für solche Anwendungen kann der Sensoreingang nur periodisch erfasst werden, um Strom zu sparen, bis durch ein Beginnereignis ein Mustererkennungsbetrieb mit höherem Strombedarf ausgelöst wird. Zum Beispiel können Bilddaten vor einem Mustererkennungsprozess mit höherem Stromverbrauch (z. B. Aktivität in einem Raum), bei dem sowohl periodisch erfasste Bilddaten als auch Videostrom mit höherer Qualität verwendet werden, periodisch erfasst werden. Weitere Handlungen können basierend auf dem Resultat der Mustererkennung durchgeführt werden, wie etwa Aufzeichnen von Audio, Video oder Festbildern, Senden einer Mitteilung etc. Bei alternativen Ausführungsformen kann sich der Mustererkennungsprozess mit höherem Strombedarf auf Änderungen der Temperatur, des Umgebungslichts, der Umfeldbedingungen oder einer Reihe von Bedingungen oder Ereignissen, die erfasst werden können, beziehen.
7 ist eine Flussdarstellung, die ein Verfahren 700 zur periodischen Aktivierungsschwellenberechnung gemäß Ausführungsformen, gemäß einer Ausführungsform illustriert. Das Verfahren 700 kann durch Verarbeitungslogik durchgeführt werden, die Hardware (Schaltungen, zweckgebundene Logik usw.), Software (wie sie beispielsweise auf einem Allzweck-Rechnersystem oder einer zweckgebundenen Maschine ausgeführt wird), Firmware (eingebettete Software) oder eine Kombination davon beinhaltet. Bei verschiedenen Ausführungsformen kann das Verfahren 700 durch die Audioverarbeitungsvorrichtung von 2, 3 und 8 durchgeführt werden. 8 ist eine interaktive Zeitsteuerungsdarstellung, die eine periodische Aktivierungsschwellenberechnung gemäß Ausführungsformen illustriert.
In Block 702 erfassen Komponenten der Sensorstromdomäne 330 eine Vielzahl von Teilen der Audiodaten durch periodisches Erfassen der Audiodaten mit Intervallen. In Block 704 verwendet das Schwellenberechnungsmodul 222 der SOD-Stromdomäne 340 einen oder mehrere Teile der Vielzahl von erfassten Teilen, um eine Aktivierungsschwelle zu berechnen. Die Sensorstromdomäne 330 und die SOD-Stromdomäne 340 können in einem aktiven Modus arbeiten, um die Vielzahl von Teilen der Audiodaten zu erfassen, um jeweils die Aktivierungsschwelle zu berechnen. Während der Intervalle kann die Sensorstromdomäne 330 in einem Überwachungsmodus arbeiten bzw. kann die SOD-Stromdomäne 340 in einem Schlafmodus arbeiten. In Block 706 stellt das Schwellenberechnungsmodul 222 der SOD-Stromdomäne 340 der Audioschnittstelle 221 oder der Mikrofongruppierung 220 der Sensorstromdomäne 330 die Aktivierungsschwelle bereit. Das Schwellenberechnungsmodul 222 muss die Aktivierungsschwelle in der Mikrofongruppierung 220 nicht neu einstellen. Das Schwellenberechnungsmodul kann bestimmen, dass die allerletzten Umgebungsgeräuschstichproben keine Änderung der Aktivierungsschwelle rechtfertigen. Andererseits kann das Schwellenberechnungsmodul, basierend auf abgetasteten Umgebungsgeräuschen, bestimmen, dass die Aktivierungsschwelle aktualisiert werden soll. Zum Beispiel kann durch Einstellen der Aktivierungsschwelle auf einen Pegel oberhalb der Umgebungsgeräusche ein Wecken des SOD 223 vermieden werden, wodurch irrtümlich oder unnötigerweise Strom verbraucht wird, um lediglich Umgebungsgeräusche hinsichtlich Sprachbeginn zu verarbeiten.
9 ist eine Blockdarstellung, die eine elektronische Vorrichtung 900 gemäß Ausführungsformen illustriert. Die elektronische Vorrichtung 900 kann vollständig oder teilweise die beispielhaften Ausführungsformen der Audioverarbeitungsvorrichtung 102, der Audiomusterquelle 104, der Geräuschquellen 106 und 108, der gesteuerten Vorrichtungen 103 und 110 und/oder der Mustererkennungsanwendung 112 von 1 umfassen oder diese betreiben. Die elektronische Vorrichtung 900 kann in Form eines Rechnersystems vorliegen, in dem Sätze von Anweisungen ausgeführt werden können, um die elektronische Vorrichtung 900 zu veranlassen, eine oder mehrere der hierin erörterten Verfahrensweisen durchzuführen. Die elektronische Vorrichtung 900 kann als eine unabhängige Vorrichtung arbeiten oder kann mit anderen Maschinen verbunden (z. B. vernetzt) sein. Bei einem vernetzten Einsatz kann die elektronische Vorrichtung 900 in der Kapazität einer Server- oder Client-Maschine in einem Server-Client-Netzwerkumfeld oder als eine Peer-Maschine in einem P2P-Netzumfeld (oder verteilten Netzumfeld) arbeiten.
Die elektronische Vorrichtung 900 kann eine Internet-der-Dinge-Vorrichtung (loT-Vorrichtung, loT = Internet of Things), ein Server-Rechner, ein Client-Rechner, ein persönlicher Rechner (PC), ein Tablet, eine Set-Top Box (STB), ein VCH, ein persönlicher digitaler Assistent (PDA), ein Mobiltelefon, ein Webgerät, ein Netzwerkrouter, ein Schalter oder eine Brücke, ein Fernsehgerät, Lautsprecher, eine Fernsteuerung, ein Monitor, eine handgehaltene Multimedien-Vorrichtung, ein handgehaltenes Videospiel, eine handgehaltene Gaming-Vorrichtung oder eine Steuerungskonsole oder eine beliebige andere Maschine sein, die fähig ist, einen Satz Anweisungen (sequenzielle oder anderweitig) auszuführen, die von dieser Maschine vorzunehmende Handlungen spezifizieren. Des Weiteren ist der Begriff „Vorrichtung“, während lediglich eine einzelne elektronische Vorrichtung 900 illustriert wird, derart zu verstehen, dass er eine beliebige Zusammenstellung von Maschinen umfasst, die einzeln oder gemeinsam einen Satz (oder mehrere Sätze) von Anweisungen ausführen, um eine oder mehrere der hierin erörterten Verfahrensweisen durchzuführen.
Es wird gezeigt, dass die elektronische Vorrichtung 900 (einen) Prozessor(en) 902 umfasst. Bei Ausführungsformen können die elektronische Vorrichtung 900 und/oder der/die Prozessor(en) 902 eine Verarbeitungsvorrichtung(en) 905, wie etwa eine System-on-a-Chip-Verarbeitungsvorrichtung, entwickelt von Cypress Semiconductor Corporation, San Jose, Kalifornien, umfassen. Alternativ kann die elektronische Vorrichtung 900 eine oder mehrere andere Verarbeitungsvorrichtungen umfassen, die Fachleuten auf dem Gebiet bekannt sind, wie etwa einen Mikroprozessor oder eine zentrale Verarbeitungseinheit, einen Anwendungsprozessor, einen Host-Controller, einen Controller, einen Spezialprozessor, DSP, eine anwendungsspezifische, integrierte Schaltung (ASIC), ein frei programmierbares Gatearray („FPGA“) oder dergleichen. Das Bussystem 901 kann einen Kommunikationsblock (nicht gezeigt) umfassen, um mit einer internen oder externen Komponente, wie etwa einem eingebetteten Controller oder einem Anwendungsprozessor, über die Kommunikationsschnittstelle(en) 909 und/oder das Bussystem 901 zu kommunizieren.
Komponenten der elektronischen Vorrichtungen 900 können auf einem gemeinsamen Trägersubstrat, wie zum Beispiel einem integrierten Schaltungs(„IC“)-Die-Substrat, einem Multi-Chip-Modul-Substrat oder dergleichen, vorliegen. Alternativ können Komponenten der elektronischen Vorrichtung 900 eine oder mehrere integrierte Schaltungen und/oder diskrete Komponenten sein.
Das Speichersystem 904 kann einen flüchtigen Speicher und/oder nicht flüchtigen Speicher umfassen, die miteinander über das Bussystem 901 kommunizieren können. Das Speichersystem 904 kann zum Beispiel einen Direktzugriffsspeicher (Random Access Memory, RAM) und Programm-Flash umfassen. Der RAM kann ein statischer RAM („SRAM“) sein und der Programm-Flash kann eine nicht flüchtige Speicherung sein, die verwendet werden kann, um Firmware (z. B. Steuerungsalgorithmen, die durch (einen) Prozessor(en) 902 ausführbar sind, um die hierin beschriebenen Vorgänge zu implementieren) zu speichern. Das Speichersystem 904 kann Anweisungen 903 umfassen, die, wenn sie ausgeführt werden, die hierin beschriebenen Verfahren durchführen. Teile des Speichersystems 904 können dynamisch zugeteilt werden, um Zwischenspeichern, Puffern und andere speicherbasierte Funktionalitäten bereitzustellen.
Das Speichersystem 904 kann ein Laufwerk umfassen, das ein maschinenlesbares Medium bereitstellt, auf dem ein oder mehrere Sätze Anweisungen 903 (z. B. Software) gespeichert sind, die eine oder mehrere der hierin beschriebenen Verfahrensweisen oder Funktionen enthalten. Die Anweisungen 903 können vollständig oder mindestens teilweise innerhalb der anderen Speichervorrichtungen des Speichersystems 904 und/oder innerhalb des Prozessors/der Prozessoren 902 während der Ausführung dieser durch die elektronische Vorrichtung 900 vorliegen, welche in einigen Ausführungsformen maschinenlesbare Medien darstellen. Die Anweisungen 903 können ferner mittels der Kommunikationsschnittstelle(n) 909 über ein Netzwerk übertragen oder empfangen werden.
Während ein maschinenlesbares Medium bei einigen Ausführungsformen ein einzelnes Medium ist, sollte der Begriff „maschinenlesbares Medium“ so verstanden werden, dass er ein einzelnes Medium oder mehrere Medien (z. B. eine zentralisierte oder verteilte Datenbank und/oder zugehörige Caches und Server) umfasst, die den einen oder die mehreren Sätze Anweisungen speichern. Der Begriff „maschinenlesbares Medium“ sollte auch so verstanden werden, dass er ein beliebiges Medium umfasst, das einen Satz Anweisungen zur Ausführung durch die Maschine speichern oder codieren kann, und dass die Maschine veranlassen kann, eine oder mehrere der hierin beschriebenen beispielhaften Operationen durchzuführen. Der Begriff „maschinenlesbares Medium“ soll daher, ohne darauf beschränkt zu sein, Festkörperspeicher, optische Medien und magnetische Medien umfassen.
Es wird ferner gezeigt, dass die elektronische Vorrichtung 900 (eine) Anzeigeschnittstelle(en) 906 (z. B. eine Flüssigkristallanzeige (LCD), einen Berührungsbildschirm, eine Kathodenstrahlröhre (CRT) und Software- und Hardwareunterstützung für Anzeigetechnologien), Audioschnittstelle(en) 908 (z. B. Mikrofone, Lautsprecher und Software- und Hardwareunterstützung für Mikrofoneingang/-ausgang und Lautsprechereingang/-ausgang) umfasst. Es wird außerdem gezeigt, dass die elektronische Vorrichtung 900 (eine) Benutzerschnittstelle(en) 910 (z. B. Tastatur, Tasten, Schalter, Touchpad, Berührungsbildschirme und Software- und Hardwareunterstützung für Benutzerschnittstellen) umfasst.
Die obige Beschreibung ist illustrativ und nicht beschränkend gemeint. Die oben beschriebenen Ausführungsformen (oder ein oder mehrere Aspekte davon) können in Kombination miteinander verwendet werden. Andere Ausführungsformen werden Fachleuten auf dem Gebiet nach Durchsicht der obigen Beschreibung ersichtlich sein. In diesem Dokument werden die Begriffe „ein“, „eine“ oder „einer“, wie in Patentdokumenten üblich, so verwendet, dass sie eines oder mehr als eines umfassen. In diesem Dokument wird der Begriff „oder“ verwendet, um Nichtausschließliches zu bezeichnen, oder so, dass „A oder B“ „A, aber nicht B“, „B, aber nicht A“ und „A und B“ umfasst, sofern nicht anders angegeben. Im Fall von inkonsistenten Benutzungen dieses Dokuments und jenen durch Bezugnahme einbezogenen Dokumenten ist die Benutzung in den einbezogenen Bezugnahmen als Ergänzung zu diesem Dokument zu betrachten; bei unvereinbaren Inkonsistenzen löst die Benutzung dieses Dokuments die Benutzung in einbezogenen Bezugnahmen ab.
Obwohl der beanspruchte Gegenstand unter Bezugnahme auf spezifische Ausführungsformen beschrieben wurde, liegt es auf der Hand, dass verschiedene Modifikationen und Änderungen an diesen Ausführungsformen vorgenommen werden können, ohne vom umfassenderen Wesen und Umfang des Beanspruchten abzuweichen. Demgemäß sind die Patentschrift und Zeichnungen als illustrativ und nicht beschränkend aufzufassen. Der Umfang der Ansprüche sollte daher unter Bezugnahme auf die anhängenden Ansprüche zusammen mit dem vollen Umfang von Äquivalenten, auf die solche Ansprüche Anrecht haben, bestimmt werden. In den anhängenden Ansprüchen werden die Begriffe „umfassend“ und „bei denen“ als einfache Äquivalente der jeweiligen Begriffe „beinhaltend“ und „wobei“ verwendet. In den nachfolgenden Ansprüchen sind die Begriffe „umfassend“ und „beinhaltend“ außerdem offen; ein System, Gerät, Artikel oder Prozess, der Elemente zusätzlich zu den nach einem solchen Begriff in einem Anspruch aufgelisteten umfasst, soll dennoch in den Umfang dieses Anspruchs fallen. Außerdem werden in den nachfolgenden Ansprüchen die Begriffe „erste/r/s“, „zweite/r/s“ und „dritte/r/s“ etc. nur als Kennzeichnungen verwendet und sollen ihren Objekten keine numerischen Anforderungen auferlegen.
Die Zusammenfassung der Offenbarung wird bereitgestellt, um 37 C.F.R. §1.72(b) zu erfüllen, wonach eine Zusammenfassung erforderlich ist, die dem Leser erlauben wird, die Art der technischen Offenbarung schnell festzustellen. Sie wird mit dem Verständnis eingereicht, dass sie nicht verwendet werden wird, um den Umfang oder die Bedeutung der Ansprüche zu interpretieren oder zu begrenzen.

Claims

Ein Verfahren, das Folgendes beinhaltet: Erfassen (402) einer ersten Vielzahl von Teilen von Audiodaten (110) durch periodisches Erfassen der Audiodaten mit ersten Intervallen; Detektieren (404) von Sprachbeginn (110.2) in den Audiodaten (110); als Reaktion auf das Detektieren des Sprachbeginns (110.2), Umschalten (406) von periodischem Erfassen der Audiodaten (110) auf kontinuierliches Erfassen der Audiodaten (110); und Kombinieren (408) von mindestens einem erfassten Teil der ersten Vielzahl von Teilen von Audiodaten mit den kontinuierlich erfassten Audiodaten, um zusammenhängende Audiodaten bereitzustellen.
Verfahren gemäß Anspruch 1, das ferner das Verarbeiten (410) der zusammenhängenden Audiodaten beinhaltet, um in den kontinuierlich erfassten Audiodaten Sprache zu erkennen.
Verfahren gemäß Anspruch 1, das das Betreiben von mindestens einer Stromdomäne (330, 360) in einem ersten Stromverbrauchsmodus, um die erste Vielzahl von Teilen von Audiodaten zu empfangen, und das Betreiben in einem zweiten Stromverbrauchsmodus während der ersten Intervalle beinhaltet, wobei der erste Stromverbrauchsmodus eine größere Stromverbrauchsrate als die des zweiten Stromverbrauchsmodus aufweist.
Verfahren gemäß Anspruch 3, wobei das Betreiben in dem zweiten Stromverbrauchsmodus das Betreiben einer Sensorstromdomäne (330) in einem Überwachungsmodus und das Betreiben einer Pufferstromdomäne (360) in einem Schlafmodus beinhaltet.
Verfahren gemäß Anspruch 1, wobei das periodische Erfassen der Audiodaten (110) das Abtasten der Audiotasten mit einer ersten Abtastrate umfasst und das Detektieren des Sprachbeginns das Abtasten der Audiodaten mit einer zweiten Abtastrate umfasst, wobei die erste Abtastrate größer als die zweite Abtastrate ist.
Verfahren gemäß Anspruch 1, das ferner das Einstellen oder dynamische Verstellen des ersten Intervalls basierend auf einer oder mehreren Geräuschcharakteristika oder Stromverbrauchsanforderungen beinhaltet.
Verfahren gemäß Anspruch 1, wobei das periodische Erfassen der Audiodaten (110) das periodische Abtasten der Audiodaten und das periodische Puffern der abgetasteten Audiodaten beinhaltet und das kontinuierliche Erfassen der Audiodaten das kontinuierliche Abtasten der Audiodaten und das kontinuierliche Puffern der abgetasteten Audiodaten beinhaltet.
Verfahren gemäß Anspruch 1, wobei der mindestens eine erfasste Teil der ersten Vielzahl von erfassten Teilen von Audiodaten der zuletzt erfasste Teil der ersten Vielzahl von erfassten Teilen von Audiodaten ist.
Verfahren gemäß Anspruch 8, wobei das Kombinieren das Überlappen eines Teils von einem Ende des zuletzt erfassten Teils von Audiodaten mit einem Teil von einem Ende der kontinuierlich erfassten Audiodaten beinhaltet.
Verfahren gemäß Anspruch 9, wobei der Teil von einem Ende des letzten erfassten Teils weniger als 20 ms ist.
Verfahren gemäß Anspruch 1, wobei das Detektieren des Sprachbeginns in den Audiodaten (110) das Detektieren des Sprachbeginns ohne Verwendung der erfassten Vielzahl von Teilen von Audiodaten beinhaltet.
Verfahren gemäß Anspruch 11, wobei das Detektieren des Sprachbeginns in den Audiodaten das Aufwecken eines Sprachbeginndetektors (223) als Reaktion darauf, dass die Audiodaten (110) eine Aktivierungsschwelle erfüllen oder überschreiten, und das Ausführen eines Sprachbeginndetektionsalgorithmus, um zu bestimmen, dass ein sprachähnliches Signal in den Audiodaten (110) vorhanden ist, beinhaltet.
Verfahren gemäß Anspruch 12, das ferner Folgendes beinhaltet: Erfassen einer zweiten Vielzahl von Teilen der Audiodaten durch periodisches Erfassen der Audiodaten mit zweiten Intervallen; und unter Verwendung von einem oder mehreren Teilen der zweiten Vielzahl von erfassten Teilen, Berechnen einer anderen Aktivierungsschwelle; und Bereitstellen der anderen Aktivierungsschwelle für die Audioschnittstelle.
Verfahren gemäß Anspruch 13, das das Betreiben in einem ersten Stromverbrauchsmodus, um die zweite Vielzahl von Teilen der Audiodaten zu erfassen und die Aktivierungsschwelle zu berechnen, und das Betreiben in einem zweiten Stromverbrauchsmodus während der zweiten Intervalle beinhaltet, wobei eine Stromverbrauchsrate des ersten Stromverbrauchsmodus größer als die des zweiten Stromverbrauchsmodus ist.
Verfahren gemäß Anspruch 14, wobei das Betreiben in dem zweiten Stromverbrauchsmodus das Betreiben einer Sensorstromdomäne (330) in einem Überwachungsmodus und das Betreiben einer Sprachbeginndetektionsstromdomäne (340) in einem Schlafmodus beinhaltet.
Eine Audioverarbeitungsvorrichtung (202), die Folgendes beinhaltet: eine Audioschnittstelle (221), die betriebsfähig ist, um Audiodaten (110) abzutasten, einen Sprachbeginndetektor (223), einen Puffer (225), einen Kombinierer (226) und eine Audioschnittstellensteuerung (224), wobei die Audioschnittstellensteuerung (224) als Reaktion auf die Detektion durch den Sprachbeginndetektor (223) von Sprachbeginn in den Audiodaten (110) betriebsfähig ist, um die Audioverarbeitungsvorrichtung (202) von periodischem Erfassen der Audiodaten (110) mit Intervallen auf kontinuierliches Erfassen der Audiodaten (110) umzuschalten, wobei der Kombinierer (226) betriebsfähig ist, um unter Verwendung mindestens eines erfassten Teils der periodisch erfassten Audiodaten (110) und der kontinuierlich erfassten Audiodaten (110) zusammenhängende Daten bereitzustellen.
Audioverarbeitungsvorrichtung (202) gemäß Anspruch 16, die ferner einen Aufweckphrasendetektor (228) beinhaltet, der betriebsfähig ist, um die zusammenhängenden Audiodaten zu verarbeiten, um in den kontinuierlich erfassten Audiodaten eine Weckphrase (110.3) zu erkennen.
Audioverarbeitungsvorrichtung (202) gemäß Anspruch 16, wobei sich der Puffer (225) in einer Pufferstromdomäne (360) der Audioverarbeitungsvorrichtung (202) befindet, wobei sich die Pufferstromdomäne (360) während der Intervalle in einem Schlafmodus befindet.
Audioverarbeitungsvorrichtung (202) gemäß Anspruch 16, wobei die Audioschnittstelle (221) konfiguriert ist, um dem Sprachbeginndetektor (223) als Reaktion darauf, dass das Audio ein Schwellenaktivitätsniveau erfüllt oder überschreitet, die Audiodaten (110) bereitzustellen, wobei die Audioverarbeitungsvorrichtung (202) ferner ein Schwellenberechnungsmodul (222) beinhaltet, das konfiguriert ist, um periodisch aufzuwecken, um die Audioschnittstelle (221) einzuschalten, um Audiodaten (110) zu sammeln, um ein aktualisiertes Schwellenaktivitätsniveau zu errechnen, um der Audioschnittstelle (221) das aktualisierte Schwellenaktivitätsniveau bereitzustellen und um wieder in den Schlafmodus einzutreten.
Eine elektronische Kommunikationsvorrichtung (900), die Folgendes beinhaltet: einen oder mehrere Prozessoren (902), ein Speichersystem (904), eine Kommunikationsschnittstelle (909) und eine Audioverarbeitungsvorrichtung (908), wobei die Audioverarbeitungsvorrichtung (908) Folgendes beinhaltet: eine Audioschnittstelle (221), um Audiodaten (110) zu verarbeiten, einen Sprachbeginndetektor (223), um Sprachbeginn in den Audiodaten (110) zu detektieren, und eine Audioschnittstellensteuerung (224), um als Reaktion auf die Detektion von Sprachbeginn einen Puffer (225) in dem Speichersystem (904) von periodischem Puffern der Audiodaten (110) auf kontinuierliches Puffern der Audiodaten (110) umzuschalten, einen Aufweckphrasendetektor (228), um unter Verwendung eines Teils von Audiodaten (110) von den periodisch gepufferten Audiodaten (110) in den kontinuierlich gepufferten Audiodaten eine Aufweckphrase (110.3) zu detektieren, wobei der eine oder die mehreren Prozessoren (902) die Kommunikationsschnittstelle (909) veranlassen, als Reaktion auf die Detektion der Aufweckphrase (110.3) die kontinuierlich gepufferten Audiodaten (110) kontinuierlich an ein Netzwerk zu übertragen.
Elektronische Kommunikationsvorrichtung (900) gemäß Anspruch 20, wobei die Audioschnittstellensteuerung (224) konfiguriert ist, um ein Intervall des periodischen Pufferns einzustellen oder zu verstellen.
Elektronische Kommunikationsvorrichtung (900) gemäß Anspruch 20, wobei die Audioschnittstellensteuerung (224) konfiguriert ist, um die Audioschnittstelle (221) zu Folgendem zu veranlassen: Bereitstellen von Audiodaten, die eine erste Abtastrate aufweisen, für den Sprachbeginndetektor (223) und Bereitstellen von Audiodaten, die eine zweite Abtastrate aufweisen, für den Puffer (225), wobei die erste Abtastrate kleiner als die zweite Abtastrate ist.