DE102021111594A9

DE102021111594A9 - Zweistufige, benutzerdefinierbare aktivierungswortdetektion

Info

Publication number: DE102021111594A9
Application number: DE102021111594.9A
Authority: DE
Inventors: Robert Zopf; Ashutosh Pandey
Original assignee: Cypress Semiconductor Corp
Current assignee: Cypress Semiconductor Corp
Priority date: 2020-05-06
Filing date: 2021-05-05
Publication date: 2022-01-27
Also published as: CN113628613A; DE102021111594A1

Abstract

Hierin werden Einrichtungen, Verfahren und Systeme zum Detektieren einer Phrase in gesprochener Sprache beschrieben. Eine Verarbeitungseinrichtung kann ein erstes Modell für eine Phrasenerkennung basierend auf einem Wahrscheinlichkeitsverhältnis unter Nutzung einer Menge von Trainingsäußerungen bestimmen. Die Menge von Äußerungen kann durch das erste Modell analysiert werden, um ein zweites Modell zu bestimmen, wobei das zweite Modell eine Trainingszustandssequenz für jede der Menge von Trainingsäußerungen beinhaltet und wobei jede Trainingszustandssequenz einen wahrscheinlichen Zustand für jedes Zeitintervall einer korrespondierenden Trainingsäußerung angibt. Eine Bestimmung, ob eine detektierte Äußerung mit der Phrase korrespondiert, kann auf einer Verkettung des ersten Modells und des zweiten Modells basieren.

Description

VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht die Priorität der vorläufigen US-Patentanmeldung Nr. 63/020,984 , eingereicht am 6. Mai 2020, deren Offenbarung hiermit in ihrer Gesamtheit hierin einbezogen wird.
GEBIET DER TECHNIK
Die vorliegende Offenbarung betrifft allgemein Spracherkennungssysteme und insbesondere die Aktivierungswortdetektion.
ALLGEMEINER STAND DER TECHNIK
Immer mehr moderne Computergeräte besitzen Spracherkennungsfähigkeiten, aufgrund derer Benutzer zahlreiche unterschiedliche Computeraufgaben über Sprachbefehle und natürliche Sprache durchführen können. Geräte wie Mobiltelefone oder intelligente Lautsprecher stellen integrierte virtuelle Assistenten bereit, die auf Benutzerbefehle oder Anforderungen eines Benutzers in natürlicher Sprache reagieren können, indem sie zum Abrufen angeforderter Informationen oder zum Steuern von anderen Geräten wie Leuchten, Heizungs- und Klimaanlagensteuerungen, Audio- oder Videoanlagen etc. über lokale Netze und/oder Weitverkehrsnetze kommunizieren. Geräte mit Spracherkennungsfähigkeiten bleiben oft so lange in einem Modus mit einem geringen Stromverbrauch, bis ein spezielles Wort oder eine spezielle Phrase (d. h. ein Aktivierungswort oder eine Aktivierungsphrase) gesagt wird, wodurch ein Benutzer das Gerät, nachdem das Gerät hierdurch eingeschaltet worden ist, unter Nutzung von Sprachbefehlen steuern kann.
Um eine stimmenbasierte Benutzerschnittstelle zu aktivieren, wird häufig von einer Aktivierungswortdetektion (Wake Word Detection, WWD) Gebrauch gemacht. Hierbei erfolgt eine laufende Überwachung auf Schlüsselwörter oder -phrasen, wobei bei der Detektion eines Schlüsselworts oder einer Schlüsselphrase eine weitere stimmenbasierte Interaktion ermöglicht wird. Frühe WWD-Systeme haben eine Kombination aus dem Gaußschen Mischmodell (Gaussian Mixture Model, GMM) und dem versteckten Markovmodell (Hidden Markov Model, HMM) zur akustischen Modellierung verwendet. In jüngerer Zeit sind Deep-Learning-Netze oder Deep Neural Networks (NNs) aufgrund ihrer größeren Genauigkeit gegenüber herkömmlichen Verfahren zu einer attraktiven Option geworden.
Figurenliste
Die vorliegenden Ausführungsformen werden beispielhaft und ohne Beschränkung in den Figuren der beiliegenden Zeichnungen veranschaulicht.

1 ist ein Blockschaltbild, das ein System gemäß einigen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
2 ist ein Blockschaltbild, das eine Audioverarbeitungseinrichtung gemäß einigen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
Die 3A-3C veranschaulichen Aktivierungsworterkennungsmodell-Ableitungsprozesse gemäß einigen Ausführungsformen der vorliegenden Offenbarung.
3D veranschaulicht einen herkömmlichen Aktivierungsworterkennungsprozess gemäß einigen Ausführungsformen der vorliegenden Offenbarung.
4A veranschaulicht ein 2-stufiges Modelltraining und einen 2-stufigen Aktivierungsworterkennungsprozess gemäß einigen Ausführungsformen der vorliegenden Offenbarung.
4B veranschaulicht ein Aktivierungsworterkennungsmodell gemäß einigen Ausführungsformen der vorliegenden Offenbarung.
5 veranschaulicht ein Diagramm von Zustandssequenzen verschiedener Äußerungen gemäß einigen Ausführungsformen der vorliegenden Offenbarung.
6 veranschaulicht ein Ablaufschema eines Verfahrens zum Erkennen eines Aktivierungsworts gemäß einigen Ausführungsformen der vorliegenden Offenbarung.
7 veranschaulicht ein Ablaufschema eines Verfahrens zum Erkennen eines Aktivierungsworts gemäß einigen Ausführungsformen der vorliegenden Offenbarung.
8 veranschaulicht ein Ablaufschema eines Verfahrens zum Erkennen eines Aktivierungsworts gemäß einigen Ausführungsformen der vorliegenden Offenbarung.
9 veranschaulicht eine Ausführungsform einer Kernarchitektur der Programmable-System-on-Chip(PSoC®)-Verarbeitungseinrichtung.

AUSFÜHRLICHE BESCHREIBUNG
In der folgenden Beschreibung wird zu Erläuterungszwecken auf zahlreiche spezielle Details eingegangen, um ein tiefgehendes Verständnis der vorliegenden Ausführungsformen zu vermitteln. Für den Fachmann versteht es sich jedoch, dass die vorliegenden Ausführungsformen auch ohne diese speziellen Details praktisch umsetzbar sind. In anderen Fällen werden hinlänglich bekannte Schaltungen, Konstruktionen und Techniken nicht im Detail gezeigt, sondern anhand von Blockschaltbildern präsentiert, um die Verständlichkeit dieser Beschreibung nicht unnötig zu beeinträchtigen.
Wird in der Beschreibung auf „eine Ausführungsform“ Bezug genommen, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Konstruktion oder ein bestimmtes Charakteristikum, das/die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform umfasst ist. Die Phrase „in einer Ausführungsform“, die an verschiedenen Stellen in dieser Beschreibung vorkommt, bezieht sich nicht immer zwangsläufig auf dieselbe Ausführungsform.
Wie oben erörtert, wird zum Aktivieren einer Einrichtung unter Nutzung eines Aktivierungsworts häufig eine Aktivierungswortdetektion (Wake Word Detection, WWD) eingesetzt. Die meisten Ansätze verwenden ein vorausgewähltes Aktivierungswort (z. B. „hallo“), das vom Benutzer nicht verändert werden kann, und es sind hierfür mehrere zehntausend Backend-Trainingsäußerungen nötig. Diese vorausgewählten Aktivierungswörter werden offline trainiert und funktionieren für alle Sprecher und Sprecherinnen, sie sind also sprecherunabhängig. Die Detektion des Aktivierungsworts kann lokal in der Einrichtung durchgeführt und danach durch komplexere Algorithmen in der Cloud verifiziert werden. Die Sprecheridentifizierung ist ein zusätzliches Feature, das eine gewisse Sicherheit bieten oder eine individuelle Anpassung (z. B. durch eine benutzerspezifische Wiedergabeliste) ermöglichen kann. Die Sprecheridentifizierung ist jedoch eine komplexe Aufgabe, die allgemein in der Cloud durchgeführt wird und notwendigerweise mit einer hinderlichen Einschreibungsphase (dem Einlesen von Text) einhergeht.
Zahlreiche persönliche Geräte wie Kopfhörer, Hearables, Wearables, Kameras etc. besitzen heutzutage Sprachschnittstellen. Diese Geräte werden in der Regel von sehr wenigen oder gar nur einem Benutzer genutzt. Weil sie batteriebetrieben sind, ist die Konnektivität zur Cloud eingeschränkt, um Energie zu sparen. Es ist deshalb wünschenswert, dass die Funktionalität lokal bleibt. Nichtsdestotrotz sind Features wie eine Aktivierungswortdetektion oder eine Sprecheridentifizierung wünschenswert, denn das Freisprechen ist ein wichtiger Vorteil vieler dieser Produkte. Ein Ansatz zur Erfüllung dieser Vorgaben besteht darin, ein für den Benutzer personalisiertes Aktivierungswort einzurichten. Wenn Benutzer ein eigenes Aktivierungswort trainieren (oder alternativ ein paar Sprecher gemeinsam dasselbe Aktivierungswort trainieren), wird es sprecherabhängig und somit für die Nutzung durch einen bestimmten Sprecher oder mehrere Sprecher optimiert. Weil diese Geräte von nur sehr wenigen Benutzern oder auch nur einem Benutzer genutzt werden, ist die Sprecherunabhängigkeit nicht zwangsläufig eine Voraussetzung. Darüber hinaus identifiziert die individuelle Anpassung des Aktivierungsworts grundsätzlich den Benutzer, und die Geheimhaltung des benutzerdefinierbaren Aktivierungsworts bietet ein Niveau an Sicherheit, ohne dass eine explizite und kostenintensive Sprecheridentifizierung erforderlich ist. Die Implementierung eines solchen Systems mit so wenigen Trainingsäußerungen wie möglich ist jedoch schwierig.
Deep-Learning-Netze oder Deep Neural Networks (NNs) sind aufgrund ihrer größeren Genauigkeit gegenüber herkömmlichen Verfahren zu einer attraktiven Option geworden. Diese Systeme werden jedoch offline mit einem unveränderlichen oder fest vorgegebenen Aktivierungswort wie etwa „hallo“ trainiert. Es sind hierfür mehrere zehntausend, von Tausenden von Sprechern wiederholte Äußerungen nötig. Einige Lösungen bieten durchaus die Option einer späteren Anpassung an die Stimme des Benutzers (Einschreibungsphase oder auf der Nutzung basierende Anpassung), weisen jedoch generell nicht die Möglichkeit eines Trainings mit einem beliebigen (benutzerdefinierbaren) Aktivierungswort mit lediglich einer Handvoll Trainingsäußerungen auf. Andere verfügbare Lösungen (z. B. Einzelworttrainings und -detektionen) sind mit dem Mangel behaftet, dass sie für „hinters Licht führende“ Phrasen, die wesentliche Phoneme (oder Lautbausteine) mit dem Aktivierungswort gemeinsam haben, empfindlich sind. In derartigen Systemen ist die Anzahl falscher Detektionen bei einem Vorliegen ähnlich klingender Wörter nämlich relativ hoch.
Die hierin beschriebenen Ausführungsformen betreffen Einrichtungen, Verfahren und Systeme zum Detektieren eines Aktivierungsworts in gesprochener Sprache. Eine Verarbeitungseinrichtung kann ein erstes Modell für eine Aktivierungsworterkennung basierend auf einem Wahrscheinlichkeitsverhältnis unter Nutzung einer Menge von Trainingsäußerungen bestimmen. Die Menge von Äußerungen kann durch das erste Modell analysiert werden, um ein zweites Modell zu bestimmen, wobei das zweite Modell eine Trainingszustandssequenz für jede der Menge von Trainingsäußerungen beinhaltet und wobei jede Trainingszustandssequenz einen wahrscheinlichen Zustand für jedes Zeitintervall einer korrespondierenden Trainingsäußerung angibt. Eine Bestimmung, ob eine detektierte Äußerung mit dem Aktivierungswort korrespondiert, kann auf einer Verkettung des ersten Modells und des zweiten Modells basieren. Genauer kann die Verarbeitungseinrichtung eine Distanz zwischen jeder Trainingszustandssequenz und einer Zustandssequenz der detektierten Äußerung zum Erzeugen einer Menge von Distanzen messen, und es kann eine Mindestdistanz aus der Menge von Distanzen bestimmt werden. Die Verarbeitungseinrichtung kann mindestens zum Teil basierend auf dem Wahrscheinlichkeitsverhältnis der detektierten Äußerung und einer Mindestdistanz aus der Menge von Distanzen bestimmen, ob die detektierte Äußerung mit dem Aktivierungswort korrespondiert.
1 ist ein Blockschaltbild eines Systems 100, das eine durch ein oder mehrere Netze 114 kommunikativ an andere Einrichtungen gekoppelte Audioverarbeitungseinrichtung 102 veranschaulicht, gemäß verschiedenen Ausführungsformen. Die Audioverarbeitungseinrichtung 102 ist dazu vorgesehen, eine Audiomustererkennung zu ermöglichen, und kann eine Einrichtung oder Anwendung wie etwa eine Einrichtung 103 basierend auf einem erkannten Audiomuster steuern. Die gezeigte Audioverarbeitungseinrichtung 102 empfängt Schallwellen 105 von einer Audiomusterquelle 104 und Schallwellen 107 von einer Audiostörsignalquelle 106. Die Audioverarbeitungseinrichtung 102 kann selbst (nicht gezeigte) Audiostörsignale (z. B. durch Lautsprecher) aussenden.
Die gezeigte Audioverarbeitungseinrichtung 102 interagiert zudem über eine oder mehrere Kommunikationsverbindungen mit dem einen oder den mehreren Netzen 114. Um die Mustererkennung zu ermöglichen, stellt die Audioverarbeitungseinrichtung 102 eine Störschallunterdrückung bereit, damit die Audiostörsignale insgesamt oder zum Teil beseitigt werden, wozu korrespondierende Audiodaten, die von der Audiostörsignalquelle 106 über das eine oder die mehreren Netze 114 empfangen oder intern erzeugt werden, genutzt werden. In einer Ausführungsform wird die Störschallunterdrückung möglicherweise unter Nutzung einer Unabhängigkeitsanalyse (Independent Component Analysis, ICA) implementiert, bei der Eingangssignale (z. B. von einem Mikrofon) durch eine Quelle (z. B. Signale von der Audiomusterquelle und den Audiostörsignalquellen) getrennt werden, danach werden die Audiodaten mit den getrennten Signalen verglichen, um zu bestimmen, welche zu beseitigen sind, damit ein geschätztes Audiomuster übrig bleibt. In anderen Ausführungsformen kommen bei der Störschallunterdrückung adaptive Filter, neuronale Netze oder beliebige aus dem Stand der Technik bekannte Techniken zum Einsatz, die dazu genutzt werden können, Nichtzielkomponenten eines Signals abzuschwächen. In einigen Ausführungsformen kann die Audioverarbeitungseinrichtung 102 in einer zu steuernden Einrichtung 103, die sie basierend auf erkannten Audiomustern steuern kann, integriert sein.
Die Audiomusterquelle 104 ist dazu vorgesehen, die Schallwellen 105, die mit einem erkennbaren Audiomuster (z. B. einem Aktivierungswort) korrespondieren, bereitzustellen. In einigen Ausführungsformen interagiert die Audiomusterquelle 104 mit dem einen oder den mehreren Netzen 114 über die eine oder die mehreren Kommunikationsverbindungen. In einigen Ausführungsformen handelt es sich bei einem Audiomuster um ein vorbestimmtes Audiomuster und/oder ein Audiomuster, das durch eine Mustererkennungssoftware oder -firmware, die der Audioverarbeitungseinrichtung 102 zugeordnet ist, erkennbar ist. Bei der Audiomusterquelle 104 kann es sich um ein belebtes Objekt (z. B. einen Menschen) oder ein unbelebtes Objekt (z. B. eine Maschine) handeln.
Die Audiostörsignalquelle 106 kann eine Quelle der Schallwellen 107 sein, die die Erkennung der mit den Schallwellen 105 korrespondierenden Audiomuster stören. Die gezeigte Audiostörsignalquelle 106 interagiert mit dem einen oder den mehreren Netzen 114 über eine oder mehrere Kommunikationsverbindungen. Die Audiostörsignalquelle 106 kann der Audioverarbeitungseinrichtung 102 Audiodaten, die mit der Audiostörung korrespondieren, durch das eine oder die mehreren Netze 114 bereitstellen. Audiostörsignalquellen umfassen möglicherweise Lautsprecher, Fernseher, Videospiele, industrielle Geräuschquellen oder beliebige sonstige Geräuschquellen, deren Schallausgabe digitalisiert ist oder digitalisiert werden kann und der Audioverarbeitungseinrichtung 102 über das eine oder die mehreren Netze 114 bereitgestellt wird oder bereitgestellt werden kann.
Es ist noch eine zweite zu steuernde Einrichtung 108 gezeigt, die über die eine oder die mehreren Verbindungen an das eine oder die mehreren Netze 114 gekoppelt ist. Die zu steuernden Einrichtungen 108 und 103 können beliebige Einrichtungen mit einer Funktion umfassen, die sich als Reaktion auf die durch die Audioverarbeitungseinrichtung 102 ermöglichte Audiomustererkennung auslösen lässt. Zu beispielhaften zu steuernden Einrichtungen zählen unter anderem weiße Ware, Heimautomationssteuerungen, Thermostate, Leuchten, automatisierte Jalousien und Türschlösser, Bedienelemente in Autos, Fenster sowie Bedienelemente und Aktoren in der Industrie. Zu steuernde Einrichtungen, wie hierin genutzt, können beliebige durch die zu steuernde Einrichtung 110 auszuführende Logiken, Firmware oder Software-Anwendungen umfassen.
Das eine oder die mehreren Netze 114 kann/können einen oder mehrere Typen eines Kabel- oder kabellosen Netzes umfassen, um die Netzknoten aus 1 kommunikativ aneinander zu koppeln. Das eine oder die mehreren Netze umfasst/umfassen zum Beispiel und ohne Einschränkung ein WLAN (Wireless Local Area Network) (das z. B. konform mit Wi-Fi, 802.11 ist), PANs (die z. B. mit dem Bluetooth-SIG-Standard oder Zigbee, IEEE 802.15.4 konform sind) und das Internet. In einer Ausführungsform ist die Audioverarbeitungseinrichtung 102 über Wi-Fi und das Internet kommunikativ an die Mustererkennungsanwendung 112 gekoppelt. Die Audioverarbeitungseinrichtung 102 kann über Bluetooth und/oder Wi-Fi kommunikativ an die Audiostörsignalquelle 106 und an die zu steuernde Einrichtung 108 gekoppelt sein.
2 ist ein Blockschaltbild, das Komponenten einer Audioverarbeitungseinrichtung 202 gemäß Ausführungsformen veranschaulicht. Die Audioverarbeitungseinrichtung 202 gehört möglicherweise zur Cypress-PSoC-Familie von Mikrocontrollern, die von Cypress Semiconductor aus dem kalifornischen San Jose entwickelt werden. Die gezeigte Audioverarbeitungseinrichtung 202 umfasst Funktionsblöcke, die ein Mikrofonarray 220, eine Audioschnittstelle 221, ein Schwellenwertberechnungsmodul 222, einen Sprechbeginndetektor SBD 223, eine Audioschnittstellensteuerung 224, einen Puffer 225, einen Kombinierer 226 und einen Zentralprozessor (CPU) 228 umfassen. Jeder Funktionsblock kann an ein Bussystem 227 (z. B. 12C, 12S) gekoppelt sein und unter Nutzung von Hardware (z. B. einer Schaltungsanordnung), Befehlen (z. B. von Software und/oder Firmware) oder einer Kombination von Hardware und Befehlen implementiert werden. In einer Ausführungsform ist die Audioverarbeitungseinrichtung 202 ganz oder zum Teil durch eine Schaltungsanordnung in einem IC-Bauelement (z. B. auf einem einzigen Substrat eines integrierten Schaltkreises) oder in einer einzigen Baugruppe implementiert. In alternativen Ausführungsformen sind die Komponenten der Audioverarbeitungseinrichtung 202 zwischen mehreren Bauteilen eines integrierten Schaltkreises, Baugruppen oder sonstigen Schaltungsbauteilen aufgeteilt.
Das Mikrofonarray 220 ist dazu vorgesehen, Schallwellen, etwa die Schallwellen 105 und 107 aus 1, zu empfangen. Jedes Mikrofon des Mikrofonarrays 220 umfasst einen Wandler oder einen anderen Mechanismus (der z. B. eine Membran umfasst) zum Umwandeln der Energie von Schallwellen in ein elektronisches oder digitales Signal (z. B. Audiodaten). Das Mikrofonarray 220 kann ein oder mehrere Mikrofone umfassen und wird hierin manchmal auch als Mikrofon 220 bezeichnet. Werden die Schallwellen 105 und 107 während eines gemeinsamen Zeitabschnitts empfangen, umfassen die Audiodaten Komponenten, die sowohl mit den Schallwellen 105 als auch mit den Schallwellen 107 korrespondieren. In einigen Ausführungsformen handelt es sich bei einem oder mehreren Mikrofonen des Arrays 220 möglicherweise jeweils um ein digitales Mikrofon. Das Mikrofonarray 220 kann ein Bestandteil der Audioschnittstelle 221 oder ein eigenständiges Peripheriegerät sein, das sich außerhalb der Audioverarbeitungseinrichtung 202 befindet, jedoch an das Bussystem 227 gekoppelt ist. In einigen Ausführungsformen umfasst das Mikrofonarray möglicherweise Schwellenwert-/Hystereseeinstellungen zur Detektion und Messung von Aktivität und/oder eine Verarbeitungslogik zum Bestimmen, ob eine durch das Mikrofonarray 220 empfangene Schallwelle einen Aktivierungsschwellenwert erreicht oder überschreitet und ob korrespondierende Audiodaten zur Verarbeitung an den SBD 223 weiterzuleiten sind. In verschiedenen Ausführungsformen kann es sich beim Aktivitätsschwellenwert um den Energiewert, die Amplitude, die Frequenz oder eine beliebige andere Eigenschaft einer Schallwelle handeln. Das Mikrofonarray 220 kann an einen (nicht gezeigten) Speicher gekoppelt sein, in dem der Aktivierungsschwellenwert, der möglicherweise (z. B. durch das Schwellenwertberechnungsmodul 222) dynamisch umprogrammierbar ist, gespeichert ist.
Die Audioschnittstelle 221 umfasst eine Schaltungsanordnung zum Verarbeiten und Analysieren der vom Mikrofonarray 220 empfangenen Audiodaten. In Ausführungsformen digitalisiert die Audioschnittstelle 221 die elektronischen Audiosignale. Sobald die Audioschnittstelle 221 sie digitalisiert hat, kann sie eine Signalverarbeitung (z. B. eine Demodulation, eine Mischung oder eine Filterung) durchführen, um Eigenschaften der Audiodaten (z. B. die Phase, die Wellenlänge oder die Frequenz) zu analysieren oder zu manipulieren. Die Audioschnittstelle 221 kann auch Beamforming- und/oder andere Störschallunterdrückungs- oder Signalaufbereitungsverfahren durchführen, um die Performanz bei Vorhandensein von Störschall, eines Nachhalls etc. zu verbessern.
In einer Ausführungsform umfasst die Audioschnittstelle 221 ein PDM-Frontend (PDM = Pulsdichtemodulator), das mit dem Mikrofonarray 220 verbunden ist. In dem PDM-Frontend erzeugt der PDM einen pulsdichtemodulierten Bitstrom basierend auf einem elektronischen Signal aus dem Mikrofonarray 220. Der PDM übermittelt ein Taktsignal an das Mikrofon 220, das die anfängliche Sampling-Frequenz bestimmt, und empfängt dann ein Datensignal aus dem Mikrofon 220, das den aus der Umgebung aufgenommenen Schall darstellt. Aus dem Datensignal erzeugt der PDM einen PDM-Bitstrom und kann den Bitstrom einem Dezimierer bereitstellen, der die Audiodaten, die dem Bussystem 227 bereitgestellt werden, erzeugen kann, indem er entweder Audiodaten von hoher Qualität bereitstellt oder indem er die Sampling-Frequenz des pulsdichtemodulierten Bitstroms aus dem PDM zu Audiodaten von geringer Qualität reduziert. In einer alternativen Ausführungsform ist die Audiodatenquelle ein zusätzliches ADU-Frontend (ADU = Analog-Digital-Umsetzer) (AUX-ADU). Im zusätzlichen ADU-Frontend setzt ein Analog-Digital-Umsetzer ein analoges Signal aus dem Mikrofon 220 in ein digitales Audiosignal um. Das digitale Audiosignal kann einem Dezimierer bereitgestellt werden, um die Audiodaten, die dem Bussystem 227 bereitgestellt werden, zu erzeugen, indem entweder Audiodaten von hoher Qualität bereitgestellt werden oder indem die Sampling-Frequenz des digitalen Audiosignals aus dem ADU in Audiodaten von geringer Qualität reduziert wird.
Die Audioschnittstellensteuerung 224 ist dazu vorgesehen, das Timing des Samplings durch die Audioschnittstelle 221 oder das Mikrofonarray 220 und die Sampling-Frequenz des Samplings durch die Audioschnittstelle 221 oder das Mikrofonarray 220 zu steuern. Die Audioschnittstellensteuerung 224 steuert zum Beispiel möglicherweise die Audioqualität (z. B. die Sampling-Frequenz) von dem SBD 223 und dem Puffer 225 bereitgestellten Audiodaten und kann auch steuern, zu welchen Zeiten dem Bussystem 227 periodisch oder laufend Audiodaten bereitzustellen sind. Die Funktionalität der Audioschnittstellensteuerung 224 ist zwar als separater Funktionsblock gezeigt, kann jedoch auch durch den SBD 223 und/oder den Puffer 225 oder einen beliebigen sonstigen Funktionsblock durchgeführt werden.
Der SBD 223 ist dazu vorgesehen zu bestimmen, ob von der Audioschnittstelle 221 empfangene Audiodaten der Sprechbeginn sind. Der SBD 223 kann beliebige dem Durchschnittsfachmann bekannte Sprechbeginndetektionsalgorithmen oder -techniken nutzen. In einer Ausführungsform sind Audiodaten mit einer geringeren Sampling-Frequenz (z. B. 2-4 kHz) ausreichend dafür, um einen Sprechbeginn (oder andere Schallbeginnereignisse) zu detektieren, während der SBD 223 mit einer geringeren Frequenz getaktet werden kann, sodass der SBD 223 mithin weniger Strom verbraucht und weniger komplex ausfällt. Nach der Detektion eines Sprechbeginnereignisses setzt der SBD 223 ein Statussignal im Bus 227 auf wahr, um den Aktivierungsphrasendetektor (Wake-up Phrase Detector, WUPD) 228 aus einem Zustand mit niedrigem Stromverbrauch (z. B. einem Schlafzustand) in einen Zustand mit höherem Stromverbrauch (z. B. einen aktiven Zustand) umzustellen, um eine Phrasendetektion durchzuführen, wie unten noch näher erörtert wird. Das Gating des Blocks des WUPD 228 reduziert so die durchschnittliche Systemverarbeitungslast und reduziert die Falschakzeptanzrate (FAR) durch Minimieren der Hintergrund- und Störgeräusche, die der WUPD 228 berücksichtigt.
Das Schwellenwertberechnungsmodul 222 überwacht Umgebungsgeräusche, um den Aktivierungsschwellenwert von Tönen, die eine Sprechbeginndetektion triggern sollen, dynamisch zu berechnen und gegebenenfalls zu korrigieren, um eine unnötige Verarbeitung durch den SBD 223 zu vermeiden. In einer Ausführungsform bewirkt die Audioschnittstellensteuerung 224, dass die Audioschnittstelle 221 Audiodaten (z. B. Umgebungsgeräusche) in Intervallen periodisch dem Schwellenwertberechnungsmodul 222 bereitstellt. In einer Ausführungsform kann das Schwellenwertberechnungsmodul 222 den Aktivierungsschwellenwert von einem unter dem momentanen Umgebungsgeräuschwert liegenden Wert auf einen über dem momentanen Umgebungsgeräuschwert liegenden Wert zurücksetzen.
Der Puffer 225 ist dazu vorgesehen, dass periodisch gesampelte Audiodaten vorlaufender Geräuschsignale in ihm gespeichert werden. In einer Ausführungsform ist der Puffer 225 so groß, dass darin Audiodaten mit einer Länge von über 250 Millisekunden (z. B. 253 Millisekunden) gespeichert werden können, um ein Kombinieren zu ermöglichen, wie unten erörtert. Alternativ oder zusätzlich dient der Puffer 225, nachdem der SBD 223 einen Sprechbeginn detektiert hat, möglicherweise als ein Kanal zur Durchleitung der laufend gesampelten Audiodaten, die die Aktivierungsphrase und den Befehl oder die Frage beinhalten. In einer Ausführungsform bewirkt die Audioschnittstellensteuerung 224, dass die Audioschnittstelle 221 dem Puffer 225 in Intervallen periodisch vorlaufende Störschallsignale bereitstellt. Sobald der SBD 223 Sprache, etwa Schall, detektiert hat, kann die Audioschnittstellensteuerung 224 bewirken, dass die Audioschnittstelle 221 dem Puffer die übrigen Audiodaten laufend bereitstellt.
Der Kombinierer 226 ist dazu vorgesehen, fortlaufende Audiodaten unter Nutzung der periodisch erfassten vorlaufenden Störschallsignale und der laufend erfassten übrigen Audiodaten zu erzeugen. In einer Ausführungsform fügt der Kombinierer 226 einen Abschnitt eines Endes der zuletzt periodisch erfassten Audiodaten mit einem Abschnitt des Anfangs der laufend erfassten Audiodaten zusammen. Der Kombinierer 226 nutzt zum Beispiel möglicherweise eine Overlap-Add-Operation für eine Überlappung von 3 Millisekunden der vorlaufenden Störschallsignale mit den laufend erfassten Audiodaten. Der Kombinierer 226 kann die fortlaufenden Audiodaten über das Bussystem 227 an den WUPD 228 ausgeben.
Der WUPD 228 kann bestimmen, ob die durch den Kombinierer 226 ausgegebenen fortlaufenden Audiodaten ein Aktivierungswort oder eine Aktivierungsphrase umfassen. Sobald der WUPD 228 eingeschaltet ist, kann er (z. B. im Vergleich zum SBD 223) komplexere und leistungsstärkere Rechenvorgänge durchführen, um zu bestimmen, ob ein Aktivierungswort oder eine Aktivierungsphrase gesagt worden ist, wie mit Bezug auf die 3A-8 näher erörtert wird. Der WUPD 228 kann dies basierend auf den in den Puffer 225 aufgenommenen Audiodaten (die mit einer Zeit vor dem Sprechbeginn korrespondieren) und den nach einer Detektion des Sprechbeginns empfangenen Audiodaten von hoher Qualität bestimmen.
3A veranschaulicht eine Darstellung eines herkömmlichen Aktivierungswort- oder Word-Spotting-Ansatzes 300 mit einer Kombination aus dem Gaußschen Markovmodell (Gaussian Markov Model, GMM) und dem versteckten Markovmodell (Hidden Markov Model, HMM), bei dem ganze Wortmodelle für jedes Aktivierungswort unter Nutzung eines beliebigen zweckmäßigen Algorithmus wie des Maximum-Likelihood-Forward-Backward-Algorithmus trainiert werden. Es werden Gaußsche Beobachtungsmodelle durch Nutzung einer diagonalen oder vollständigen Kovarianzstruktur bestimmt, wobei der Ansatz mit der diagonalen Struktur vorherrscht. Die Wortmodelle können eine von „links nach rechts“ gehende lineare Sequenz von Zuständen mit z. B. ungefähr drei Zuständen pro Phonem beinhalten. Die Beobachtungsvektoren O werden durch eine Frontend-Spektralanalyse erhalten, wobei am häufigsten Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) und Ableitungen davon vorkommen. Bei einem Standardtrainingsansatz werden zur Erstellung des abschließenden Wortmodells, wie in 3A abgebildet, Dutzende bis Hunderte von Äußerungen des Aktivierungsworts bei einem Offline-Training genutzt. Bei einer Decodierung möchte ein Benutzer möglicherweise die Wahrscheinlichkeit der Beobachtungssequenz O = O₁O₂ ··· O_T gemäß dem Modell λ, also P(O|λ), berechnen. Zum Durchführen dieser Berechnung kann ein beliebiger zweckmäßiger Algorithmus genutzt werden, etwa der Viterbi-Algorithmus.
3B veranschaulicht einen phonembasierten Trainingsansatz 310, bei dem einzelne Phoneme offline trainiert werden, um eine Phonemdatenbank aufzubauen. Es wurde festgestellt, dass eine Zusammenstellung von etwa 50 der häufigsten Phoneme ausreicht, wobei jedes Phonem mit 3 HMM-Zuständen und 2 Gaußschen Mischungen pro Zustand modelliert wird. Bei einem Aktivierungsworttraining sagt der Benutzer das individuell angepasste Aktivierungswort ein paarmal (z. B. 1- bis 3-mal). Beim anschließenden Trainingsprozess, der in 3C gezeigt ist, werden diese Äußerungen sowie optional eine vergrößerte Menge genutzt.
Wie in 3C gezeigt, wird ein Phonemerkennungsblock 315 genutzt, um die wahrscheinlichste Phonemzerlegung für das gesagte Aktivierungswort „Abrakadabra“ zu bestimmen, wie in 3C gezeigt. Die Modelle für die detektierten Phoneme werden dann genutzt, um unter Nutzung eines verketteten Phonemmodells, das auf Phonemtranskriptionen basiert (eine Transkription pro gesagter Phrase), ein anfängliches wortbasiertes Modell λ¹ für das Aktivierungswort zu erstellen.
Anschließend können die Trainingsäußerungen nochmals eingesetzt werden, nämlich um das anfängliche Wortmodell im Hinblick auf den Sprecher oder die Sprecherin anzupassen, die Abhängigkeiten zwischen Phonemen zu erfassen und die Dimension des verketteten Modells zu reduzieren. Durch dieses Training wird das sprecherunabhängige, verkettete phonembasierte Modell zu einem sprecherabhängigen wortbasierten Modell verfeinert. Zur Reduzierung der Größe des Modells, wie auch in 3C gezeigt, erfolgen bei der Anpassung auch Abschneidungen und Zustandskombinierungen. Eine Zustandskombinierung involviert das Zusammenführen von zwei oder mehr ähnlichen oder identischen Zuständen mit einer sehr hohen Wahrscheinlichkeit eines Übergangs zwischen ihnen. Im Beispiel in 3C können der 3. und der 4. Zustand des anfänglichen HMM-Wortmodells, die mit „R“ bzw. „R“ korrespondieren, zu einem einzigen „R“-Zustand kombiniert werden, und die Zustände 11-13 des anfänglichen HMM-Wortmodells, die mit „E“, „R“ bzw. „R“ korrespondieren, können zu einem einzigen „R“-Zustand kombiniert werden.
Bei dem Standardansatz wird das erhaltene Modell dazu genutzt, um (hierin auch als Äußerungen bezeichnete) Sprachbeobachtungen (O) zu bewerten, und wenn die Wahrscheinlichkeit, dass eine Beobachtungssequenz detektiert worden ist, einen Schwellenwert, TH, gemäß dem Modell, λ¹, nach einer Normierung durch die Wahrscheinlichkeit gemäß einem Müll- oder Hintergrundmodell, λ^g, überschreitet, wird das Aktivierungswort detektiert. Dieser Prozess ist in 3D abgebildet.
Das Wahrscheinlichkeitsverhältnis, LR, wird wie folgt definiert: $L R (0, λ, λ^{g}) = \frac{P (0 | λ)}{P (0 | λ^{g})}$
Anders ausgedrückt: Das LR kann darauf basieren, inwieweit die Beobachtung O mit dem Modell λ¹ übereinstimmt, wobei dies damit zu vergleichen ist, inwieweit die Beobachtung O mit dem Papierkorbmodell λ^g übereinstimmt. Jedoch wird bei diesem Ansatz gar nicht erfasst, wie λ¹ dabei O modelliert, sondern nur die endgültige Wahrscheinlichkeit. In vielen Fällen weisen falsch akzeptierte Wörter möglicherweise eine teilweise Phonemübereinstimmung auf oder enthalten eine vollständig übereinstimmende Teilmenge von Phonemen. Das LR einer solchen Äußerung ist in der Regel sehr hoch, da alle Phone übereinstimmen und ein Vokal gehalten wird. Verließe man sich in diesem Fall allein auf das LR, würde hieraus eine Falschakzeptanz resultieren. In einem weiteren häufigen Falschakzeptanz-Szenario stimmt das Wort mit einem Teil des Aktivierungsworts überein. Ausführungsformen der vorliegenden Offenbarung überwinden die obigen Probleme dadurch, dass in den Modelltrainings- und Entscheidungsprozess einbezogen wird, wie das Modell während der Dauer der Eingabebeobachtungssequenz intern angeregt wird. Im Fall eines HMM-GMM-Modells ist eine solche Anregung der wahrscheinlichste Zustand.
4A veranschaulicht einen Modellerzeugungstrainingsansatz gemäß einigen Ausführungsformen der vorliegenden Offenbarung. Nach dem Erhalten des Modells λ¹ (wie mit Bezug auf die 3B-3D oben erörtert) kann die Audioverarbeitungseinrichtung 202 ein Training auf einer zweiten Stufe durchlaufen, bei dem die Trainingsäußerungen mit dem Modell λ¹ verarbeitet werden, um für jede Trainingsäußerung eine Zustandssequenz, die den wahrscheinlichsten Zustand (z. B. das jeweilige Phonemmodell) pro Zeitintervall im Verlauf der Trainingsäußerung, der die Grundlage eines Stufe-2-Modells λ² bilden wird, zu erhalten. Zum Beispiel hat jede Trainingsäußerung eine Dauer von 420 Millisekunden und kann in 10-Millisekunden-Frames (z. B. 10-Millisekunden-Zeitintervallen) erfasst werden. Die Zustandssequenz kann den wahrscheinlichsten Zustand (z. B. das jeweilige Phonemmodell) angeben, in dem die Trainingsäußerung bei jedem jeweiligen Frame der Äußerung (z. B. beim Durchlaufen des Modells) sein wird. Wie in 4B gezeigt, handelt es sich bei dem Modell λ¹ möglicherweise um ein 11-Zustand-Modell, das im Verlauf von 420 ms in 10-Millisekunden-Zeitintervallen erfasst wird. 4B veranschaulicht auch die unterschiedlichen Zeitdauern jedes Zustands. Wie im Beispiel in 4B gezeigt, können die meisten Zustände eine Dauer von 20 ms haben, während der 4. Zustand („A“), wie gezeigt, eine Dauer von 30 ms haben kann. Eine Zustandssequenz kann angeben, wie wahrscheinlich es ist, dass im jeweiligen Zeitintervall in einem momentanen Zustand geblieben oder in einen neuen Zustand übergegangen wird.
In 4A, auf die erneut Bezug genommen wird, kann die Audioverarbeitungseinrichtung 202 nach dem im Einzelfall wahrscheinlichsten Zustand q_t im N-Zustand-Modell λ¹ zur Zeit t wie folgt auflösen: $q_{t} = \underset{1 \leq i \leq N}{argmax} [γ_{t} (i, O_{t}, λ^{1})], 1 \leq t \leq T$
Wenn u_k die k. Trainingsäußerung von K Gesamttrainingsäußerungen und $O_{t}^{u_{k}}$
die korrespondierende Beobachtungssequenz ist, kann die Audioverarbeitungseinrichtung 202 die wahrscheinlichste Zustandssequenz für jede Trainingsäußerung, u_k, während des Trainings wie folgt bestimmen: $q_{t}^{u_{k}} = \underset{1 \leq i \leq N}{argmax} [γ_{t} (i, O_{t}^{u_{k}}, λ^{1})], 1 \leq t \leq T$
Die Audioverarbeitungseinrichtung 202 kann ein Stufe-2-Modell, λ², durch Sammeln der Zustandssequenzen für jede der K Trainingsäußerungen aufbauen: $λ^{2} = {q_{t}^{u_{k}}} k = 1.. K$
Die Audioverarbeitungseinrichtung 202 kann daraufhin das endgültige Modell, λ, durch eine Verkettung des Stufe-1-Modells und des Stufe-2-Modells (λ¹ und λ²) erzeugen: $λ = {λ^{1}, λ^{2}}$
Das Modell λ² wird so erhalten wie oben beschrieben, es können jedoch beliebige zweckmäßige Verfahren genutzt werden. Die Audioverarbeitungseinrichtung 202 kann zum Beispiel über einen statistischen Ansatz die Summenverteilung jedes Zustands im Zeitverlauf erhalten. 4A veranschaulicht auch einen 2-stufigen Erkennungsprozess gemäß einigen Ausführungsformen der vorliegenden Offenbarung. Die Audioverarbeitungseinrichtung 202 kann eine Erkennung einer detektierten Äußerung unter Nutzung eines (z. B. auf dem LR basierenden) Modells λ¹ in Verbindung mit dem Modell λ² durchführen. Die Audioverarbeitungseinrichtung 202 kann zum Beispiel beim Treffen einer Erkennungsentscheidung unter Nutzung des Modells λ¹ anschließend das Erkennungsergebnis unter Nutzung des Modells λ¹ in Verbindung mit dem Modell λ² verifizieren. Für die Verifizierung kann die Audioverarbeitungseinrichtung 202 eine Distanz zwischen jeder der K Zustandssequenzen und der Zustandssequenz der detektierten Äußerung (z. B. der zu erkennenden Äußerung) bestimmen, wodurch K Distanzen erzeugt werden, und die Mindestdistanz unter den K Distanzen bestimmen, die wie folgt berechnet wird: $D q m i n_{u} = min_{1 \leq k \leq K} D (q_{t}^{u_{k}}, q_{t})$
Die Audioverarbeitungseinrichtung 202 kann diesen Mindestdistanz-Messwert in die endgültige Entscheidung aufnehmen: $e n d g \ddot{u} l t i g e E n t s c h e i d u n g = f (D q m i n_{u}, L R (O, λ^{1}, λ^{g}))$
Die Audioverarbeitungseinrichtung 202 kann Dqmin_u mit einem Schwellenwert vergleichen und, wenn Dqmin_u den Schwellenwert überschreitet, bestimmen, dass die detektierte Äußerung nicht das Aktivierungswort ist. In einigen Ausführungsformen weist die Audioverarbeitungseinrichtung 202 Dqmin_u ein Gewicht zu, sodass der Effekt dieses Werts auf die endgültige Entscheidung z. B. basierend auf einer Benutzervorliebe entweder größer oder kleiner ist. Es sei angemerkt, dass, auch wenn die obigen Beispiele mit Bezug auf die Nutzung von Dqmin_u und LR(O, λ¹, λ^g) beschrieben werden, um zu bestimmen, ob eine detektierte Äußerung mit einem Aktivierungswort korrespondiert, die Audioverarbeitungseinrichtung 202 in einigen Ausführungsformen möglicherweise nur das Modell λ² (z. B. nur Dqmin_u) einsetzt, um zu bestimmen, ob eine detektierte Äußerung mit dem Aktivierungswort korrespondiert.
5 veranschaulicht Zustandssequenzen für diverse unterschiedliche Äußerungen. Die Referenz $q_{t}^{u_{k}}$
für eine der Trainingsäußerungen für „Abrakadabra“ ist mit der Bezeichnung „Referenz“ versehen. Die „Referenz“ $q_{t}^{u_{k}}$
korrespondiert möglicherweise mit derjenigen Trainingsäußerung, deren Distanz (Dqmin_u) zur Zustandssequenz der zu erkennenden Äußerung am kleinsten ist. Wenn es sich bei einem Erkennungsaktivierungswort um das Wort der Trainingsäußerung handelt (z. B. „Abrakadabra“), ist es mit der Bezeichnung „AW“ versehen und folgt hinreichend der „Referenz“-Zustandssequenz, wie gezeigt. Wenn es sich bei einem weiteren Aktivierungswort ebenfalls um das Wort der Trainingsäußerung handelt, dieses jedoch einer Störbeeinflussung unterliegt, ist es mit der Bezeichnung „AW-Störung“ versehen. Es sind einige geringe Zustandsnichtübereinstimmungen der „AW-Störung“ erkennbar, diese folgt aber im Großen und Ganzen hinreichend der „Referenz“-Zustandssequenz. Unter Störbedingungen ist das LR allgemein geringer als unter störungsfreien Bedingungen, während die Zustandssequenz nur eine geringe Distanzwerterhöhung aufweist, wodurch mithin die Detektionsfähigkeit in störungsbehafteten Umgebungen verbessert wird.
In vielen Fällen weisen Falschakzeptanz-Wörter eine teilweise Phonemübereinstimmung auf oder enthalten eine vollständig übereinstimmende Teilmenge von Phonemen. In 5 ist zum Beispiel die Äußerung „Abraaaaaaaaaaaaabra“ gezeigt und mit der Bezeichnung „Abraaaaaaaaaaaaabra“ versehen. In diesem Fall liegt eine gute Übereinstimmung der Zustandssequenz für „Abraaaaaaaaaaaaabra“ am Anfang vor, diese wird dann aber um die das „a“ repräsentierenden Zustände herum gehalten. Zum Ende der Äußerung hin liegt wieder eine gute Übereinstimmung der Zustandssequenz vor. Das LR einer solchen Äußerung ist in der Regel sehr hoch, da alle Phone übereinstimmen und ein Vokal gehalten wird. Verließe man sich in diesem Fall allein auf das LR, kann hieraus eine Falschakzeptanz resultieren. Die Nutzung von Dqmin_u zeigt allerdings, dass zwischen der „Abraaaaaaaaaaaaabra“-Zustandssequenz bei den Frames 30-63 und der „Referenz“-Zustandssequenz bei den Frames 30-63 eine beträchtliche Distanz ist. Mithin kann die Audioverarbeitungseinrichtung 202 die Äußerung „Abraaaaaaaaaaaaabra“ zurückweisen. In einem weiteren häufigen Falschakzeptanz-Szenario stimmt die Äußerung mit einem Teil des Aktivierungsworts überein. Dies wird durch die Zustandssequenz mit der Bezeichnung „Vorrückwärtskadabra“ in 5 veranschaulicht. Der nicht übereinstimmende Abschnitt der Zustandssequenz für „Vorrückwärtskadabra“ stimmt nicht hinreichend mit der „Referenz“-Zustandssequenz an den korrespondierenden Frames überein, woraus ein hoher Distanzwert und eine Rückweisung resultieren. Schließlich ist noch eine gar nicht übereinstimmende Äußerung mit der Bezeichnung „Kalifornien“ gezeigt. Hierbei wäre nicht nur das LR einer derartigen Äußerung ebenfalls sehr gering, sondern der „Referenz“-Zustandssequenz würde außerdem nur unzureichend gefolgt.
In einigen Ausführungsformen basiert das Modell λ² alternativ oder zusätzlich zur Messung der Distanz zwischen jeder der K Zustandssequenzen und der Zustandssequenz der erkannten Äußerung möglicherweise auf noch anderen Parametern. Ein solcher Parameter kann angeben, wie sich das Wahrscheinlichkeitsverhältnis, LR, mit jeder Beobachtung, O_t, im Verlauf der Zeit entwickelt. Nach dem Erhalten des Modells λ¹ (wie mit Bezug auf die 3B-3D oben erörtert) kann die Audioverarbeitungseinrichtung 202 ein Training auf einer zweiten Stufe durchlaufen, bei dem die Trainingsäußerungen u_k mit dem Modell λ¹ verarbeitet werden, um zu bestimmen, wie sich das Wahrscheinlichkeitsverhältnis, LR, jeder Trainingsäußerung mit jeder Beobachtung, O_t, im Verlauf der Zeit entwickelt. Die Wahrscheinlichkeit, bei der Beobachtungssequenz O_t = O₁, ..., O_t und gemäß dem Modell λ¹ zur Zeit t im Zustand S_i zu sein, ergibt sich durch Folgendes: $λ_{t} (i, O_{t}, λ^{1}) = P (q_{t} = S i | O_{t}, λ^{1})$
Die maximale Wahrscheinlichkeit in jedem Zustand innerhalb des Modells λ¹ zur Zeit t ergibt sich dann durch Folgendes: $P m a x_{t}^{u_{k}} (O_{t}, λ^{1}) = max_{1 \leq i \leq N} λ_{t} (i, O_{t}, λ^{1}) 1 \leq t \leq T$
Durch die Verarbeitung jeder Trainingsäußerung u_k ergibt sich dann Folgendes: $P m a x_{t}^{u_{k}} = P m a x_{t} (O_{t}^{u_{k}}, λ^{1})$
$P g m a x_{t}^{u_{k}} = P m a x_{t} (O_{t}^{u_{k}}, λ^{g})$
Mithin kann die Audioverarbeitungseinrichtung 202 das Wahrscheinlichkeitsverhältnis (LR) einer Trainingsäußerung im Verlauf der Zeit wie folgt bestimmen: $L R_{t}^{u_{k}} = \frac{P m a x_{t}^{u_{k}}}{P g m a x_{t}^{u_{k}}}$
Die Audioverarbeitungseinrichtung 202 kann dann folgendes Stufe-2-Modell, λ², erzeugen: $λ^{2} = {L R_{t}^{u_{k}}} k = 1.. K$
Während der Erkennung einer empfangenen Äußerung kann die Audioverarbeitungseinrichtung 202 einen Messwert der Distanz, D, zwischen jedem $L R_{t}^{u_{k}}$
und LR_t (der das Wahrscheinlichkeitsverhältnis der empfangenen Äußerung im Verlauf der Zeit repräsentiert) berechnen, um K Distanzmesswerte zu erzeugen. Die Audioverarbeitungseinrichtung 202 kann daraufhin die Mindestdistanz unter allen K Distanzmesswerten (z. B. unter allen Trainingsäußerungen), Dmin_u, nebst dem Wahrscheinlichkeitsverhältnis, LR(O, λ¹, λ^g), zum Berechnen der endgültigen Entscheidung nutzen: $D m i n_{u} = min_{1 \leq k \leq K} D (L R_{t}^{u_{k}}, L R_{t})$
$e n d g \ddot{u} l t i g e E n t s c h e i d u n g = f (D m i n_{u}, L R (O, λ^{1}, λ^{g}))$
Die Audioverarbeitungseinrichtung 202 kann Dmin_u mit einem Schwellenwert vergleichen und, wenn Dmin_u den Schwellenwert überschreitet, bestimmen, dass die detektierte Äußerung nicht das Aktivierungswort ist. In einigen Ausführungsformen weist die Audioverarbeitungseinrichtung 202 Dqmin_u ein Gewicht zu, sodass der Effekt dieses Werts auf die endgültige Entscheidung z. B. basierend auf einer Benutzervorliebe entweder größer oder kleiner ist. In einigen Ausführungsformen nimmt die Audioverarbeitungseinrichtung 202 beide Stufe-2-Erkennungsparameter, die oben erörtert werden, in die endgültige Entscheidung auf: $e n d g \ddot{u} l t i g e E n t s c h e i d u n g = f (D q m i n_{u}, D m i n_{u} L R (O, λ^{1}, λ^{g}))$
Alternativ zu oder zusammen mit dem Wahrscheinlichkeitsverhältnis im Verlauf der Zeit und der Zustandssequenz können auch noch andere Parameter genutzt werden. Beispiele für solche Parameter sind etwa unter anderem der Sprechrhythmus, die Stimmlage oder die Frame-Energie. Darüber hinaus müssen die Modelle λ¹ und λ² nicht auf HMM-GMM-Modelle begrenzt sein, sondern können auch neuronale Netze oder Modelle von beliebigen anderen zweckmäßigen Typen beinhalten.
6 ist ein Ablaufschema eines Verfahrens 600 zum Detektieren eines Aktivierungsworts gemäß einigen Ausführungsformen. Das Verfahren 600 kann durch eine Verarbeitungslogik durchgeführt werden, die Hardware (z. B. eine Schaltungsanordnung, eine dedizierte Logik, eine programmierbare Logik, einen Prozessor, eine Verarbeitungseinrichtung, einen Zentralprozessor (CPU), ein System auf einem Chip (SoC) etc.), Software (z. B. Befehle, die in einer Verarbeitungseinrichtung laufen gelassen/ausgeführt werden), Firmware (z. B. Mikrocode) oder eine Kombination davon beinhalten kann. Das Verfahren 600 kann zum Beispiel durch eine Audioverarbeitungseinrichtung 202, die eine Aktivierungswortdetektionsfirmware ausführt, durchgeführt werden.
Am Block 605 kann die Audioverarbeitungseinrichtung 202, wobei auch auf 2 Bezug genommen wird, ein erstes Modell bestimmen, das konfiguriert ist, um ein Aktivierungswort basierend auf einer Menge von Trainingsäußerungen zu erkennen. Am Block 610 kann die Audioverarbeitungseinrichtung 202 die Menge von Trainingsäußerungen unter Nutzung des ersten Modells analysieren, um ein zweites Modell zu bestimmen, wobei das zweite Modell eine Trainingszustandssequenz für jede der Menge von Trainingsäußerungen beinhaltet und wobei jede Trainingszustandssequenz einen wahrscheinlichen Zustand für jedes Zeitintervall einer korrespondierenden Trainingsäußerung angibt. Am Block 615 kann die Audioverarbeitungseinrichtung 202 eine Zustandssequenz einer detektierten Äußerung, die einen wahrscheinlichen Zustand für jedes Zeitintervall der detektierten Äußerung angibt, bestimmen. Am Block 620 kann die Audioverarbeitungseinrichtung 202 eine Distanz zwischen jeder Trainingszustandssequenz und der Zustandssequenz der detektierten Äußerung zum Erzeugen einer Menge von Distanzen bestimmen. Am Block 625 Bestimmen, ob die detektierte Äußerung mit dem Aktivierungswort korrespondiert, mindestens zum Teil basierend auf dem Wahrscheinlichkeitsverhältnis der detektierten Äußerung und einer Mindestdistanz aus der Menge von Distanzen.
7 ist ein Ablaufschema eines Verfahrens 700 zum Detektieren eines Aktivierungsworts gemäß einigen Ausführungsformen. Das Verfahren 700 kann durch eine Verarbeitungslogik durchgeführt werden, die Hardware (z. B. eine Schaltungsanordnung, eine dedizierte Logik, eine programmierbare Logik, einen Prozessor, eine Verarbeitungseinrichtung, einen Zentralprozessor (CPU), ein System auf einem Chip (SoC) etc.), Software (z. B. Befehle, die in einer Verarbeitungseinrichtung laufen gelassen/ausgeführt werden), Firmware (z. B. Mikrocode) oder eine Kombination davon beinhalten kann. Das Verfahren 700 kann zum Beispiel durch eine Audioverarbeitungseinrichtung 202, die eine Aktivierungswortdetektionsfirmware ausführt, durchgeführt werden.
Am Block 705 kann die Audioverarbeitungseinrichtung 202, wobei gleichzeitig auf 2 Bezug genommen wird, ein erstes Modell bestimmen, das konfiguriert ist, um ein Aktivierungswort basierend auf einer Menge von Trainingsäußerungen zu erkennen. Am Block 710 kann die Audioverarbeitungseinrichtung 202 die Menge von Trainingsäußerungen unter Nutzung des ersten Modells analysieren, um ein zweites Modell zu bestimmen, wobei das zweite Modell eine Angabe des Wahrscheinlichkeitsverhältnisses während der Zeit jeder Trainingsäußerung beinhaltet. Am Block 715 kann die Audioverarbeitungseinrichtung 202 ein Wahrscheinlichkeitsverhältnis während der Zeit der detektierten Äußerung bestimmen und am Block 720 eine Distanz zwischen dem Wahrscheinlichkeitsverhältnis während der Zeit jeder Trainingsäußerung und dem Wahrscheinlichkeitsverhältnis während der Zeit der detektierten Äußerung zum Erzeugen einer Menge von Distanzen bestimmen. Am Block 725 kann die Audioverarbeitungseinrichtung 202 mindestens zum Teil basierend auf dem Wahrscheinlichkeitsverhältnis der detektierten Äußerung und einer Mindestdistanz aus der Menge von Distanzen bestimmen, ob die detektierte Äußerung mit dem Aktivierungswort korrespondiert.
8 ist ein Ablaufschema eines Verfahrens 800 zum Detektieren eines Aktivierungsworts gemäß einigen Ausführungsformen. Am Block 805 kann die Audioverarbeitungseinrichtung 202, wobei auch auf 2 Bezug genommen wird, ein erstes Modell bestimmen, das konfiguriert ist, um ein Aktivierungswort basierend auf einer Menge von Trainingsäußerungen zu erkennen. Am Block 810 kann die Audioverarbeitungseinrichtung 202 die Menge von Trainingsäußerungen unter Nutzung des ersten Modells analysieren, um ein zweites Modell zu bestimmen, wobei das zweite Modell eine Trainingszustandssequenz für jede der Menge von Trainingsäußerungen beinhaltet und wobei jede Trainingszustandssequenz einen wahrscheinlichen Zustand für jedes Zeitintervall einer korrespondierenden Trainingsäußerung angibt. Das zweite Modell kann ferner eine Angabe des Wahrscheinlichkeitsverhältnisses während der Zeit jeder Trainingsäußerung beinhalten. Am Block 815 kann die Audioverarbeitungseinrichtung 202 eine Zustandssequenz einer detektierten Äußerung, die einen wahrscheinlichen Zustand für jedes Zeitintervall der detektierten Äußerung angibt, bestimmen. Die Audioverarbeitungseinrichtung 202 kann ferner ein Wahrscheinlichkeitsverhältnis während der Zeit der detektierten Äußerung bestimmen. Am Block 820 kann die Audioverarbeitungseinrichtung 202 eine Distanz zwischen jeder Trainingszustandssequenz und der Zustandssequenz der detektierten Äußerung zum Erzeugen einer ersten Menge von Distanzen bestimmen. Die Audioverarbeitungseinrichtung 202 kann ferner eine Distanz zwischen dem Wahrscheinlichkeitsverhältnis während der Zeit jeder Trainingsäußerung und dem Wahrscheinlichkeitsverhältnis während der Zeit der detektierten Äußerung zum Erzeugen einer zweiten Menge von Distanzen bestimmen. Am Block 825 kann die Audioverarbeitungseinrichtung 202 mindestens zum Teil basierend auf dem Wahrscheinlichkeitsverhältnis der detektierten Äußerung, einer Mindestdistanz aus der ersten Menge von Distanzen (Dqmin_u) und einer Mindestdistanz aus der zweiten Menge von Distanzen (Dmin_u) bestimmen, ob die detektierte Äußerung mit dem Aktivierungswort korrespondiert.
9 veranschaulicht eine Ausführungsform einer Kernarchitektur 900 der PSoC®-Verarbeitungseinrichtung, etwa derjenigen, die in der PSoC®-Produktfamilie, die von der Cypress Semiconductor Corporation (San Jose, Kalifornien) angeboten wird, genutzt wird. In einer Ausführungsform umfasst die Kernarchitektur 900 einen Mikrocontroller 1102. Der Mikrocontroller 1102 umfasst einen Kern einer CPU (Zentralprozessor) 1104 (der mit der Verarbeitungseinrichtung 130 aus 1 korrespondieren kann), einen Flash-Programmspeicher 1106, ein DOC (Debug On Chip) 1108, einen Prefetch-Puffer 1110, ein privates SRAM (Static Random Access Memory) 1112 und Sonderfunktionsregister 1114. In einer Ausführungsform sind das DOC 1108, der Prefetch-Puffer 1110, das private SRAM 1112 und die Sonderfunktionsregister 1114 an den CPU-Kern 1104 (z. B. einen CPU-Kern 1006) gekoppelt, während der Flash-Programmspeicher 1106 an den Prefetch-Puffer 1110 gekoppelt ist.
Die Kernarchitektur 1100 kann auch einen CHub (Core Hub) 1116 umfassen, der eine Brücke 1118 und einen DMA-Controller 1120 umfasst und über einen Bus 1122 an den Mikrocontroller 1102 gekoppelt ist. Der CHub 1116 kann die Primärdaten- und -steuerschnittstelle zwischen dem Mikrocontroller 1102 und seinen Peripheriegeräten (z. B. Peripheriegeräten) und einem Speicher und einem programmierbaren Kern 1124 bereitstellen. Der DMA-Controller 1120 kann so programmiert werden, dass er zwischen Systemelementen Daten transferiert, ohne dass der CPU-Kern 1104 hierbei belastet wird. In verschiedenen Ausführungsformen kann jede dieser Unterkomponenten des Mikrocontrollers 1102 und des CHub 1116 abhängig von der Wahl oder vom Typ des CPU-Kerns 1104 jeweils eine andere sein. Der CHub 1116 kann zudem an ein gemeinsam genutztes SRAM 1126 und einen SPC (System Performance Controller) 1128 gekoppelt sein. Das private SRAM 1112 ist unabhängig vom gemeinsam genutzten SRAM 1126, auf das der Mikrocontroller 1102 über die Brücke 1118 zugreift. Der CPU-Kern 1104 greift nicht über die Brücke 1118 auf das private SRAM 1112 zu, wodurch mithin Zugriffe auf lokale Register und das RAM gleichzeitig mit DMA-Zugriffen auf das gemeinsam genutzte SRAM 1126 zugelassen werden. Hierin wird die Bezeichnung SRAM verwendet, jedoch kann es sich bei diesem Speicherbaustein in verschiedenen weiteren Ausführungsformen um einen beliebigen geeigneten Typ von vielen unterschiedlichen (flüchtigen oder nichtflüchtigen) Arbeits- oder Datenspeichern handeln.
In verschiedenen Ausführungsformen kann der programmierbare Kern 1124 verschiedene Kombinationen von (nicht gezeigten) Unterkomponenten umfassen, etwa unter anderem ein Digitallogikarray, digitale Peripheriegeräte, Kanäle für eine analoge Verarbeitung, analoge Peripheriegeräte für ein globales Routing, DMA-Controller, ein SRAM und andere zweckmäßige Datenspeichertypen, E/A-Anschlüsse und sonstige geeignete Typen von Unterkomponenten. In einer Ausführungsform umfasst der programmierbare Kern 1124 einen GPIO-EMIF-Block (GPIO = General Purpose I/O, Allzweck-E/A, EMIF = Extended Memory Interface, erweiterte Speicherschnittstelle) 1130 zum Bereitstellen eines Mechanismus zur Erweiterung des chipexternen Zugriffs des Mikrocontrollers 1102, einen programmierbaren Digitalblock 1132, einen programmierbaren Analogblock 1134 und einen Sonderfunktionsblock 1136, die je zum Implementieren einer oder mehrerer der Unterkomponentenfunktionen konfiguriert sind. In verschiedenen Ausführungsformen umfasst der Sonderfunktionsblock 1136 möglicherweise dedizierte (nicht programmierbare) Funktionsblöcke und/oder eine oder mehrere Schnittstellen zu dedizierten Funktionsblöcken wie einem USB, einem Quarzoszillator, einer JTAG-Schnittstelle oder dergleichen.
Der programmierbare Digitalblock 1132 kann ein Digitallogikarray umfassen, das ein Array aus Digitallogikblöcken und ein assoziiertes Routing umfasst. In einer Ausführungsform besteht die Digitalblockarchitektur aus universellen Digitalblöcken (UDBs). Jeder UDB umfasst zum Beispiel möglicherweise eine ALU nebst einer CPLD-Funktionalität.
In verschiedenen Ausführungsformen können ein oder mehrere UDBs des programmierbaren Digitalblocks 1132 konfiguriert sein, um verschiedene Digitalfunktionen wie unter anderem eine oder mehrere der folgenden Funktionen durchzuführen: einen einfachen I2C-Slave; einen I2C-Master; einen SPI-Master oder -Slave; einen Mehrdraht- (z. B. 3-Draht-)SPI-Master oder -Slave (z. B. MISO/MOSImultiplexiert an einem Pin); Zeitgeber und Zähler (z. B. ein Paar 8-Bit-Zeitgeber oder -Zähler, einen 16-Bit-Zeitgeber oder -Zähler, einen 8-Bit-Capture-Timer oder dergleichen); PBMs (z. B. ein Paar 8-Bit-PBMs, einen 16-Bit-PBM, einen 8-Bit-Totzonen-PBM oder dergleichen), einen pegelempfindlichen E/A-Interruptgenerator; einen Quadraturencoder, einen UART (z. B. Halbduplex); Verzögerungsleitungen; und beliebige sonstige geeignete Typen oder Kombinationen von Digitalfunktionen, die sich in einer Vielzahl von UDBs implementieren lassen.
In anderen Ausführungsformen können unter Nutzung einer Gruppe von zwei oder mehr UDBs zusätzliche Funktionen implementiert werden. Unter Nutzung mehrerer UDBs lassen sich rein beispielhaft und ohne Einschränkung folgende Funktionen implementieren: ein I2C-Slave, der eine Hardwareadressendetektion und die Möglichkeit unterstützt, ganze Transaktionen ohne Eingriff eines CPU-Kerns (z. B. des CPU-Kerns 1104) abzuwickeln und ein Force Clock Stretching in Bits im Datenstrom zu verhindern; ein 12C-Multimaster, der eine Slave-Option in einem Einzelblock umfassen kann; eine PRS oder CRC mit beliebiger Länge (bis zu 32 Bits); ein SDIO; ein SGPIO; ein digitaler Korrelator (der z. B. bis zu 32 Bits mit einem 4-fachen Oversampling aufweist und einen konfigurierbaren Schwellenwert unterstützt); eine LINbus-Schnittstelle; ein Delta-Sigma-Modulator (z. B. für einen Klasse-D-Audio-DAU mit einem Differenzausgangspaar); eine 12S-Schnittstelle (Stereo); eine LCD-Treibersteuerung (z. B. können UDBs genutzt werden, um eine Taktregelung der LCD-Treiberblöcke zu implementieren und eine Display-RAM-Adressierung bereitzustellen); ein Vollduplex-UART (z. B. 7-, 8- oder 9-Bit mit 1 oder 2 Stoppbits und Parität und RTS/CTS-Unterstützung), eine IrDA-Schnittstelle (zum Senden oder Empfangen); ein Capture-Timer (z. B. 16-Bit oder dergleichen); ein Totzonen-PBM (z. B. 16-Bit oder dergleichen); ein SMbus (der eine Formatierung von SMbus-Paketen mit einer CRC in der Software umfasst); ein Motorantrieb für einen bürstenlosen Motor (z. B. um eine 6/12-Schritt-Kommutierung zu unterstützen); eine automatische BAUD-Ratendetektion und -erzeugung (z. B. eine automatische Bestimmung der BAUD-Rate für Standardraten von 1200 bis 115200 BAUD und nach einer Detektion zum Erzeugen des zum Erzeugen der BAUD-Rate nötigen Takts); und jegliche sonstigen geeigneten Typen oder Kombinationen von Digitalfunktionen, die sich in einer Vielzahl von UDBs implementieren lassen.
Der programmierbare Analogblock 1134 kann analoge Ressourcen wie unter anderem Komparatoren, Mischer, PGAs (Verstärker mit programmierbarem Verstärkungsfaktor), TIAs (Transimpedanzverstärker), ADUs (Analog-Digital-Umsetzer), DAUs (Digital-Analog-Umsetzer), Spannungsreferenzen, Stromquellen, Abtast-Halte-Schaltungen und beliebige sonstige geeignete Typen analoger Ressourcen umfassen. Der programmierbare Analogblock 1134 kann verschiedene Analogfunktionen unterstützen, die unter anderem ein analoges Routing, eine LCD-Treiber-IO-Unterstützung, eine kapazitive Erfassung, eine Spannungsmessung, eine Motorsteuerung, eine Strom-Spannungs-Umsetzung, eine Spannungs-FrequenzUmsetzung, eine Differenzverstärkung, eine Lichtmessung, eine induktive Positionsüberwachung, eine Filterung, einen Sprechspulenantrieb, das Lesen von Magnetkarten, eine Ultraschall-Doppler-Messung, eine Echoortung, eine Modemübertragungs- und -empfangscodierung oder beliebige sonstige geeignete Typen von Analogfunktionen unterstützen.
Die hierin beschriebenen Ausführungsformen können in verschiedenen Ausführungen von Gegenkapazitätserfassungssystemen, in Eigenkapazitätserfassungssystemen oder Kombinationen aus beidem genutzt werden. In einer Ausführungsform detektiert das Kapazitätserfassungssystem mehrere Erfassungselemente, die in dem Array eingeschaltet werden, und kann ein Signalmuster in den benachbarten Erfassungselementen analysieren, um Rauschanteile vom eigentlichen Signal zu trennen. Die hierin beschriebenen Ausführungsformen sind nicht an eine bestimmte Kapazitätserfassungslösung gebunden und können auch zusammen mit anderen Lösungen für die Erfassung, auch etwa Lösungen für eine optische Erfassung, genutzt werden, wie für den Durchschnittsfachmann anhand dieser Offenbarung erkennbar wäre.
In der obigen Beschreibung werden zahlreiche Details dargelegt. Für den Durchschnittsfachmann, dem diese Offenbarung vorliegt, versteht es sich jedoch, dass Ausführungsformen gemäß der vorliegenden Offenbarung auch ohne diese speziellen Details praktisch umsetzbar sind. In einigen Fällen werden hinlänglich bekannte Konstruktionen und Einrichtungen nicht im Detail, sondern anhand von Blockschaltbildern gezeigt, um die Verständlichkeit der Beschreibung nicht zu beeinträchtigen.
Einige Abschnitte der ausführlichen Beschreibung werden unter Zuhilfenahme von Algorithmen und symbolischer Darstellungen von Operationen an Datenbits innerhalb eines Computerspeichers präsentiert. Bei diesen algorithmischen Beschreibungen und Darstellungen handelt es sich um diejenigen Mittel, die vom Fachmann auf dem Gebiet der Datenverarbeitung verwendet würden, um den Inhalt seiner Arbeit anderen Personen, die mit diesem Gebiet vertraut sind, am effektivsten zu vermitteln. Unter einem Algorithmus wird hierin sowie allgemein eine selbstkonsistente Abfolge von Schritten verstanden, die zu einem gewünschten Ergebnis führen. Diese Schritte erfordern physische Manipulationen physikalischer Größen. Diese Größen haben normalerweise, auch wenn dies nicht zwangsläufig der Fall sein muss, die Form elektrischer oder magnetischer Signale, die gespeichert, transferiert, kombiniert, verglichen und auf andere Weise manipuliert werden können. Es hat sich bisweilen als praktisch erwiesen, vor allem auch weil es sich hierbei um gängige Ausdrücke handelt, diese Signale als Bits, Werte, Elemente, Symbole, Zeichen, Terme, Zahlen oder mit ähnlichen Begriffen zu bezeichnen.
Es sollte jedoch beachtet werden, dass all diese sowie ähnliche Begriffe den jeweiligen physikalischen Größen zuzuordnen sind und es sich hierbei lediglich um praktische Bezeichnungen handelt, die auf diese Größen angewendet werden. Sofern nicht, wenn dies aus der obigen Erörterung hervorgeht, ausdrücklich anders angegeben, versteht es sich, dass Erörterungen, in denen von Begriffen wie „bestimmen“, „detektieren“, „vergleichen“, „zurücksetzen“, „hinzufügen“, „berechnen“ oder dergleichen Gebrauch gemacht wird, sich überall in der Beschreibung jeweils auf die Vorgänge und Prozesse eines Computersystems oder ähnlichen elektronischen Computergeräts beziehen, das Daten, die als physikalische (z. B. elektronische) Größen innerhalb der Register und Speicher des Computersystems dargestellt werden, manipuliert und in andere Daten umwandelt, die in ähnlicher Weise als physikalische Größen innerhalb der Computersystemspeicher oder -register oder anderer solcher Elemente zum Speichern, Übertragen oder Anzeigen von Informationen dargestellt werden.
Wörter wie „Beispiel“ oder „beispielhaft“, die hierin genutzt werden, sind so zu verstehen, dass sie zur Beschreibung eines Beispiels oder Beispielsfalls oder zur Veranschaulichung dienen. Jegliche Aspekte oder Ausführungen, die hierin als „Beispiel“ oder „beispielhaft“ beschrieben werden, sind nicht zwangsläufig so auszulegen, dass sie gegenüber anderen Aspekten oder Ausführungen bevorzugt werden oder vorteilhaft sind. Wörter wie „Beispiel“ oder „beispielhaft“, die hierin genutzt werden, sollen lediglich Konzepte konkret erläutern. Das Wort „oder“, wie in dieser Anmeldung genutzt, hat die Bedeutung eines inklusiven „oder“ und nicht eines exklusiven „oder“. Sofern nicht anders angegeben oder sofern aus dem Zusammenhang nicht etwas anderes hervorgeht, schließt „X umfasst A oder B“ also auch jegliche natürlichen inklusiven Permutationen ein. „X umfasst A oder B“ schließt also alle folgenden Fälle ein: X umfasst A; X umfasst B; oder X umfasst sowohl A als auch B. Darüber hinaus sind die Artikel „ein“ und „eine“, wie in dieser Anmeldung und den beigefügten Ansprüchen genutzt, allgemein in der Bedeutung „ein/eine oder mehrere“ auszulegen, sofern nicht anders angegeben oder sofern aus dem Zusammenhang nicht hervorgeht, dass die Singularform gemeint ist. Des Weiteren bezieht sich der Begriff „eine Ausführungsform“ oder „eine Implementierung“, wenn er hierin genutzt wird, nicht immer zwangsläufig auf dieselbe Ausführungsform oder Implementierung, es sei denn, in der Beschreibung wird dies so beschrieben.
Die hierin beschriebenen Ausführungsformen können sich auch auf eine Vorrichtung zum Durchführen der Operationen hierin beziehen. Diese Vorrichtung kann speziell zum jeweils erforderlichen Zweck ausgelegt sein, oder sie kann einen Universalcomputer beinhalten, der durch ein im Computer gespeichertes Computerprogramm selektiv aktiviert oder umkonfiguriert wird. Ein solches Computerprogramm kann in einem nichtflüchtigen, computerlesbaren Speichermedium wie unter anderem beliebigen Typen von Platten wie Disketten, optischen Speicherplatten, CD-ROMs und magneto-optischen Platten, Festwertspeichern (ROMs), Arbeitsspeichern (RAMs), EPROMs, EEPROMs, Magnet- oder optischen Speicherkarten, Flashspeichern oder jeglichen Typen von zum Speichern elektronischer Befehle geeigneten Medien gespeichert sein. Der Begriff „computerlesbares Speichermedium“ ist so aufzufassen, dass er entweder ein einzelnes Medium oder mehrere Medien (z. B. eine zentrale Datenbank oder eine verteilte Datenbank und/oder zugehörige Cachespeicher und Server) zum Speichern eines oder mehrerer Befehlssätze umfasst. Der Begriff „computerlesbares Medium“ ist auch so aufzufassen, dass er beliebige Medien umfasst, die einen Befehlssatz, der durch eine Maschine ausführbar ist und bewirkt, dass die Maschine eines oder mehrere der Verfahren der vorliegenden Ausführungsformen durchführt, speichern, codieren oder übermitteln können. Der Begriff „computerlesbares Speichermedium“ ist dementsprechend so aufzufassen, dass er unter anderem Halbleiterspeicher, optische Medien, magnetische Medien und jegliche Medien umfasst, die einen Befehlssatz, der durch die Maschine ausführbar ist und bewirkt, dass die Maschine eines oder mehrere der Verfahren der vorliegenden Ausführungsformen durchführt, speichern können.
Die hierin aufgeführten Algorithmen und Anzeigen beziehen sich nicht zwangsläufig auf einen bestimmten Computer oder eine bestimmte andere Vorrichtung. Es können verschiedene Universalsysteme mit Programmen gemäß den Lehren hierin verwendet werden, oder es kann sich als praktisch erweisen, eine spezielle Vorrichtung zum Durchführen der erforderlichen Verfahrensschritte zu entwickeln. Die für diverse solche Systeme erforderliche Konstruktion ergibt sich aus der Beschreibung unten. Darüber hinaus muss für die vorliegenden Ausführungsformen nicht eine bestimmte Programmiersprache verwendet werden. Es versteht sich, dass zum Implementieren der Lehren der Ausführungsformen, wie hierin beschrieben, verschiedene Programmiersprachen in Frage kommen.
In der obigen Beschreibung werden zahlreiche spezielle Details wie spezielle beispielhafte Systeme, Komponenten, Verfahren und so weiter dargelegt, um ein eingehendes Verständnis diverser Ausführungsformen der vorliegenden Offenbarung zu vermitteln. Für den Fachmann versteht es sich jedoch, dass mindestens einige Ausführungsformen der vorliegenden Offenbarung auch ohne diese speziellen Details praktisch umsetzbar sind. In anderen Fällen werden hinlänglich bekannte Komponenten oder Verfahren nicht im Detail beschrieben oder werden anhand einfacher Blockschaltbilder präsentiert, um die Verständlichkeit der vorliegenden Ausführungsformen nicht unnötig zu beeinträchtigen. Daher sind die speziellen Details, die oben dargelegt werden, lediglich beispielhaft. Einzelne Implementierungen können von diesen beispielhaften Details abweichen, können aber dennoch als im Schutzbereich der vorliegenden Ausführungsformen liegend angesehen werden.
Es versteht sich, dass die obige Beschreibung beispielhaft und nicht als einschränkend anzusehen ist. Für den Fachmann, der die obige Beschreibung gelesen und sich mit ihr vertraut gemacht hat, ergeben sich viele weitere Ausführungsformen. Der Schutzbereich der Ausführungsformen sowie der gesamte Schutzbereich von Äquivalenten, unter den diese Ansprüche fallen, sind deshalb unter Bezug auf die beigefügten Ansprüche zu bestimmen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 63/020984 [0001]

Claims

Ein Verfahren, das Folgendes beinhaltet: Bestimmen eines ersten Modells, das konfiguriert ist, um eine Phrase basierend auf einer Menge von Trainingsäußerungen zu erkennen; Analysieren der Menge von Trainingsäußerungen unter Nutzung des ersten Modells, um ein zweites Modell zu bestimmen, wobei das zweite Modell einen Parameter für jede der Menge von Trainingsäußerungen beinhaltet; und Bestimmen, ob eine detektierte Äußerung mit der Phrase korrespondiert, basierend auf einer Verkettung des ersten Modells und des zweiten Modells.
Verfahren gemäß Anspruch 1, wobei der Parameter eine Trainingszustandssequenz beinhaltet, sodass das zweite Modell eine Trainingszustandssequenz für jede der Menge von Trainingsäußerungen beinhaltet, und wobei jede Trainingszustandssequenz einen wahrscheinlichen Zustand für jedes Zeitintervall einer korrespondierenden Trainingsäußerung angibt.
Verfahren gemäß Anspruch 2, wobei das Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, Folgendes beinhaltet: Bestimmen einer Zustandssequenz der detektierten Äußerung, die einen wahrscheinlichen Zustand für jedes Zeitintervall der detektierten Äußerung angibt; und Bestimmen einer Distanz zwischen jeder Trainingszustandssequenz und der Zustandssequenz der detektierten Äußerung zum Erzeugen einer Menge von Distanzen.
Verfahren gemäß Anspruch 3, wobei das Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, ferner Folgendes beinhaltet: Bestimmen eines Wahrscheinlichkeitsverhältnisses der detektierten Äußerung unter Nutzung des ersten Modells; und Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, mindestens zum Teil basierend auf dem Wahrscheinlichkeitsverhältnis der detektierten Äußerung und einer Mindestdistanz aus der Menge von Distanzen.
Verfahren gemäß Anspruch 4, wobei durch eine Bestimmung, dass die Mindestdistanz aus der Menge von Distanzen unter einem Schwellenwert liegt, angegeben wird, dass die detektierte Äußerung mit der Phrase korrespondiert.
Verfahren gemäß Anspruch 1, wobei der Parameter ein Wahrscheinlichkeitsverhältnis während der Zeit beinhaltet, sodass das zweite Modell eine Angabe des Wahrscheinlichkeitsverhältnisses während der Zeit für jede der Menge von Trainingsäußerungen beinhaltet.
Verfahren gemäß Anspruch 6, wobei das Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, Folgendes beinhaltet: Bestimmen eines Wahrscheinlichkeitsverhältnisses während der Zeit der detektierten Äußerung; und Bestimmen einer Distanz zwischen dem Wahrscheinlichkeitsverhältnis während der Zeit jeder Trainingsäußerung und dem Wahrscheinlichkeitsverhältnis während der Zeit der detektierten Äußerung zum Erzeugen einer Menge von Distanzen.
Verfahren gemäß Anspruch 7, wobei das Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, ferner Folgendes beinhaltet: Bestimmen eines Wahrscheinlichkeitsverhältnisses der detektierten Äußerung unter Nutzung des ersten Modells; und Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, mindestens zum Teil basierend auf dem Wahrscheinlichkeitsverhältnis der detektierten Äußerung und einer Mindestdistanz aus der Menge von Distanzen.
Ein System, das Folgendes beinhaltet: einen Speicher; und eine betriebsfähig an den Speicher gekoppelte Verarbeitungseinrichtung, wobei die Verarbeitungseinrichtung für Folgendes konfiguriert ist: Bestimmen eines ersten Modells, das konfiguriert ist, um eine Phrase basierend auf einer Menge von Trainingsäußerungen zu erkennen; Analysieren der Menge von Trainingsäußerungen unter Nutzung des ersten Modells, um ein zweites Modell zu bestimmen, wobei das zweite Modell eine Trainingszustandssequenz für jede der Menge von Trainingsäußerungen beinhaltet und wobei jede Trainingszustandssequenz einen wahrscheinlichen Zustand für jedes Zeitintervall einer korrespondierenden Trainingsäußerung angibt; und Bestimmen, ob eine detektierte Äußerung mit der Phrase korrespondiert, basierend auf einer Verkettung des ersten Modells und des zweiten Modells.
System gemäß Anspruch 9, wobei die Verarbeitungseinrichtung zum Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, für Folgendes konfiguriert ist: Bestimmen einer Zustandssequenz der detektierten Äußerung, die einen wahrscheinlichen Zustand für jedes Zeitintervall der detektierten Äußerung angibt; und Bestimmen einer Distanz zwischen jeder Trainingszustandssequenz und der Zustandssequenz der detektierten Äußerung zum Erzeugen einer Menge von Distanzen.
System gemäß Anspruch 10, wobei die Verarbeitungseinrichtung zum Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, ferner für Folgendes konfiguriert ist: Bestimmen eines Wahrscheinlichkeitsverhältnisses der detektierten Äußerung unter Nutzung des ersten Modells; und Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, mindestens zum Teil basierend auf dem Wahrscheinlichkeitsverhältnis der detektierten Äußerung und einer Mindestdistanz aus der Menge von Distanzen.
System gemäß Anspruch 11, wobei die Verarbeitungseinrichtung ferner für Folgendes konfiguriert ist: Vergleichen der bestimmten Distanz aus der Menge von Distanzen mit einem Schwellenwert; und als Reaktion auf das Bestimmen, dass die Mindestdistanz aus der Menge von Distanzen unter dem Schwellenwert liegt, Angeben, dass die detektierte Äußerung mit der Phrase korrespondiert.
System gemäß Anspruch 9, wobei die Verarbeitungseinrichtung ferner für Folgendes konfiguriert ist: für jede Trainingsäußerung Bestimmen eines Wahrscheinlichkeitsverhältnisses während der Zeit der Trainingsäußerung, wobei das zweite Modell ferner eine Angabe des Wahrscheinlichkeitsverhältnisses während der Zeit jeder Trainingsäußerung beinhaltet.
System gemäß Anspruch 13, wobei die Verarbeitungseinrichtung zum Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, für Folgendes konfiguriert ist: Bestimmen eines Wahrscheinlichkeitsverhältnisses während der Zeit der detektierten Äußerung; und Bestimmen einer Distanz zwischen dem Wahrscheinlichkeitsverhältnis während der Zeit jeder Trainingsäußerung und dem Wahrscheinlichkeitsverhältnis während der Zeit der detektierten Äußerung zum Erzeugen einer Menge von Distanzen.
System gemäß Anspruch 14, wobei die Verarbeitungseinrichtung zum Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, ferner für Folgendes konfiguriert ist: Bestimmen eines Wahrscheinlichkeitsverhältnisses der detektierten Äußerung unter Nutzung des ersten Modells; und Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, basierend auf dem Wahrscheinlichkeitsverhältnis der detektierten Äußerung und einer Mindestdistanz aus der Menge von Distanzen.
Ein nichtflüchtiges, computerlesbares Medium, in dem Befehle gespeichert sind, die, wenn sie durch eine Verarbeitungseinrichtung ausgeführt werden, bewirken, dass die Verarbeitungseinrichtung Folgendes durchführt: Bestimmen eines ersten Modells, das konfiguriert ist, um eine Phrase basierend auf einer Menge von Trainingsäußerungen zu erkennen; Analysieren der Menge von Trainingsäußerungen unter Nutzung des ersten Modells, um ein zweites Modell zu bestimmen, wobei das zweite Modell einen Parameter für jede der Menge von Trainingsäußerungen beinhaltet; und Bestimmen, ob eine detektierte Äußerung mit der Phrase korrespondiert, basierend auf einer Verkettung des ersten Modells und des zweiten Modells.
Nichtflüchtiges, computerlesbares Medium gemäß Anspruch 16, wobei der Parameter eine Trainingszustandssequenz beinhaltet, sodass das zweite Modell eine Trainingszustandssequenz für jede der Menge von Trainingsäußerungen beinhaltet, und wobei jede Trainingszustandssequenz einen wahrscheinlichen Zustand für jedes Zeitintervall einer korrespondierenden Trainingsäußerung angibt.
Nichtflüchtiges, computerlesbares Medium gemäß Anspruch 17, wobei die Verarbeitungseinrichtung zum Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, für Folgendes vorgesehen ist: Bestimmen einer Zustandssequenz der detektierten Äußerung, die einen wahrscheinlichen Zustand für jedes Zeitintervall der detektierten Äußerung angibt; und Bestimmen einer Distanz zwischen jeder Trainingszustandssequenz und der Zustandssequenz der detektierten Äußerung zum Erzeugen einer Menge von Distanzen.
Nichtflüchtiges, computerlesbares Medium gemäß Anspruch 18, wobei die Verarbeitungseinrichtung zum Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, ferner für Folgendes vorgesehen ist: Bestimmen eines Wahrscheinlichkeitsverhältnisses der detektierten Äußerung unter Nutzung des ersten Modells; und Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, mindestens zum Teil basierend auf dem Wahrscheinlichkeitsverhältnis der detektierten Äußerung und einer Mindestdistanz aus der Menge von Distanzen.
Nichtflüchtiges, computerlesbares Medium gemäß Anspruch 19, wobei die Verarbeitungseinrichtung als Reaktion auf eine Bestimmung, dass die Mindestdistanz aus der Menge von Distanzen unter einem Schwellenwert liegt, bestimmt, dass die detektierte Äußerung mit der Phrase korrespondiert.
Nichtflüchtiges, computerlesbares Medium gemäß Anspruch 20, wobei der Parameter ein Wahrscheinlichkeitsverhältnis während der Zeit beinhaltet, sodass das zweite Modell eine Angabe des Wahrscheinlichkeitsverhältnisses während der Zeit für jede der Menge von Trainingsäußerungen beinhaltet.
Nichtflüchtiges, computerlesbares Medium gemäß Anspruch 21, wobei die Verarbeitungseinrichtung zum Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, für Folgendes vorgesehen ist: Bestimmen eines Wahrscheinlichkeitsverhältnisses während der Zeit der detektierten Äußerung; und Bestimmen einer Distanz zwischen dem Wahrscheinlichkeitsverhältnis während der Zeit jeder Trainingsäußerung und dem Wahrscheinlichkeitsverhältnis während der Zeit der detektierten Äußerung zum Erzeugen einer Menge von Distanzen.
Nichtflüchtiges, computerlesbares Medium gemäß Anspruch 22, wobei die Verarbeitungseinrichtung zum Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, ferner für Folgendes vorgesehen ist: Bestimmen eines Wahrscheinlichkeitsverhältnisses der detektierten Äußerung unter Nutzung des ersten Modells; und Bestimmen, ob die detektierte Äußerung mit der Phrase korrespondiert, mindestens zum Teil basierend auf dem Wahrscheinlichkeitsverhältnis der detektierten Äußerung und einer Mindestdistanz aus der Menge von Distanzen.