DE102019109148A1

DE102019109148A1 - Wake-on-voice-schlüsselphrasensegmentierung

Info

Publication number: DE102019109148A1
Application number: DE102019109148.9A
Authority: DE
Inventors: Tomasz DORAU; Tobias Bocklet; Przemyslaw TOMASZEWSKI; Sebastian Czyryba; Juliusz Norman Chojecki
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2018-05-07
Filing date: 2019-04-08
Publication date: 2019-11-07
Also published as: CN110459207A; US20210264898A1; US20190043479A1

Abstract

Es werden Techniken zur Segmentierung einer Schlüsselphrase bereitgestellt. Eine die Techniken implementierende Methodik gemäß einer Ausführungsform beinhaltet Akkumulieren von Merkmalsvektoren, die aus Zeitsegmenten eines Audiosignals extrahiert werden, und Erzeugen eines Satzes akustischer Bewertungen basierend auf diesen Merkmalsvektoren. Jede dieser akustischen Bewertungen in dem Satz repräsentiert eine Wahrscheinlichkeit für eine mit den Zeitsegmenten assoziierte phonetische Klasse. Das Verfahren beinhaltet ferner Erzeugen einer Progression bewerteter Modellzustandssequenzen, wobei jede der bewerteten Modellzustandssequenzen auf einer Detektion von phonetischen Einheiten basiert, die mit einem entsprechenden der Sätze akustischer Bewertungen, die aus den Zeitsegmenten des Audiosignals erzeugt werden, assoziiert sind. Das Verfahren beinhaltet ferner Analysieren der Progression bewerteter Zustandssequenzen, um ein mit der Progression assoziiertes Muster zu detektieren, und Bestimmen eines Start- und Endpunkts zur Segmentierung der Schlüsselphrase basierend auf einer Abstimmung des detektierten Musters mit einem erwarteten Muster.

Description

HINTERGRUND
Schlüsselphrasendetektion ist ein wichtiges Merkmal in sprachgestützten Einrichtungen. Die Einrichtung kann durch die Äußerung einer spezifischen Schlüsselphrase vom Benutzer aus einem Niederleistungslauschstatus aufgeweckt werden. Das Schlüsselphrasendetektionsereignis initiiert eine Mensch-zu-Einrichtung-Konversation, wie etwa zum Beispiel einen Befehl oder eine Frage für einen Personal Assistant. Diese Konversation beinhaltet ferner eine Verarbeitung der Benutzersprache, und die Wirksamkeit dieser Verarbeitung hängt größtenteils von der Genauigkeit ab, mit der die Grenzen der Schlüsselphrase im Audiosignal bestimmt werden, ein Prozess, der als Schlüsselphrasensegmentierung bezeichnet wird. Es verbleibt jedoch eine Anzahl von nicht trivialen Problemen bezüglich Schlüsselphrasensegmentierungstechniken.
Figurenliste
Merkmale und Vorteile der Ausführungsformen des beanspruchten Gegenstands werden ersichtlich werden, während die folgende ausführliche Beschreibung voranschreitet, und unter Bezugnahme auf die Zeichnungen, wobei gleiche Ziffern gleiche Teile abbilden.

1 ist ein Blockdiagramm oberster Ebene einer sprachgestützten Einrichtung, die gemäß gewissen Ausführungsformen der vorliegenden Offenbarung konfiguriert ist.
2 ist ein Blockdiagramm einer Schlüsselphrasen-Detektion-und-Segmentierung-Schaltung, die gemäß gewissen Ausführungsformen der vorliegenden Offenbarung konfiguriert ist.
3 ist ein Blockdiagramm einer Hidden-Markov-Modell(HMM)-Schlüsselphrasenwertungsschaltung, die gemäß gewissen Ausführungsformen der vorliegenden Offenbarung konfiguriert ist.
4 veranschaulicht eine HMM-Zustandssequenz gemäß gewissen Ausführungsformen der vorliegenden Offenbarung.
5 veranschaulicht eine Progression von HMM-Zustandssequenzen gemäß gewissen Ausführungsformen der vorliegenden Offenbarung.
6 ist ein Blockdiagramm einer Schlüsselphrasensegmentierungsschaltung, die gemäß gewissen Ausführungsformen der vorliegenden Offenbarung konfiguriert ist.
7 ist ein Flussdiagramm, das eine Implementierung einer Startpunktberechnungsschaltung veranschaulicht, die gemäß gewissen Ausführungsformen der vorliegenden Offenbarung konfiguriert ist.
8 ist ein Flussdiagramm, das eine Implementierung einer Endpunktberechnungsschaltung veranschaulicht, die gemäß gewissen Ausführungsformen der vorliegenden Offenbarung konfiguriert ist.
9 ist ein Ablaufdiagramm, das eine Methodik zur Schlüsselphrasensegmentierung gemäß gewissen Ausführungsformen der vorliegenden Offenbarung veranschaulicht.
10 ist ein Blockdiagramm, das eine sprachgestützte Einrichtungsplattform schematisch veranschaulicht, die dazu ausgelegt ist, eine Schlüsselphrasensegmentierung durchzuführen, gemäß gewissen Ausführungsformen der vorliegenden Offenbarung.

Obwohl die folgende ausführliche Beschreibung unter Bezugnahme auf veranschaulichende Ausführungsformen voranschreiten wird, werden angesichts dieser Offenbarung viele Alternativen, Modifikationen und Variationen davon ersichtlich werden.
AUSFÜHRLICHE BESCHREIBUNG
Wie zuvor angemerkt, verbleibt eine Anzahl von nicht trivialen Problemen bezüglich Schlüsselphrasensegmentierungstechniken in sprachgestützten Einrichtungen. Manche bestehenden Schlüsselphrasensegmentierungstechniken basieren zum Beispiel auf einer Sprachaktivitätsdetektion, die auf Änderungen in der Signalenergie angewiesen ist, um Start- und Stopppunkte der Sprache zu bestimmen. Diese Techniken besitzen eine begrenzte Genauigkeit, insbesondere in geräuschvollen Umgebungen. Andere Ansätze verwenden einfache Sprachklassifizierer, die auch daran scheitern, ein a-priori-Wissen der erwarteten Schlüsselphrase auszunutzen, und daher dazu neigen, die Sprache fehlerhaft zu klassifizieren, was zu Segmentierungsfehlern führt, die die Leistungsfähigkeit der sprachgestützten Einrichtung negativ beeinflussen können.
Somit stellt diese Offenbarung Techniken zur Segmentierung einer detektierten Wake-on-Voice(Aufwecken mit Sprache)-Schlüsselphrase aus einem Audiostrom in Echtzeit mit verbesserter Genauigkeit bereit. Die Detektion einer Schlüsselphrase kann bewirken, dass eine sprachgestützte Einrichtung aus einem Niederleistungslauschzustand zu einem Verarbeitungszustand mit höherer Leistung zur Erkennung, zum Verständnis und zur Reaktion auf die Sprache des Benutzers aufgeweckt wird. Eine genaue Segmentierung der Schlüsselphrase aus dem Eingangsaudiosignal (z. B. das Bestimmen der Start- und Stoppzeiten der Schlüsselphrase) ist für die zuverlässige Leistungsfähigkeit dieser anschließenden Sprachverarbeitungsaufgaben wichtig, für die Beispiele unten aufgelistet sind. Bei einer Ausführungsform werden die Techniken in einer sprachgestützten Einrichtung implementiert, die ein a-priori-Wissen erwarteter Signalcharakteristiken (der Sequenz von phonetischen oder subphonetischen Einheiten, die die Schlüsselphrase enthalten) einsetzt, was eine verbesserte Unterscheidung der Schlüsselphrase aus Hintergrundsignalen und Rauschen ermöglicht. Bei manchen derartigen Ausführungsbeispielen wird dies über ein Tracking von Hidden-Markov-Modell(HMM)-Schlüsselphrasenmodellwertungen für das erwartete Muster und eine Identifikation des Segments des Eingangsaudiosignals, das die Sequenz mit übereinstimmender Bewertung erzeugt, erzielt, wie untenstehend ausführlicher beschrieben wird.
Die offenbarten Techniken können zum Beispiel in einem Rechensystem oder einem Softwareprodukt, das durch derartige Systeme ausführbar oder anderweitig steuerbar ist, implementiert werden, obwohl andere Ausführungsformen ersichtlich werden. Das System oder Produkt ist dazu ausgelegt, eine Schlüsselphrasensegmentierung für eine sprachgestützte Einrichtung durchzuführen. Gemäß einer Ausführungsform beinhaltet eine Methodik zum Implementieren dieser Techniken Akkumulieren von Merkmalsvektoren, die aus Zeitsegmenten eines Audiosignals extrahiert werden. Das Verfahren beinhaltet auch Implementieren eines Neuronalnetzwerks, um einen Satz akustischer Bewertungen basierend auf den akkumulierten Merkmalsvektoren zu erzeugen. Jede der akustischen Bewertungen im Satz repräsentiert eine Wahrscheinlichkeit für eine mit den Zeitsegmenten assoziierte phonetische Klasse. Das Verfahren beinhaltet ferner Implementieren eines Schlüsselphrasenmodelldecodierers, um eine Progression von Modellzustandsbewertungssequenzen zu erzeugen. Jede der bewerteten Modellzustandssequenzen basiert auf einer Detektion von (sub)phonetischen Einheiten, die mit einem entsprechenden der Sätze der akustischen Bewertungen, die aus den Zeitsegmenten des Audiosignals erzeugt werden, assoziiert sind. Das Verfahren beinhaltet ferner Analysieren der Progression von bewerteten Zustandssequenzen, um ein mit der Progression assoziiertes Muster zu detektieren, und Bestimmen eines Startpunkts und eines Endpunkts zur Segmentierung der Schlüsselphrase basierend auf einer Abstimmung des detektierten Musters mit einem erwarteten Muster.
Wie verstanden wird, können die hierin beschriebenen Techniken eine verbesserte Benutzererfahrung mit einer sprachgestützten Einrichtung ermöglichen, indem eine genauere Segmentierung der Wake-on-Voice-Schlüsselphrase bereitgestellt wird, sodass die Leistungsfähigkeit von anschließenden Anwendungen, wie etwa zum Beispiel einer akustischen Strahlformung, Spracherkennung und Sprecheridentifikation, verbessert wird. Im Vergleich zu bestehenden Segmentierungsverfahren, die entweder auf eine Sprachaktivitätsdetektion angewiesen sind oder einfachere Klassifizierer einsetzen, die ein a-priori-Wissen der Schlüsselphrase nicht ausnutzen, stellen die offenbarten Techniken eine zuverlässigere Schlüsselphrasensegmentierung bereit.
Die offenbarten Techniken können auf einer Vielfalt von Plattformen implementiert werden, einschließlich Laptops, Tablets, Smartphones, Arbeitsstationen, Videokonferenzsystemen, Gaming-Systemen, intelligenten Haussteuersystemen und eingebetteter Niederleistung-DSP/CPU-Systeme oder -Einrichtungen. Zusätzlich dazu können die Daten bei manchen Ausführungsformen vollständig auf einer lokalen Plattform verarbeitet werden oder Teile der Verarbeitung können zu einer entfernten Plattform abgeladen werden (z. B. durch Einsatz einer Cloud-basierten Verarbeitung oder eines Cloud-basierten sprachgestützten Dienstes oder einer Cloud-basierten sprachgestützten Anwendung, auf den bzw. die verschiedene lokale Rechensysteme eines Benutzers zugreifen können). Diese Techniken können ferner in Hardware oder Software oder einer Kombination davon implementiert werden.
1 ist ein Blockdiagramm oberster Ebene einer sprachgestützten Einrichtung 100, die gemäß gewissen Ausführungsformen der vorliegenden Offenbarung konfiguriert ist. Die sprachgestützte Einrichtung 100 ist als eine Schlüsselphrasen-Detektion-und-Segmentierung-Schaltung 120 beinhaltend dargestellt, die dazu ausgelegt ist, eine Wake-on-Voice-Schlüsselphrase zu detektieren, die im Audiosignal 110, das Sprache vom Benutzer der Einrichtung enthält, vorhanden sein kann, und einen Startpunkt und einen Endpunkt dieser Schlüsselphrase zu bestimmen. Der Betrieb der Schlüsselphrasen-Detektion-und-Segmentierung-Schaltung 120 wird unten ausführlicher erläutert. Außerdem ist ein Puffer 160 dargestellt, der dazu ausgelegt ist, einen Teil des Audiosignals 110 zur Verwendung durch die Schlüsselphrasen-Detektion-und-Segmentierung-Schaltung 120 zu speichern. Bei manchen Ausführungsformen kann der Puffer dazu ausgelegt sein, zwischen 2 und 5 Sekunden Audio zu speichern, das ausreichen sollte, um eine typische Schlüsselphrase aufzunehmen und zu speichern, die allgemein eine Dauer von zwischen 600 Millisekunden und 1,5 Sekunden aufweist. Zusätzlich dazu sind eine Anzahl von beispielhaften anschließenden Sprachverarbeitungsanwendungen dargestellt, einschließlich einer Strahlformungsschaltung 130, einer Automatische-Spracherkennung-Schaltung 140 und einer Sprecher-ID-Schaltung 150. Diese beispielhaften Anwendungen können von einer genauen Segmentierung der Schlüsselphrase aus dem Audiosignal 110 profitieren, obwohl viele andere derartige Anwendungen in Betracht gezogen werden können, einschließlich textabhängiger Sprecheridentifikation, Emotionserkennung, Geschlechterdetektion, Altersdetektion und Rauschschätzung. Die Start- und Endpunkte 190 der Schlüsselphrasensegmentierung werden diesen Anwendungen zusammen mit einem Zugriff auf den Puffer 160 bereitgestellt, sodass die Anwendungen auf die Schlüsselphrase zugreifen können. Bei manchen Ausführungsformen kann der Puffer 160 dazu ausgelegt sein, Merkmalsvektoren, die aus dem Audiosignal extrahiert werden (wie unten beschrieben wird), anstatt das Audiosignal zu speichern.
2 ist ein Blockdiagramm einer Schlüsselphrasen-Detektion-und-Segmentierung-Schaltung 120, die gemäß gewissen Ausführungsformen der vorliegenden Offenbarung konfiguriert ist. Die Schlüsselphrasen-Detektion-und-Segmentierung-Schaltung 120 ist als eine Merkmalsextraktionsschaltung 210, eine Akkumulationsschaltung 230, ein Akustikmodellwertung-Neuronalnetzwerk 240, eine Hidden-Markov-Modell(HMM)-Schlüsselphrasenwertungsschaltung 260 und eine Schlüsselphrasensegmentierungsschaltung 280 beinhaltend dargestellt. Die Schlüsselphrasen-Detektion-und-Segmentierung-Schaltung 120 arbeitet auf eine iterative Weise, indem sie Blöcke (z. B. Zeitsegmente) des bereitgestellten Audiosignals 110 bei jeder Iteration verarbeitet, wie unten ausführlicher beschrieben wird.
Die Merkmalsextraktionsschaltung 210 ist dazu ausgelegt, Merkmalsvektoren 220 aus den Zeitsegmenten des Audiosignals 110 zu extrahieren. Bei manchen Ausführungsformen können die Merkmalsvektoren beliebige geeignete Merkmalsvektoren beinhalten, die akustische Eigenschaften der Sprache von Interesse repräsentieren, und die Merkmalsvektoren können unter Verwendung bekannter Techniken angesichts der vorliegenden Offenbarung extrahiert werden. Die Akkumulationsschaltung 230 ist dazu ausgelegt, eine ausgewählte Anzahl der extrahierten Merkmalsvektoren aus aufeinanderfolgenden Zeitsegmenten zu akkumulieren, um einen ausreichend breiten Kontext zur Repräsentation der akustischen Eigenschaften über einen ausgewählten Zeitraum bereitzustellen. Die Anzahl von zu akkumulierenden Merkmalen sowie die Dauer jedes Zeitsegments können heuristisch bestimmt werden. Bei manchen Ausführungsformen kann ein Merkmalsvektor aus jedem Zeitsegment extrahiert werden und 5 bis 20 Merkmalsvektoren können akkumuliert werden, die sich auf 50 bis 200 Millisekunden Audio beziehen.
Das Akustikmodellwertung-Neuronalnetzwerk 240 ist dazu ausgelegt, einen Satz akustischer Bewertungen basierend auf den akkumulierten Merkmalsvektoren zu erzeugen. Jede der akustischen Bewertungen in dem Satz repräsentiert eine Wahrscheinlichkeit für eine mit den Zeitsegmenten assoziierte phonetische Klasse. Bei manchen Ausführungsformen kann die phonetische Klasse eine phonetische Einheit, eine subphonetische Einheit, einen Triphon-Zustand (z. B. drei aufeinanderfolgende Phoneme) oder einen Monophon-Zustand (z. B. ein Phonem) sein. Die Begriffe „phonetische Einheit“ und „subphonetische Einheit“, wie hierin zur Zweckmäßigkeit austauschbar verwendet, können als Phoneme, phonetische Einheiten und subphonetische Einheiten enthaltend angesehen werden. Jede akustische Bewertung kann an einem Ausgangsknoten des Neuronalnetzwerks präsentiert werden. Bei manchen Ausführungsformen wird das Akustikmodellwertung-Neuronalnetzwerk 240 als ein tiefes Neuronalnetzwerk (DNN: Deep Neural Network) implementiert, obwohl seine Varianten auch verwendet werden können, wie etwa rekurrente Neuronalnetzwerke (RNNs) und Faltungs-Neuronalnetzwerke (CNNs: Convolutional Neural Networks).
Auf einer hohen Ebene ist die HMM-Schlüsselphrasenwertungsschaltung 260 dazu ausgelegt, eine Progression bewerteter Modellzustandssequenzen zu erzeugen. Jede der bewerteten Modellzustandssequenzen basiert auf einer Detektion von (sub)phonetischen Einheiten, die mit einem entsprechenden der Sätze der akustischen Bewertungen, die aus den Zeitsegmenten des Audiosignals erzeugt werden, assoziiert sind. Die HMM-Schlüsselphrasenwertungsschaltung 260 ist auch dazu ausgelegt, die Schlüsselphrase basierend auf einer Akkumulation und Propagation der akustischen Bewertungen der Sätze der akustischen Bewertungen zu detektieren. Der Betrieb der HMM-Schlüsselphrasenwertungsschaltung 260 wird unten in Verbindung mit 3 ausführlicher beschrieben.
Auf einer hohen Ebene ist die Schlüsselphrasensegmentierungsschaltung 280 dazu ausgelegt, die Progression bewerteter Zustandssequenzen zu analysieren, um ein mit der Progression assoziiertes Muster zu bestimmen, und einen Startpunkt und einen Endpunkt zur Segmentierung der Schlüsselphrase basierend auf einer Abstimmung des detektierten Musters mit einem erwarteten Muster und auf dem Zeitsegment, das mit der durch die Schaltung 260 bereitgestellten Schlüsselphrasendetektion assoziiert ist, zu bestimmen. Der Betrieb der Schlüsselphrasensegmentierungsschaltung 280 wird unten in Verbindung mit 6-8 ausführlicher beschrieben.
3 ist ein Blockdiagramm der HMM-Schlüsselphrasenwertungsschaltung 260, die gemäß gewissen Ausführungsformen der vorliegenden Offenbarung konfiguriert ist. Für jede Iteration, die einem neuen Zeitsegment des Audiosignals 110 entspricht, stellt das Akustikmodellwertung-DNN 240 Bewertungen 250 an dem Ausgangsknoten des DNN bereit. Jede Knotenbewertung 250 repräsentiert eine Wahrscheinlichkeit, die mit einer phonetischen Einheit assoziiert ist. Die HMM-Schlüsselphrasenwertungsschaltung 260 implementiert eine HMM-Zustandssequenz (auch als eine Markov-Kette bezeichnet), die einer Sequenz von (sub)phonetischen Einheiten, die die Schlüsselphrase bilden, entspricht. Dies ist in 4 veranschaulicht, die eine HMM-Zustandssequenz 400 darstellt, die N+1 Zustände umfasst, wobei jeder Zustand mit einer Bewertung {S₀...S_N} assoziiert ist. Jeder der HMM-Zustände entspricht einer oder mehreren der DNN-Knotenbewertungen 250. Der anfängliche HMM-Zustand 0 ist der Ablehnungsmodellzustand 410. Dieser Zustand modelliert alles, das nicht zu der Schlüsselphrase gehört, und beinhaltet Stille- und Ablehnungs-DNN-Knotenbewertungen. Die HMM-Zustände 1 ... N-1 bilden die Schlüsselphrasenmodellzustandssequenzen 420. Jeder dieser Zustandsübergänge entspricht einer DNN-Knotenbewertung, die mit einem spezifischen Teil der Schlüsselphrase (phonetischen Einheit) assoziiert ist. Bei jeder Iteration wird eine neue Bewertung für jeden HMM-Zustand basierend auf den HMM-Bewertungen von vorherigen Iterationen und den neuen entsprechenden DNN-Knotenbewertungen berechnet, wie unten erläutert wird. Die Endbewertung des Schlüsselphrasenmodells wird als Endbewertung = S_N+1 - S₀ berechnet und drückt eine Log-Likelihood aus, dass die Schlüsselphrase gesprochen wurde.
Bei manchen Ausführungsformen kann ein optionaler zusätzlicher N-ter Zustand, der als der Dummy-Zustand 430 bezeichnet wird, enthalten sein, der den Schlüsselphrasenmodellzuständen 420 folgt. Dieser Dummy-Zustand modelliert alles, was nach der Schlüsselphrase kommt, und besitzt eine Funktion, die der des Ablehnungsmodells ähnelt, indem er alles modelliert, was nicht zu der Schlüsselphrase gehört. Er entspricht auch Stille- und Ablehnung-DNN-Knotenbewertungen 250. Der Dummy-Zustand 430 dient dazu, die Zuverlässigkeit der Identifikation des Endes der Schlüsselphrase zu verbessern, und ermöglicht die Möglichkeit von beliebiger Sprache oder Stille nach der Schlüsselphrase, einschließlich eines gesprochenen Befehls.
Die HMM-Schlüsselphrasenwertungsschaltung 260 ist als eine Akkumulationsschaltung 310, eine Propagationsschaltung 320, eine Normierungsschaltung 330 und eine Schwellenschaltung 340 beinhaltend dargestellt.
Die Akkumulationsschaltung 310 ist dazu ausgelegt, die DNN-Knotenbewertungen 250 für jeden entsprechenden HMM-Zustand zu akkumulieren. Für jeden Schlüsselphrasenmodellzustand 420, k = 1 ... N, wird die Bewertung des entsprechenden DNN-Knotens zu der Zustandsbewertung S_k addiert. Für den Ablehnungszustand 0 410 und den Dummy-Zustand N 430 wird das Maximum aller Stille- und Ablehnungs-DNN-Knotenbewertungen zu den Zustandsbewertungen S₀ und S_N addiert.
Die Propagationsschaltung 320 ist dazu ausgelegt, die akkumulierten Zustandsbewertungen durch die Sequenz zu propagieren. Für jeden Schlüsselphrasenmodellzustand k=0..., N-1 wird die assoziierte Bewertung S_k vorwärts propagiert, falls die nächste Zustandsbewertung S_k+1 geringer als S_k ist. Dies kann wie folgt ausgedrückt werden: S_k+1 ← S_k FALLS S_k > S_k+1. Die Operation wird in absteigender Reihenfolge des Indexes k durchgeführt, um Datenabhängigkeit zu vermeiden.
Die Normierungsschaltung 330 ist dazu ausgelegt, die Zustandsbewertungen durch Subtrahieren des Maximums der Bewertungen zu normieren. Dies kann wie folgt ausgedrückt werden: S_k ← S_k - S_max, wobei S_max = max{S_k : k = 0 ... N}.
Die Schwellenschaltung 340 ist dazu ausgelegt, die Endbewertung (Endbewertung = S_N+1 - S₀, wie oben beschrieben) mit einem ausgewählten Schwellenwert zu vergleichen, und, falls die Endbewertung diese Schwelle überschreitet, ein Schlüsselphrasendetektionsereignis 275 zu erzeugen. Die Schlüsselphrasendetektion ist mit dem gegenwärtigen Zeitsegment des verarbeiteten Audiosignals 110, für das dieses Ereignis auftritt, assoziiert.
Der offenbarte Segmentierungsprozess basiert auf einer beobachteten Progression von HMM-Schlüsselphrasenmodellzustandsbewertungen {S₀ ... S_N}. 5 veranschaulicht ein Beispiel für diese Progression im Laufe der Zeit gemäß gewissen Ausführungsformen der vorliegenden Offenbarung. Jede Zeile bildet die Ergebnisse einer Verarbeitung eines anderen Zeitsegments 510 des Audiosignals 110 ab, wobei die Zeit von oben nach unten zunimmt. Die schwarz eingefüllten Kreise 540 geben den Zustand mit der höchsten Wahrscheinlichkeit für das gegenwärtige Zeitsegment an. Eine Analyse der zeitlichen Entwicklung der Schlüsselphrasenmodellzustandsbewertungen während der Verarbeitung der detektierten Schlüsselphrase zeigt, dass die Progression allgemein mit einem spezifischen Muster übereinstimmt. Diese Tatsache kann ausgenutzt werden, um das Muster zu erkennen, das Muster zeitlich mit dem Eingangsaudiosignal abzustimmen und die Zeitsegmente, die die Schlüsselphrase enthalten, zu identifizieren.
Während das Audiosignal 110 verarbeitet wird, aber bevor die Schlüsselphrase gesprochen wird, akkumulieren sich der Maximalwert der Ablehnungs- und Stille-DNN-Knotenbewertungen in der S₀-Bewertung bei jeder Zeitsegmentiteration. Dies wird in der obersten Zeile von 5 veranschaulicht. Die Ablehnungs- und Stille-DNN-Knotenbewertung ist größer als irgendwelche der Schlüsselphrasen-DNN-Knotenbewertungen und infolgedessen weist S₀ die höchste Bewertung auf, die dem Zustand mit der höchsten Wahrscheinlichkeit im HMM-Modell entspricht. Zu diesem Zeitpunkt wird S₁ bei der Propagationsoperation aktualisiert, sodass S₁= S₀ nach jeder Iteration ist.
Wenn der erste Teil der Schlüsselphrase verarbeitet wird, beim Start der Phrase 520, wird S₁ bei der Akkumulationsoperation größer als S₀, da die DNN-Knotenbewertung, die mit dem Zustand 1 assoziiert ist, größer ist. Dies wird in der zweiten Zeile von 5 veranschaulicht. Zu diesem Zeitpunkt endet die Bewertungspropagation von S₀ zu S₁. Während zusätzliche Iterationen durchgeführt werden (z. B. werden zusätzliche Zeitsegmente der Schlüsselphrase verarbeitet), wie in den Zeilen 2 bis 4 veranschaulicht, wird der Prozess wiederholt. Beispielsweise gilt in der Zeile 2 für S₁ und S₂: solange eine (sub)phonetische Einheit verarbeitet wird, die dem Zustand 1 entspricht, akkumuliert die S₁-Bewertung höhere Bewertungen als S₂ oder S₀, und somit propagiert die S₁-Bewertung zu S₂. Somit ist S₂=S₁ nach jeder Iteration. Während die Schlüsselphrase weiterverarbeitet wird und eine (sub)phonetische Einheit, die dem Zustand 2 entspricht, bereitgestellt wird, akkumulieren sich die hohen Bewertungen in S₂ und eine Bewertungspropagation von S₁ zu S₂ endet. Dasselbe Mikromuster wiederholt sich für S₂ und S₃ und so weiter, bis zu S_N-2 und S_N-1, solange die gesamte Schlüsselphrase verarbeitet wird (z. B. dritte und vierte Zeile von 5). Schließlich wird am Ende der Schlüsselphrase 530 entweder Stille oder anschließende Sprache verarbeitet, zu welchem Zeitpunkt S_N die höchsten Bewertungen akkumuliert und größer als S_N-1 wird. Die Propagation tritt nicht mehr auf und S_N> S_N-1 (z. B. die untere Zeile von 5). Eine Eigenschaft der HMM-Modellwertung besteht darin, dass, wenn die Schlüsselphrase verarbeitet wird, der am höchsten bewertete Zustand mit der DNN-Knotenbewertung der gegenwärtig verarbeiteten (sub)phonetischen Einheit assoziiert ist (die Zustände, die durch die schwarz eingefüllten Kreise 540 in 5 repräsentiert werden). Zusätzlich dazu bewirkt die Akkumulation und Propagation hoher DNN-Knotenbewertungen, dass das Ende der Markov-Kette (die Zustände rechts neben den schwarz eingefüllten Kreisen 540) abnehmende Bewertungen aufweist. Dieses Muster wird durch die Schlüsselphrasensegmentierungsschaltung 280 eingesetzt, um die Start- und Endpunkte 190 der Schlüsselphrase zu bestimmen.
6 ist ein Blockdiagramm der Schlüsselphrasensegmentierungsschaltung 280, die gemäß gewissen Ausführungsformen der vorliegenden Offenbarung konfiguriert ist. Die Schlüsselphrasensegmentierungsschaltung 280 ist als eine Startpunktberechnungsschaltung 610 und eine Endpunktberechnungsschaltung 620 beinhaltend dargestellt, die dazu ausgelegt sind, Start- und Endpunkte 190 basierend auf den Modellwertungen 270 und der Schlüsselphrasendetektion 275, die durch die HMM-Schlüsselphrasenwertungsschaltung 260 bereitgestellt werden, zu erzeugen. Der Betrieb der Startpunktberechnungsschaltung 610 und der Endpunktberechnungsschaltung 620 wird unten in Verbindung mit den 7 und 8 beschrieben.
Die Berechnung ist ein iterativer Prozess, wobei jede Iteration mit einem indizierten Segment des verarbeiteten Eingangsaudiosignals 110 assoziiert ist. Ein Tracking-Array T mit Länge N wird eingesetzt, um Indizes der Segmente zur Abstimmung des Musters von Bewertungen mit den Eingangsdaten zu speichern. Die Ergebnisse des Schlüsselphrasensegmentierungsprozesses sind: tstart - der Segmentindex des Schlüsselphrasenstartpunkts, und t_ende - der Segmentindex des Schlüsselphrasenendpunkts. Während der Schlüsselphrasenwertung, aber vor dem Detektionsereignis, werden Bewertungen getrackt, um den Start der Schlüsselphrase zu identifizieren.
7 ist ein Flussdiagramm, das eine Implementierung der Startpunktberechnungsschaltung 610 veranschaulicht, die gemäß gewissen Ausführungsformen der vorliegenden Offenbarung konfiguriert ist. Ausführlicher gesagt, wird bei Operation 710 ein Tracking-Array T mit Länge N erzeugt, und jedes Element des Arrays wird zu einem Wert, zum Beispiel -1, gesetzt, der angibt, dass das Element noch nicht initialisiert worden ist. Ein iterativer Prozess beginnt bei Operation 720, bei der Modellwertungen S(t) 270 für das gegenwärtige Zeitsegment des Audiosignals, das durch die Variable t indiziert wird, bereitgestellt werden, die mit der gegenwärtigen Iteration assoziiert sind. Bei Operation 720 wird dann, falls das erste Element des Arrays T gleich -1 (d. h. noch nicht initialisiert) ist, dieses Element mit dem gegenwärtig verarbeiteten Segmentindex (t-1) initialisiert.
Bei Operation 730 werden für jedes Paar von aufeinanderfolgenden Zuständen, falls die Bewertungen für diese Zustände propagiert wurden, die jeweiligen Werte im T-Array auch vorwärts propagiert. Nur initialisierte Werte des T-Arrays werden propagiert. Bei Operation 740 geht dann, falls das Schlüsselphrasendetektionsereignis 275 noch nicht stattgefunden hat, die Iteration mit dem nächsten Segmentindex zu Operation 720 über. Ansonsten wird bei Operation 750 der Startpunkt zu dem N-1-Element des T-Arrays gesetzt.
Diese Operationen können durch den folgenden Pseudocode zusammengefasst werden:

Initialisierung:
- T(k) = -1 für jedes k
Iteration:

Wie gesehen werden kann, ist T(0) immer gleich -1, daher wird, solange Propagationen von S(t,0) bis S(t,1) stattfinden, T(1) bei Operation A1.2 mit -1 überschrieben und bei der nächsten Iteration mit einem neuen Segmentindex (Operation A1.1) neu initialisiert.
Sobald die Schlüsselphrasenverarbeitung beginnt und die Propagation von S(t,0) zu S(t,1) endet, stoppt das Überschreiben von T(1). Der letzte in T(1) gespeicherte Segmentindex t_start startet, im T-Array vorwärts zu propagieren, während die S(t,1)-Bewertung in den anschließenden Iterationen in der HMM-Sequenz vorwärts propagiert. Entsprechend stoppt für k=1...N-1 die Propagation T(k)→T(k+1), wenn die (sub)phonetische Einheit, die mit dem HMM-Zustand k+1 assoziiert ist, verarbeitet wird.
Wenn die Sequenz von verarbeiteten (sub)phonetischen Einheiten mit dem Schlüsselphrasenmodell übereinstimmt und das Schlüsselphrasendetektionsereignis stattfindet, wird der Segmentindex t_start durch das Tracking-Array propagiert, während die Zustandsbewertungen S(t,1)...S(t,N) propagiert werden. Der t_start-Wert wird nicht durch die letzten Segmentindizes überschrieben, da die Bewertungspropagation zu dem zuvor beschriebenen Muster gehalten wird. Der t_start-Index ist mit dem Start der Sequenz der (sub)phonetischen Einheit assoziiert, die mit der Schlüsselphrase übereinstimmt.
Bei dem Schlüsselphrasendetektionsereignis wird der t_start-Index aus dem Tracking-Array T(N-1) gelesen. Dies ist der geschätzte Startpunkt der Schlüsselphrase (Operation A1.3).
8 ist ein Flussdiagramm, das eine Implementierung der Endpunktberechnungsschaltung 620 veranschaulicht, die gemäß gewissen Ausführungsformen der vorliegenden Offenbarung konfiguriert ist. Nachdem das Detektionsereignis stattgefunden hat und der Startpunkt identifiziert worden ist, beginnt die Endpunktberechnung. Eine Iteration durch die Zustandssequenz beginnt bei Operation 810 mit einem abnehmenden Index k, angefangen von k=N. Solange S(t,k) bei Operation 820 geringer als S(t,k-1) ist, wird T(k) bei Operation 830 zu -1 gesetzt, k wird bei Operation 850 dekrementiert und bei Operation 860 wird, falls k noch nicht gleich Null ist, der Prozess von der Operation 820 mit dem dekrementierten k-Wert wiederholt. Ansonsten wird, falls S(t,k) bei Operation 820 größer als oder gleich S(t,k-1) war, T(k-1) bei Operation 840 zu T(k) propagiert.
Bei Operation 870 wird eine Beendigungsbedingung geprüft. Falls ein nicht negativer Wert zu T(N) propagiert worden ist (gültige Segmentindizes sind immer nicht negativ) und falls S(t,N) die Maximalbewertung in der Sequenz ist, dann wird das gegenwärtig verarbeitete Segment bei Operation 880 als der Endpunkt der Phrase bestimmt.
Diese Operationen können durch den folgenden Pseudocode zusammengefasst werden:
Nachdem der Startpunkt geschätzt wird (Operation A1.3), befindet sich der am höchsten bewertete Zustand typischerweise nach der Mitte der Phrase (z. B. die dritte Zeile von 5) und ist der Zustand, der der gegenwärtig verarbeiteten (sub)phonetischen Einheit entspricht. Es soll m den Index dieses am höchsten bewerteten Zustands bezeichnen. Während der Rest der Schlüsselphrase verarbeitet wird, erhöht sich m in Schritten von 1 bis zu N-1. Die T-Tabelle trackt den gegenwärtig am höchsten bewerteten Zustand. Dies wird bei Operation A2.1 durchgeführt, die gewährleistet, dass der nicht negative Segmentindex infolge abnehmender Bewertungen S(t,m+1), S(t,m+2) ... S(t,N) von T(m) und T(j) =-1 für j > m+1 vorwärts propagiert. Wenn die letzte (sub)phonetische Einheit der Schlüsselphrase verarbeitet wird (m = N-1), dann sind S(t,N-1) und S(t,N) die höchsten Bewertungen (Maximalwahrscheinlichkeit im HMM-Modell), somit werden beide Bedingungen in A2.2 erfüllt und der Index des gegenwärtig verarbeiteten Segments ist auch der geschätzte Endpunkt.
Experimentelle Ergebnisse zeigen, dass die zweite Bedingung von A2.2, dass S(t,N) die Maximalbewertung in der Sequenz ist, alleine eine zufriedenstellende Leistungsfähigkeit bereitstellt. Bei der HMM-Wertung wird diese Bedingung in den meisten Fällen erfüllt, wenn die letzte (sub)phonetische Einheit der Schlüsselphrase verarbeitet wird. Die Verwendung der Tracking-Tabelle hilft jedoch dabei, zu gewährleisten, dass der Endpunkt nicht zu früh bestimmt wird (bis eine Propagation von Bewertungen durch jeden Zustand voranschreitet und bei S(t,N) endet). Dies liefert eine robustere Lösung.
Methodik
9 ist ein Ablaufdiagramm, das ein beispielhaftes Verfahren 900 zur Segmentierung einer Wake-on-Voice-Schlüsselphrase gemäß gewissen Ausführungsformen der vorliegenden Offenbarung veranschaulicht. Wie gesehen werden kann, beinhaltet das beispielhafte Verfahren eine Anzahl von Phasen und Teilprozessen, deren Sequenz von einer Ausführungsform zu einer anderen variieren kann. Wenn sie jedoch zusammengenommen in Betracht gezogen werden, bilden diese Phasen und Teilprozesse einen Prozess zur Schlüsselphrasensegmentierung gemäß gewissen der hierin offenbarten Ausführungsformen. Diese Ausführungsformen können zum Beispiel unter Verwendung der in den wie oben beschriebenen 1-3 und 6-8 veranschaulichten Systemarchitektur implementiert werden. Andere Systemarchitekturen können jedoch bei anderen Ausführungsformen verwendet werden, wie hinsichtlich dieser Offenbarung ersichtlich werden wird. Zu diesem Zweck ist nicht beabsichtigt, dass die Korrelation der verschiedenen in 9 dargestellten Funktionen zu spezifischen in den anderen Figuren veranschaulichten Komponenten irgendwelche Struktur- und/oder Verwendungsbeschränkungen andeutet. Stattdessen können andere Ausführungsformen zum Beispiel variierende Integrationsstufen beinhalten, bei denen mehrere Funktionalitäten im Endeffekt durch ein System durchgeführt werden. Bei einer alternativen Ausführungsform kann zum Beispiel ein einzelnes Modul mit entkoppelten Teilmodulen verwendet werden, um alle der Funktionen des Verfahrens 900 durchzuführen. Somit können andere Ausführungsformen in Abhängigkeit von der Granularität der Implementierung weniger oder mehr Module und/oder Teilmodule aufweisen. Bei noch anderen Ausführungsformen kann die abgebildete Methodik als ein Computerprogrammprodukt einschließlich eines oder mehrerer nichtflüchtiger maschinenlesbarer Medien implementiert werden, die bei Ausführung durch einen oder mehrere Prozessoren bewirken, dass die Methodik ausgeführt wird. Zahlreiche Variationen und alternative Konfigurationen werden hinsichtlich dieser Offenbarung ersichtlich werden.
Wie in 9 veranschaulicht, beginnt bei einer Ausführungsform ein Verfahren 900 zur Schlüsselphrasensegmentierung bei Operation 910 durch Akkumulieren von Merkmalsvektoren, die aus Zeitsegmenten eines Audiosignals extrahiert werden. Bei manchen Ausführungsformen kann ein Merkmalsvektor aus jedem Zeitsegment extrahiert werden und 5 bis 20 der letzten aufeinanderfolgenden Merkmalsvektoren können akkumuliert werden, was 50 bis 200 Millisekunden Audio entspricht, um einen ausreichend breiten Kontext als Eingang in das Akustikmodell eines Neuronalnetzwerks bereitzustellen.
Als Nächstes wird bei Operation 920 ein Neuronalnetzwerk implementiert, um einen Satz akustischer Bewertungen basierend auf den akkumulierten Merkmalsvektoren zu erzeugen. Jede der akustischen Bewertungen in dem Satz repräsentiert eine Wahrscheinlichkeit für eine phonetische Einheit, die mit dem gegenwärtigen Zeitsegment des Audiosignals assoziiert ist. Bei manchen Ausführungsformen ist das Neuronalnetzwerk ein tiefes Neuronalnetzwerk.
Bei Operation 930 wird ein Schlüsselphrasenmodelldecodierer implementiert, um eine Progression bewerteter Modellzustandssequenzen zu erzeugen. Jede der bewerteten Modellzustandssequenzen basiert auf einer Detektion von (sub)phonetischen Einheiten, die mit einem entsprechenden der Sätze akustischer Bewertungen, die aus den Zeitsegmenten (vorherigen und gegenwärtigen Segmenten) des Audiosignals erzeugt werden, assoziiert sind. Bei manchen Ausführungsformen ist der Schlüsselphrasenmodelldecodierer ein Hidden-Markov-Modell(HMM)-Decodierer.
Bei Operation 940 wird die Progression bewerteter Zustandssequenzen analysiert, um ein mit der Progression assoziiertes Muster zu detektieren. Bei Operation 950 werden ein Startpunkt und ein Endpunkt zur Segmentierung der Schlüsselphrase basierend auf einer Abstimmung des detektierten Musters mit einem erwarteten vorbestimmten Muster bestimmt.
Natürlich können bei manchen Ausführungsformen zusätzliche Operationen durchgeführt werden, wie zuvor in Verbindung mit dem System beschrieben. Die Schlüsselphrase kann zum Beispiel basierend auf einer Akkumulation und Propagation der akustischen Bewertungen aus den Sätzen akustischer Bewertungen detektiert werden, wie zuvor beschrieben, und die Bestimmung des Startpunkts kann auf dem Zeitsegment basieren, das mit der Detektion der Schlüsselphrase assoziiert ist. Bei manchen Ausführungsformen können der Startpunkt und der Endpunkt einem Akustische-Strahlformung-System und/oder einem Automatische-Spracherkennung-System und/oder einem Sprecheridentifikationssystem bereitgestellt werden.
Beispielhaftes System
10 veranschaulicht eine beispielhafte sprachgestützte Einrichtungsplattform 1000 zum Durchführen einer Schlüsselphrasendetektion bei einer Segmentierung, die gemäß gewissen Ausführungsformen der vorliegenden Offenbarung konfiguriert ist. Bei manchen Ausführungsformen kann die Plattform 1000 auf einem Personal-Computer, einer Arbeitsstation, einem Serversystem, einem Smart-Home-Managementsystem, einem Laptop-Computer, einem Ultra-Laptop-Computer, einem Tablet, einem Touchpad, einem portablen Computer, einem handgehaltenen Computer, einem Palmtop-Computer, einem Personal Digital Assistant (PDA), einem Funktelefon, einem kombinierten Funktelefon und PDA, einer intelligenten Einrichtung (zum Beispiel Smartphone oder Smart-Tablet), einer mobilen Interneteinrichtung (MID: Mobile Internet Device), einer Messaging-Einrichtung, einer Datenkommunikationseinrichtung, einer tragbaren Einrichtung, einem eingebetteten System und so weiter gehostet werden oder anderweitig in diesen integriert sein. Eine beliebige Kombination verschiedener Einrichtungen kann bei gewissen Ausführungsformen verwendet werden.
Bei manchen Ausführungsformen kann die Plattform 1000 eine beliebige Kombination eines Prozessors 1020, eines Speichers 1030, einer Schlüsselphrasen-Detektion-und-Segmentierung-Schaltung 120, von Audioverarbeitungsanwendungsschaltungen 130, 140, 150, einer Netzwerkschnittstelle 1040, eines Eingabe/Ausgabe(E/A)-Systems 1050, einer Benutzeroberfläche 1060, einer Steuersystemanwendung 1090 und eines Speicherungssystems 1070 umfassen. Wie ferner gesehen werden kann, ist auch ein Bus und/oder Interconnect 1092 bereitgestellt, um eine Kommunikation zwischen den verschiedenen oben aufgeführten Komponenten und/oder anderen nicht dargestellten Komponenten bereitzustellen. Die Plattform 1000 kann über die Netzwerkschnittstelle 1040 mit einem Netzwerk 1094 gekoppelt sein, um Kommunikationen mit anderen Recheneinrichtungen, Plattformen, zu steuernden Einrichtungen oder anderen Ressourcen zu ermöglichen. Andere Komponenten und Funktionalitäten, die nicht im Blockdiagramm von 10 widergespiegelt sind, werden hinsichtlich dieser Offenbarung ersichtlich werden, und es versteht sich, dass andere Ausführungsformen nicht auf irgendeine spezielle Hardwarekonfiguration beschränkt sind.
Der Prozessor 1020 kann ein beliebiger geeigneter Prozessor sein und kann einen oder mehrere Coprozessoren oder eine oder mehrere Steuerungen beinhalten, wie etwa einen Audioprozessor, eine Grafikverarbeitungseinheit oder einen Hardwarebeschleuniger, um Steuerungs- und Verarbeitungsoperationen zu unterstützen, die mit der Plattform 1000 assoziiert sind. Bei manchen Ausführungsformen kann der Prozessor 1020 als eine beliebige Anzahl von Prozessorkernen implementiert werden. Der Prozessor (oder die Prozessorkerne) können ein beliebiger Typ von Prozessor sein, wie etwa zum Beispiel ein Mikroprozessor, ein eingebetteter Prozessor, ein Digitalsignalprozessor (DSP), ein Grafikprozessor (GPU), ein Netzwerkprozessor, ein feldprogrammierbares Gate-Array oder eine andere Einrichtung, die zur Ausführung von Code konfiguriert ist. Die Prozessoren können in dem Sinne Multithread-Kerne sein, dass sie mehr als einen Hardware-Thread-Kontext (oder „Logikprozessor“) pro Kern beinhalten. Der Prozessor 1020 kann als ein CISC (Complex Instruction Set Computer - Computer mit komplexem Befehlssatz) oder ein RISC (Reduced Instruction Set Computer - Computer mit reduziertem Befehlssatz) implementiert werden. Bei manchen Ausführungsformen kann der Prozessor 1020 als ein x86-Befehlssatz-kompatibler Prozessor konfiguriert sein.
Der Speicher 1030 kann unter Verwendung eines beliebigen geeigneten Typs von digitaler Speicherung implementiert werden, einschließlich zum Beispiel Flash-Speicher und/oder Direktzugriffsspeicher (RAM: Random-Access Memory). Bei manchen Ausführungsformen kann der Speicher 1030 verschiedene Speicherhierarchieschichten und/oder Speicher-Caches beinhalten, wie Fachleuten bekannt sind. Der Speicher 1030 kann als eine unbeständige Speichereinrichtung implementiert werden, wie etwa unter anderem eine RAM-, DRAM(dynamischer RAM)- oder SRAM(statischer RAM)-Einrichtung. Das Speicherungssystem 1070 kann als eine nichtflüchtige Speicherungseinrichtung implementiert werden, wie etwa unter anderem ein Festplattenlaufwerk (HDD: Hard Disk Drive) und/oder ein Halbleiterlaufwerk (SSD: Solid State Drive) und/oder ein USB(Universal Serial Bus)-Laufwerk und/oder ein optisches Plattenlaufwerk und/oder ein Bandlaufwerk und/oder eine interne Speicherungseinrichtung und/oder eine angeschlossene Speicherungseinrichtung und/oder ein Flash-Speicher und/oder ein batteriegesicherter synchroner DRAM (SDRAM) und/oder eine netzwerkzugängliche Speichereinrichtung. Bei manchen Ausführungsformen kann die Speicherung 1070 Technologie zum Erhöhen des verbesserten Speicherungsleistungsschutzes für wertvolle digitale Medien umfassen, wenn mehrere Festplatten enthalten sind.
Der Prozessor 1020 kann dazu ausgelegt sein, ein Betriebssystem (OS: Operating System) 1080 auszuführen, das ein beliebiges geeignetes Betriebssystem umfassen kann, wie etwa Google Android (Google Inc., Mountain View, Kalifornien), Microsoft Windows (Microsoft Corp., Redmond, Washington), Appel OS X (Appel Inc., Cupertino, Kalifornien), Linux oder ein Echtzeit-Betriebssystem (RTOS: Real-Time Operating System). Wie hinsichtlich dieser Offenbarung verstanden wird, können die hierin bereitgestellten Techniken ungeachtet des speziellen, in Verbindung mit der Plattform 1000 bereitgestellten Betriebssystems implementiert werden und daher auch unter Verwendung einer beliebigen geeigneten bestehenden oder später entwickelten Plattform implementiert werden.
Die Netzwerkschnittstellenschaltung 1040 kann ein beliebiger geeigneter Netzwerkchip oder Chipsatz sein, der eine verdrahtete und/oder drahtlose Verbindung zwischen anderen Komponenten der Einrichtungsplattform 1000 und/oder dem Netzwerk 1094 gestattet, wodurch der Plattform 1000 ermöglicht wird, mit anderen lokalen und/oder entfernten Rechensystemen, Servern, Cloud-basierten Servern und/oder anderen Ressourcen zu kommunizieren. Eine verdrahtete Kommunikation kann bestehenden (oder noch zu entwickelnden) Standards entsprechen, wie etwa zum Beispiel Ethernet. Eine drahtlose Kommunikation kann bestehenden (oder noch zu entwickelnden) Standards entsprechen, wie etwa zum Beispiel Funkkommunikationen einschließlich LTE (Long Term Evolution), Wireless Fidelity (WiFi), Bluetooth und/oder Nahfeldkommunikation (NFC: Near Field Communication). Beispielhafte Drahtlosnetze beinhalten unter anderem drahtlose Lokalnetze, drahtlose persönliche Netze, drahtlose städtische Netze, Funknetze und Satellitennetze.
Das E/A-System 1050 kann dazu ausgelegt sein, eine Schnittstelle zwischen verschiedenen E/A-Einrichtungen und anderen Komponenten der Einrichtungsplattform 1000 zu bilden. E/A-Einrichtungen können unter anderem die Benutzeroberfläche 1060 und die Steuersystemanwendung 1090 beinhalten. Die Benutzeroberfläche 1060 kann (nicht dargestellte) Einrichtungen beinhalten, wie etwa ein Mikrofon (oder Array von Mikrofonen), einen Lautsprecher, ein Anzeigeelement, ein Touchpad, eine Tastatur und eine Maus usw. Das E/A-System 1050 kann ein Grafikuntersystem beinhalten, das dazu ausgelegt ist, eine Verarbeitung von Bildern zur Wiedergabe auf dem Anzeigeelement durchzuführen. Das Grafikuntersystem kann zum Beispiel eine Grafikverarbeitungseinheit oder eine visuelle Verarbeitungseinheit (VPU: Visual Processing Unit) sein. Eine analoge oder digitale Schnittstelle kann verwendet werden, um das Grafikuntersystem und das Anzeigeelement kommunikativ zu koppeln. Die Schnittstelle kann zum Beispiel eine beliebige aus HDMI (High Definition Multimedia Interface - hochauflösende Multimedia-Schnittstelle), DisplayPort, Drahtlos-HDMI und/oder einer beliebigen anderen geeigneten Schnittstelle sein, die drahtlose hochauflösungskonforme Techniken verwendet. Bei manchen Ausführungsformen könnte das Grafikuntersystem in den Prozessor 1020 oder einem beliebigen Chipsatz der Plattform 1000 integriert sein. Die Steuersystemanwendung 1090 kann dazu ausgelegt sein, eine Handlung basierend auf einem Befehl oder einer Anforderung durchzuführen, der bzw. die nach der Wake-on-Voice-Schlüsselphrase gesprochen wird, wie durch die ASR-Schaltung 140 erkannt.
Es versteht sich, dass bei manchen Ausführungsformen die verschiedenen Komponenten der Plattform 1000 in einer System-auf-Chip(SoC)-Architektur kombiniert oder integriert werden können. Bei manchen Ausführungsformen können die Komponenten Hardwarekomponenten, Firmwarekomponenten, Softwarekomponenten oder eine beliebige geeignete Kombination von Hardware, Firmware oder Software sein.
Die Schlüsselphrasen-Detektion-und-Segmentierung-Schaltung 120 ist dazu ausgelegt, eine durch den Benutzer gesprochene Wake-on-Voice-Schlüsselphrase zu detektieren und einen Startpunkt und einen Endpunkt zu bestimmen, um diese Schlüsselphrase zu segmentieren, wie zuvor beschrieben. Die Schlüsselphrasen-Detektion-und-Segmentierung-Schaltung 120 kann beliebige oder alle der in den 2, 3 und 6-8 veranschaulichten Schaltungen/Komponenten beinhalten, wie oben beschrieben. Diese Komponenten können in einer Vielfalt geeigneter Software und/oder Hardware, die mit der Plattform 1000 gekoppelt sind oder anderweitig einen Teil von dieser bilden, implementiert oder anderweitig in in Verbindung mit diesen verwendet werden. Diese Komponenten können zusätzlich oder alternativ in Benutzer-E/A-Einrichtungen implementiert oder anderweitig in Verbindung mit diesen verwendet werden, die in der Lage sind, einem Benutzer Informationen bereitzustellen und Informationen und Befehle von diesem zu empfangen.
Bei manchen Ausführungsformen können diese Schaltungen lokal zu der Plattform 1000 installiert sein, wie im Ausführungsbeispiel von 10 dargestellt. Alternativ dazu kann die Plattform 1000 in einer Client-Server-Anordnung implementiert werden, wobei zumindest ein Teil der mit diesen Schaltungen assoziierten Funktionalität der Plattform 1000 unter Verwendung eines Applets, wie etwa eines JavaScript-Applets, oder eines anderen herunterladbaren Moduls oder Satzes von Teilmodulen bereitgestellt wird. Derartige entfernt zugreifbare Module oder Teilmodule können in Echtzeit als Reaktion auf eine Anforderung von einem Client-Rechensystem für den Zugriff auf einen gegebenen Server mit Ressourcen, die für den Benutzer des Client-Rechensystems von Interesse sind, bereitgestellt werden. Bei derartigen Ausführungsformen kann sich der Server lokal zum Netzwerk 1094 befinden oder entfernt durch ein oder mehrere andere Netzwerke und/oder Kommunikationskanäle mit dem Netzwerk 1094 gekoppelt sein. In manchen Fällen kann der Zugriff auf Ressourcen auf einem gegebenen Netzwerk oder Rechensystem Anmeldedaten, wie etwa Benutzernamen, Passwörter, und/oder einen beliebigen anderen geeigneten Sicherheitsmechanismus erfordern.
Bei verschiedenen Ausführungsformen kann die Plattform 1000 als ein drahtloses System, ein verdrahtetes System oder eine Kombination von beiden implementiert werden. Wenn sie als ein drahtloses System implementiert wird, kann die Plattform 1000 Komponenten und Schnittstellen beinhalten, die sich zur Kommunikation über ein drahtloses gemeinsam genutztes Medium eignen, wie etwa eine oder mehrere Antennen, einen oder mehrere Sender, einen oder mehrere Empfänger, einen oder mehrere Sendeempfänger, einen oder mehrere Verstärker, ein oder mehrere Filter, Steuerlogik und so weiter. Ein Beispiel für drahtlose gemeinsam genutzte Medien können Teile eines Drahtlosspektrums beinhalten, wie etwa das Hochfrequenzspektrum und so weiter. Wenn sie als ein verdrahtetes System implementiert wird, kann die Plattform 1000 Komponenten und Schnittstellen beinhalten, die sich zur Kommunikation über verdrahtete Kommunikationsmedien eignen, wie etwa Eingangs-/Ausgangsadapter, physische Verbinder zum Verbinden des Eingangs-/Ausgangsadapters mit einem entsprechenden verdrahteten Kommunikationsmedium, eine Netzwerkschnittstellenkarte (NIC: Network Interface Card), eine Plattensteuerung, eine Videosteuerung, eine Audiosteuerung und so weiter. Beispiele für verdrahtete Kommunikationsmedien können einen Draht, Kabelmetallleitungen, eine Leiterplatte (PCB: Printed Circuit Board), eine Backplane, ein Switch-Fabric, ein Halbleitermaterial, ein Twisted-Pair-Kabel, ein Koaxialkabel, Faseroptiken und so weiter beinhalten.
Verschiedene Ausführungsformen können unter Verwendung von Hardwareelementen, Softwareelementen oder einer Kombination von beiden implementiert werden. Beispiele für Hardwareelemente können Prozessoren, Mikroprozessoren, Schaltungen, Schaltungselemente (zum Beispiel Transistoren, Widerstände, Kondensatoren, Induktivitäten und so weiter), integrierte Schaltungen, ASICs, programmierbare Logikeinrichtungen, Digitalsignalprozessoren, FPGAs, Logikgatter, Register, Halbleitervorrichtungen, Chips, Mikrochips, Chipsätze und so weiter beinhalten. Beispiele für Software können Softwarekomponenten, Programme, Anwendungen, Computerprogramme, Anwendungsprogramme, Systemprogramme, Maschinenprogramme, Betriebssystemsoftware, Middleware, Firmware, Softwaremodule, Routinen, Subroutinen, Funktionen, Verfahren, Prozeduren, Softwareschnittstellen, Anwendungsprogrammschnittstellen, Befehlssätze, Rechencode, Computercode, Codesegmente, Computercodesegmente, Wörter, Werte, Symbole oder eine beliebige Kombination davon beinhalten. Das Bestimmen, ob eine Ausführungsform unter Verwendung von Hardwareelementen und/oder Softwareelementen implementiert wird, kann gemäß einer beliebigen Anzahl von Faktoren variieren, wie etwa gewünschter Rechenrate, Leistungspegel, Wärmetoleranzen, Verarbeitungszyklusbudget, Eingangsdatenraten, Ausgangsdatenraten, Speicherressourcen, Datenbusgeschwindigkeiten und anderen Konstruktions- oder Leistungsfähigkeitsbeschränkungen.
Manche Ausführungsformen können unter Verwendung des Ausdrucks „gekoppelt“ und „verbunden“ zusammen mit deren Ableitungen beschrieben werden. Diese Ausdrücke sind nicht als Synonyme füreinander beabsichtigt. Zum Beispiel können manche Ausführungsformen unter Verwendung der Begriffe „verbunden“ und/oder „gekoppelt“ beschrieben werden, um anzugeben, dass zwei oder mehr Elemente in direktem physischem oder elektrischem Kontakt miteinander stehen. Der Begriff „gekoppelt“ kann jedoch auch bedeuten, dass zwei oder mehr Elemente nicht in direktem Kontakt miteinander stehen, aber dennoch weiterhin miteinander kooperieren oder interagieren.
Die verschiedenen hierin offenbarten Ausführungsformen können in verschiedenen Formen von Hardware, Software, Firmware und/oder Spezialprozessoren implementiert werden. Bei einer Ausführungsform weist zum Beispiel mindestens ein nichtflüchtiges computerlesbares Speicherungsmedium darauf codierte Anweisungen auf, die bei Ausführung durch einen oder mehrere Prozessoren bewirken, dass eine oder mehrere der hierin offenbarten Schlüsselphrasensegmentierungsmethodiken implementiert werden. Die Anweisungen können unter Verwendung einer geeigneten Programmiersprache, wie etwa C, C++, objektorientiertes C, Java, JavaScript, Visual Basic .NET, BASIC (Beginner's All-Purpose Symbolic Instruction Code), oder alternativ unter Verwendung von benutzerdefinierten oder proprietären Befehlssätzen codiert sein. Die Anweisungen können in der Form einer oder mehrerer Computersoftwareanwendungen und/oder Applets, die greifbar auf einer Speichereinrichtung umgesetzt sind und durch einen Computer mit einer beliebigen geeigneten Architektur ausgeführt werden können, bereitgestellt sein. Bei einer Ausführungsform kann das System auf einer gegebenen Webseite gehostet und zum Beispiel unter Verwendung von JavaScript oder einer anderen geeigneten browserbasierten Technologie implementiert werden. Bei gewissen Ausführungsformen kann das System beispielsweise Verarbeitungsressourcen wirksam einsetzen, die durch ein entferntes Computersystem, das über das Netzwerk 1094 zugänglich ist, bereitgestellt werden. Bei anderen Ausführungsformen können die hierin offenbarten Funktionalitäten in anderen sprachgestützten Einrichtungen und sprachbasierten Softwareanwendungen integriert werden, wie etwa zum Beispiel Kraftfahrzeugsteuerung/-navigation, Smart-Home-Management, Entertainment und Roboteranwendungen. Die hierin offenbarten Computersoftwareanwendungen können eine beliebige Anzahl unterschiedlicher Module, Untermodule oder anderer Komponenten mit verschiedener Funktionalität beinhalten und können noch anderen Komponenten Informationen bereitstellen oder Informationen von diesen empfangen. Diese Module können zum Beispiel zur Kommunikation mit Eingabe- und/oder Ausgabeeinrichtungen verwendet werden, wie etwa einem Anzeigebildschirm, einer berührungsempfindlichen Oberfläche, einem Drucker und/oder einer beliebigen anderen geeigneten Einrichtung. Andere Komponenten und Funktionalitäten, die nicht in den Veranschaulichungen widergespiegelt sind, werden hinsichtlich dieser Offenbarung ersichtlich werden und es versteht sich, dass andere Ausführungsformen nicht auf irgendeine spezielle Hardware- oder Softwarekonfiguration beschränkt sind. Somit kann die Plattform 1000 bei anderen Ausführungsformen zusätzliche, weniger oder alternative Teilkomponenten im Vergleich zu jenen, die im Ausführungsbeispiel von 10 enthalten sind, umfassen.
Das vorgenannte nichtflüchtige computerlesbare Medium kann ein beliebiges geeignetes Medium zum Speichern digitaler Informationen sein, wie etwa eine Festplatte, ein Server, ein Flash-Speicher und/oder ein Direktzugriffsspeicher (RAM) oder eine Kombination von Speichern. Bei alternativen Ausführungsformen können die hierin offenbarten Komponenten und/oder Module mit Hardware, einschließlich Logik auf Gate-Ebene, wie etwa einem feldprogrammierbaren Gate-Array (FPGA), oder alternativ dazu einem zweckbestimmten Halbleiter, wie etwa einer anwendungsspezifischen integrierten Schaltung (ASIC: Application-Specific Integrated Circuit), implementiert werden. Noch andere Ausführungsformen können mit einem Mikrocontroller mit einer Anzahl von Eingangs-/Ausgangsports zum Empfangen und Ausgeben von Daten und einer Anzahl von eingebetteten Routinen zum Ausführen der verschiedenen hierin offenbarten Funktionalitäten implementiert werden. Es wird ersichtlich werden, dass eine beliebige geeignete Kombination von Hardware, Software und Firmware verwendet werden kann und dass andere Ausführungsformen nicht auf irgendeine spezielle Systemarchitektur beschränkt sind.
Manche Ausführungsformen können zum Beispiel unter Verwendung eines maschinenlesbaren Mediums oder Artikels implementiert werden, das bzw. der eine Anweisung oder einen Satz von Anweisungen speichern kann, die bzw. der bei Ausführung durch eine Maschine bewirken kann, dass die Maschine ein Verfahren, einen Prozess und/oder Operationen gemäß den Ausführungsformen durchführt. Eine derartige Maschine kann zum Beispiel eine beliebige geeignete Verarbeitungsplattform, Rechenplattform, Recheneinrichtung, Verarbeitungseinrichtung, ein beliebiges geeignetes Rechensystem, Verarbeitungssystem, einen beliebigen geeigneten Computer, Prozess oder dergleichen beinhalten und kann unter Verwendung einer beliebigen geeigneten Kombination von Hardware und/oder Software implementiert werden. Das maschinenlesbare Medium oder der maschinenlesbare Artikel kann zum Beispiel einen beliebigen geeigneten Typ von Speichereinheit, Speichereinrichtung, Speicherartikel, Speichermedium, Speicherungseinrichtung, Speicherungsartikel, Speicherungsmedium und/oder Speicherungseinheit beinhalten, wie etwa Speicher, entfernbare oder nicht entfernbare Medien, löschbare oder nicht löschbare Medien, beschreibbare oder wiederbeschreibbare Medien, digitale oder analoge Medien, eine Festplatte, eine Diskette, eine CD-ROM (Compact Disk Read Only Memory), CD-R(Compact Disk Recordable)-Speicher, CD-RW(Compact Disk Rewritable)-Speicher, eine optische Platte, magnetische Medien, magnetooptische Medien, entfernbare Speicherkarten oder Platten, verschiedene Typen von DVD (Digital Versatile Disk), ein Band, eine Kassette oder dergleichen. Die Anweisungen können einen beliebigen geeigneten Typ von Code beinhalten, wie etwa Quellcode, kompilierten Code, interpretierten Code, ausführbaren Code, statischen Code, dynamischen Code, verschlüsselten Code und dergleichen, der unter Verwendung einer beliebigen geeigneten Programmiersprache hoher Ebene, niedriger Ebene, objektorientierter Programmiersprache, visueller Programmiersprache, kompilierter Programmiersprache und/oder interpretierter Programmiersprache implementiert wird.
Insofern nicht anderweitig angegeben, kann verstanden werden, dass sich Begriffe, wie etwa „Verarbeiten“, „Rechnen“, „Berechnen“, „Bestimmen“ oder dergleichen, auf die Handlung und/oder den Prozess eines Computers oder Rechensystems oder einer ähnlichen elektronischen Recheneinrichtung, der/die/das Daten, die als physische Größen (zum Beispiel Elektronik) innerhalb der Register und/oder Speichereinheiten des Computersystems repräsentiert werden, in andere Daten, die gleichermaßen als physische Entitäten innerhalb der Register, Speichereinheiten repräsentiert werden, manipuliert und/oder transformiert, oder eine andere derartige Informationsspeicherungsübertragung oder derartige Anzeigen des Computersystems beziehen. Die Ausführungsformen sind in dieser Hinsicht nicht beschränkt.
Die Begriffe „Schaltung“ oder „Schaltkreis“ wie in einer beliebigen Ausführungsform hierin verwendet, sind funktionell und können zum Beispiel einzeln oder in einer beliebigen Kombination einen fest verdrahteten Schaltkreis, einen programmierbaren Schaltkreis, wie etwa Computerprozessoren, die einen oder mehrere individuelle Anweisungsverarbeitungskerne umfassen, einen Zustandsmaschinenschaltkreis und/oder Firmware, die durch den programmierbaren Schaltkreis ausgeführte Anweisungen speichert, umfassen. Der Schaltkreis kann einen Prozessor und/oder eine Steuerung beinhalten, der bzw. die dazu ausgelegt ist, eine oder mehrere Anweisungen zum Durchführen einer oder mehrerer hierin beschriebener Operationen auszuführen. Die Anweisungen können zum Beispiel als eine Anwendung, Software, Firmware usw. umgesetzt sein, die dazu ausgelegt ist, zu bewirken, dass der Schaltkreis eine beliebige der vorgenannten Operationen durchführt. Software kann als ein Softwarepaket, Code, Anweisungen, Befehlssätze und/oder Daten, die auf einer computerlesbaren Speicherungseinrichtung aufgezeichnet sind, umgesetzt sein. Software kann umgesetzt oder implementiert werden, um eine beliebige Anzahl von Prozessen zu enthalten, und Prozesse können im Gegenzug umgesetzt oder implementiert werden, um eine beliebige Anzahl von Threads usw. auf eine hierarchische Weise zu enthalten. Firmware kann als Code, Anweisungen oder Befehlssätze und/oder Daten, die in (z. B. nichtflüchtigen) Speichereinrichtungen hartcodiert sind, umgesetzt sein. Der Schaltkreis kann zusammengefasst oder individuell als ein Schaltkreis umgesetzt sein, der ein Teil eines größeren Systems bildet, zum Beispiel eine integrierte Schaltung (IC: Integrated Circuit), eine anwendungsspezifische integrierte Schaltung (ASIC), ein System-auf-Chip (SoC: System-on-a-Chip), Desktop-Computer, Laptop-Computer, Tablet-Computer, Server, Smartphones usw. Andere Ausführungsformen können als Software implementiert werden, die durch eine programmierbare Steuereinrichtung ausgeführt wird. Bei solchen Fällen wird beabsichtigt, dass die Begriffe „Schaltung“ oder „Schaltkreis“ eine Kombination von Software und Hardware enthalten, wie etwa eine programmierbare Steuereinrichtung oder einen Prozessor, der zur Ausführung der Software in der Lage ist. Wie hierin beschrieben, können verschiedene Ausführungsformen unter Verwendung von Hardwareelementen, Softwareelementen oder einer beliebigen Kombination davon implementiert werden. Beispiele für Hardwareelemente können Prozessoren, Mikroprozessoren, Schaltungen, Schaltungselemente (z. B. Transistoren, Widerstände, Kondensatoren, Induktivitäten und so weiter), integrierte Schaltungen, anwendungsspezifische integrierte Schaltungen (ASIC), programmierbare Logikeinrichtungen (PLD), Digitalsignalprozessoren (DSP), ein feldprogrammierbares Gate-Array (FPGA), Logikgatter, Register, eine Halbleitervorrichtung, Chips, Mikrochips, Chipsätze und so weiter beinhalten.
Zahlreiche spezifische Einzelheiten sind hierin dargelegt worden, um ein umfassendes Verständnis der Ausführungsformen bereitzustellen. Ein Durchschnittsfachmann wird jedoch verstehen, dass die Ausführungsformen ohne diese spezifischen Einzelheiten umgesetzt werden können. Bei anderen Fällen sind wohlbekannte Operationen, Komponenten und Schaltungen nicht ausführlich beschrieben worden, sodass die Ausführungsformen nicht unklar gemacht werden. Es kann verstanden werden, dass die hierin offenbarten spezifischen strukturellen und funktionellen Einzelheiten repräsentativ sein können und nicht notwendigerweise den Schutzumfang der Ausführungsformen beschränken. Zusätzlich dazu versteht sich, dass, obwohl der Gegenstand in einer für strukturelle Merkmale und/oder methodische Handlungen spezifischen Sprache beschrieben worden ist, der in den angehängten Ansprüchen definierte Gegenstand nicht notwendigerweise auf die hierin beschriebenen spezifischen Merkmale oder Handlungen beschränkt ist. Stattdessen werden die hierin beschriebenen spezifischen Merkmale und Handlungen als beispielhafte Formen zur Implementierung der Ansprüche offenbart.
Weitere Ausführungsbeispiele
Die folgenden Beispiele betreffen weitere Ausführungsformen, aus denen zahlreiche Permutationen und Konfigurationen ersichtlich werden.
Beispiel 1 ist ein Verfahren zur Schlüsselphrasensegmentierung, wobei das Verfahren Folgendes umfasst: Erzeugen, durch ein Neuronalnetzwerk, eines Satzes akustischer Bewertungen basierend auf einer Akkumulation von Merkmalsvektoren, wobei die Merkmalsvektoren aus Zeitsegmenten eines Audiosignals extrahiert werden, wobei jede der akustischen Bewertungen in dem Satz eine Wahrscheinlichkeit für eine mit den Zeitsegmenten assoziierte phonetische Klasse repräsentiert; Erzeugen, durch einen Schlüsselphrasenmodelldecodierer, einer Progression bewerteter Modellzustandssequenzen, wobei jede der bewerteten Modellzustandssequenzen auf einer Detektion von phonetischen Einheiten basiert, die mit einem entsprechenden der Sätze der akustischen Bewertungen, die aus den Zeitsegmenten des Audiosignals erzeugt werden, assoziiert sind; Analysieren, durch eine Schlüsselphrasensegmentierungsschaltung, der Progression bewerteter Zustandssequenzen, um ein mit der Progression assoziiertes Muster zu detektieren; und Bestimmen, durch die Schlüsselphrasensegmentierungsschaltung, eines Startpunkts und eines Endpunkts zur Segmentierung einer Schlüsselphrase basierend auf einer Abstimmung des detektierten Musters mit einem erwarteten Muster.
Beispiel 2 beinhaltet den Gegenstand des Beispiels 1, ferner umfassend Detektieren der Schlüsselphrase basierend auf einer Akkumulation und Propagation der akustischen Bewertungen der Sätze der akustischen Bewertungen.
Beispiel 3 beinhaltet den Gegenstand der Beispiele 1 oder 2, wobei das Bestimmen des Startpunkts ferner auf einem der mit der Detektion der Schlüsselphrase assoziierten Zeitsegmente basiert.
Beispiel 4 beinhaltet den Gegenstand eines der Beispiele 1-3, wobei das Neuronalnetzwerk ein tiefes Neuronalnetzwerk ist und der Schlüsselphrasenmodelldecodierer ein Hidden-Markov-Modell-Decodierer ist.
Beispiel 5 beinhaltet den Gegenstand eines der Beispiele 1-4, wobei die phonetische Klasse eine phonetische Einheit und/oder eine subphonetische Einheit und/oder ein Triphon-Zustand und/oder ein Monophon-Zustand ist.
Beispiel 6 beinhaltet den Gegenstand eines der Beispiele 1-5, ferner umfassend Bereitstellen des Startpunkts und des Endpunkts für ein Akustische-Strahlformung-System und/oder ein Automatische-Spracherkennung-System und/oder ein Sprecheridentifikationssystem und/oder ein textabhängiges Sprecheridentifikationssystem und/oder ein Emotionserkennungssystem und/oder ein Geschlechterdetektionssystem und/oder ein Altersdetektionssystem und/oder ein Rauschschätzungssystem.
Beispiel 7 beinhaltet den Gegenstand eines der Beispiele 1-6, wobei sowohl das Neuronalnetzwerk, der Schlüsselphrasenmodelldecodierer als auch die Schlüsselphrasensegmentierungsschaltung mit Anweisungen, die durch einen oder mehrere Prozessoren ausgeführt werden, implementiert werden.
Beispiel 8 ist ein Schlüsselphrasensegmentierungssystem, wobei das System Folgendes umfasst: eine Merkmalsextraktionsschaltung zum Extrahieren von Merkmalsvektoren aus Zeitsegmenten eines Audiosignals; eine Akkumulationsschaltung zum Akkumulieren einer ausgewählten Anzahl der extrahierten Merkmalsvektoren; ein Akustikmodellwertung-Neuronalnetzwerk zum Erzeugen eines Satzes akustischer Bewertungen basierend auf den akkumulierten Merkmalsvektoren, wobei jede der akustischen Bewertungen in dem Satz eine Wahrscheinlichkeit für eine mit den Zeitsegmenten assoziierte phonetische Klasse repräsentiert; eine Schlüsselphrasenmodellwertungsschaltung zum Erzeugen einer Progression bewerteter Modellzustandssequenzen, wobei jede der bewerteten Modellzustandssequenzen auf einer Detektion von phonetischen Einheiten basiert, die mit einem entsprechenden der Sätze der akustischen Bewertungen, die aus den Zeitsegmenten des Audiosignals erzeugt werden, assoziiert sind; und eine Schlüsselphrasensegmentierungsschaltung zum Analysieren der Progression bewerteter Zustandssequenzen, um ein mit der Progression assoziiertes Muster zu detektieren, und zum Bestimmen eines Startpunkts und eines Endpunkts zur Segmentierung einer Schlüsselphrase basierend auf einer Abstimmung des detektierten Musters mit einem erwarteten Muster.
Beispiel 9 beinhaltet den Gegenstand des Beispiels 8, wobei die Schlüsselphrasenmodellwertungsschaltung ferner die Schlüsselphrase basierend auf einer Akkumulation und Propagation der akustischen Bewertungen der Sätze der akustischen Bewertungen detektieren soll.
Beispiel 10 beinhaltet den Gegenstand der Beispiele 8 oder 9, wobei das Bestimmen des Startpunkts ferner auf einem der mit der Detektion der Schlüsselphrase assoziierten Zeitsegmente basiert.
Beispiel 11 beinhaltet den Gegenstand eines der Beispiele 8-10, wobei das Akustikmodellwertung-Neuronalnetzwerk ein tiefes Neuronalnetzwerk ist und die Schlüsselphrasenmodellwertungsschaltung einen Hidden-Markov-Modell-Decodierer implementiert.
Beispiel 12 beinhaltet den Gegenstand eines der Beispiele 8-11, wobei die phonetische Klasse eine phonetische Einheit und/oder eine subphonetische Einheit und/oder ein Triphon-Zustand und/oder ein Monophon-Zustand ist.
Beispiel 13 beinhaltet den Gegenstand eines der Beispiele 8-12, wobei sowohl die Merkmalsextraktionsschaltung, die Akkumulationsschaltung, das Akustikmodellwertung-Neuronalnetzwerk, die Schlüsselphrasenmodellwertungsschaltung als auch die Schlüsselphrasensegmentierungsschaltung mit Anweisungen, die durch einen oder mehrere Prozessoren ausgeführt werden, implementiert werden.
Beispiel 14 ist mindestens ein nichtflüchtiges computerlesbares Speicherungsmedium mit darauf codierten Anweisungen, die bei Ausführung durch einen oder mehrere Prozessoren bewirken, dass ein Prozess zur Schlüsselphrasensegmentierung ausgeführt wird, wobei der Prozess Folgendes umfasst: Akkumulieren von Merkmalsvektoren, die aus Zeitsegmenten eines Audiosignals extrahiert werden; Erzeugen eines Satzes akustischer Bewertungen basierend auf den akkumulierten Merkmalsvektoren, wobei jede der akustischen Bewertungen in dem Satz eine Wahrscheinlichkeit für eine mit den Zeitsegmenten assoziierte phonetische Klasse repräsentiert; Erzeugen einer Progression bewerteter Modellzustandssequenzen, wobei jede der phonetischen Einheiten des bewerteten Modellzustands auf einer Detektion von phonetischen Einheiten basiert, die mit einem entsprechenden der Sätze der akustischen Bewertungen, die aus den Zeitsegmenten des Audiosignals erzeugt werden, assoziiert sind; Analysieren der Progression bewerteter Zustandssequenzen, um ein mit der Progression assoziiertes Muster zu detektieren; und Bestimmen eines Startpunkts und eines Endpunkts zur Segmentierung einer Schlüsselphrase basierend auf einer Abstimmung des detektierten Musters mit einem erwarteten Muster.
Beispiel 15 beinhaltet den Gegenstand des Beispiels 14, wobei der Prozess ferner Detektieren der Schlüsselphrase basierend auf einer Akkumulation und Propagation der akustischen Bewertungen der Sätze der akustischen Bewertungen umfasst.
Beispiel 16 beinhaltet den Gegenstand der Beispiele 14 oder 15, wobei das Bestimmen des Startpunkts ferner auf einem der mit der Detektion der Schlüsselphrase assoziierten Zeitsegmente basiert.
Beispiel 17 beinhaltet den Gegenstand eines der Beispiele 14-16, wobei der Satz akustischer Bewertungen durch ein tiefes Neuronalnetzwerk erzeugt wird und die Progression bewerteter Modellzustandssequenzen unter Verwendung eines Hidden-Markov-Modell-Decodierers erzeugt wird.
Beispiel 18 beinhaltet den Gegenstand eines der Beispiele 14-17, wobei die phonetische Klasse eine phonetische Einheit und/oder eine subphonetische Einheit und/oder ein Triphon-Zustand und/oder ein Monophon-Zustand ist.
Beispiel 19 beinhaltet den Gegenstand eines der Beispiele 14-18, wobei der Prozess ferner Bereitstellen des Startpunkts und des Endpunkts für ein Akustische-Strahlformung-System und/oder ein Automatische-Spracherkennung-System und/oder ein Sprecheridentifikationssystem und/oder ein textabhängiges Sprecheridentifikationssystem und/oder ein Emotionserkennungssystem und/oder ein Geschlechterdetektionssystem und/oder ein Altersdetektionssystem und/oder ein Rauschschätzungssystem umfasst.
Beispiel 20 beinhaltet den Gegenstand eines der Beispiele 14-19, wobei der Prozess ferner Puffern des Audiosignals und Bereitstellen des gepufferten Audiosignals für das Akustische-Strahlformung-System und/oder das Automatische-Spracherkennung-System und/oder das Sprecheridentifikationssystem und/oder das textabhängige Sprecheridentifikationssystem und/oder das Emotionserkennungssystem und/oder das Geschlechterdetektionssystem und/oder das Altersdetektionssystem und/oder das Rauschschätzungssystem umfasst.
Beispiel 21 beinhaltet den Gegenstand eines der Beispiele 14-20, wobei der Prozess ferner Puffern der Merkmalsvektoren und Bereitstellen der gepufferten Merkmalsvektoren für das Akustische-Strahlformung-System und/oder das Automatische-Spracherkennung-System und/oder das Sprecheridentifikationssystem und/oder das textabhängige Sprecheridentifikationssystem und/oder das Emotionserkennungssystem und/oder das Geschlechterdetektionssystem und/oder das Altersdetektionssystem und/oder das Rauschschätzungssystem umfasst, wobei die gepufferten Merkmalsvektoren einer Dauer des Audiosignals im Bereich von 2 bis 5 Sekunden entsprechen.
Beispiel 22 ist ein System zur Schlüsselphrasensegmentierung, wobei das System Folgendes umfasst: ein Mittel zum Erzeugen, durch ein Neuronalnetzwerk, eines Satzes akustischer Bewertungen basierend auf einer Akkumulation von Merkmalsvektoren, wobei die Merkmalsvektoren aus Zeitsegmenten eines Audiosignals extrahiert werden, wobei jede der akustischen Bewertungen in dem Satz eine Wahrscheinlichkeit für eine mit den Zeitsegmenten assoziierte phonetische Klasse repräsentiert; ein Mittel zum Erzeugen, durch einen Schlüsselphrasenmodelldecodierer, einer Progression bewerteter Modellzustandssequenzen, wobei jede der bewerteten Modellzustandssequenzen auf einer Detektion von phonetischen Einheiten basiert, die mit einem entsprechenden der Sätze der akustischen Bewertungen, die aus den Zeitsegmenten des Audiosignals erzeugt werden, assoziiert sind; ein Mittel zum Analysieren, durch eine Schlüsselphrasensegmentierungsschaltung, der Progression bewerteter Zustandssequenzen, um ein mit der Progression assoziiertes Muster zu detektieren; und ein Mittel zum Bestimmen, durch die Schlüsselphrasensegmentierungsschaltung, eines Startpunkts und eines Endpunkts zur Segmentierung einer Schlüsselphrase basierend auf einer Abstimmung des detektierten Musters mit einem erwarteten Muster.
Beispiel 23 beinhaltet den Gegenstand des Beispiels 22, ferner umfassend ein Mittel zum Detektieren der Schlüsselphrase basierend auf einer Akkumulation und Propagation der akustischen Bewertungen der Sätze der akustischen Bewertungen.
Beispiel 24 beinhaltet den Gegenstand der Beispiele 22 oder 23, wobei das Bestimmen des Startpunkts ferner auf einem der mit der Detektion der Schlüsselphrase assoziierten Zeitsegmente basiert.
Beispiel 25 beinhaltet den Gegenstand eines der Beispiele 22-24, wobei das Neuronalnetzwerk ein tiefes Neuronalnetzwerk ist und der Schlüsselphrasenmodelldecodierer ein Hidden-Markov-Modell-Decodierer ist.
Beispiel 26 beinhaltet den Gegenstand eines der Beispiele 22-25, wobei die phonetische Klasse eine phonetische Einheit und/oder eine subphonetische Einheit und/oder ein Triphon-Zustand und/oder ein Monophon-Zustand ist.
Beispiel 27 beinhaltet den Gegenstand eines der Beispiele 22-26, ferner umfassend ein Mittel zum Bereitstellen des Startpunkts und des Endpunkts für ein Akustische-Strahlformung-System und/oder ein Automatische-Spracherkennung-System und/oder ein Sprecheridentifikationssystem und/oder ein textabhängiges Sprecheridentifikationssystem und/oder ein Emotionserkennungssystem und/oder ein Geschlechterdetektionssystem und/oder ein Altersdetektionssystem und/oder ein Rauschschätzungssystem.
Beispiel 28 beinhaltet den Gegenstand eines der Beispiele 22-27, wobei sowohl das Neuronalnetzwerk, der Schlüsselphrasenmodelldecodierer als auch die Schlüsselphrasensegmentierungsschaltung mit Anweisungen, die durch einen oder mehrere Prozessoren ausgeführt werden, implementiert werden.
Beispiel 29 beinhaltet den Gegenstand eines der Beispiele 22-28, ferner umfassend ein Mittel zum Puffern des Audiosignals und Bereitstellen des gepufferten Audiosignals für das Akustische-Strahlformung-System und/oder das Automatische-Spracherkennung-System und/oder das Sprecheridentifikationssystem und/oder das textabhängige Sprecheridentifikationssystem und/oder das Emotionserkennungssystem und/oder das Geschlechterdetektionssystem und/oder das Altersdetektionssystem und/oder das Rauschschätzungssystem, wobei die Dauer des gepufferten Audiosignals im Bereich von 2 bis 5 Sekunden liegt.
Beispiel 30 beinhaltet den Gegenstand eines der Beispiele 22-29, ferner umfassend ein Mittel zum Puffern der Merkmalsvektoren und Bereitstellen der gepufferten Merkmalsvektoren für das Akustische-Strahlformung-System und/oder das Automatische-Spracherkennung-System und/oder das Sprecheridentifikationssystem und/oder das textabhängige Sprecheridentifikationssystem und/oder das Emotionserkennungssystem und/oder das Geschlechterdetektionssystem und/oder das Altersdetektionssystem und/oder das Rauschschätzungssystem, wobei die gepufferten Merkmalsvektoren einer Dauer des Audiosignals im Bereich von 2 bis 5 Sekunden entsprechen.
Die hierin eingesetzten Begriffe und Ausdrücke werden als Begriffe der Beschreibung und nicht Beschränkung verwendet, und es wird nicht beabsichtigt, dass die Verwendung derartiger Begriffe und Ausdrücke irgendwelche Äquivalente der dargestellten und beschriebenen Merkmale (oder von Teilen davon) ausschließt, und es wird erkannt, dass verschiedene Modifikationen innerhalb des Schutzumfangs der Ansprüche möglich sind. Dementsprechend wird beabsichtigt, dass die Ansprüche alle derartigen Äquivalente abdecken. Verschiedene Merkmale, Aspekte und Ausführungsformen sind hierin beschrieben worden. Die Merkmale, Aspekte und Ausführungsformen können miteinander kombiniert, sowie einer Variation und Modifikation unterzogen werden, wie durch Fachleute verstanden wird. Die vorliegende Offenbarung sollte daher als derartige Kombinationen, Variationen und Modifikationen einschließend angesehen werden. Es wird beabsichtigt, dass der Schutzumfang der vorliegenden Offenbarung nicht durch diese ausführliche Beschreibung, sondern stattdessen durch die hier angehängten Ansprüche beschränkt wird. Zukünftige eingereichte Anmeldungen, die die Priorität auf diese Anmeldung beanspruchen, können den offenbarten Gegenstand auf eine unterschiedliche Art und Weise beanspruchen, und können allgemein einen beliebigen Satz eines oder mehrerer Elemente beinhalten, wie hierin verschiedenartig offenbart oder anderweitig dargelegt.

Claims

Verfahren zur Schlüsselphrasensegmentierung, wobei das Verfahren Folgendes umfasst: Erzeugen, durch ein Neuronalnetzwerk, eines Satzes akustischer Bewertungen basierend auf einer Akkumulation von Merkmalsvektoren, wobei die Merkmalsvektoren aus Zeitsegmenten eines Audiosignals extrahiert werden, wobei jede der akustischen Bewertungen in dem Satz eine Wahrscheinlichkeit für eine mit den Zeitsegmenten assoziierte phonetische Klasse repräsentiert; Erzeugen, durch einen Schlüsselphrasenmodelldecodierer, einer Progression bewerteter Modellzustandssequenzen, wobei jede der bewerteten Modellzustandssequenzen auf einer Detektion von phonetischen Einheiten basiert, die mit einem entsprechenden der Sätze der akustischen Bewertungen, die aus den Zeitsegmenten des Audiosignals erzeugt werden, assoziiert sind; Analysieren, durch eine Schlüsselphrasensegmentierungsschaltung, der Progression bewerteter Zustandssequenzen, um ein mit der Progression assoziiertes Muster zu detektieren; und Bestimmen, durch die Schlüsselphrasensegmentierungsschaltung, eines Startpunkts und eines Endpunkts zur Segmentierung einer Schlüsselphrase basierend auf einer Abstimmung des detektierten Musters mit einem erwarteten Muster.
Verfahren nach Anspruch 1, ferner umfassend Detektieren der Schlüsselphrase basierend auf einer Akkumulation und Propagation der akustischen Bewertungen der Sätze der akustischen Bewertungen.
Verfahren nach Anspruch 2, wobei das Bestimmen des Startpunkts ferner auf einem der mit der Detektion der Schlüsselphrase assoziierten Zeitsegmente basiert.
Verfahren nach einem der Ansprüche 1-3, wobei das Neuronalnetzwerk ein tiefes Neuronalnetzwerk ist und der Schlüsselphrasenmodelldecodierer ein Hidden-Markov-Modell-Decodierer ist.
Verfahren nach einem der Ansprüche 1-4, wobei die phonetische Klasse eine phonetische Einheit und/oder eine subphonetische Einheit und/oder ein Triphon-Zustand und/oder ein Monophon-Zustand ist.
Verfahren nach einem der Ansprüche 1-5, ferner umfassend Bereitstellen des Startpunkts und des Endpunkts für ein Akustische-Strahlformung-System und/oder ein Automatische-Spracherkennung-System und/oder ein Sprecheridentifikationssystem und/oder ein textabhängiges Sprecheridentifikationssystem und/oder ein Emotionserkennungssystem und/oder ein Geschlechterdetektionssystem und/oder ein Altersdetektionssystem und/oder ein Rauschschätzungssystem.
Verfahren nach einem der Ansprüche 1-6, wobei sowohl das Neuronalnetzwerk, der Schlüsselphrasenmodelldecodierer als auch die Schlüsselphrasensegmentierungsschaltung mit Anweisungen, die durch einen oder mehrere Prozessoren ausgeführt werden, implementiert werden.
Schlüsselphrasensegmentierungssystem, wobei das System Folgendes umfasst: eine Merkmalsextraktionsschaltung zum Extrahieren von Merkmalsvektoren aus Zeitsegmenten eines Audiosignals; eine Akkumulationsschaltung zum Akkumulieren einer ausgewählten Anzahl der extrahierten Merkmalsvektoren; ein Akustikmodellwertung-Neuronalnetzwerk zum Erzeugen eines Satzes akustischer Bewertungen basierend auf den akkumulierten Merkmalsvektoren, wobei jede der akustischen Bewertungen in dem Satz eine Wahrscheinlichkeit für eine mit den Zeitsegmenten assoziierte phonetische Klasse repräsentiert; eine Schlüsselphrasenmodellwertungsschaltung zum Erzeugen einer Progression bewerteter Modellzustandssequenzen, wobei jede der bewerteten Modellzustandssequenzen auf einer Detektion von phonetischen Einheiten basiert, die mit einem entsprechenden der Sätze der akustischen Bewertungen, die aus den Zeitsegmenten des Audiosignals erzeugt werden, assoziiert sind; und eine Schlüsselphrasensegmentierungsschaltung zum Analysieren der Progression bewerteter Zustandssequenzen, um ein mit der Progression assoziiertes Muster zu detektieren, und zum Bestimmen eines Startpunkts und eines Endpunkts zur Segmentierung einer Schlüsselphrase basierend auf einer Abstimmung des detektierten Musters mit einem erwarteten Muster.
System nach Anspruch 8, wobei die Schlüsselphrasenmodellwertungsschaltung ferner die Schlüsselphrase basierend auf einer Akkumulation und Propagation der akustischen Bewertungen der Sätze der akustischen Bewertungen detektieren soll.
System nach Anspruch 9, wobei das Bestimmen des Startpunkts ferner auf einem der mit der Detektion der Schlüsselphrase assoziierten Zeitsegmente basiert.
System nach Anspruch 10, wobei das Akustikmodellwertung-Neuronalnetzwerk ein tiefes Neuronalnetzwerk ist und die Schlüsselphrasenmodellwertungsschaltung einen Hidden-Markov-Modell-Decodierer implementiert.
System nach einem der Ansprüche 8-11, wobei die phonetische Klasse eine phonetische Einheit und/oder eine subphonetische Einheit und/oder ein Triphon-Zustand und/oder ein Monophon-Zustand ist.
System nach einem der Ansprüche 8-12, wobei sowohl die Merkmalsextraktionsschaltung, die Akkumulationsschaltung, das Akustikmodellwertung-Neuronalnetzwerk, die Schlüsselphrasenmodellwertungsschaltung als auch die Schlüsselphrasensegmentierungsschaltung mit Anweisungen, die durch einen oder mehrere Prozessoren ausgeführt werden, implementiert werden.
Nichtflüchtiges computerlesbares Speicherungsmedium bzw. nichtflüchtige computerlesbare Speicherungsmedien mit darauf codierten Anweisungen, die bei Ausführung durch einen oder mehrere Prozessoren bewirken, dass ein Prozess zur Schlüsselphrasensegmentierung ausgeführt wird, wobei der Prozess Folgendes umfasst: Akkumulieren von Merkmalsvektoren, die aus Zeitsegmenten eines Audiosignals extrahiert werden; Erzeugen eines Satzes akustischer Bewertungen basierend auf den akkumulierten Merkmalsvektoren, wobei jede der akustischen Bewertungen in dem Satz eine Wahrscheinlichkeit für eine mit den Zeitsegmenten assoziierte phonetische Klasse repräsentiert; Erzeugen einer Progression bewerteter Modellzustandssequenzen, wobei jede der phonetischen Einheiten des bewerteten Modellzustands auf einer Detektion von phonetischen Einheiten basiert, die mit einem entsprechenden der Sätze der akustischen Bewertungen, die aus den Zeitsegmenten des Audiosignals erzeugt werden, assoziiert sind; Analysieren der Progression bewerteter Zustandssequenzen, um ein mit der Progression assoziiertes Muster zu detektieren; und Bestimmen eines Startpunkts und eines Endpunkts zur Segmentierung einer Schlüsselphrase basierend auf einer Abstimmung des detektierten Musters mit einem erwarteten Muster.
Computerlesbares Speicherungsmedium nach Anspruch 14, wobei der Prozessor ferner Detektieren der Schlüsselphrase basierend auf einer Akkumulation und Propagation der akustischen Bewertungen der Sätze der akustischen Bewertungen umfasst.
Computerlesbares Speicherungsmedium nach Anspruch 15, wobei das Bestimmen des Startpunkts ferner auf einem der mit der Detektion der Schlüsselphrase assoziierten Zeitsegmente basiert.
Computerlesbares Speicherungsmedium nach einem der Ansprüche 14-16, wobei der Satz akustischer Bewertungen durch ein tiefes Neuronalnetzwerk erzeugt wird und die Progression bewerteter Modellzustandssequenzen unter Verwendung eines Hidden-Markov-Modell-Decodierers erzeugt wird.
Computerlesbares Speicherungsmedium nach einem der Ansprüche 14-17, wobei die phonetische Klasse eine phonetische Einheit und/oder eine subphonetische Einheit und/oder ein Triphon-Zustand und/oder ein Monophon-Zustand ist.
Computerlesbares Speicherungsmedium nach einem der Ansprüche 14-18, wobei der Prozess ferner Bereitstellen des Startpunkts und des Endpunkts für ein Akustische-Strahlformung-System und/oder ein Automatische-Spracherkennung-System und/oder ein Sprecheridentifikationssystem und/oder ein textabhängiges Sprecheridentifikationssystem und/oder ein Emotionserkennungssystem und/oder ein Geschlechterdetektionssystem und/oder ein Altersdetektionssystem und/oder ein Rauschschätzungssystem umfasst.
Computerlesbares Speicherungsmedium nach Anspruch 19, wobei der Prozess ferner Puffern des Audiosignals und Bereitstellen des gepufferten Audiosignals für das Akustische Strahlformung-System und/oder das Automatische-Spracherkennung-System und/oder das Sprecheridentifikationssystem und/oder das textabhängige Sprecheridentifikationssystem und/oder das Emotionserkennungssystem und/oder das Geschlechterdetektionssystem und/oder das Altersdetektionssystem und/oder das Rauschschätzungssystem umfasst, wobei die Dauer des gepufferten Audiosignals in dem Bereich von 2 bis 5 Sekunden liegt.
Computerlesbares Speicherungsmedium nach Anspruch 19, wobei der Prozessor ferner Puffern der Merkmalsvektoren und Bereitstellen der gepufferten Merkmalsvektoren für das Akustische Strahlformung-System und/oder das Automatische-Spracherkennung-System und/oder das Sprecheridentifikationssystem und/oder das textabhängige Sprecheridentifikationssystem und/oder das Emotionserkennungssystem und/oder das Geschlechterdetektionssystem und/oder das Altersdetektionssystem und/oder das Rauschschätzungssystem umfasst, wobei die gepufferten Merkmalsvektoren einer Dauer des Audiosignals im Bereich von 2 bis 5 Sekunden entsprechen.
Vorrichtung zur Schlüsselphrasensegmentierung, wobei die Vorrichtung Folgendes umfasst: ein Mittel zum Erzeugen eines Satzes akustischer Bewertungen basierend auf einer Akkumulation von Merkmalsvektoren, wobei die Merkmalsvektoren aus Zeitsegmenten eines Audiosignals extrahiert werden, wobei jede der akustischen Bewertungen in dem Satz eine Wahrscheinlichkeit für eine mit den Zeitsegmenten assoziierte phonetische Klasse repräsentieren soll; ein Mittel zum Erzeugen einer Progression bewerteter Modellzustandssequenzen, wobei jede der bewerteten Modellzustandssequenzen auf einer Detektion von phonetischen Einheiten basiert, die mit einem entsprechenden der Sätze der akustischen Bewertungen, die aus den Zeitsegmenten des Audiosignals erzeugt werden, assoziiert sind; ein Mittel zum Analysieren der Progression bewerteter Zustandssequenzen, um ein mit der Progression assoziiertes Muster zu detektieren; und ein Mittel zum Bestimmen eines Startpunkts und eines Endpunkts zur Segmentierung einer Schlüsselphrase basierend auf einer Abstimmung des detektierten Musters mit einem erwarteten Muster.
Vorrichtung nach Anspruch 22, ferner umfassend ein Mittel zum Detektieren der Schlüsselphrase basierend auf einer Akkumulation und Propagation der akustischen Bewertungen der Sätze der akustischen Bewertungen.
Vorrichtung nach Anspruch 23, wobei eine Bestimmung des Startpunkts ferner auf einem der mit der Detektion der Schlüsselphrase assoziierten Zeitsegmente basiert.
Verfahren nach einem der Ansprüche 22-24, wobei das Mittel zum Erzeugen des Satzes akustischer Bewertungen ein tiefes Neuronalnetzwerk ist und das Mittel zum Erzeugen der Progression bewerteter Modellzustandssequenzen einen Hidden-Markov-Modell-Decodierer umfasst.