-
EINLEITUNG
-
Die vorliegende Offenbarung bezieht sich im Allgemeinen auf die Spracherkennung und Sprachsynthese und insbesondere auf die Erkennung von Wake-up-Wörtern.
-
Die Spracherkennung (oder „automated speech recognition“ (ASR)) ermöglicht es Computern, gesprochene Sprache zu erkennen und die gesprochene Sprache in Texte oder Absichten zu übersetzen. ASR-fähige Computergeräte können gesprochene Spracheingaben von einem Benutzer empfangen und die gesprochene Spracheingabe in einen Text übersetzen, den das Computergerät verstehen kann. Auf diese Weise kann beispielsweise das Computergerät eine Aktion ausführen, wenn es eine gesprochene Spracheingabe erhält. Wenn ein Benutzer beispielsweise „Ruf zu Hause an“ sagt, kann ein mit ASR aktiviertes Computergerät die Satzformulierung erkennen und übersetzen und einen Anruf starten. ASR kann durch die Erkennung eines einzelnen Wortes oder einer einzelnen Satzformulierung ausgelöst werden, die als „Wake-up-Word“ (WUW) bezeichnet wird und die, wenn sie von einem Benutzer gesprochen wird, von einem ASR-fähigen Computergerät erkannt wird, um die ASR auszulösen.
-
KURZDARSTELLUNG
-
Die computerimplementierte Methode zur Erkennung von Wake-up-Wörtern (WUW) beinhaltet in einer exemplarischen Ausführungsform das Empfangen einer Äußerung eines Benutzers durch eine Verarbeitungsvorrichtung. Das Verfahren beinhaltet ferner das Streaming der Äußerung zu jedem einzelnen einer Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung. Das Verfahren beinhaltet des Weiteren das Überwachen einer Aktivität von mindestens einem der Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung, um zu ermitteln, ob einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt. Das Verfahren beinhaltet ferner, als Reaktion auf das Bestimmen, dass einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-Up-Wort erkennt, das Deaktivieren des Streamings zusätzlicher Äußerungen durch die Verarbeitungsvorrichtung zu einer Teilmenge der Vielzahl von digitalen Assistenten, die die Äußerung nicht als Wake-Up-Wort erkennen.
-
In einigen Beispielen ist zumindest einer der Vielzahl von digitalen Assistenten ein telefonbasierter digitaler Assistent. In einigen Beispielen ist zumindest einer der Vielzahl von digitalen Assistenten ein fahrzeugbasierter digitaler Assistent. Der fahrzeugbasierte digitale Assistent kann in einigen Beispielen mindestens eines aus einem Telematiksystem eines Fahrzeugs, einem Infotainmentsystem des Fahrzeugs und einem Kommunikationssystem des Fahrzeugs steuern. In einigen Beispielen umfasst das Überwachen der Aktivität von mindestens einem der Vielzahl von digitalen Assistenten ferner das Erkennen, ob mindestens einer der Vielzahl von digitalen Assistenten eine Sprachaktivität ausführt. In einigen Beispielen umfasst das Überwachen der Aktivität von mindestens einem der Vielzahl von digitalen Assistenten ferner das Erkennen, ob mindestens einer der Vielzahl von digitalen Assistenten eine Musikaktivität ausführt. In einigen Beispielen basiert das Deaktivieren des Streamings zusätzlicher Äußerungen zu einer Teilmenge der Vielzahl von digitalen Assistenten zumindest teilweise auf einer Aktivitätsklassifizierung des einen aus der Vielzahl von digitalen Assistenten, die die Äußerung als Wake-up-Wort erkennen. In einigen Beispielen wird das Streaming von zusätzlichen Äußerungen zur Teilmenge der Vielzahl von digitalen Assistenten deaktiviert, wenn die Aktivitätsklassifizierung eine erste Aktivitätsklassifizierung darstellt, und das Streaming von zusätzlichen Äußerungen zur Teilmenge der Vielzahl von digitalen Assistenten wird aktiviert, wenn die Aktivitätsklassifizierung eine zweite Aktivitätsklassifizierung darstellt. In einigen Beispielen ist die erste Aktivitätsklassifizierung ein Telefonat oder ein Textkommentar, wobei die zweite Aktivitätsklassifizierung das Abspielen von Musik ist. Gemäß den Aspekten der vorliegenden Offenbarung beinhaltet das Verfahren ferner als Reaktion auf das Bestimmen, dass der eine aus der Vielzahl von digitalen Assistenten, der die Äußerung als Wake-up-Wort erkennt, nicht mehr aktiv ist, und ermöglicht durch die Verarbeitungsvorrichtung das Streaming zusätzlicher Äußerungen zu der Vielzahl von digitalen Assistenten. In einigen Beispielen wird die Aktivität von mindestens einem der Vielzahl von digitalen Assistenten durch den mindestens einen der Vielzahl von digitalen Assistenten bereitgestellt, wobei die Aktivität einen Aktivitätsstatus und eine Aktivitätsart umfasst.
-
In einer weiteren exemplarischen Ausführungsform beinhaltet ein System zur Erkennung von Wake-up-Wörtern (WUW) einen Speicher mit computerlesbaren Befehlen und eine Verarbeitungsvorrichtung zum Ausführen der computerlesbaren Befehle zum Ausüben eines Verfahrens. In Anwendungsbeispielen beinhaltet das Verfahren das Empfangen einer Äußerung von einem Benutzer durch eine Verarbeitungsvorrichtung. Das Verfahren beinhaltet ferner das Streaming der Äußerung zu jedem einzelnen aus einer Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung. Das Verfahren beinhaltet ferner das Überwachen einer Aktivität von mindestens einem der Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung, um zu bestimmen, ob einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt. Das Verfahren beinhaltet ferner, als Reaktion auf das Bestimmen, dass einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt, das Deaktivieren des Streamings zusätzlicher Äußerungen durch die Verarbeitungsvorrichtung zu einer Teilmenge der Vielzahl von digitalen Assistenten, die die Äußerung nicht als Wake-up-Wort erkennen.
-
In einigen Beispielen ist mindestens einer der Vielzahl von digitalen Assistenten ein telefonbasierter digitaler Assistent. In einigen Beispielen ist mindestens einer der Vielzahl von digitalen Assistenten ein fahrzeugbasierter digitaler Assistent. In einigen Beispielen kann der fahrzeugbasierte digitale Assistent mindestens eines von einem Telematiksystem eines Fahrzeugs, einem Infotainmentsystem des Fahrzeugs und einem Kommunikationssystem des Fahrzeugs steuern. In einigen Beispielen umfasst das Überwachen der Aktivität von mindestens einem der Vielzahl von digitalen Assistenten ferner das Bestimmen, ob mindestens einer der Vielzahl von digitalen Assistenten eine Sprachaktivität ausführt. In einigen Beispielen umfasst das Überwachen der Aktivität von mindestens einem der Vielzahl von digitalen Assistenten ferner das Bestimmen, ob mindestens einer der Vielzahl von digitalen Assistenten eine musikalische Aktivität ausführt. In einigen Beispielen basiert das Deaktivieren des Streamings zusätzlicher Äußerungen zu einer Teilmenge der Vielzahl von digitalen Assistenten zumindest teilweise auf einer Aktivitätsklassifizierung des einen aus der Vielzahl von digitalen Assistenten, die die Äußerung als Wake-up-Wort erkennen. In einigen Beispielen wird das Streaming von zusätzlichen Äußerungen zur Teilmenge der Vielzahl von digitalen Assistenten deaktiviert, wenn die Aktivitätsklassifizierung eine erste Aktivitätsklassifizierung ist, das Streaming von zusätzlichen Äußerungen zur Teilmenge der Vielzahl von digitalen Assistenten aktiviert wird, wenn die Aktivitätsklassifizierung eine zweite Aktivitätsklassifizierung ist und die erste Aktivitätsklassifizierung ein Telefonanruf oder Textkommentar ist, und worin die zweite Aktivitätsklassifizierung Musik spielt.
-
In noch einer anderen exemplarischen Ausführungsform beinhaltet ein Computerprogrammprodukt zur Wake-up-Wort- (WUW)-Erkennung ein computerlesbares Speichermedium mit damit verkörperten Programmbefehlen, wobei die Programmbefehle von einer Verarbeitungsvorrichtung ausgeführt werden können, um die Verarbeitungsvorrichtung zum Durchführen eines Verfahrens zu veranlassen. In Beispielen beinhaltet das Verfahren das Empfangen einer Äußerung von einem Benutzer durch eine Verarbeitungsvorrichtung. Das Verfahren beinhaltet ferner das Streaming der Äußerung zu jedem einzelnen aus einer Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung. Das Verfahren beinhaltet ferner das Überwachen einer Aktivität von mindestens einem der Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung, um zu bestimmen, ob einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt. Das Verfahren beinhaltet ferner das Ansprechen auf das Bestimmen, dass einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt, das Deaktivieren des Streamings zusätzlicher Äußerungen durch die Verarbeitungsvorrichtung zu einer Teilmenge der Vielzahl von digitalen Assistenten, die die Äußerung nicht als Wake-up-Wort erkennen.
-
Die oben genannten Eigenschaften und Vorteile sowie anderen Eigenschaften und Funktionen der vorliegenden Offenbarung gehen aus der folgenden ausführlichen Beschreibung in Verbindung mit den zugehörigen Zeichnungen ohne Weiteres hervor.
-
Figurenliste
-
Weitere Merkmale, Vorteile und Details erscheinen exemplarisch nur in der folgenden Detailbeschreibung, die sich auf die Zeichnungen bezieht:
- 1 stellt ein Verarbeitungssystem zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Aspekten der vorliegenden Offenbarung dar;
- 2 stellt ein Blockdiagramm eines Schnüffelmotors für die Wake-up-Word (WUW)-Erkennung dar, entsprechend den Aspekten der vorliegenden Offenbarung;
- 3 stellt ein Flussdiagramm eines Verfahrens zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Merkmalen der vorliegenden Offenbarung dar;
- 4 stellt ein Flussdiagramm eines Verfahrens zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Merkmalen der vorliegenden Offenbarung dar; und
- 5 stellt ein Blockdiagramm eines Verarbeitungssystems zur Implementierung der hierin beschriebenen Techniken gemäß den Merkmalen der vorliegenden Offenbarung dar.
-
Die oben genannten Eigenschaften und Vorteile sowie anderen Eigenschaften und Funktionen der vorliegenden Offenbarung gehen aus der folgenden ausführlichen Beschreibung in Verbindung mit den zugehörigen Zeichnungen ohne Weiteres hervor.
-
AUSFÜHRLICHE BESCHREIBUNG
-
Die folgende Beschreibung ist lediglich exemplarischer Natur und nicht dazu gedacht, die vorliegende Offenbarung in ihren An- oder Verwendungen zu beschränken. Es sollte verstanden werden, dass in den Zeichnungen entsprechende Bezugszeichen gleiche oder entsprechende Teile und Merkmale bezeichnen. Der hier verwendete Begriff „Modul“ bezieht sich auf eine Verarbeitungsschaltung, die eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, dediziert oder gruppiert) und einen Speicher, der ein oder mehrere Software- oder Firmwareprogramme, eine kombinatorische Logikschaltung und/oder andere geeignete Komponenten ausführt, die die beschriebene Funktionalität bieten, beinhalten kann.
-
Die hierin beschriebenen technischen Lösungen sehen eine Erkennung des Wake-up-Word (WUW) vor. Insbesondere ermöglichen die hierin vorgesehenen technischen Lösungen es dem Benutzer, mit einem Wake-up-Wort auf einen gewünschten digitalen Assistenten (z.B. Smartphone-Assistenten, Fahrzeugassistenten usw.) zuzugreifen. In einem Fahrzeug ist es beispielsweise möglich, dass ein Benutzer Zugriff auf einen Telefonassistenten, einen integrierten Fahrzeugassistenten oder einen anderen Assistenten erhält. Mit Wake-up-Wörtern kann auf die verschiedenen digitalen Assistenten zugegriffen werden. In einigen Fällen ist es möglich, jeden digitalen Assistenten zu aktivieren, indem der Benutzer das Wake-up-Wort für diesen Assistenten ausspricht.
-
In bestehenden Implementierungen kann es erforderlich sein, dass ein Benutzer einen Standard-Digitalassistenten auswählen muss, und der Wechsel zwischen digitalen Assistenten gestaltet sich für den Benutzer umständlich. In der Fahrzeugeinstellung beinhaltet eine mögliche Implementierung das automatische Spracherkennungssystem (ASR) eines Fahrzeugs, das eine Äußerung eines Benutzers erkennt und bestimmt, ob es sich bei der Äußerung um ein WUW handelt. Wenn es sich um ein WUW handelt, leitet das ASR-System das WUW (und ggf. einen nachfolgenden Befehl) an den entsprechenden digitalen Assistenten auf der Basis des WUW weiter. WUW-Erkennungstechniken können jedoch zu Inkonsistenzen zwischen der Vielzahl der digitalen Assistenten führen und/oder ein einzelner digitaler Assistent kann seine eigene Erkennung eines WUW vornehmen. Diese aktuellen Techniken können daher zu Verwirrung unter den digitalen Assistenten führen. Wenn das ASR-System ein WUW nicht erkennt oder den richtigen digitalen Assistenten nicht aktiviert, kann dies zu schlechter Leistung, schlechter Benutzererfahrung und schlechter Einschätzung des Systemwertes für den Benutzer führen.
-
Eine weitere Möglichkeit, diese Inkonsistenzen abzugleichen und zu beheben, besteht darin, dass der Benutzer anstelle eines WUWs einen Assistenten durch Tastendruck auslöst. So löst beispielsweise ein kurzer Tastendruck einen digitalen Assistenten (z.B. den digitalen Assistenten eines Smartphones) und ein langer Tastendruck einen weiteren digitalen Assistenten (z.B. den digitalen Assistenten des Fahrzeugs) aus.
-
Die hierin beschriebenen Techniken beheben diese Mängel, indem sie Äußerungen kontinuierlich an mehrere digitale Assistenten weiterleiten, um die optimierten WUW-Detektoren der Assistenten für beste Leistung zu nutzen und Inkonsistenzen bei der WUW-Erkennung im ASR-System des Fahrzeugs zu vermeiden. Die vorliegenden Techniken überwachen außerdem auf intelligente Weise die Tätigkeit der Assistenten, um den gegenseitigen Ausschluss anderer digitaler Assistenten zu ermöglichen. Es ist zu beachten, dass die hierin beschriebenen Techniken auf jede geeignete Technologie oder Vorrichtung, wie z.B. Objekte des Internet der Dinge (z.B. Smartphones, Smart TVs, Home Speakers, Thermostate, etc.) angewendet oder in diese implementiert werden können.
-
Der Begriff Internet der Dinge (IoT)-Objekt wird hierin verwendet, um ein Objekt (z.B. ein Gerät, einen Sensor usw.) zu bezeichnen, das eine adressierbare Schnittstelle (z.B. eine Internetprotokoll-(IP)-Adresse, eine Bluetooth-Kennung (ID), eine Nahfeldkommunikations-(NFC)-ID usw.) aufweist und Informationen über eine drahtgebundene oder drahtlose Verbindung an ein oder mehrere andere Objekte übertragen kann. Ein IoT-Objekt kann eine passive Kommunikationsschnittstelle aufweisen, wie beispielsweise einen Quick Response (QR)-Code, einen Radiofrequenz-Identifikations-(RFID)-Tag, einen Near Field Communication (NFC)-Tag oder dergleichen, oder eine aktive Kommunikationsschnittstelle, wie beispielsweise ein Modem, einen Transceiver, einen Sender-Empfänger oder dergleichen. Ein IoT-Objekt kann eine bestimmte Menge von Attributen haben (z.B, einen Vorrichtungszustand oder -status, etwa ob das IoT-Objekt ein- oder ausgeschaltet, geöffnet oder geschlossen, untätig oder aktiv ist, zur Aufgabenausführung verfügbar oder besetzt ist, eine Kühl- oder Heizfunktion, eine Umweltüberwachungs- oder -aufzeichnungsfunktion, eine lichtemittierende Funktion, eine Geräuschemissionsfunktion usw.), der in eine zentrale Verarbeitungseinheit (CPU), einen Mikroprozessor, einen ASIC oder dergleichen eingebettet und/oder gesteuert/überwacht werden kann und für die Verbindung mit einem IoT-Netzwerk wie einem lokalen Ad-hoc-Netzwerk oder dem Internet konfiguriert ist. IoT-Objekte können beispielsweise Fahrzeuge, Fahrzeugkomponenten, Fahrzeugsysteme und -subsysteme, Kühlschränke, Toaster, Öfen, Mikrowellen, Gefrierschränke, Geschirrspüler, Geschirr, Handwerkzeuge, Wäschewaschmaschinen, Wäschetrockner, Öfen, Heizungs-, Lüftungs-, Klima- und Kälteanlagen (HLKR), Klimaanlagen, Thermostate, intelligente Fernseher, Brandmelde- und Schutzsysteme, Brand-, Rauch- und Kohlendioxidmelder, Zugangs-/Videosicherheitssysteme, Aufzugs- und Rolltreppensysteme, Brenner- und Kesselregelungen, Gebäudemanagementsteuerungen, Fernseher, Beleuchtungskörper, Staubsauger, Berieselungsgeräte, Stromzähler, Gaszähler, etc. beinhalten, sofern die Geräte mit einer adressierbaren Kommunikationsschnittstelle zur Kommunikation mit dem IoT-Netzwerk ausgestattet sind. IoT-Objekte umfassen auch Mobiltelefone, Desktop-Computer, Laptops, Tablet-Computer, Personal Digital Assistants (PDAs), etc. Dementsprechend kann das IoT-Netzwerk eine Kombination von „älteren“ internetfähigen Geräten (z.B. Laptop- oder Desktop-Computer, Mobiltelefone usw.) zusätzlich zu Geräten beinhalten, die typischerweise keine Internetverbindung haben (z.B. Geschirrspüler usw.).
-
Nach einem Beispiel der vorliegenden Offenbarung ist eine Wake-Up-Wort-Erkennung vorgesehen. Eine Äußerung wird von einem Benutzer empfangen und an eine Vielzahl von digitalen Assistenten gestreamt. Die Tätigkeit der digitalen Assistenten wird überwacht, um zu ermitteln, ob (und wenn ja, welche) der digitalen Assistenten die Äußerung als Wake-up-Wort erkennen. Als Reaktion auf einen der digitalen Assistenten, der das WUW erkennt, ist das Streaming zu den anderen digitalen Assistenten deaktiviert.
-
Ausführungsbeispiele für die Offenbarung beinhalten oder ergeben verschiedene technische Merkmale, technische Auswirkungen und/oder Verbesserungen der Technologie. Beispielausführungsformen der Offenbarung bieten Techniken zur Erkennung von Aufwachwörtern, indem sie eine Äußerung an mehrere digitale Assistenten streamen, die Aktivität der digitalen Assistenten überwachen, um festzustellen, ob sie die Äußerung als Aufwachwort erkennen, und dann das Streamen an andere digitale Assistenten deaktivieren, wenn einer der digitalen Assistenten aktiv ist (d.h. das Wake-Up-Wort erkennt). Diese Aspekte der Offenbarung stellen technische Merkmale dar, die den technischen Effekt haben, mehrere digitale Assistenten zu unterstützen, während sie die Verwirrung zwischen mehreren digitalen Assistenten verringern, die Benutzererfahrung bei der Verwendung von Wake-up-Wörtern mit digitalen Assistenten verbessern, die Aktivierung eines falschen digitalen Assistenten verhindern und dergleichen. Die vorliegenden Techniken tragen auch dazu bei, Fehlerkennungen eines Wake-up-Worts zu verhindern, z.B. durch das ASR-System eines Fahrzeugs, was die gesamte Interaktion des digitalen Assistenten verbessert. Aufgrund dieser technischen Merkmale und technischen Effekte stellt die Wake-up-Wort-Erkennung gemäß exemplarischer Ausführungsformen der Offenbarung eine Verbesserung der bestehenden digitalen Assistenten-, Wake-up-Wort- und ASR-Technologien dar. Darüber hinaus werden Computersysteme, die die derzeitigen Techniken implementieren, verbessert, indem weniger Speicher- und Verarbeitungsressourcen verbraucht werden, was auf eine geringere Fehlerkennung von Wake-up-Wörtern und das Deaktivieren von Mehrfach-Streaming zurückzuführen ist. Es ist zu beachten, dass die obigen Beispiele für technische Merkmale, technische Auswirkungen und Verbesserungen der Technologie, wie beispielsweise die Ausführungsformen der Offenbarung, lediglich illustrativ und nicht vollständig sind.
-
1 stellt ein Verarbeitungssystem 100 zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Aspekten der vorliegenden Offenbarung dar. Das Verarbeitungssystem 100 beinhaltet eine Verarbeitungsvorrichtung 102, einen Speicher 104, eine Audiobrückenmaschine 106, einen ersten Assistenzklienten 110, einen zweiten Assistenzklienten 112, einen dritten Assistenzklienten 114 und Schnüffelmaschinen 108.
-
Die verschiedenen Komponenten, Module, Motoren usw., die in 1 (und 2) beschrieben sind, können als Anweisungen, die auf einem computerlesbaren Speichermedium gespeichert sind, als Hardwaremodule, als Spezialhardware (z.B. anwendungsspezifische Hardware, anwendungsspezifische integrierte Schaltungen (ASICs), als Embedded Controller, fest verdrahtete Schaltungen usw.) oder als Teilkombination oder Kombinationen davon ausgeführt werden.
-
In Beispielen können die hierin beschriebenen Motoren eine Kombination aus Hardware und Programmierung darstellen. Die Programmierung kann eine ausführbare Prozessoranweisung darstellen, die auf einem konkreten Speicher gespeichert ist, und die Hardware kann die Verarbeitungsvorrichtung 102 zum Ausführen dieser Anweisungen beinhalten. Somit kann ein Systemspeicher (z. B. der Speicher 104) Programmanweisungen speichern, die beim Ausführen durch die Verarbeitungsvorrichtung 102 die hierin beschriebenen Maschinen implementieren. Andere Motoren sind auch geeignet, um andere Funktionen und Funktionen zu integrieren, die in anderen Beispielen beschrieben sind. Alternativ oder zusätzlich dazu kann das Verarbeitungssystem 100 dedizierte Hardware, wie eine oder mehrere integrierte Schaltungen, ASICs, anwendungsspezifische Spezialprozessoren (ASSPs), feldprogrammierbare Gate-Arrays (FPGAs) oder eine beliebige Kombination der vorstehenden Beispiele dedizierter Hardware, zur Durchführung der hierin beschriebenen Techniken beinhalten.
-
Die Audiobrückenmaschine (audio bridge engine) 106 empfängt eine Äußerung von einem Benutzer 101. Die Äußerung kann ein Wort, eine Phrase oder ein anderer Stimmklang sein, der beispielsweise von einem Mikrofon (nicht dargestellt) des Verarbeitungssystems 100 erfasst wird. Die Audiobrückenmaschine 106 überträgt die Äußerung an die ersten, zweiten und dritten Assistenzklienten 110, 112, 114. Die Assistenzklienten 110, 112, 114 können mit verschiedenen digitalen Assistenten interagieren, wie beispielsweise einem Telefonassistenten 111, einem Autoassistenten 113, einem anderen Assistenten 115 oder einem anderen geeigneten digitalen Assistenten. Durch das Streamen der Äußerung, bei der es sich um ein WUW handeln kann oder auch nicht, kann die Audiobrückenmaschinen 106 die 111, 113, 115 WUW-Erkennungen der Assistenten optimal nutzen und Inkonsistenzen bei der WUW-Erkennung vermeiden.
-
Jeder der Assistenzklienten 110, 112, 114 erhält die Äußerung 109. Es sollte jedoch beachtet werden, dass die Äußerung ein WUW sein kann oder auch nicht. Die Äußerung 109 wird bei jedem der Assistenzklienten 110, 112, 114 von der Audiobrückenmaschine 106 empfangen, und die Äußerung 109 wird an die jeweiligen digitalen Assistenten 111, 113, 115 gesendet. So sendet beispielsweise der erste Assistenzklient 110 die Äußerung 109 an den Telefonassistenten 111, der zweite Assistenzklient 112 sendet die Äußerung 109 an den Autoassistenten 113 und der dritte Assistenzklient 114 sendet die Äußerung 109 an den Assistenten 115.
-
Sobald die digitalen Assistenten 111, 113, 115 die Äußerung 109 empfangen haben, bestimmt jeder der digitalen Assistenten 111, 113, 115 einzeln, ob die Äußerung 109 ein WUW ist. Der digitale Assistent 111, 113, 115, der bestimmt, dass die Äußerung 109 ein WUW für diesen digitalen Assistenten ist, wird als „aktiver“ Assistent bezeichnet, und der aktive Assistent kann eine Aktion basierend auf dem WUW durchführen. So kann beispielsweise der aktive Assistent dem Benutzer 101 eine visuelle, auditive und taktile Antwort geben, zusätzliche Äußerungen abwarten, die Befehle beinhalten können, und dergleichen.
-
Zwischen der Audiobrückenmaschine 106 und dem jeweiligen Assistenzklienten kann sich ein Schnüffelmotor 108 befinden. In dem Beispiel von 1 befindet sich ein Schnüffelmotor 108 zwischen dem Audiobrückenmaschine 106 und dem ersten Assistenzklienten 110 sowie zwischen der Audiobrückenmaschine 106 und dem dritten Assistenzklienten 114. Ein Schnüffelmotor befindet sich nicht zwischen dem Audiobrückenmaschine 106 und dem zweiten Assistenzklienten 112 im Beispiel von 1, weil beispielsweise der zweite Assistenzklient 112 seine Aktivität direkt an die Audiobrückenmaschine 106 ohne Schnüffelmotor anzeigen kann. In anderen Beispielen könnte jedoch ein Schnüffelmotor zwischen dem Audiobrückenmaschine 106 und dem zweiten Assistenzklienten 112 implementiert werden.
-
Der Schnüffelmotor 108 überwacht die Assistenztätigkeit, um den Ausschluss anderer Assistenten zu ermöglichen, so dass jeweils nur ein einziger digitaler Assistent aktiv ist. So kann beispielsweise der Schnüffelmotor 108 eine Antwort vom ersten Assistenzklienten 110 empfangen, wenn der Smartphone-Assistent 111 aktiv wird, und der Schnüffler 108 kann der Audiobrückenmaschine 106 anzeigen, dass der Telefonassistent 111 aktiv ist. Dadurch deaktiviert die Audiobrückenmaschine 106 über die Logik 107 die kommunikativen Verbindungen zwischen der Audiobrückenmaschine und den anderen Assistenzklienten (z.B. dem zweiten Assistenzklienten 112 und dem dritten Assistenzklienten 114). Dementsprechend werden alle zukünftigen Äußerungen des Benutzers 101 nur an den aktiven Assistenten (z.B. den Telefonassistenten 111) weitergeleitet. Dadurch wird verhindert, dass andere deaktivierte Assistenten (z.B. der Autoassistent 113 oder der Assistent 115) Störungen verursachen oder Aktionen durchführen. In einigen Beispielen kann die kommunikative Verbindung in der Audiobrückenmaschine 106 für die deaktivierten Assistenten inaktiv bleiben, bis der aktive Assistent nicht mehr aktiv ist, und zwar für einen vorbestimmten Zeitraum, während einer bestimmten Aktivitätsart usw.
-
2 stellt ein Blockdiagramm eines Schnüffelmotors 108 zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Aspekten der vorliegenden Offenbarung dar. Der Schnüffelmotor 108 empfängt Audio 202 von einem digitalen Assistenten (z.B. einem der digitalen Assistenten 111, 113, 115). Der Schnüffelmotor 108 kann auch andere Modalitätsinformationen 204 empfangen, wie z.B. Text- oder grafische Widgetaktionen der Benutzeroberfläche oder Bilder aus dem digitalen Assistenten. Der Schnüffelmotor 108 kann das Audio 202 und/oder die anderen Modalitäteninformationen 204 verwenden, um eine Assistentenaktivität 206 zu bestimmen, die an die Audiobrückenmaschine 106 gesendet wird, die der Audiobrückenmaschine 106 anzeigt, ob der dem Schnüffelmotor 108 zugeordnete digitale Assistent aktiv oder inaktiv ist.
-
Der Schnüffler 108 beinhaltet eine Aktivitätsklassifikationsmaschine 214 zum Bestimmen der Assistentenaktivität 206. So kann beispielsweise die Aktivitätsklassifikationsmaschine 214 Informationen von einer Spracherkennungsmaschine 210 und/oder einer Musikerkennungsmaschine 212 empfangen. Die Spracherkennungsmaschine 210 erkennt eine Sprachaktivität des Assistenten (z.B. Fahrtrichtungen, Textkommentare usw.), und die Musikerkennungsmaschine 212 erkennt, ob eine Musikaktivität ausgeführt wird (z.B. ob vom Assistenten Musik abgespielt wird). In einem Beispiel kann der Schnüffler 108 bei erkannter Sprachaktivität anzeigen, dass der zugehörige Assistent aktiv ist, was die Audiobrückenmaschine 106 zu den anderen Assistenten zurückschließt. In einem weiteren Beispiel, wenn Musikaktivität erkannt wird, kann der Schnüffler 108 anzeigen, dass der zugehörige Assistent nicht aktiv ist, was die Audiobrückenmaschine 106 für die anderen Assistenten offen lässt. Dies ermöglicht es dem Benutzer 101, Musik z.B. von einem Gerät abzuspielen (mit einem Assistenten), während andere Geräte (mit anderen Assistenten) aufmerksam bleiben und bereit sind, ein Wake-up-Wort von dem Benutzer 101 zu empfangen.
-
3 stellt ein Flussdiagramm eines Verfahrens zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Merkmalen der vorliegenden Offenbarung dar. Das Verfahren 300 kann beispielsweise durch das Verarbeitungssystem 100 von 1, durch das Verarbeitungssystem 500 von 5 oder durch ein anderes geeignetes Verarbeitungssystem oder eine andere Verarbeitungsvorrichtung (z.B. die Verarbeitungsvorrichtung 102, Prozessor 521, etc.) implementiert werden.
-
Bei Block 302 empfängt die Audiobrückenmaschine 106 eine Äußerung des Benutzers 101. Bei Block 304 überträgt die Audiobrückenmaschine 106 die Äußerung an jeden von mehreren digitalen Assistenten (z.B. den Telefonassistenten 111, den Autoassistenten 113, den Assistenten 115), usw. In einem Beispiel ist mindestens einer der digitalen Assistenten ein telefonbasierter digitaler Assistent (d.h. ein digitaler Assistent, der auf einem Telefon, wie beispielsweise einem Smartphone, läuft oder in dieses integriert ist), wie beispielsweise der Telefonassistent 111. In einem weiteren Beispiel ist mindestens einer der digitalen Assistenten ein fahrzeugbasierter digitaler Assistent (d.h. ein in ein Fahrzeug eingebetteter digitaler Assistent), wie beispielsweise der Autoassistent 113. Der fahrzeugbasierte digitale Assistent (z.B. der Autoassistent 113) kann verschiedene Systeme im Fahrzeug steuern. So kann der fahrzeugbasierte digitale Assistent beispielsweise ein Steuertelematiksystem (z.B. zum Einschalten von Leuchten, zum Ändern einer Klimaautomatik-Einstellung usw.), ein Infotainmentsystem (z.B. zum Einschalten des Radios, zur Eingabe eines Navigationsbefehls usw.) und/oder ein Kommunikationssystem (z.B. zum Verbinden mit einer entfernten Kommunikationszentrale) steuern.
-
Bei Block 306 überwacht der Schnüffelmotor 108 eine Aktivität von mindestens einem der Vielzahl von digitalen Assistenten, um zu bestimmen, ob einer der Vielzahl von digitalen Assistenten die Äußerung als WUW erkennt. Wenn einer der digitalen Assistenten die Äußerung als WUW erkennt, gilt der Assistent als aktiv. In Beispielen beinhaltet das Überwachen der Aktivität von mindestens einem der Vielzahl von digitalen Assistenten das Erfassen, ob mindestens einer der Vielzahl von digitalen Assistenten eine Sprachaktivität, eine Musikaktivität usw. ausführt. In einigen Beispielen wird die Aktivität von mindestens einem der Vielzahl von digitalen Assistenten direkt durch mindestens einen der Vielzahl von digitalen Assistenten bereitgestellt. Die Aktivität kann einen Aktivitätsstatus (z.B. aktiv, inaktiv usw.) und eine Aktivitätsart (z.B. Musik abspielen, erzählen, einen Anruf ermöglichen usw.) einschließen.
-
Wenn einer der Vielzahl von digitalen Assistenten die Äußerung als WUW erkennt, kann die Audiobrückenmaschine 106 das Streaming von zusätzlichen Äußerungen zu den anderen digitalen Assistenten deaktivieren, die die Äußerung nicht als WUW bei Block 308 erkannt haben. In einigen Beispielen kann die Deaktivierung jedoch auf einer Aktivitätsklassifizierung des aktiven Assistenten basieren. Wenn der Aktivitätsklassifizierer 214 beispielsweise feststellt, dass der Assistent (z.B. der Telefonassistent 111) Musik abspielt, kann es vorteilhaft sein, die anderen Assistenten nicht zu deaktivieren, wenn der Benutzer 101 einen der anderen Assistenten (z.B. den Autoassistenten 113, den Assistenten 115) aktivieren möchte, indem er eines der WUWs dieser Assistenten ausspricht. Dadurch können die anderen Assistenten auch dann aktiv werden, wenn der bereits aktive Assistent z.B. Musik spielt.
-
Zusätzliche Prozesse können ebenfalls einbezogen werden, und es ist zu verstehen, dass die in 3 dargestellten Prozesse Bilder darstellen und dass andere Prozesse hinzugefügt oder bestehende Prozesse entfernt, modifiziert oder neu angeordnet werden können, ohne vom Umfang und Geist der vorliegenden Offenbarung abzuweichen.
-
4 stellt ein Flussdiagramm eines Verfahrens zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Aspekten der vorliegenden Offenbarung dar. Das Verfahren 400 kann beispielsweise durch das Verarbeitungssystem 100 von 1, durch das Verarbeitungssystem 500 von 5 oder durch ein anderes geeignetes Verarbeitungssystem oder eine andere Vorrichtung implementiert werden.
-
Bei Block 402 ist die Audiobrückenmaschine 106 aktiv. Beim Entscheidungsblock 404 wird bestimmt, ob ein erster Assistent durch die Äußerung (z.B. Wake-up-Wort) ausgelöst wird. Wenn nicht, wird bei Entscheidungsblock 406 bestimmt, ob durch die Äußerung ein zweiter Assistent ausgelöst wird. Wenn nicht, wird bei Entscheidungsblock 408 bestimmt, ob ein dritter Assistent durch die Äußerung ausgelöst wird. Wenn nicht, kehrt das Verfahren 400 zu Block 402 zurück. In anderen Beispielen könnte jedoch bestimmt werden, ob ein zusätzlicher Assistent(en) durch die Äußerung ausgelöst wird.
-
Wird bei einem der Entscheidungsblöcke 404, 406, 408 bestimmt, dass der jeweilige Assistent ausgelöst wird, schließt (oder deaktiviert) die Audiobrückenmaschine 106 die kommunikative Verbindung zu den anderen Assistenten, so dass nur die durch die Äußerung ausgelöste aktiv ist. Wenn beispielsweise bei Entscheidungsblock 406 bestimmt wird, dass der zweite Assistent durch die Äußerung ausgelöst wird, wird die Audiobrücke für die Assistenten 1 und 3 bei Block 410 geschlossen. Das Verfahren 400 fährt mit dem Entscheidungsblock 412 fort, in dem bestimmt wird, ob der aktuelle Assistent aktiv ist (z.B. Musik abspielen, Text erzählen, Navigationsinformationen bereitstellen, etc.). Wenn ja, bleibt die Audiobrückenmaschine 106 für andere Assistenten geschlossen. Wenn der ausgelöste Assistent jedoch nicht mehr aktiv ist, wie bei Entscheidungsblock 412 festgelegt, kehrt das Verfahren 400 zu Block 402 zurück, und die Audiobrückenmaschine 106 ist für alle Assistenten offen.
-
Zusätzliche Prozesse können ebenfalls einbezogen werden, und es ist zu verstehen, dass die in 4 dargestellten Prozesse Abbildungen darstellen und dass andere Prozesse hinzugefügt oder bestehende Prozesse entfernt, modifiziert oder neu angeordnet werden können, ohne vom Umfang und Geist der vorliegenden Offenbarung abzuweichen.
-
Wie hierin beschrieben, können die vorliegenden Techniken durch verschiedene Verarbeitungsvorrichtungen und/oder -systeme implementiert werden. 5 veranschaulicht beispielsweise ein Blockdiagramm eines Verarbeitungssystems 500 zur Implementierung der hierin beschriebenen Techniken. In Beispielen weist das Verarbeitungssystem 500 eine oder mehrere zentrale Verarbeitungseinheiten (Prozessoren) 521a, 521b, 521c, usw. auf. zusammen oder allgemein als Prozessor(en) 521 und/oder als Verarbeitungsgerät(e) bezeichnet. In Aspekten der vorliegenden Offenbarung kann jeder Prozessor 521 einen RISC-Mikroprozessor (Reduced Instruction Set Computer) beinhalten. Die Prozessoren 521 sind über einen Systembus 533 mit dem Systemspeicher (z.B. Arbeitsspeicher (RAM) 524) und verschiedenen anderen Komponenten gekoppelt. Der „Read-Only-Memory“ (ROM) 522 ist mit dem Systembus 533 gekoppelt und kann ein Basis-Ein/Ausgabesystem (BIOS) beinhalten, das bestimmte Grundfunktionen des Verarbeitungssystems 500 steuert.
-
Weitere Beispiele sind ein Ein-/Ausgangs-(I/O)-Adapter 527 und ein Netzwerkadapter 526, der mit dem Systembus 533 gekoppelt ist. Der I/O-Adapter 527 kann ein SCSI-Adapter („Small Computer System Interface“) sein, der mit einer Festplatte 523 und/oder einem anderen Speicherlaufwerk 525 oder einer anderen ähnlichen Komponente kommuniziert. I/O-Adapter 527, Festplatte 523 und Speichervorrichtung 525 werden hierin gemeinsam als Massenspeicher 534 bezeichnet. Das Betriebssystem 540 zur Ausführung auf dem Verarbeitungssystem 500 kann im Massenspeicher 534 gespeichert werden. Ein Netzwerkadapter 526 verbindet den Systembus 533 mit einem externen Netzwerk 536, so dass das Verarbeitungssystem 500 mit anderen solchen Systemen kommunizieren kann.
-
Eine Anzeige (z.B. ein Anzeigemonitor) 535 ist über den Anzeigeadapter 532 mit dem Systembus 533 verbunden, der eine Grafikkarte zur Verbesserung der Leistung von grafik- und rechenintensiven Anwendungen und eine Videosteuerung enthalten kann. In einem Aspekt der vorliegenden Offenbarung können die Adaptoren 526, 527 und/oder 532 an einen oder mehrere I/O-Busse angeschlossen werden, die über eine Zwischenbusbrücke mit dem Systembus 533 verbunden sind (nicht dargestellt). Geeignete I/O-Busse zum Anschließen von Peripheriegeräten, wie zum Beispiel Festplattensteuerungen, Netzwerkadaptern und Grafikadaptern, beinhalten üblicherweise gemeinsame Protokolle, wie „Peripheral Component Interconnect“ (PCI). Zusätzliche Ein-/Ausgabegeräte werden so dargestellt, wie sie über den Benutzeroberflächenadapter 528 und den Anzeigeadapter 532 an den Systembus 533 angeschlossen sind. Eine Tastatur 529, Maus 530 und Lautsprecher 531 können über den Benutzeroberflächenadapter 528 mit dem Systembus 533 verbunden werden, der beispielsweise einen Super-I/O-Chip beinhalten kann, welcher mehrere Geräteadapter in einer einzigen integrierten Schaltung integriert.
-
In einigen Aspekten der vorliegenden Offenbarung beinhaltet das Verarbeitungssystem 500 eine Grafikverarbeitungseinheit 537. Die Grafikverarbeitungseinheit 537 ist eine spezielle elektronische Schaltung, die entwickelt wurde, um den Speicher zu manipulieren und zu ändern, um die Erzeugung von Bildern in einem Rahmenpuffer zu beschleunigen, der zur Ausgabe auf eine Anzeige bestimmt ist. Im Allgemeinen ist die Grafikverarbeitungseinheit 537 sehr effizient bei der Manipulation von Computergrafik und Bildverarbeitung und hat eine hochparallele Struktur, die sie effektiver macht als Universal-CPUs für Algorithmen, bei denen die Verarbeitung großer Datenblöcke parallel erfolgt.
-
So beinhaltet das Verarbeitungssystem 500, wie hierin konfiguriert, die Verarbeitungsfähigkeit in Form von Prozessoren 521, die Speicherfähigkeit einschließlich Systemspeicher (z.B. RAM 524) und Massenspeicher 534, Eingabemittel wie Tastatur 529 und Maus 530 sowie die Ausgabefähigkeit einschließlich Lautsprecher 531 und Anzeige 535. In einigen Aspekten der vorliegenden Offenbarung speichern ein Teil des Systemspeichers (z.B. RAM 524) und der Massenspeicher 534 gemeinsam ein Betriebssystem, um die Funktionen der verschiedenen im Verarbeitungssystem 500 dargestellten Komponenten zu koordinieren.
-
Die Beschreibungen der verschiedenen Beispiele der vorliegenden Offenbarung wurden zu Zwecken der Veranschaulichung vorgestellt, sind aber nicht als erschöpfend oder beschränkt auf die offenbarten Ausführungsformen gedacht. Viele Modifikationen und Variationen sind für den Fachmann offensichtlich, ohne von dem Umfang und dem Gedanken der beschriebenen Techniken abzuweichen. Die hier verwendete Terminologie wurde ausgewählt, um die Prinzipien der vorliegenden Techniken, die praktische Anwendung oder technische Verbesserung gegenüber Technologien, die auf dem Markt gefunden wurden, am besten zu erläutern oder anderen Fachleuten auf dem Gebiet zu ermöglichen, die hierin offenbarten Techniken zu verstehen.
-
Während die obige Offenbarung mit Bezug auf exemplarische Ausführungsformen beschrieben wurde, werden Fachleute verstehen, dass unterschiedliche Änderungen vorgenommen und die einzelnen Teile durch entsprechende andere Teile ausgetauscht werden können, ohne vom Umfang der Offenbarung abzuweichen. Darüber hinaus können viele Modifikationen vorgenommen werden, um eine bestimmte Materialsituation an die Lehren der Offenbarung anzupassen, ohne von deren wesentlichem Umfang abzuweichen. Daher ist vorgesehen, dass die vorliegende Offenbarung nicht auf die speziellen offenbarten Ausführungsformen beschränkt ist, aber alle Ausführungsformen beinhaltet, die in deren Umfang fallen.