DE102018126871A1 - Erkennung von Wake-up-Wörtern - Google Patents

Erkennung von Wake-up-Wörtern Download PDF

Info

Publication number
DE102018126871A1
DE102018126871A1 DE102018126871.8A DE102018126871A DE102018126871A1 DE 102018126871 A1 DE102018126871 A1 DE 102018126871A1 DE 102018126871 A DE102018126871 A DE 102018126871A DE 102018126871 A1 DE102018126871 A1 DE 102018126871A1
Authority
DE
Germany
Prior art keywords
digital assistants
utterance
wake
word
activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102018126871.8A
Other languages
English (en)
Inventor
Eli Tzirkel-Hancock
Oana Sidi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102018126871A1 publication Critical patent/DE102018126871A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4418Suspend and resume; Hibernate and awake
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)

Abstract

Beispiele für Techniken zur Erkennung von Wake-up-Wörtern werden vorgestellt. In einer exemplarischen Implementierung beinhaltet ein computerimplementiertes Verfahren das Empfangen einer Äußerung von einem Benutzer durch eine Verarbeitungsvorrichtung. Das Verfahren beinhaltet ferner das Streaming der Äußerung zu jedem einzelnen aus einer Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung. Das Verfahren beinhaltet ferner das Überwachen einer Aktivität von mindestens einem der Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung, um zu bestimmen, ob einer der Vielzahl von digitalen Assistenten die Äußerung als Aufwachwort erkennt. Das Verfahren beinhaltet ferner, als Reaktion auf das Bestimmen, dass einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt, das Deaktivieren des Streamings zusätzlicher Äußerungen durch die Verarbeitungsvorrichtung zu einer Teilmenge der Vielzahl von digitalen Assistenten, die die Äußerung nicht als Wake-up-Wort erkennen.

Description

  • EINLEITUNG
  • Die vorliegende Offenbarung bezieht sich im Allgemeinen auf die Spracherkennung und Sprachsynthese und insbesondere auf die Erkennung von Wake-up-Wörtern.
  • Die Spracherkennung (oder „automated speech recognition“ (ASR)) ermöglicht es Computern, gesprochene Sprache zu erkennen und die gesprochene Sprache in Texte oder Absichten zu übersetzen. ASR-fähige Computergeräte können gesprochene Spracheingaben von einem Benutzer empfangen und die gesprochene Spracheingabe in einen Text übersetzen, den das Computergerät verstehen kann. Auf diese Weise kann beispielsweise das Computergerät eine Aktion ausführen, wenn es eine gesprochene Spracheingabe erhält. Wenn ein Benutzer beispielsweise „Ruf zu Hause an“ sagt, kann ein mit ASR aktiviertes Computergerät die Satzformulierung erkennen und übersetzen und einen Anruf starten. ASR kann durch die Erkennung eines einzelnen Wortes oder einer einzelnen Satzformulierung ausgelöst werden, die als „Wake-up-Word“ (WUW) bezeichnet wird und die, wenn sie von einem Benutzer gesprochen wird, von einem ASR-fähigen Computergerät erkannt wird, um die ASR auszulösen.
  • KURZDARSTELLUNG
  • Die computerimplementierte Methode zur Erkennung von Wake-up-Wörtern (WUW) beinhaltet in einer exemplarischen Ausführungsform das Empfangen einer Äußerung eines Benutzers durch eine Verarbeitungsvorrichtung. Das Verfahren beinhaltet ferner das Streaming der Äußerung zu jedem einzelnen einer Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung. Das Verfahren beinhaltet des Weiteren das Überwachen einer Aktivität von mindestens einem der Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung, um zu ermitteln, ob einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt. Das Verfahren beinhaltet ferner, als Reaktion auf das Bestimmen, dass einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-Up-Wort erkennt, das Deaktivieren des Streamings zusätzlicher Äußerungen durch die Verarbeitungsvorrichtung zu einer Teilmenge der Vielzahl von digitalen Assistenten, die die Äußerung nicht als Wake-Up-Wort erkennen.
  • In einigen Beispielen ist zumindest einer der Vielzahl von digitalen Assistenten ein telefonbasierter digitaler Assistent. In einigen Beispielen ist zumindest einer der Vielzahl von digitalen Assistenten ein fahrzeugbasierter digitaler Assistent. Der fahrzeugbasierte digitale Assistent kann in einigen Beispielen mindestens eines aus einem Telematiksystem eines Fahrzeugs, einem Infotainmentsystem des Fahrzeugs und einem Kommunikationssystem des Fahrzeugs steuern. In einigen Beispielen umfasst das Überwachen der Aktivität von mindestens einem der Vielzahl von digitalen Assistenten ferner das Erkennen, ob mindestens einer der Vielzahl von digitalen Assistenten eine Sprachaktivität ausführt. In einigen Beispielen umfasst das Überwachen der Aktivität von mindestens einem der Vielzahl von digitalen Assistenten ferner das Erkennen, ob mindestens einer der Vielzahl von digitalen Assistenten eine Musikaktivität ausführt. In einigen Beispielen basiert das Deaktivieren des Streamings zusätzlicher Äußerungen zu einer Teilmenge der Vielzahl von digitalen Assistenten zumindest teilweise auf einer Aktivitätsklassifizierung des einen aus der Vielzahl von digitalen Assistenten, die die Äußerung als Wake-up-Wort erkennen. In einigen Beispielen wird das Streaming von zusätzlichen Äußerungen zur Teilmenge der Vielzahl von digitalen Assistenten deaktiviert, wenn die Aktivitätsklassifizierung eine erste Aktivitätsklassifizierung darstellt, und das Streaming von zusätzlichen Äußerungen zur Teilmenge der Vielzahl von digitalen Assistenten wird aktiviert, wenn die Aktivitätsklassifizierung eine zweite Aktivitätsklassifizierung darstellt. In einigen Beispielen ist die erste Aktivitätsklassifizierung ein Telefonat oder ein Textkommentar, wobei die zweite Aktivitätsklassifizierung das Abspielen von Musik ist. Gemäß den Aspekten der vorliegenden Offenbarung beinhaltet das Verfahren ferner als Reaktion auf das Bestimmen, dass der eine aus der Vielzahl von digitalen Assistenten, der die Äußerung als Wake-up-Wort erkennt, nicht mehr aktiv ist, und ermöglicht durch die Verarbeitungsvorrichtung das Streaming zusätzlicher Äußerungen zu der Vielzahl von digitalen Assistenten. In einigen Beispielen wird die Aktivität von mindestens einem der Vielzahl von digitalen Assistenten durch den mindestens einen der Vielzahl von digitalen Assistenten bereitgestellt, wobei die Aktivität einen Aktivitätsstatus und eine Aktivitätsart umfasst.
  • In einer weiteren exemplarischen Ausführungsform beinhaltet ein System zur Erkennung von Wake-up-Wörtern (WUW) einen Speicher mit computerlesbaren Befehlen und eine Verarbeitungsvorrichtung zum Ausführen der computerlesbaren Befehle zum Ausüben eines Verfahrens. In Anwendungsbeispielen beinhaltet das Verfahren das Empfangen einer Äußerung von einem Benutzer durch eine Verarbeitungsvorrichtung. Das Verfahren beinhaltet ferner das Streaming der Äußerung zu jedem einzelnen aus einer Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung. Das Verfahren beinhaltet ferner das Überwachen einer Aktivität von mindestens einem der Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung, um zu bestimmen, ob einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt. Das Verfahren beinhaltet ferner, als Reaktion auf das Bestimmen, dass einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt, das Deaktivieren des Streamings zusätzlicher Äußerungen durch die Verarbeitungsvorrichtung zu einer Teilmenge der Vielzahl von digitalen Assistenten, die die Äußerung nicht als Wake-up-Wort erkennen.
  • In einigen Beispielen ist mindestens einer der Vielzahl von digitalen Assistenten ein telefonbasierter digitaler Assistent. In einigen Beispielen ist mindestens einer der Vielzahl von digitalen Assistenten ein fahrzeugbasierter digitaler Assistent. In einigen Beispielen kann der fahrzeugbasierte digitale Assistent mindestens eines von einem Telematiksystem eines Fahrzeugs, einem Infotainmentsystem des Fahrzeugs und einem Kommunikationssystem des Fahrzeugs steuern. In einigen Beispielen umfasst das Überwachen der Aktivität von mindestens einem der Vielzahl von digitalen Assistenten ferner das Bestimmen, ob mindestens einer der Vielzahl von digitalen Assistenten eine Sprachaktivität ausführt. In einigen Beispielen umfasst das Überwachen der Aktivität von mindestens einem der Vielzahl von digitalen Assistenten ferner das Bestimmen, ob mindestens einer der Vielzahl von digitalen Assistenten eine musikalische Aktivität ausführt. In einigen Beispielen basiert das Deaktivieren des Streamings zusätzlicher Äußerungen zu einer Teilmenge der Vielzahl von digitalen Assistenten zumindest teilweise auf einer Aktivitätsklassifizierung des einen aus der Vielzahl von digitalen Assistenten, die die Äußerung als Wake-up-Wort erkennen. In einigen Beispielen wird das Streaming von zusätzlichen Äußerungen zur Teilmenge der Vielzahl von digitalen Assistenten deaktiviert, wenn die Aktivitätsklassifizierung eine erste Aktivitätsklassifizierung ist, das Streaming von zusätzlichen Äußerungen zur Teilmenge der Vielzahl von digitalen Assistenten aktiviert wird, wenn die Aktivitätsklassifizierung eine zweite Aktivitätsklassifizierung ist und die erste Aktivitätsklassifizierung ein Telefonanruf oder Textkommentar ist, und worin die zweite Aktivitätsklassifizierung Musik spielt.
  • In noch einer anderen exemplarischen Ausführungsform beinhaltet ein Computerprogrammprodukt zur Wake-up-Wort- (WUW)-Erkennung ein computerlesbares Speichermedium mit damit verkörperten Programmbefehlen, wobei die Programmbefehle von einer Verarbeitungsvorrichtung ausgeführt werden können, um die Verarbeitungsvorrichtung zum Durchführen eines Verfahrens zu veranlassen. In Beispielen beinhaltet das Verfahren das Empfangen einer Äußerung von einem Benutzer durch eine Verarbeitungsvorrichtung. Das Verfahren beinhaltet ferner das Streaming der Äußerung zu jedem einzelnen aus einer Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung. Das Verfahren beinhaltet ferner das Überwachen einer Aktivität von mindestens einem der Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung, um zu bestimmen, ob einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt. Das Verfahren beinhaltet ferner das Ansprechen auf das Bestimmen, dass einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt, das Deaktivieren des Streamings zusätzlicher Äußerungen durch die Verarbeitungsvorrichtung zu einer Teilmenge der Vielzahl von digitalen Assistenten, die die Äußerung nicht als Wake-up-Wort erkennen.
  • Die oben genannten Eigenschaften und Vorteile sowie anderen Eigenschaften und Funktionen der vorliegenden Offenbarung gehen aus der folgenden ausführlichen Beschreibung in Verbindung mit den zugehörigen Zeichnungen ohne Weiteres hervor.
  • Figurenliste
  • Weitere Merkmale, Vorteile und Details erscheinen exemplarisch nur in der folgenden Detailbeschreibung, die sich auf die Zeichnungen bezieht:
    • 1 stellt ein Verarbeitungssystem zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Aspekten der vorliegenden Offenbarung dar;
    • 2 stellt ein Blockdiagramm eines Schnüffelmotors für die Wake-up-Word (WUW)-Erkennung dar, entsprechend den Aspekten der vorliegenden Offenbarung;
    • 3 stellt ein Flussdiagramm eines Verfahrens zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Merkmalen der vorliegenden Offenbarung dar;
    • 4 stellt ein Flussdiagramm eines Verfahrens zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Merkmalen der vorliegenden Offenbarung dar; und
    • 5 stellt ein Blockdiagramm eines Verarbeitungssystems zur Implementierung der hierin beschriebenen Techniken gemäß den Merkmalen der vorliegenden Offenbarung dar.
  • Die oben genannten Eigenschaften und Vorteile sowie anderen Eigenschaften und Funktionen der vorliegenden Offenbarung gehen aus der folgenden ausführlichen Beschreibung in Verbindung mit den zugehörigen Zeichnungen ohne Weiteres hervor.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Die folgende Beschreibung ist lediglich exemplarischer Natur und nicht dazu gedacht, die vorliegende Offenbarung in ihren An- oder Verwendungen zu beschränken. Es sollte verstanden werden, dass in den Zeichnungen entsprechende Bezugszeichen gleiche oder entsprechende Teile und Merkmale bezeichnen. Der hier verwendete Begriff „Modul“ bezieht sich auf eine Verarbeitungsschaltung, die eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam genutzt, dediziert oder gruppiert) und einen Speicher, der ein oder mehrere Software- oder Firmwareprogramme, eine kombinatorische Logikschaltung und/oder andere geeignete Komponenten ausführt, die die beschriebene Funktionalität bieten, beinhalten kann.
  • Die hierin beschriebenen technischen Lösungen sehen eine Erkennung des Wake-up-Word (WUW) vor. Insbesondere ermöglichen die hierin vorgesehenen technischen Lösungen es dem Benutzer, mit einem Wake-up-Wort auf einen gewünschten digitalen Assistenten (z.B. Smartphone-Assistenten, Fahrzeugassistenten usw.) zuzugreifen. In einem Fahrzeug ist es beispielsweise möglich, dass ein Benutzer Zugriff auf einen Telefonassistenten, einen integrierten Fahrzeugassistenten oder einen anderen Assistenten erhält. Mit Wake-up-Wörtern kann auf die verschiedenen digitalen Assistenten zugegriffen werden. In einigen Fällen ist es möglich, jeden digitalen Assistenten zu aktivieren, indem der Benutzer das Wake-up-Wort für diesen Assistenten ausspricht.
  • In bestehenden Implementierungen kann es erforderlich sein, dass ein Benutzer einen Standard-Digitalassistenten auswählen muss, und der Wechsel zwischen digitalen Assistenten gestaltet sich für den Benutzer umständlich. In der Fahrzeugeinstellung beinhaltet eine mögliche Implementierung das automatische Spracherkennungssystem (ASR) eines Fahrzeugs, das eine Äußerung eines Benutzers erkennt und bestimmt, ob es sich bei der Äußerung um ein WUW handelt. Wenn es sich um ein WUW handelt, leitet das ASR-System das WUW (und ggf. einen nachfolgenden Befehl) an den entsprechenden digitalen Assistenten auf der Basis des WUW weiter. WUW-Erkennungstechniken können jedoch zu Inkonsistenzen zwischen der Vielzahl der digitalen Assistenten führen und/oder ein einzelner digitaler Assistent kann seine eigene Erkennung eines WUW vornehmen. Diese aktuellen Techniken können daher zu Verwirrung unter den digitalen Assistenten führen. Wenn das ASR-System ein WUW nicht erkennt oder den richtigen digitalen Assistenten nicht aktiviert, kann dies zu schlechter Leistung, schlechter Benutzererfahrung und schlechter Einschätzung des Systemwertes für den Benutzer führen.
  • Eine weitere Möglichkeit, diese Inkonsistenzen abzugleichen und zu beheben, besteht darin, dass der Benutzer anstelle eines WUWs einen Assistenten durch Tastendruck auslöst. So löst beispielsweise ein kurzer Tastendruck einen digitalen Assistenten (z.B. den digitalen Assistenten eines Smartphones) und ein langer Tastendruck einen weiteren digitalen Assistenten (z.B. den digitalen Assistenten des Fahrzeugs) aus.
  • Die hierin beschriebenen Techniken beheben diese Mängel, indem sie Äußerungen kontinuierlich an mehrere digitale Assistenten weiterleiten, um die optimierten WUW-Detektoren der Assistenten für beste Leistung zu nutzen und Inkonsistenzen bei der WUW-Erkennung im ASR-System des Fahrzeugs zu vermeiden. Die vorliegenden Techniken überwachen außerdem auf intelligente Weise die Tätigkeit der Assistenten, um den gegenseitigen Ausschluss anderer digitaler Assistenten zu ermöglichen. Es ist zu beachten, dass die hierin beschriebenen Techniken auf jede geeignete Technologie oder Vorrichtung, wie z.B. Objekte des Internet der Dinge (z.B. Smartphones, Smart TVs, Home Speakers, Thermostate, etc.) angewendet oder in diese implementiert werden können.
  • Der Begriff Internet der Dinge (IoT)-Objekt wird hierin verwendet, um ein Objekt (z.B. ein Gerät, einen Sensor usw.) zu bezeichnen, das eine adressierbare Schnittstelle (z.B. eine Internetprotokoll-(IP)-Adresse, eine Bluetooth-Kennung (ID), eine Nahfeldkommunikations-(NFC)-ID usw.) aufweist und Informationen über eine drahtgebundene oder drahtlose Verbindung an ein oder mehrere andere Objekte übertragen kann. Ein IoT-Objekt kann eine passive Kommunikationsschnittstelle aufweisen, wie beispielsweise einen Quick Response (QR)-Code, einen Radiofrequenz-Identifikations-(RFID)-Tag, einen Near Field Communication (NFC)-Tag oder dergleichen, oder eine aktive Kommunikationsschnittstelle, wie beispielsweise ein Modem, einen Transceiver, einen Sender-Empfänger oder dergleichen. Ein IoT-Objekt kann eine bestimmte Menge von Attributen haben (z.B, einen Vorrichtungszustand oder -status, etwa ob das IoT-Objekt ein- oder ausgeschaltet, geöffnet oder geschlossen, untätig oder aktiv ist, zur Aufgabenausführung verfügbar oder besetzt ist, eine Kühl- oder Heizfunktion, eine Umweltüberwachungs- oder -aufzeichnungsfunktion, eine lichtemittierende Funktion, eine Geräuschemissionsfunktion usw.), der in eine zentrale Verarbeitungseinheit (CPU), einen Mikroprozessor, einen ASIC oder dergleichen eingebettet und/oder gesteuert/überwacht werden kann und für die Verbindung mit einem IoT-Netzwerk wie einem lokalen Ad-hoc-Netzwerk oder dem Internet konfiguriert ist. IoT-Objekte können beispielsweise Fahrzeuge, Fahrzeugkomponenten, Fahrzeugsysteme und -subsysteme, Kühlschränke, Toaster, Öfen, Mikrowellen, Gefrierschränke, Geschirrspüler, Geschirr, Handwerkzeuge, Wäschewaschmaschinen, Wäschetrockner, Öfen, Heizungs-, Lüftungs-, Klima- und Kälteanlagen (HLKR), Klimaanlagen, Thermostate, intelligente Fernseher, Brandmelde- und Schutzsysteme, Brand-, Rauch- und Kohlendioxidmelder, Zugangs-/Videosicherheitssysteme, Aufzugs- und Rolltreppensysteme, Brenner- und Kesselregelungen, Gebäudemanagementsteuerungen, Fernseher, Beleuchtungskörper, Staubsauger, Berieselungsgeräte, Stromzähler, Gaszähler, etc. beinhalten, sofern die Geräte mit einer adressierbaren Kommunikationsschnittstelle zur Kommunikation mit dem IoT-Netzwerk ausgestattet sind. IoT-Objekte umfassen auch Mobiltelefone, Desktop-Computer, Laptops, Tablet-Computer, Personal Digital Assistants (PDAs), etc. Dementsprechend kann das IoT-Netzwerk eine Kombination von „älteren“ internetfähigen Geräten (z.B. Laptop- oder Desktop-Computer, Mobiltelefone usw.) zusätzlich zu Geräten beinhalten, die typischerweise keine Internetverbindung haben (z.B. Geschirrspüler usw.).
  • Nach einem Beispiel der vorliegenden Offenbarung ist eine Wake-Up-Wort-Erkennung vorgesehen. Eine Äußerung wird von einem Benutzer empfangen und an eine Vielzahl von digitalen Assistenten gestreamt. Die Tätigkeit der digitalen Assistenten wird überwacht, um zu ermitteln, ob (und wenn ja, welche) der digitalen Assistenten die Äußerung als Wake-up-Wort erkennen. Als Reaktion auf einen der digitalen Assistenten, der das WUW erkennt, ist das Streaming zu den anderen digitalen Assistenten deaktiviert.
  • Ausführungsbeispiele für die Offenbarung beinhalten oder ergeben verschiedene technische Merkmale, technische Auswirkungen und/oder Verbesserungen der Technologie. Beispielausführungsformen der Offenbarung bieten Techniken zur Erkennung von Aufwachwörtern, indem sie eine Äußerung an mehrere digitale Assistenten streamen, die Aktivität der digitalen Assistenten überwachen, um festzustellen, ob sie die Äußerung als Aufwachwort erkennen, und dann das Streamen an andere digitale Assistenten deaktivieren, wenn einer der digitalen Assistenten aktiv ist (d.h. das Wake-Up-Wort erkennt). Diese Aspekte der Offenbarung stellen technische Merkmale dar, die den technischen Effekt haben, mehrere digitale Assistenten zu unterstützen, während sie die Verwirrung zwischen mehreren digitalen Assistenten verringern, die Benutzererfahrung bei der Verwendung von Wake-up-Wörtern mit digitalen Assistenten verbessern, die Aktivierung eines falschen digitalen Assistenten verhindern und dergleichen. Die vorliegenden Techniken tragen auch dazu bei, Fehlerkennungen eines Wake-up-Worts zu verhindern, z.B. durch das ASR-System eines Fahrzeugs, was die gesamte Interaktion des digitalen Assistenten verbessert. Aufgrund dieser technischen Merkmale und technischen Effekte stellt die Wake-up-Wort-Erkennung gemäß exemplarischer Ausführungsformen der Offenbarung eine Verbesserung der bestehenden digitalen Assistenten-, Wake-up-Wort- und ASR-Technologien dar. Darüber hinaus werden Computersysteme, die die derzeitigen Techniken implementieren, verbessert, indem weniger Speicher- und Verarbeitungsressourcen verbraucht werden, was auf eine geringere Fehlerkennung von Wake-up-Wörtern und das Deaktivieren von Mehrfach-Streaming zurückzuführen ist. Es ist zu beachten, dass die obigen Beispiele für technische Merkmale, technische Auswirkungen und Verbesserungen der Technologie, wie beispielsweise die Ausführungsformen der Offenbarung, lediglich illustrativ und nicht vollständig sind.
  • 1 stellt ein Verarbeitungssystem 100 zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Aspekten der vorliegenden Offenbarung dar. Das Verarbeitungssystem 100 beinhaltet eine Verarbeitungsvorrichtung 102, einen Speicher 104, eine Audiobrückenmaschine 106, einen ersten Assistenzklienten 110, einen zweiten Assistenzklienten 112, einen dritten Assistenzklienten 114 und Schnüffelmaschinen 108.
  • Die verschiedenen Komponenten, Module, Motoren usw., die in 1 (und 2) beschrieben sind, können als Anweisungen, die auf einem computerlesbaren Speichermedium gespeichert sind, als Hardwaremodule, als Spezialhardware (z.B. anwendungsspezifische Hardware, anwendungsspezifische integrierte Schaltungen (ASICs), als Embedded Controller, fest verdrahtete Schaltungen usw.) oder als Teilkombination oder Kombinationen davon ausgeführt werden.
  • In Beispielen können die hierin beschriebenen Motoren eine Kombination aus Hardware und Programmierung darstellen. Die Programmierung kann eine ausführbare Prozessoranweisung darstellen, die auf einem konkreten Speicher gespeichert ist, und die Hardware kann die Verarbeitungsvorrichtung 102 zum Ausführen dieser Anweisungen beinhalten. Somit kann ein Systemspeicher (z. B. der Speicher 104) Programmanweisungen speichern, die beim Ausführen durch die Verarbeitungsvorrichtung 102 die hierin beschriebenen Maschinen implementieren. Andere Motoren sind auch geeignet, um andere Funktionen und Funktionen zu integrieren, die in anderen Beispielen beschrieben sind. Alternativ oder zusätzlich dazu kann das Verarbeitungssystem 100 dedizierte Hardware, wie eine oder mehrere integrierte Schaltungen, ASICs, anwendungsspezifische Spezialprozessoren (ASSPs), feldprogrammierbare Gate-Arrays (FPGAs) oder eine beliebige Kombination der vorstehenden Beispiele dedizierter Hardware, zur Durchführung der hierin beschriebenen Techniken beinhalten.
  • Die Audiobrückenmaschine (audio bridge engine) 106 empfängt eine Äußerung von einem Benutzer 101. Die Äußerung kann ein Wort, eine Phrase oder ein anderer Stimmklang sein, der beispielsweise von einem Mikrofon (nicht dargestellt) des Verarbeitungssystems 100 erfasst wird. Die Audiobrückenmaschine 106 überträgt die Äußerung an die ersten, zweiten und dritten Assistenzklienten 110, 112, 114. Die Assistenzklienten 110, 112, 114 können mit verschiedenen digitalen Assistenten interagieren, wie beispielsweise einem Telefonassistenten 111, einem Autoassistenten 113, einem anderen Assistenten 115 oder einem anderen geeigneten digitalen Assistenten. Durch das Streamen der Äußerung, bei der es sich um ein WUW handeln kann oder auch nicht, kann die Audiobrückenmaschinen 106 die 111, 113, 115 WUW-Erkennungen der Assistenten optimal nutzen und Inkonsistenzen bei der WUW-Erkennung vermeiden.
  • Jeder der Assistenzklienten 110, 112, 114 erhält die Äußerung 109. Es sollte jedoch beachtet werden, dass die Äußerung ein WUW sein kann oder auch nicht. Die Äußerung 109 wird bei jedem der Assistenzklienten 110, 112, 114 von der Audiobrückenmaschine 106 empfangen, und die Äußerung 109 wird an die jeweiligen digitalen Assistenten 111, 113, 115 gesendet. So sendet beispielsweise der erste Assistenzklient 110 die Äußerung 109 an den Telefonassistenten 111, der zweite Assistenzklient 112 sendet die Äußerung 109 an den Autoassistenten 113 und der dritte Assistenzklient 114 sendet die Äußerung 109 an den Assistenten 115.
  • Sobald die digitalen Assistenten 111, 113, 115 die Äußerung 109 empfangen haben, bestimmt jeder der digitalen Assistenten 111, 113, 115 einzeln, ob die Äußerung 109 ein WUW ist. Der digitale Assistent 111, 113, 115, der bestimmt, dass die Äußerung 109 ein WUW für diesen digitalen Assistenten ist, wird als „aktiver“ Assistent bezeichnet, und der aktive Assistent kann eine Aktion basierend auf dem WUW durchführen. So kann beispielsweise der aktive Assistent dem Benutzer 101 eine visuelle, auditive und taktile Antwort geben, zusätzliche Äußerungen abwarten, die Befehle beinhalten können, und dergleichen.
  • Zwischen der Audiobrückenmaschine 106 und dem jeweiligen Assistenzklienten kann sich ein Schnüffelmotor 108 befinden. In dem Beispiel von 1 befindet sich ein Schnüffelmotor 108 zwischen dem Audiobrückenmaschine 106 und dem ersten Assistenzklienten 110 sowie zwischen der Audiobrückenmaschine 106 und dem dritten Assistenzklienten 114. Ein Schnüffelmotor befindet sich nicht zwischen dem Audiobrückenmaschine 106 und dem zweiten Assistenzklienten 112 im Beispiel von 1, weil beispielsweise der zweite Assistenzklient 112 seine Aktivität direkt an die Audiobrückenmaschine 106 ohne Schnüffelmotor anzeigen kann. In anderen Beispielen könnte jedoch ein Schnüffelmotor zwischen dem Audiobrückenmaschine 106 und dem zweiten Assistenzklienten 112 implementiert werden.
  • Der Schnüffelmotor 108 überwacht die Assistenztätigkeit, um den Ausschluss anderer Assistenten zu ermöglichen, so dass jeweils nur ein einziger digitaler Assistent aktiv ist. So kann beispielsweise der Schnüffelmotor 108 eine Antwort vom ersten Assistenzklienten 110 empfangen, wenn der Smartphone-Assistent 111 aktiv wird, und der Schnüffler 108 kann der Audiobrückenmaschine 106 anzeigen, dass der Telefonassistent 111 aktiv ist. Dadurch deaktiviert die Audiobrückenmaschine 106 über die Logik 107 die kommunikativen Verbindungen zwischen der Audiobrückenmaschine und den anderen Assistenzklienten (z.B. dem zweiten Assistenzklienten 112 und dem dritten Assistenzklienten 114). Dementsprechend werden alle zukünftigen Äußerungen des Benutzers 101 nur an den aktiven Assistenten (z.B. den Telefonassistenten 111) weitergeleitet. Dadurch wird verhindert, dass andere deaktivierte Assistenten (z.B. der Autoassistent 113 oder der Assistent 115) Störungen verursachen oder Aktionen durchführen. In einigen Beispielen kann die kommunikative Verbindung in der Audiobrückenmaschine 106 für die deaktivierten Assistenten inaktiv bleiben, bis der aktive Assistent nicht mehr aktiv ist, und zwar für einen vorbestimmten Zeitraum, während einer bestimmten Aktivitätsart usw.
  • 2 stellt ein Blockdiagramm eines Schnüffelmotors 108 zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Aspekten der vorliegenden Offenbarung dar. Der Schnüffelmotor 108 empfängt Audio 202 von einem digitalen Assistenten (z.B. einem der digitalen Assistenten 111, 113, 115). Der Schnüffelmotor 108 kann auch andere Modalitätsinformationen 204 empfangen, wie z.B. Text- oder grafische Widgetaktionen der Benutzeroberfläche oder Bilder aus dem digitalen Assistenten. Der Schnüffelmotor 108 kann das Audio 202 und/oder die anderen Modalitäteninformationen 204 verwenden, um eine Assistentenaktivität 206 zu bestimmen, die an die Audiobrückenmaschine 106 gesendet wird, die der Audiobrückenmaschine 106 anzeigt, ob der dem Schnüffelmotor 108 zugeordnete digitale Assistent aktiv oder inaktiv ist.
  • Der Schnüffler 108 beinhaltet eine Aktivitätsklassifikationsmaschine 214 zum Bestimmen der Assistentenaktivität 206. So kann beispielsweise die Aktivitätsklassifikationsmaschine 214 Informationen von einer Spracherkennungsmaschine 210 und/oder einer Musikerkennungsmaschine 212 empfangen. Die Spracherkennungsmaschine 210 erkennt eine Sprachaktivität des Assistenten (z.B. Fahrtrichtungen, Textkommentare usw.), und die Musikerkennungsmaschine 212 erkennt, ob eine Musikaktivität ausgeführt wird (z.B. ob vom Assistenten Musik abgespielt wird). In einem Beispiel kann der Schnüffler 108 bei erkannter Sprachaktivität anzeigen, dass der zugehörige Assistent aktiv ist, was die Audiobrückenmaschine 106 zu den anderen Assistenten zurückschließt. In einem weiteren Beispiel, wenn Musikaktivität erkannt wird, kann der Schnüffler 108 anzeigen, dass der zugehörige Assistent nicht aktiv ist, was die Audiobrückenmaschine 106 für die anderen Assistenten offen lässt. Dies ermöglicht es dem Benutzer 101, Musik z.B. von einem Gerät abzuspielen (mit einem Assistenten), während andere Geräte (mit anderen Assistenten) aufmerksam bleiben und bereit sind, ein Wake-up-Wort von dem Benutzer 101 zu empfangen.
  • 3 stellt ein Flussdiagramm eines Verfahrens zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Merkmalen der vorliegenden Offenbarung dar. Das Verfahren 300 kann beispielsweise durch das Verarbeitungssystem 100 von 1, durch das Verarbeitungssystem 500 von 5 oder durch ein anderes geeignetes Verarbeitungssystem oder eine andere Verarbeitungsvorrichtung (z.B. die Verarbeitungsvorrichtung 102, Prozessor 521, etc.) implementiert werden.
  • Bei Block 302 empfängt die Audiobrückenmaschine 106 eine Äußerung des Benutzers 101. Bei Block 304 überträgt die Audiobrückenmaschine 106 die Äußerung an jeden von mehreren digitalen Assistenten (z.B. den Telefonassistenten 111, den Autoassistenten 113, den Assistenten 115), usw. In einem Beispiel ist mindestens einer der digitalen Assistenten ein telefonbasierter digitaler Assistent (d.h. ein digitaler Assistent, der auf einem Telefon, wie beispielsweise einem Smartphone, läuft oder in dieses integriert ist), wie beispielsweise der Telefonassistent 111. In einem weiteren Beispiel ist mindestens einer der digitalen Assistenten ein fahrzeugbasierter digitaler Assistent (d.h. ein in ein Fahrzeug eingebetteter digitaler Assistent), wie beispielsweise der Autoassistent 113. Der fahrzeugbasierte digitale Assistent (z.B. der Autoassistent 113) kann verschiedene Systeme im Fahrzeug steuern. So kann der fahrzeugbasierte digitale Assistent beispielsweise ein Steuertelematiksystem (z.B. zum Einschalten von Leuchten, zum Ändern einer Klimaautomatik-Einstellung usw.), ein Infotainmentsystem (z.B. zum Einschalten des Radios, zur Eingabe eines Navigationsbefehls usw.) und/oder ein Kommunikationssystem (z.B. zum Verbinden mit einer entfernten Kommunikationszentrale) steuern.
  • Bei Block 306 überwacht der Schnüffelmotor 108 eine Aktivität von mindestens einem der Vielzahl von digitalen Assistenten, um zu bestimmen, ob einer der Vielzahl von digitalen Assistenten die Äußerung als WUW erkennt. Wenn einer der digitalen Assistenten die Äußerung als WUW erkennt, gilt der Assistent als aktiv. In Beispielen beinhaltet das Überwachen der Aktivität von mindestens einem der Vielzahl von digitalen Assistenten das Erfassen, ob mindestens einer der Vielzahl von digitalen Assistenten eine Sprachaktivität, eine Musikaktivität usw. ausführt. In einigen Beispielen wird die Aktivität von mindestens einem der Vielzahl von digitalen Assistenten direkt durch mindestens einen der Vielzahl von digitalen Assistenten bereitgestellt. Die Aktivität kann einen Aktivitätsstatus (z.B. aktiv, inaktiv usw.) und eine Aktivitätsart (z.B. Musik abspielen, erzählen, einen Anruf ermöglichen usw.) einschließen.
  • Wenn einer der Vielzahl von digitalen Assistenten die Äußerung als WUW erkennt, kann die Audiobrückenmaschine 106 das Streaming von zusätzlichen Äußerungen zu den anderen digitalen Assistenten deaktivieren, die die Äußerung nicht als WUW bei Block 308 erkannt haben. In einigen Beispielen kann die Deaktivierung jedoch auf einer Aktivitätsklassifizierung des aktiven Assistenten basieren. Wenn der Aktivitätsklassifizierer 214 beispielsweise feststellt, dass der Assistent (z.B. der Telefonassistent 111) Musik abspielt, kann es vorteilhaft sein, die anderen Assistenten nicht zu deaktivieren, wenn der Benutzer 101 einen der anderen Assistenten (z.B. den Autoassistenten 113, den Assistenten 115) aktivieren möchte, indem er eines der WUWs dieser Assistenten ausspricht. Dadurch können die anderen Assistenten auch dann aktiv werden, wenn der bereits aktive Assistent z.B. Musik spielt.
  • Zusätzliche Prozesse können ebenfalls einbezogen werden, und es ist zu verstehen, dass die in 3 dargestellten Prozesse Bilder darstellen und dass andere Prozesse hinzugefügt oder bestehende Prozesse entfernt, modifiziert oder neu angeordnet werden können, ohne vom Umfang und Geist der vorliegenden Offenbarung abzuweichen.
  • 4 stellt ein Flussdiagramm eines Verfahrens zur Erkennung von Wake-up-Wörtern (WUW) gemäß den Aspekten der vorliegenden Offenbarung dar. Das Verfahren 400 kann beispielsweise durch das Verarbeitungssystem 100 von 1, durch das Verarbeitungssystem 500 von 5 oder durch ein anderes geeignetes Verarbeitungssystem oder eine andere Vorrichtung implementiert werden.
  • Bei Block 402 ist die Audiobrückenmaschine 106 aktiv. Beim Entscheidungsblock 404 wird bestimmt, ob ein erster Assistent durch die Äußerung (z.B. Wake-up-Wort) ausgelöst wird. Wenn nicht, wird bei Entscheidungsblock 406 bestimmt, ob durch die Äußerung ein zweiter Assistent ausgelöst wird. Wenn nicht, wird bei Entscheidungsblock 408 bestimmt, ob ein dritter Assistent durch die Äußerung ausgelöst wird. Wenn nicht, kehrt das Verfahren 400 zu Block 402 zurück. In anderen Beispielen könnte jedoch bestimmt werden, ob ein zusätzlicher Assistent(en) durch die Äußerung ausgelöst wird.
  • Wird bei einem der Entscheidungsblöcke 404, 406, 408 bestimmt, dass der jeweilige Assistent ausgelöst wird, schließt (oder deaktiviert) die Audiobrückenmaschine 106 die kommunikative Verbindung zu den anderen Assistenten, so dass nur die durch die Äußerung ausgelöste aktiv ist. Wenn beispielsweise bei Entscheidungsblock 406 bestimmt wird, dass der zweite Assistent durch die Äußerung ausgelöst wird, wird die Audiobrücke für die Assistenten 1 und 3 bei Block 410 geschlossen. Das Verfahren 400 fährt mit dem Entscheidungsblock 412 fort, in dem bestimmt wird, ob der aktuelle Assistent aktiv ist (z.B. Musik abspielen, Text erzählen, Navigationsinformationen bereitstellen, etc.). Wenn ja, bleibt die Audiobrückenmaschine 106 für andere Assistenten geschlossen. Wenn der ausgelöste Assistent jedoch nicht mehr aktiv ist, wie bei Entscheidungsblock 412 festgelegt, kehrt das Verfahren 400 zu Block 402 zurück, und die Audiobrückenmaschine 106 ist für alle Assistenten offen.
  • Zusätzliche Prozesse können ebenfalls einbezogen werden, und es ist zu verstehen, dass die in 4 dargestellten Prozesse Abbildungen darstellen und dass andere Prozesse hinzugefügt oder bestehende Prozesse entfernt, modifiziert oder neu angeordnet werden können, ohne vom Umfang und Geist der vorliegenden Offenbarung abzuweichen.
  • Wie hierin beschrieben, können die vorliegenden Techniken durch verschiedene Verarbeitungsvorrichtungen und/oder -systeme implementiert werden. 5 veranschaulicht beispielsweise ein Blockdiagramm eines Verarbeitungssystems 500 zur Implementierung der hierin beschriebenen Techniken. In Beispielen weist das Verarbeitungssystem 500 eine oder mehrere zentrale Verarbeitungseinheiten (Prozessoren) 521a, 521b, 521c, usw. auf. zusammen oder allgemein als Prozessor(en) 521 und/oder als Verarbeitungsgerät(e) bezeichnet. In Aspekten der vorliegenden Offenbarung kann jeder Prozessor 521 einen RISC-Mikroprozessor (Reduced Instruction Set Computer) beinhalten. Die Prozessoren 521 sind über einen Systembus 533 mit dem Systemspeicher (z.B. Arbeitsspeicher (RAM) 524) und verschiedenen anderen Komponenten gekoppelt. Der „Read-Only-Memory“ (ROM) 522 ist mit dem Systembus 533 gekoppelt und kann ein Basis-Ein/Ausgabesystem (BIOS) beinhalten, das bestimmte Grundfunktionen des Verarbeitungssystems 500 steuert.
  • Weitere Beispiele sind ein Ein-/Ausgangs-(I/O)-Adapter 527 und ein Netzwerkadapter 526, der mit dem Systembus 533 gekoppelt ist. Der I/O-Adapter 527 kann ein SCSI-Adapter („Small Computer System Interface“) sein, der mit einer Festplatte 523 und/oder einem anderen Speicherlaufwerk 525 oder einer anderen ähnlichen Komponente kommuniziert. I/O-Adapter 527, Festplatte 523 und Speichervorrichtung 525 werden hierin gemeinsam als Massenspeicher 534 bezeichnet. Das Betriebssystem 540 zur Ausführung auf dem Verarbeitungssystem 500 kann im Massenspeicher 534 gespeichert werden. Ein Netzwerkadapter 526 verbindet den Systembus 533 mit einem externen Netzwerk 536, so dass das Verarbeitungssystem 500 mit anderen solchen Systemen kommunizieren kann.
  • Eine Anzeige (z.B. ein Anzeigemonitor) 535 ist über den Anzeigeadapter 532 mit dem Systembus 533 verbunden, der eine Grafikkarte zur Verbesserung der Leistung von grafik- und rechenintensiven Anwendungen und eine Videosteuerung enthalten kann. In einem Aspekt der vorliegenden Offenbarung können die Adaptoren 526, 527 und/oder 532 an einen oder mehrere I/O-Busse angeschlossen werden, die über eine Zwischenbusbrücke mit dem Systembus 533 verbunden sind (nicht dargestellt). Geeignete I/O-Busse zum Anschließen von Peripheriegeräten, wie zum Beispiel Festplattensteuerungen, Netzwerkadaptern und Grafikadaptern, beinhalten üblicherweise gemeinsame Protokolle, wie „Peripheral Component Interconnect“ (PCI). Zusätzliche Ein-/Ausgabegeräte werden so dargestellt, wie sie über den Benutzeroberflächenadapter 528 und den Anzeigeadapter 532 an den Systembus 533 angeschlossen sind. Eine Tastatur 529, Maus 530 und Lautsprecher 531 können über den Benutzeroberflächenadapter 528 mit dem Systembus 533 verbunden werden, der beispielsweise einen Super-I/O-Chip beinhalten kann, welcher mehrere Geräteadapter in einer einzigen integrierten Schaltung integriert.
  • In einigen Aspekten der vorliegenden Offenbarung beinhaltet das Verarbeitungssystem 500 eine Grafikverarbeitungseinheit 537. Die Grafikverarbeitungseinheit 537 ist eine spezielle elektronische Schaltung, die entwickelt wurde, um den Speicher zu manipulieren und zu ändern, um die Erzeugung von Bildern in einem Rahmenpuffer zu beschleunigen, der zur Ausgabe auf eine Anzeige bestimmt ist. Im Allgemeinen ist die Grafikverarbeitungseinheit 537 sehr effizient bei der Manipulation von Computergrafik und Bildverarbeitung und hat eine hochparallele Struktur, die sie effektiver macht als Universal-CPUs für Algorithmen, bei denen die Verarbeitung großer Datenblöcke parallel erfolgt.
  • So beinhaltet das Verarbeitungssystem 500, wie hierin konfiguriert, die Verarbeitungsfähigkeit in Form von Prozessoren 521, die Speicherfähigkeit einschließlich Systemspeicher (z.B. RAM 524) und Massenspeicher 534, Eingabemittel wie Tastatur 529 und Maus 530 sowie die Ausgabefähigkeit einschließlich Lautsprecher 531 und Anzeige 535. In einigen Aspekten der vorliegenden Offenbarung speichern ein Teil des Systemspeichers (z.B. RAM 524) und der Massenspeicher 534 gemeinsam ein Betriebssystem, um die Funktionen der verschiedenen im Verarbeitungssystem 500 dargestellten Komponenten zu koordinieren.
  • Die Beschreibungen der verschiedenen Beispiele der vorliegenden Offenbarung wurden zu Zwecken der Veranschaulichung vorgestellt, sind aber nicht als erschöpfend oder beschränkt auf die offenbarten Ausführungsformen gedacht. Viele Modifikationen und Variationen sind für den Fachmann offensichtlich, ohne von dem Umfang und dem Gedanken der beschriebenen Techniken abzuweichen. Die hier verwendete Terminologie wurde ausgewählt, um die Prinzipien der vorliegenden Techniken, die praktische Anwendung oder technische Verbesserung gegenüber Technologien, die auf dem Markt gefunden wurden, am besten zu erläutern oder anderen Fachleuten auf dem Gebiet zu ermöglichen, die hierin offenbarten Techniken zu verstehen.
  • Während die obige Offenbarung mit Bezug auf exemplarische Ausführungsformen beschrieben wurde, werden Fachleute verstehen, dass unterschiedliche Änderungen vorgenommen und die einzelnen Teile durch entsprechende andere Teile ausgetauscht werden können, ohne vom Umfang der Offenbarung abzuweichen. Darüber hinaus können viele Modifikationen vorgenommen werden, um eine bestimmte Materialsituation an die Lehren der Offenbarung anzupassen, ohne von deren wesentlichem Umfang abzuweichen. Daher ist vorgesehen, dass die vorliegende Offenbarung nicht auf die speziellen offenbarten Ausführungsformen beschränkt ist, aber alle Ausführungsformen beinhaltet, die in deren Umfang fallen.

Claims (10)

  1. Computerimplementiertes Verfahren zur Erkennung von Wake-up-Wörtern, wobei das Verfahren umfasst: Empfangen einer Äußerung von einem Benutzer durch eine Verarbeitungsvorrichtung; Streaming, durch die Verarbeitungsvorrichtung, der Äußerung an jeden von einer Vielzahl von digitalen Assistenten; Überwachen einer Aktivität von mindestens einem der Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung, um zu bestimmen, ob einer der Vielzahl von digitalen Assistenten die Äußerung als Aufwachwort erkennt; und als Reaktion auf das Bestimmen, dass einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt, wobei das Streaming zusätzlicher Äußerungen durch die Verarbeitungsvorrichtung zu einer Teilmenge der Vielzahl von digitalen Assistenten, die die Äußerung nicht als Wake-up-Wort erkennen, deaktiviert wird.
  2. Computerimplementiertes Verfahren nach Anspruch 1, worin mindestens einer der Vielzahl von digitalen Assistenten ein telefonbasierter digitaler Assistent ist.
  3. Computerimplementiertes Verfahren nach Anspruch 1, worin mindestens einer der Vielzahl von digitalen Assistenten ein fahrzeugbasierter digitaler Assistent ist.
  4. Computerimplementiertes Verfahren nach Anspruch 3, worin der fahrzeugbasierte digitale Assistent mindestens eines aus einem Telematiksystem eines Fahrzeugs, einem Infotainmentsystem des Fahrzeugs und einem Kommunikationssystem des Fahrzeugs steuern kann.
  5. Computerimplementiertes Verfahren nach Anspruch 1, worin der fahrzeugbasierte digitale Assistent mindestens eines aus einem Telematiksystem eines Fahrzeugs, einem Infotainmentsystem des Fahrzeugs und einem Kommunikationssystem des Fahrzeugs steuern kann.
  6. Computerimplementiertes Verfahren nach Anspruch 1, wobei das Überwachen der Aktivität von mindestens einem der Vielzahl von digitalen Assistenten ferner das Erfassen der Tatsache umfasst, ob mindestens einer der Vielzahl von digitalen Assistenten eine musikalische Aktivität ausführt.
  7. Computerimplementiertes Verfahren nach Anspruch 1, worin das Deaktivieren des Streamings zusätzlicher Äußerungen zu einer Teilmenge der Vielzahl von digitalen Assistenten zumindest teilweise auf einer Aktivitätsklassifizierung des einen aus der Vielzahl von digitalen Assistenten basiert, die die Äußerung als Wake-up-Wort erkennen.
  8. Computerimplementiertes Verfahren nach Anspruch 7, wobei das Streaming von zusätzlichen Äußerungen zur Teilmenge der Vielzahl von digitalen Assistenten deaktiviert wird, wenn die Aktivitätsklassifizierung eine erste Aktivitätsklassifizierung ist, und wobei das Streaming von zusätzlichen Äußerungen zur Teilmenge der Vielzahl von digitalen Assistenten aktiviert wird, wenn die Aktivitätsklassifizierung eine zweite Aktivitätsklassifizierung ist.
  9. Computerimplementiertes Verfahren nach Anspruch 8, worin die erste Aktivitätsklassifizierung ein Telefonanruf oder Textkommentar ist, und worin die zweite Aktivitätsklassifizierung das Abspielen von Musik ist.
  10. System zur Erkennung von Wake-up-Wörtern, wobei das System umfasst: einen Speicher, umfassend computerlesbare Anweisungen; und eine Verarbeitungsvorrichtung zum Ausführen der computerlesbaren Anweisungen zum Durchführen eines Verfahrens, das Verfahren umfassend: Erhalten einer Äußerung von einem Benutzer durch die Verarbeitungsvorrichtung; Streaming, durch die Verarbeitungsvorrichtung, der Äußerung an jeden von einer Vielzahl von digitalen Assistenten; Überwachen einer Aktivität von mindestens einem der Vielzahl von digitalen Assistenten durch die Verarbeitungsvorrichtung, um zu bestimmen, ob einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt; und als Reaktion auf das Bestimmen, dass einer der Vielzahl von digitalen Assistenten die Äußerung als Wake-up-Wort erkennt, Deaktivieren des Streamings zusätzlicher Äußerungen durch die Verarbeitungsvorrichtung zu einer Teilmenge der Vielzahl von digitalen Assistenten, die die Äußerung nicht als Wake-up-Wort erkennen.
DE102018126871.8A 2017-11-02 2018-10-26 Erkennung von Wake-up-Wörtern Withdrawn DE102018126871A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/801,663 2017-11-02
US15/801,663 US20190130898A1 (en) 2017-11-02 2017-11-02 Wake-up-word detection

Publications (1)

Publication Number Publication Date
DE102018126871A1 true DE102018126871A1 (de) 2019-05-02

Family

ID=66137910

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018126871.8A Withdrawn DE102018126871A1 (de) 2017-11-02 2018-10-26 Erkennung von Wake-up-Wörtern

Country Status (3)

Country Link
US (1) US20190130898A1 (de)
CN (1) CN109767761A (de)
DE (1) DE102018126871A1 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102419597B1 (ko) * 2017-09-29 2022-07-11 삼성전자주식회사 입력 디바이스와 전자 장치, 이를 포함하는 시스템 및 그 제어 방법
US10971158B1 (en) * 2018-10-05 2021-04-06 Facebook, Inc. Designating assistants in multi-assistant environment based on identified wake word received from a user
US11074912B2 (en) * 2018-10-23 2021-07-27 Polycom, Inc. Identifying a valid wake input
US11189279B2 (en) * 2019-05-22 2021-11-30 Microsoft Technology Licensing, Llc Activation management for multiple voice assistants
CN111410104A (zh) * 2020-04-07 2020-07-14 宁夏电通物联网科技股份有限公司 基于5g通信的语音呼梯、测温、语音报警的物联网系统
AU2020447125B2 (en) * 2020-05-15 2023-08-31 Google Llc Hot-word free pre-emption of automated assistant response presentation
US12094463B1 (en) * 2021-12-02 2024-09-17 Amazon Technologies, Inc. Default assistant fallback in multi-assistant devices

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140060040A (ko) * 2012-11-09 2014-05-19 삼성전자주식회사 디스플레이장치, 음성취득장치 및 그 음성인식방법
US9418656B2 (en) * 2014-10-29 2016-08-16 Google Inc. Multi-stage hotword detection
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
EP3067884B1 (de) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Spracherkennungssystem und spracherkennungsverfahren dafür
US20160373909A1 (en) * 2015-06-17 2016-12-22 Hive Life, LLC Wireless audio, security communication and home automation
US10018977B2 (en) * 2015-10-05 2018-07-10 Savant Systems, Llc History-based key phrase suggestions for voice control of a home automation system
US10115399B2 (en) * 2016-07-20 2018-10-30 Nxp B.V. Audio classifier that includes analog signal voice activity detection and digital signal voice activity detection
CN106910500B (zh) * 2016-12-23 2020-04-17 北京小鸟听听科技有限公司 对带麦克风阵列的设备进行语音控制的方法及设备
US10069976B1 (en) * 2017-06-13 2018-09-04 Harman International Industries, Incorporated Voice agent forwarding
US20190013019A1 (en) * 2017-07-10 2019-01-10 Intel Corporation Speaker command and key phrase management for muli -virtual assistant systems
US10475449B2 (en) * 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
KR102411766B1 (ko) * 2017-08-25 2022-06-22 삼성전자주식회사 음성 인식 서비스를 활성화하는 방법 및 이를 구현한 전자 장치
US11062702B2 (en) * 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US20190065608A1 (en) * 2017-08-29 2019-02-28 Lenovo (Singapore) Pte. Ltd. Query input received at more than one device
US10546583B2 (en) * 2017-08-30 2020-01-28 Amazon Technologies, Inc. Context-based device arbitration

Also Published As

Publication number Publication date
CN109767761A (zh) 2019-05-17
US20190130898A1 (en) 2019-05-02

Similar Documents

Publication Publication Date Title
DE102018126871A1 (de) Erkennung von Wake-up-Wörtern
CN107544272B (zh) 终端控制方法、装置及存储介质
DE102015101238B4 (de) Authentifizierung und Betrieb eines tragbaren Gerätes
DE102015110621B4 (de) Intelligente Untertitel
DE102015100900A1 (de) Einstellen einer Spracherkennung unter Verwendung einer Kontextinformation
DE102019119171A1 (de) Spracherkennung für fahrzeugsprachbefehle
DE69523531T2 (de) Verfahren und Vorrichtung zur Analyse von Audioeingabevorgängen in einem Spracherkennungssystem
DE102011054197B4 (de) Selektive Übertragung von Sprachdaten
DE202017105810U1 (de) Identifikation eines virtuellen Assistenten von nahgelegenen Rechenvorrichtungen
DE102014109122A1 (de) Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
WO2016089577A1 (en) Dynamic image recognition model updates
DE102016118210A1 (de) Granulare Dienstqualität für Computer-Ressourcen
DE102015110469A1 (de) Informationverarbeitungsverfahren und zentrale steuervorrichtung
DE102014225808A1 (de) Bluetooth-Kopplungs-System und Verfahren
DE102018129827A1 (de) Steuern eines lautstärkepegels basierend auf einem benutzerprofil
DE102017115933B4 (de) Koordinieren einer Eingabe an mehreren lokalen Geräten
DE102016109521A1 (de) Multimodale Disambiguierung einer sprachunterstützten Eingabe
DE102018114453A1 (de) Interaktive Sessions
US10628694B2 (en) Fingerprint enrolling method, apparatus, and terminal device
DE102018114658A1 (de) Eingabe während einer Unterhaltungssitzung
CN112840313B (zh) 电子设备及其控制方法
DE202017105741U1 (de) Automatisierte Sprachaussprachezuteilung
DE102017115936A1 (de) Systeme und Verfahren zum Aktivieren eines Sprachassistenten und Bereitstellen eines Indikators, dass der Sprachassistent Hilfe zu leisten hat
CN110706696A (zh) 一种语音控制方法及装置
DE102018114533A1 (de) Systeme und Verfahren zur Identifikation von Antwortanfragen an einer Peripherievorrichtung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: MANITZ FINSTERWALD PATENT- UND RECHTSANWALTSPA, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee