DE102021130691A1 - Multi-assistenz-steuerung - Google Patents

Multi-assistenz-steuerung Download PDF

Info

Publication number
DE102021130691A1
DE102021130691A1 DE102021130691.4A DE102021130691A DE102021130691A1 DE 102021130691 A1 DE102021130691 A1 DE 102021130691A1 DE 102021130691 A DE102021130691 A DE 102021130691A DE 102021130691 A1 DE102021130691 A1 DE 102021130691A1
Authority
DE
Germany
Prior art keywords
voice
wake
assistant
activated
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102021130691.4A
Other languages
English (en)
Inventor
Kumana Jekeswaran
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102021130691A1 publication Critical patent/DE102021130691A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

Ein Multi-Assistenz-Steuerung enthält einen Audio-Recorder und einen Detektor. Der Audiorecorder ist so konfiguriert, dass er abgetastete Audiodaten von einem Mikrofon empfängt, abgetastete Audiodaten einem Ringpuffer speichert und abgetastete Audiodaten aus dem Ringpuffer an einen bestimmten sprachaktivierten Assistenten überträgt. Der Detektor ist so konfiguriert, dass er mehrere Weckphrasen speichert, die von mehreren sprachaktivierten Assistenten erkannt werden können, die abgetasteten Audiodaten durchsucht, um mehrere Wahrscheinlichkeiten zu bestimmen, dass die abgetasteten Audiodaten die Weckphrasen enthält, eine bestimmte Weckphrase auswählt, die unter den Wahrscheinlichkeiten die höchste Wahrscheinlichkeit hat, und einen Rückruf an den bestimmten sprachaktivierten Assistenten sendet, dass die bestimmte Weckphrase erkannt wurde. Die abgetasteten Audiodaten, die an den bestimmten sprachaktivierten Assistenten übertragen werden, enthalten die bestimmte Weckphrase, die erkannt wurde.

Description

  • EINFÜHRUNG
  • Die vorliegende Offenbarung bezieht sich auf ein System und ein Verfahren für eine Multi-Assistenz-Steuerung.
  • Aktuelle Infotainmentsysteme für Fahrzeuge unterstützen jeweils nur einen sprachgesteuerten Assistenten. In Entwürfen, in denen mehrere sprachaktivierte Assistenten implementiert sind, ist jeder sprachaktivierte Assistent in der Lage, Mikrofoneingaben zur Erkennung von Weckwörtern zu hören und zu verarbeiten. Um potenzielle Konflikte zu vermeiden, wenn zwei oder mehr sprachaktivierte Assistenten versuchen, gleichzeitig zu antworten, wählt ein Benutzer einen sprachaktivierten Assistenten als standardmäßig aktivierten Assistenten aus. Die anderen sprachaktivierten Assistenten sind deaktiviert, um unerwartete Antworten zu verhindern. Gewünscht wird eine Technik zur Steuerung mehrerer gleichzeitig aktivierter sprachgesteuerter Assistenten.
  • BESCHREIBUNG
  • Eine Multi-Assistenz-Steuerung wird hier bereitgestellt. Die Multi-Assistenz-Steuerung umfasst einen Audio-Recorder und einen Detektor. Der Audiorecorder ist so konfiguriert, dass er abgetastete Audiodaten von einem Mikrofon empfängt, die abgetasteten Audiodaten in einem Ringpuffer speichert und die abgetasteten Audiodaten aus dem Ringpuffer an einen bestimmten sprachaktivierten Assistenten aus einer Vielzahl von sprachaktivierten Assistenten überträgt. Der Detektor ist so konfiguriert, dass er eine Vielzahl von Weckphrasen speichert, die von der Vielzahl von sprachaktivierten Assistenten erkannt werden können, die abgetasteten Audiodaten durchsucht, um eine Vielzahl von Wahrscheinlichkeiten zu bestimmen, dass die abgetasteten Audiodaten die Vielzahl von Weckphrasen enthalten, eine bestimmte Weckphrase aus der Vielzahl von Weckphrasen auswählt, die eine höchste Wahrscheinlichkeit aus der Vielzahl von Wahrscheinlichkeiten hat, und einen Rückruf an den bestimmten sprachaktivierten Assistenten aus der Vielzahl von sprachaktivierten Assistenten sendet, dass die bestimmte Weckphrase erkannt wurde. Die abgetasteten Audiodaten, die an den bestimmten sprachaktivierten Assistenten übertragen werden, enthalten die bestimmte Weckphrase, die erkannt wurde.
  • In einer oder mehreren Ausführungsformen des Multi-Assistenten-Steuergeräts enthalten die abgetasteten Audiodaten, die vom Ringspeicher an den bestimmten sprachaktivierten Assistenten übertragen werden, mindestens eine Äußerung, die auf die bestimmte Weckphrase folgte.
  • In einer oder mehreren Ausführungsformen der Multi-Assistenz-Steuerung ist der Detektor ferner so konfiguriert, dass er eine Vielzahl von Assistenten-Audioformaten speichert, die von der Vielzahl von sprachaktivierten Assistenten akzeptiert werden, wobei die abgetasteten Audiodaten ein internes Audioformat haben, und der Audiorecorder ferner so konfiguriert ist, dass er die abgetasteten Audiodaten, die an den bestimmten sprachaktivierten Assistenten übertragen werden, aus dem internen Audioformat in eines der Vielzahl von Assistenten-Audioformaten umwandelt.
  • In einer oder mehreren Ausführungsformen der Multi-Assistenz-Steuerung wird der jeweilige sprachgesteuerte Assistent benachrichtigt, wenn die höchste Wahrscheinlichkeit einen Schwellenwert überschreitet.
  • In einer oder mehreren Ausführungsformen der Multi-Assistenz-Steuerung ist der Detektor ferner so konfiguriert, dass er eine Benachrichtigung von dem bestimmten sprachaktivierten Assistenten empfängt, dass der bestimmte sprachaktivierte Assistent die bestimmte Weckphrase in den abgetasteten Audiodaten, die von dem Ringspeicher empfangen wurden, nicht erkannt hat, und die Suche in den abgetasteten Audiodaten nach der Vielzahl von Weckphrasen wieder aufnimmt.
  • In einer oder mehreren Ausführungsformen der Multi-Assistenz-Steuerung ist der Detektor ferner so konfiguriert, dass er eine Benachrichtigung von dem bestimmten sprachgesteuerten Assistenten empfängt, dass der bestimmte sprachgesteuerte Assistent eine Sitzung mit den abgetasteten Audiodaten beendet hat, dem Audiorecorder befiehlt, den Ringspeicher zu löschen, und die Suche der abgetasteten Audiodaten nach der Vielzahl von Weckphrasen wieder aufnimmt.
  • In einer oder mehreren Ausführungsformen der Multi-Assistenz-Steuerung ist der Detektor ferner so konfiguriert, dass er eine vorbestimmte Zeitspanne wartet, nachdem der Rückruf an den bestimmten sprachaktivierten Assistenten gesendet wurde, und die Suche in den abgetasteten Audiodaten nach der Vielzahl von Weckphrasen als Reaktion auf eine Nicht-Bestätigung des Rückrufs von dem bestimmten sprachaktivierten Assistenten wieder aufnimmt.
  • In einer oder mehreren Ausführungsformen der Multi-Assistenz-Steuerung ist der Detektor ferner so konfiguriert, dass er ein Unregistrierungssignal von einem bestimmten sprachaktivierten Assistenten aus der Vielzahl der sprachaktivierten Assistenten empfängt und die Vielzahl der Weckphrasen, die von dem bestimmten sprachaktivierten Assistenten erkannt werden, während einer anschließenden Suche in den abgetasteten Audiodatennach der Vielzahl der Weckphrasen außer Acht lässt.
  • In einer oder mehreren Ausführungsformen der Multi-Assistenz-Steuerung sind der Audiorecorder und der Detektor Teil eines Fahrzeugs.
  • Ein Verfahren zum Multi-Assistenz-Steuern wird hier bereitgestellt. Das Verfahren umfasst das Speichern einer Vielzahl von Weckphrasen, die von einer Vielzahl von sprachaktivierten Assistenten erkannt werden können, das Empfangen eines abgetasteten Audiodaten von einem Mikrofon, das Speichern der abgetasteten Audiodaten in einem Ringpuffer in einer Speicherschaltung, das Durchsuchen der abgetasteten Audiodaten, um eine Vielzahl von Wahrscheinlichkeiten zu bestimmen, dass die abgetasteten Audiodaten die Vielzahl von Weckphrasen enthält, Auswählen einer bestimmten Weckphrase aus der Vielzahl von Weckphrasen, die eine höchste Wahrscheinlichkeit aus der Vielzahl von Wahrscheinlichkeiten hat, Senden eines Rückrufs an einen bestimmten sprachaktivierten Assistenten aus der Vielzahl von sprachaktivierten Assistenten, dass die bestimmte Weckphrase erkannt worden ist, und Übertragen der abgetasteten Audiodaten aus dem Ringspeicher an den bestimmten sprachaktivierten Assistenten. Die abgetasteten Audiodaten, die an den bestimmten sprachaktivierten Assistenten übertragen werden, enthalten die bestimmte Weckphrase, die erkannt wurde.
    In einer oder mehreren Ausführungsformen des Verfahrens enthalten die vom Ringspeicher an den bestimmten sprachaktivierten Assistenten abgetasteten Audiodaten mindestens eine Äußerung, die auf die bestimmte Weckphrase folgte.
  • In einer oder mehreren Ausführungsformen umfasst das Verfahren das Speichern einer Vielzahl von Assistenten-Audioformaten, die von der Vielzahl von sprachaktivierten Assistenten akzeptiert werden, wobei die abgetasteten Audiodaten ein internes Audioformat haben, und das Konvertieren der abgetasteten Audiodaten, die an den bestimmten sprachaktivierten Assistenten übertragen werden, von dem internen Audioformat in eines der Vielzahl von Assistenten-Audioformaten.
  • In einer oder mehreren Ausführungsformen des Verfahrens wird der bestimmte sprachgesteuerte Assistent benachrichtigt, wenn die höchste Wahrscheinlichkeit einen Schwellenwert überschreitet.
  • In einer oder mehreren Ausführungsformen umfasst das Verfahren das Empfangen einer Benachrichtigung von dem bestimmten sprachaktivierten Assistenten, dass der bestimmte sprachaktivierte Assistent die bestimmte Weckphrase in den abgetasteten Audiodaten, das von dem Ringspeicher empfangen wurde, nicht erkennen konnte, und das Wiederaufnehmen der Suche in den abgetasteten Audiodaten nach der Vielzahl von Weckphrasen.
  • In einer oder mehreren Ausführungsformen umfasst das Verfahren das Empfangen einer Benachrichtigung von dem bestimmten sprachaktivierten Assistenten, dass der bestimmte sprachaktivierte Assistent eine Sitzung mit den abgetasteten Audiodaten beendet hat, das Löschen des Ringspeichers und das Wiederaufnehmen der Suche in den abgetasteten Audiodaten nach der Vielzahl von Weckphrasen.
  • In einer oder mehreren Ausführungsformen umfasst das Verfahren das Abwarten einer vorbestimmten Zeitspanne, nachdem der Rückruf an den bestimmten sprachaktivierten Assistenten gesendet wurde, und das Wiederaufnehmen des Suchens der abgetasteten Audiodaten nach der Vielzahl von Weckphrasen als Reaktion auf eine Nicht-Bestätigung des Rückrufs von dem bestimmten sprachaktivierten Assistenten.
  • In einer oder mehreren Ausführungsformen umfasst das Verfahren das Empfangen eines Aufhebungssignals von einem bestimmten sprachaktivierten Assistenten aus der Vielzahl der sprachaktivierten Assistenten und das Ignorieren der Vielzahl von Weckphrasen, die von dem bestimmten sprachaktivierten Assistenten während einer nachfolgenden Suche in den abgetasteten Audiodaten nach der Vielzahl von Weckphrasen erkannt werden.
  • In einer oder mehreren Ausführungsformen des Verfahrens ist mindestens eine der mehreren Weckphrasen ein einzelnes Weckwort.
  • Ein nicht-transitorisches computerlesbares Medium, das Anweisungen enthält, wird hier bereitgestellt. Die Anweisungen, wenn sie von einem Prozessor ausgeführt werden, veranlassen den Prozessor, eine Vielzahl von Weckphrasen zu speichern, die von einer Vielzahl von sprachaktivierten Assistenten erkannt werden können, abgetastete Audiodaten von einem Mikrofon zu empfangen, die abgetasteten Audiodaten in einem Ringpuffer zu speichern, die abgetasteten Audiodaten zu suchen, um eine Vielzahl von Wahrscheinlichkeiten zu bestimmen, dass die abgetasteten Audiodaten die Vielzahl von Weckphrasen enthält, Auswählen einer bestimmten Weckphrase aus der Vielzahl von Weckphrasen, die eine höchste Wahrscheinlichkeit aus der Vielzahl von Wahrscheinlichkeiten aufweist, Senden eines Rückrufs an einen bestimmten sprachaktivierten Assistenten aus der Vielzahl von sprachaktivierten Assistenten, dass die bestimmte Weckphrase erkannt wurde, und Übertragen der abgetasteten Audiodaten aus dem Ringspeicher an den bestimmten sprachaktivierten Assistenten. Der abgetastete Ton, der an den bestimmten sprachaktivierten Assistenten übertragen wird, enthält die bestimmte Weckphrase, die erkannt wurde.
  • In einer oder mehreren Ausführungsformen des nicht-transitorischen computerlesbaren Mediums veranlassen die Anweisungen den Prozessor, eine Vielzahl von Assistenten-Audioformaten zu speichern, die von der Vielzahl von sprachaktivierten Assistenten akzeptiert werden, wobei die abgetasteten Audiodaten ein internes Audioformat haben, und die abgetasteten Audiodaten, die an den bestimmten sprachaktivierten Assistenten übertragen wird, von dem internen Audioformat in eines der Vielzahl von Assistenten-Audioformaten zu konvertieren.
  • Die obigen Merkmale und Vorteile sowie andere Merkmale und Vorteile der vorliegenden Offenbarung sind aus der folgenden detaillierten Beschreibung der bevorzugten Ausführungsformen zur Durchführung der Offenbarung in Verbindung mit den beigefügten Figuren ohne weiteres ersichtlich.
  • Figurenliste
    • 1 ist ein schematisches Diagramm, das den Kontext eines Fahrzeugs in Übereinstimmung mit einer oder mehreren beispielhaften Ausführungsformen zeigt.
    • 2 ist ein schematisches Schichtdiagramm eines Systems im Fahrzeug gemäß einer oder mehreren beispielhaften Ausführungsformen.
    • 3 ist ein schematisches Diagramm einer Multi-Assistenz-Steuerung im System gemäß einer oder mehrerer beispielhafter Ausführungsformen.
    • 4 ist eine schematische Darstellung von Beispiel-Sprachbefehlen gemäß einer oder mehreren beispielhaften Ausführungsformen.
    • 5 ist ein Flussdiagramm eines Arbeitsablaufs im System gemäß einer oder mehrerer beispielhafter Ausführungsformen.
    • 6 ist eine schematische Darstellung eines computergestützten Systems gemäß einer oder mehrerer beispielhafter Ausführungsformen.
    • 7 ist ein Flussdiagramm eines Arbeitsablaufs für Push-to-talk-Vorgänge gemäß einer oder mehreren beispielhaften Ausführungsformen.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Ausführungsformen der Offenbarung betreffen die gleichzeitige Unterstützung mehrerer Weckphrasen und/oder Weckwörter (im Folgenden Weckphrasen) in Plattformen (z. B. Fahrzeugen) mit mehreren sprachaktivierten Assistenten. Eine Steuerung umfasst einen Audio-Recorder (oder ein Audiomodul) und einen zentralisierten Weckdetektor (oder ein Detektionsmodul). Der Audiorecorder erfasst eine Folge von abgetasteten Audiodatenpunkten in einem Ringspeicher. Die abgetasteten Audiodaten werden für die zusätzliche Validierung und Verarbeitung einer einmaligen Äußerung gepuffert, die auf die Weckphrase folgen kann. Der Detektor unterstützt mehrere sprachaktivierte Assistenten gleichzeitig. Der Detektor nutzt ein vorab trainiertes Mehrklassen-Klassifizierungsmodell, um Erkennungswahrscheinlichkeiten für jede Weckphrase zu erzeugen, die zuvor von den sprachaktivierten Assistenten registriert wurde. Wenn der Detektor eine oder mehrere Wahrscheinlichkeiten findet, die einen Schwellenwert überschreiten, sendet er eine Rückrufnachricht an den sprachaktivierten Assistenten, der die Weckphrase mit der höchsten Wahrscheinlichkeit registriert hat. Die abgetasteten Audiodaten im Ringspeicher werden anschließend an den sprachaktivierten Assistenten mit der höchsten Wahrscheinlichkeit weitergeleitet. Der sprachaktivierte Assistent kann eine Selbstüberprüfung der Weckphrase und der Äußerung, die auf die Weckphrase folgen kann, durchführen. Durch die Implementierung der Multi-Assistenz-Steuerung stehen einer Person im Fahrzeug mehrere sprachgesteuerte Assistenten gleichzeitig zur Verfügung. Außerdem kann ein einziger sprachgesteuerter Assistent auf gegebene Sprachbefehle reagieren, wodurch potenziell widersprüchliche Antworten vermieden werden.
  • 1 zeigt ein schematisches Diagramm, das den Kontext eines Fahrzeugs 80 in Übereinstimmung mit einer oder mehreren beispielhaften Ausführungsformen darstellt. Das Fahrzeug 80 kann von einer Person 82 besetzt sein. Das Fahrzeug 80 umfasst ein oder mehrere Mikrofone 84 (eines davon abgebildet), mehrere sprachaktivierte Assistenten 86a-86n und eine Multi-Assistenz-Steuerung 100. Die Person 82 und das Mikrofon 84 befinden sich in einer Kabine des Fahrzeugs 80. Die sprachgesteuerten Assistenten 86a-86n und das Mikrofon 84 stehen in Signalverbindung mit der Multi-Assistenz-Steuerung 100. Eine Kombination aus dem Mikrofon 84, den sprachgesteuerten Assistenten 86a-86n und der Multi-Assistenz-Steuerung 100 kann als System 102 bezeichnet werden.
  • Die Person 82 kann ein Fahrer des Fahrzeugs 80 oder ein Beifahrer im Fahrzeug 80 sein. Die Person 82 kann eine Vielzahl von Sprachbefehlen (z. B. VC) sprechen, die über das Mikrofon 84 empfangen werden. Die Sprachbefehle können Weckphrasen enthalten, die eine Antwort von einem der sprachgesteuerten Assistenten 86a-86n hervorrufen sollen.
  • Der Sprachbefehl VC kann ein Wort, eine Phrase und/oder ein Satz sein, der von der Person 82 gesprochen wird. Der Sprachbefehl wird manchmal verwendet, um einen bestimmten sprachgesteuerten Assistenten 86a-86n zu aktivieren. Manchmal kann der Sprachbefehl auch eine Antwort auf eine Frage sein, die der Person 82 von einem bestimmten sprachgesteuerten Assistenten 86a-86n gestellt wird.
  • Bei dem Mikrofon 84 handelt es sich um ein Audiomikrofon. Das Mikrofon 84 ist in der Lage, den Sprachbefehl der Person 82 in ein Mikrofonsignal (z.B. MIC) umzuwandeln. Das Mikrofonsignal wird an die Multi-Assistenz-Steuerung 100 übertragen.
  • Die sprachgesteuerten Assistenten 86a-86n implementieren eine Vielzahl von elektronischen Assistenten, die auf Sprachbefehle reagieren können. Jedem sprachaktivierten Assistenten 86a-86n sind eine oder mehrere Weckphrasen (z. B. „Hey Hal“) zugeordnet, die anzeigen, dass die Person 82 möchte, dass ein bestimmter sprachaktivierter Assistent 86a-86n eine Aufgabe ausführt. In verschiedenen Situationen kann auf die Weckphase zeitnah eine Äußerung folgen (z. B. „Mach die Tür auf“). Die Äußerung kann dem bestimmten sprachgesteuerten Assistenten 86a-86n mitteilen, welche Aufgabe er ausführen soll.
  • Die Multi-Assistenz-Steuerung 100 besteht aus einem Computer und/oder einer speziellen Hardware-Schaltung. Die Multi-Assistenz-Steuerung 100 speichert mehrere Weckphrasen, die von den sprachaktivierten Assistenten 86a-86n erkannt werden können, empfängt die abgetasteten Audiodaten vom Mikrofon 84 und speichert die abgetasteten Audiodaten in einem Ringpuffer in einer Speicherschaltung. Die Multi-Assistenz-Steuerung 100 ist auch in der Lage, die abgetasteten Audiodaten zu durchsuchen, um mehrere Wahrscheinlichkeiten zu bestimmen, dass die abgetasteten Audiodaten die mehreren Weckphrasen enthält, eine bestimmte Weckphrase auszuwählen, die die höchste Wahrscheinlichkeit aufweist, und einen Rückruf an einen bestimmten sprachaktivierten Assistenten 86a-86n zu senden, dass die bestimmte Weckphrase erkannt worden ist. Die Multi-Assistenz-Steuerung 100 kann auch die abgetasteten Audiodaten in ein für den bestimmten sprachaktivierten Assistenten 86a-86n akzeptables Format umwandeln und die umgewandelten abgetasteten Audiodaten an den bestimmten sprachaktivierten Assistenten 86a-86n übertragen. Die umgewandelte Audioabtastung enthält die Weckphrase mit der höchsten Wahrscheinlichkeit und die Äußerung (z. B. ein Wort oder eine Phrase), die auf die Weckphrase folgen kann.
  • 2 zeigt ein schematisches Schichtdiagramm einer beispielhaften Implantation des Systems 102 gemäß einer oder mehreren beispielhaften Ausführungsformen. Die Schichten umfassen im Allgemeinen eine Mensch-Maschine-Schnittstellenschicht 90 und eine Serviceschicht 92. Die Mensch-Maschine-Schnittstellenschicht 90 umfasst das Mikrofon 84, einen Push-to-Talk-Schalter 94 und einen Bildschirm 96. Die Serviceschicht 92 umfasst die sprachgesteuerten Assistenten 86a-86n und die Multi-Assistenz-Steuerung 100. Jeder sprachaktivierte Assistent 86a-86n enthält ein Validierungsmodul 88. Die Multi-Assistenz-Steuerung 100 umfasst ein Push-to-Talk-Modul 110, einen Audio-Recorder 120 und einen Detektor 140. Das Tonaufzeichnungsgerät 120 umfasst ein Tonaufzeichnungsmodul 122, ein Puffermodul 124 und ein Warteschlangenmodul 126.
  • Der Sprachbefehl VC wird von der Person 82 erzeugt und von dem Mikrofon 84 empfangen. Das Mikrofonsignal MIC wird von dem Mikrofon 84 erzeugt und an das Audio-Capture-Modul 122 übertragen. Das Mikrofonsignal transportiert eine elektrische Repräsentation des Sprachbefehls VC. Ein Push-to-Talk-Signal (z. B. PPT) wird vom Push-to-Talk-Schalter 94 erzeugt und vom Push-to-Talk-Modul 110 empfangen. Das Push-to-Talk-Signal enthält Informationen über die momentane Betätigung des Schalters, wie sie von der Person 82 initiiert wurde. Ein Beobachtungssignal (z. B. OBS) wird von der Mensch-Maschine-Schnittstellenschicht 90 an die Serviceschicht 92 gesendet. Die Serviceschicht 92 verfügt im Allgemeinen über eine Beobachter-/Hörerfunktion, um Änderungen auf dem Bildschirm 96 durch die Person 82 zu erkennen. Auswahländerungen können im Beobachtungssignal übertragen und bei der nächsten Entscheidungsfindung verwendet werden. Ein bidirektionales Steuersignal (z.B. CNT) wird zwischen der Multi-Assistenz-Steuerung 100 und den sprachgesteuerten Assistenten 86a-86n ausgetauscht. Das Steuersignal überträgt Rückrufdaten von der Multi-Assistenz-Steuereinheit 100 zu den sprachaktivierten Assistenten 86a-86n. Das Steuersignal überträgt auch Registrierungsinformationen, Benachrichtigungen und Abmeldeinformationen von den sprachaktivierten Assistenten 86a-86n zurück an der Multi-Assistenz-Steuerung 100. Ein gepuffertes Audiosignal (z. B. BUF) kann zwischen den aktivierten Validierungsmodulen 88 und dem Puffermodul 124 ausgetauscht werden. Das gepufferte Audiosignal übermittelt im Allgemeinen Befehle und Rückgabedaten. Die Validierungsmodule 88 sind so konfiguriert, dass sie die über das gepufferte Audiosignal empfangenen Weckphrasen validieren.
  • Das Push-to-talk-Modul 110 implementiert eine vom Benutzer auswählbare Eingangsschaltersteuerung. Für die sprachgesteuerten Assistenten 86a-86n kann eine Prioritätszuordnung erstellt werden. Wenn der Push-to-Talk-Schalter 94 gedrückt wird, wählt das Push-to-Talk-Modul 110 einen der registrierten sprachaktivierten Assistenten 86a-86n mit der höchsten Priorität aus, um auf die Sprachbefehle zu reagieren.
  • So kann beispielsweise ein erster sprachgesteuerter Assistent 82a eine höhere Priorität haben als ein zweiter sprachgesteuerter Assistent 82b. Wenn der erste sprachaktivierte Assistent 82a mit der Multi-Assistenz-Steuerung 100 verbunden ist, kann daher durch Drücken des Push-to-talk-Schalters 94 der erste sprachaktivierte Assistent 82a aufgerufen werden, ohne einen Sprachbefehl zu sprechen. Wenn der erste sprachaktivierte Assistent 82a getrennt wird, kann durch Drücken des Push-to-talk-Schalters 94 der zweite sprachaktivierte Assistent 82b aufgerufen werden, der derzeit bei der Multi-Assistenz-Steuerung 100 registriert ist.
  • Der Audiorecorder 120 verfügt über eine Audioaufnahme- und Pufferschaltung (oder ein Modul). Der Audiorecorder 120 umfasst das Audioerfassungsmodul 122, das Puffermodul 124 und das Warteschlangenmodul 126. Die Weckphrasenkarte enthält die von den sprachgesteuerten Assistenten 86a-86n registrierten Weckphrasen. Eine Assistenten-Audioformatkarte wird verwendet, um eine Vielzahl von Formaten zu speichern, die für die sprachgesteuerten Assistenten 86a-86n geeignet sind. Die Audioformate der Assistenten können unter anderem Abtastraten, Bittiefen und eine Anzahl von Kanälen umfassen.
  • Das Audioerfassungsmodul 122 empfängt und digitalisiert den vom Mikrofon 84 abgetasteten Ton und speichert den abgetasteten Ton in einem Ringspeicher im gepufferten Audiomodul 124. Die abgetasteten Audiodaten wird so formatiert, dass es einem internen Audioformat entspricht. Das interne Audioformat umfasst unter anderem eine Abtastrate, eine Bittiefe und eine Anzahl von Kanälen.
  • Das Puffermodul 124 ist ein Hardware-Speicherpuffer. Das Puffermodul 124 speichert einige Sekunden (z. B. bis zu zehn) der vom Audioerfassungsmodul 122 abgetasteten Audiodaten.
  • Das Warteschlangenmodul 126 kann einen Startindexzeiger (Idx) an den Detektor 140 weitergeben. Der Detektor 140 verwendet den Startindexzeiger, um Audiodaten aus dem Ringpuffer zwischen dem Startindexzeiger und einem Zeiger für den zuletzt geschriebenen Index (Written_Idx) zu lesen. Nachdem ein bestimmter sprachaktivierter Assistent 86a-86n vom Detektor 140 ausgewählt wurde, um eine Weckphrase zu verarbeiten, ist der Audiorecorder 120 so konfiguriert, dass er die abgetasteten Audiodaten aus dem Ringspeicher liest, die abgetasteten Audiodaten aus dem internen Audioformat in ein für den bestimmten sprachaktivierten Assistenten 86a-86n geeignetes Assistenten-Audioformat umwandelt und die umgewandelten abgetasteten Audiodaten im Validierungssignal an den bestimmten sprachaktivierten Assistenten 86a-86n übermittelt. Die umformatierten und übertragenen Audioabtastungen enthalten im Allgemeinen die vom Detektor 140 ausgewählte Weckphrase und zusätzliche Abtastungen, die eine Äußerung enthalten können, die die Weckphrase begleitet hat.
  • Der Detektor 140 implementiert eine Schaltung (oder ein Modul) zur Erkennung von Audiophrasen. Der Detektor 140 speichert die Weckphrasen, die von den sprachaktivierten Assistenten 86a-86n erkannt werden, in einer Weckphrasenkarte und durchsucht die abgetasteten Audiodaten, um die Wahrscheinlichkeiten zu bestimmen, dass die Weckphrasen in dem vom Mikrofon 84 empfangenen abgetasteten Audiodaten enthalten sind. Aus den Wahrscheinlichkeiten kann der Detektor 140 eine bestimmte Weckphrase aus den registrierten Weckphrasen auswählen, die die höchste Wahrscheinlichkeit aufweist. Wenn die höchste Wahrscheinlichkeit eine Schwellenwahrscheinlichkeit überschreitet, wird eine Rückrufnachricht im Steuersignal an den jeweiligen sprachaktivierten Assistenten 86a-86n gesendet, der die Weckphrase mit der höchsten Wahrscheinlichkeit registriert hat. Der Detektor 140 identifiziert den jeweiligen sprachaktivierten Assistenten 86a-86n, der die Weckphrase an den Audiorecorder 120 weiterleitet. Der Audio-Recorder 120 verwendet die Identifizierung, um ein geeignetes Assistenten-Audioformat für die Umwandlung der abgetasteten Audiodaten auszuwählen.
  • Nach der Übertragung der Rückrufmeldung an den ausgewählten sprachaktivierten Assistenten 86a-86n startet der Detektor 140 einen Rückruf-Timer. Wenn der ausgewählte sprachaktivierte Assistent 86a-86n die Aufwachphase in den abgetasteten Audiodaten nicht erkennen kann, sendet der ausgewählte sprachaktivierte Assistent 86a-86n im Steuersignal eine Fehlermeldung an den Detektor 140. Wenn der ausgewählte sprachaktivierte Assistent 86a-86n die Aufwachphase in den abgetasteten Audiodaten erfolgreich erkennt, sendet der ausgewählte sprachaktivierte Assistent 86a-86n eine Erfolgsmeldung im Steuersignal. Als Reaktion auf die Erfolgsmeldung bricht der Melder 140 den Rückruf-Timer ab. Wenn der Detektor 140 nach einer vorgegebenen Wartezeit keine Rückmeldung von dem ausgewählten sprachaktivierten Assistenten 86a-86n erhält (z. B. eine Nichtbestätigung), läuft der Rückruf-Timer ab, und der Detektor 140 kommt zu dem Schluss, dass ein Fehler aufgetreten ist.
  • 3 zeigt ein schematisches Diagramm einer Beispielimplementierung der Multi-Assistenz-Steuerung 100 in Übereinstimmung mit einer oder mehreren beispielhaften Ausführungsformen. Die Multi-Assistenz-Steuerung 100 umfasst den Audio-Recorder 120 und den Detektor 140. Der Audio-Recorder 120 und/oder der Detektor 140 können in dedizierter Hardware, in Software, die in Hardware (z.B. einem oder mehreren Prozessoren) ausgeführt wird, oder in einer Kombination aus dedizierter Hardware und Software implementiert sein. Der Audiorecorder 120 umfasst das Audioerfassungsmodul 122, das Puffermodul 124, das Warteschlangenmodul 126, einen Ringspeicher 130, einen Audioadapter 132 und eine Assistenz-Audioformatkarte 134. Die Assistenz-Audioformat-Map 134 ist so konfiguriert, dass sie mehrere Assistenz-Audioformate 136a-136n speichert. Der Ringspeicher 130 kann Teil des Puffermoduls 124 sein. Der Detektor 140 umfasst die Aufweck-Phrase-Map 142 und ein Mehrklassen-Klassifizierungsmodul 148. Die Weckphrasenkarte 142 ist so konfiguriert, dass sie mehrere Weckphrasen 144a-144n speichert. Ein internes Audioformat 138 des abgetasteten Tons kann sowohl vom Audiorecorder 120 als auch vom Detektor 140 verwendet werden.
  • Das Mikrofonsignal wird vom Audioaufnahme-Modul 122 empfangen. Das Steuersignal wird zwischen dem Detektor 140 und den sprachgesteuerten Assistenten 86a-86n ausgetauscht. Ein Warteschlangensignal (z. B. QUE) wird vom Audiorecorder 120 erzeugt und an den Detektor 140 übertragen. Das Warteschlangensignal übermittelt den Startindexzeiger an den Detektor 140. Das Validierungssignal wird vom Audioadapter 132 erzeugt und an die sprachgesteuerten Assistenten 86a-86n übertragen. Ein Formatidentifikationssignal (z. B. FMT) wird vom Detektor 140 erzeugt und an den Audiorecorder 120 übermittelt. Das Formaterkennungssignal informiert den Audiorecorder darüber, welcher sprachaktivierte Assistent 86a-86n für die Verarbeitung der Weckphrase und der Äußerung ausgewählt wurde.
  • Der Ringspeicher 130 implementiert einen Puffer in einer Hardware-Speicherschaltung. Der Ringspeicher 130 dient dazu, einige Sekunden des abgetasteten Tons zu speichern. Sobald der abgetastete Ton das Ende des Ringspeichers 130 erreicht hat, kehrt der Puffer an den Anfang zurück und überschreibt den alten abgetasteten Ton mit dem neuen abgetasteten Ton.
  • Der Audioadapter 132 implementiert einen Audioformat-Transcoder. Der Audioadapter 132 ist in der Lage, die abgetasteten Audiodaten vom internen Audioformat 138 in eines der Hilfs-Audioformate 136a-136n umzuwandeln, wie vom Detektor 140 im Formatsignal angezeigt. In einigen Situationen, in denen ein bestimmtes Assistenten-Audioformat 136a-136n mit dem internen Audioformat 138 übereinstimmt, kann der Audioadapter 132 die abgetasteten Audiodaten ohne Umwandlung an den jeweiligen sprachaktivierten Assistenten 86a-86n weitergeben.
  • Die Assistenten-Audioformatkarte 134 ist so konfiguriert, dass sie die verschiedenen Assistenten-Audioformate 136a-136n speichert, die von den sprachaktivierten Assistenten 86a-86n akzeptiert werden. Als Reaktion auf die Registrierung eines gegebenen sprachaktivierten Assistenten 86a-86n bei der Multi-Assistenz-Steuerung 100 kann das geeignete Assistenten-Audioformat 136a-136n des gegebenen sprachaktivierten Assistenten 86a-86n im Steuersignal an den Detektor 140 weitergeleitet werden, im Formatsignal an den Audio-Recorder 120 weitergeleitet und anschließend zur Assistenten-Audioformat-Map 134 hinzugefügt werden. Als Reaktion auf die Deregistrierung des gegebenen sprachaktivierten Assistenten 86a-86n bei der Multi-Assistenz-Steuerung 100 kann der Detektor 140 den Audio-Recorder 120 über das Formatsignal informieren, das entsprechende Audio-Assistenten-Audioformat 136a-136n aus der Assistenten-Audioformat-Map 134 zu entfernen.
  • Der Audiorecorder 120 ist für die Einrichtung der Audioerfassung vom Mikrofon 84 verantwortlich. In verschiedenen Ausführungsformen kann der Audiorecorder 120 eine von einem Audio-Subsystem des Fahrzeugs 80 unterstützte Anwendungsprogrammschnittstelle (API) verwenden, um die Mikrofondaten zu empfangen. Beim Einrichten der Audioerfassung kann das interne Audioformat für die Audiokonfigurationen (z. B. eine Abtastrate, eine Bittiefe, eine Anzahl von Kanälen) die höchste Konfiguration sein, um die unterstützten sprachaktivierten Assistenten 86a-86n zu erfüllen und Datenverluste während einer Validierungsphase zu vermeiden. Der Audio-Recorder 120 nutzt auch die vom Audiosystem bereitgestellten Methoden zur Rausch- und Echounterdrückung, um den sprachaktivierten Assistenten 86a-86n rauschärmere Audiosignale zu liefern. Der Audio-Recorder 120 kann auch periodische Audio-Rückrufe auf der Grundlage der konfigurierten Rahmen pro Rückruf empfangen.
  • Der Ringspeicher 130 wird bei jedem Rückruf der Audioaufnahme gefüllt. Der Ringspeicher 130 ist mit einer vordefinierten Größe (CIRC_BUFF_SIZE) konfiguriert. Der Zeiger für den zuletzt geschriebenen Index (Written_Idx) verfolgt den zuletzt in den Ringpuffer 130 geschriebenen Eintrag. Ein Erkennungsindex (Detected_Idx) zeigt an, an welcher Stelle im Ringpuffer 130 das Weckwort mit der höchsten Wahrscheinlichkeit erkannt wurde. Der Ringpuffer 130 kann während einer Erkennungsphase gefüllt werden (mit Überschreiben). In einem erkannten Zustand kann der Ringpuffer 130 so lange gefüllt werden, bis der geschriebene Indexzeiger den erkannten Indexzeiger erreicht.
  • Der Audiorecorder 120 ist für die Audioaufnahme mit Rausch-/Echounterdrückung zuständig. Der Audiorecorder 120 steuert auch den Ringspeicher 130, um eine ausreichende Kapazität für die Aufnahme von Samples für eine oder mehrere One-Shot-Äußerungen zusammen mit den Aufweck-Phrasen zu erhalten.
  • Der Audiorecorder 120 kann auch Audioformatkonvertierungen unterstützen, wenn ein sprachgesteuerter Assistent 86a-86n einen Lesebefehl für den erfassten Puffer erteilt. Der Audiorecorder 120 abstrahiert den Inhalt des Ringspeichers 130 und macht ihn für die sprachaktivierten Assistenten 86a-86n zugänglich. In Ausführungsformen, die mit Software implementiert sind, können der Audiorecorder 120 und die sprachaktivierten Assistenten 86a-86n in verschiedenen Prozessen implementiert sein.
  • Der Detektor 140 ist für die Verarbeitung der vom Audio-Capture-Callback abgetasteten Audiodaten zuständig und erkennt das Vorhandensein der registrierten Aufweck-Phrasen. Der Detektor 140 kann neu hinzugefügte Puffer aus dem Ringspeicher 130 verarbeiten. Bei jedem Audioaufzeichnungs-Callback stellt der Audiorecorder 120 den neu hinzugefügten Pufferindex in die Warteschlange des Detektors 140, um die Ankunft der neuen Samples zu signalisieren. In verschiedenen Situationen kann der Detektor 140 einige der vergangenen Frames zusammen mit den neuen Frames unter Verwendung eines Schiebefenster-Ansatzes verwenden, um sequentiell nach den Aufweck-Phrasen zu suchen.
  • Der Detektor 140 verarbeitet die vom Audiorecorder 120 in die Warteschlange gestellten Proben vor und leitet sie an das Mehrklassen-Klassifizierungsmodul 148 weiter, wo die Wahrscheinlichkeiten für jede Weckphrase ermittelt werden. Wenn die höchste Wahrscheinlichkeit über dem vorkonfigurierten Schwellenwert liegt, wird der entsprechende sprachaktivierte Assistent 86a-86n durch einen registrierten Rückruf ausgelöst.
  • Sobald ein bestimmter sprachaktivierter Assistent 86a-86n ausgelöst wird, kann der bestimmte sprachaktivierte Assistent 86a-86n optional eine zweite Phase der Erkennung/Validierung durchführen und, falls verfügbar, die Äußerung der Person 82 verarbeiten. Für die zweite Phase der Erkennung/Validierung liest der jeweilige sprachaktivierte Assistent 86a-86n aus dem Ringspeicher 130 über den Audioadapter 132, der die zwischengespeicherten Daten in ein geeignetes Audioformat umwandelt. Der Lesevorgang kann vorerfasste Samples zurückgeben, die die Weckphrase und die Äußerung enthalten. In einigen Situationen, in denen der gesamte Ringspeicher 130 gelesen wird, kann auch die Echtzeit-Erfassung eines Rests einer Äußerung zurückgegeben werden. Nach Abschluss der zweiten Erkennungsphase und dem Auslesen des Ringspeichers startet der jeweilige sprachaktivierte Assistent 86a-86n eine Sprachsitzung und verarbeitet die aus dem Ringspeicher 130 ausgelesene Äußerung. Aus Sicht der Person 82 antwortet der ausgelöste Sprachassistent 86a-86n auf die gesprochene Äußerung zeitnah mit der Sprachsitzung.
  • In 4 ist ein schematisches Diagramm von Beispiel-Sprachbefehlen gemäß einer oder mehreren beispielhaften Ausführungsformen dargestellt. In manchen Situationen kann ein Sprachbefehl 160a eine Weckphrase 144x und eine Äußerung 146 enthalten. Die Weckphrase 144x kann repräsentativ für jede Weckphrase 144a-144n sein. Die Weckphrase 144x kann zum Beispiel „Hey Hal“, „Guten Morgen Sal“ oder andere Mehrwortphrasen sein. Die Äußerung 146 kann so kurz wie ein einziges Wort (z. B. „Temperatur“) sein oder mehrere Sekunden dauern (z. B. 10 Sekunden).
  • In manchen Situationen kann ein Sprachbefehl 160b nur aus der Weckphrase 144x bestehen. In solchen Situationen ist der sprachgesteuerte Assistent 86a-86n dafür verantwortlich, festzustellen, dass auf die Weckphrase 144x keine Äußerung 146 folgt.
  • In anderen Situationen kann ein Sprachbefehl 160c ein einzelnes Weckwort 144y enthalten, gefolgt von der Äußerung 146. Das Weckwort 144y kann repräsentativ für jede Weckphrase 144a-144n sein. Beispiele für das Weckwort 144y sind unter anderem „Hilfe“, „Anruf“ und „Licht“.
  • In wieder anderen Situationen kann ein Sprachbefehl 160d nur aus dem Weckwort 144y bestehen. In solchen Situationen ist der sprachgesteuerte Assistent 86a-86n dafür verantwortlich, festzustellen, dass auf das Weckwort 144y keine Äußerung 146 folgt.
  • In 5 ist ein Flussdiagramm eines beispielhaften Arbeitsablaufs 180 im System 102 gemäß einer oder mehreren beispielhaften Ausführungsformen dargestellt. Der Arbeitsablauf 180 ist mit einem sprachgesteuerten Assistenten 86x, einem sprachgesteuerten Assistenten 86y und der Multi-Assistenz-Steuerung 100 dargestellt. Die Multi-Assistenz-Steuerung 100 umfasst den Audio-Recorder 120 und den Detektor 140. Die sprachaktivierten Assistenten 86x und 86y können stellvertretend für jeden der sprachaktivierten Assistenten 86a-86n stehen.
  • Die Multi-Assistenz-Steuerung 100 beginnt in einem Ruhezustand, bis ein erster sprachaktivierter Assistent (z. B. 86x) aktiviert wird 181. Der aktivierte sprachaktivierte Assistent 86x initiiert 182 einen Registrierungsanruf an den Detektor 140. Während des Registrierungsanrufs übergibt jeder sprachaktivierte Assistent 86x-86y eine oder mehrere eindeutige Weckphrasen, unterstützte Konfigurationen wie ein Audioformat, eine Sprache, einen Erkennungsrückruf und dergleichen. Die Informationen werden der Aufweck-Phrase-Map 142 (3) und der Assistenten-Audioformat-Map 134 (3) hinzugefügt (184). In verschiedenen Ausführungsformen kann die Assistenten-Audioformat-Map 134 Teil der Aufweck-Phrase-Map 142 sein, so dass das Audioformat in der Aufweck-Phrase-Map 142 gespeichert sein kann. Die Daten in der Aufweck-Phrase-Map 142 ordnen im Allgemeinen die Informationen (einschließlich des Rückrufs, des Audioformats und der Sprache) den eindeutigen Aufweck-Phrasen zu. Wenn sich die Multi-Assistenz-Steuerung 100 gemäß dem Entscheidungsblock 186 im Ruhezustand befindet, führt der Audio-Recorder 120 die Audioaufnahme 188 durch, der Detektor 140 lädt 190 ein Erkennungsmodell, und die Multi-Assistenz-Steuerung 100 geht vom Ruhezustand in einen Erkennungszustand über. Der Ringpuffer 130 wird mit einer Puffergröße initialisiert, die für die unterstützten sprachaktivierten Assistenten 86a-86n ausreichend ist. Der Ringpuffer 130 verfügt über Zustandsvariablen, die so initialisiert sind, dass sie den geschriebenen Indexzeiger und die erkannten Indexzeiger auf zuvor zugewiesene Speicherplätze verfolgen. Nachfolgende Registeraufrufe von anderen sprachaktivierten Assistenten 86a-86n lösen die Initialisierung nicht aus, da die Initialisierung bereits während des ersten Aufrufs durchgeführt wurde.
  • Sobald die Audioaufnahme eingerichtet ist, beginnt der Audiorecorder 120 mit der Rauschunterdrückung 191 der Mikrofondaten. Für jeden neuen Puffer (z. B. ΔBuffer) kann ein Audioaufnahme-Callback 192 empfangen werden. Da die Audioaufnahme-Callbacks periodisch vom Audiorecorder 120 empfangen werden (gesteuert durch die Periodengröße während der Audioaufnahme), wird die Indexposition (z. B. Idx) für ein Anfangsbyte der abgetasteten Audiodaten berechnet, indem der geschriebene Indexzeiger inkrementiert und der Indexzeiger an den Anfang des Ringspeichers 130 zurückgebracht wird, wenn die Grenze der Ringspeichergröße erreicht ist. Dies ist der Index, wenn die Bedingungen für das Schreiben 204 des ΔBuffers in den Ringspeicher 130 erfolgreich erfüllt sind. Wenn der Zustand gemäß dem Entscheidungsblock 193 erkannt wird, wird der ΔPuffer zum Schreiben in den Ringspeicher 130 eingestellt. Informationen (z. B. der Index und die Größe des ΔPuffers) werden vom Warteschlangenmodul 126 an den Detektor 140 gesendet. Wenn der Detektor 140 in regelmäßigen Abständen neue Daten abfragt, dienen die an den Detektor 140 gesendeten Informationen im Allgemeinen als Benachrichtigung, dass neue Daten eingetroffen sind. Wird der Zustand nicht gemäß dem Entscheidungsschritt 194 erkannt und ist zwischen dem geschriebenen Index und einem erkannten Index gemäß dem Entscheidungsschritt 220 Speicherplatz vorhanden, wird der ABuffer 202 in den Ringspeicher 130 bis zu einer Position kurz vor dem erkannten Index eingefügt, um die abgetasteten Audiodaten, das die Aufweck-Phrase enthält, nicht zu überschreiben. Je nach dem im Ringpuffer 130 zwischen dem geschriebenen Index und dem erkannten Index verfügbaren Platz können einige Daten im ΔBuffer entfallen 206. Wenn keine der oben genannten Bedingungen erfüllt ist (z. B. wenn der Zustand untätig ist) oder der Ringpuffer 130 unmittelbar nach der Erkennung voll ist, wird der ΔBuffer ebenfalls gelöscht 206. Der ΔBuffer wird in den Ringspeicher 130 geschrieben 204 und der zuletzt geschriebene Indexzeiger wird auf die zuletzt geschriebene Position im Ringspeicher 130 aktualisiert 204.
  • Der Detektor 140 verarbeitet im Erkennungszustand kontinuierlich 210 die neu eingetroffenen abgetasteten Audiodaten zur Erkennung. In verschiedenen Ausführungsformen fragt der Detektor 140 den Ringspeicher 130 direkt nach neuen Daten ab, wobei einige Perioden des Ruhezustands vorgesehen sind. In einigen Ausführungsformen kann der Detektor 140 durch den Warteschlangenaufruf des Audiorekorders 120 im Anschluss an einen Audioerfassungsrückruf ausgelöst (oder aufgeweckt) werden. Sobald der Detektor 140 über ausreichend abgetastetes Audiomaterial verfügt, um in ein Fenster von vorbestimmter Größe zu passen, verarbeitet der Detektor 140 die abgetasteten Audiodaten auf das Vorhandensein der Weckphrasen 210. Die Erkennungsgeschwindigkeit ist so ausgelegt, dass sie ausreichend schneller ist als das Rückrufintervall der Audioaufnahme. Die Geschwindigkeit verhindert, dass die abgetasteten Audiodaten im Ringspeicher 130 überschrieben werden, bevor die gesampelten Daten für die Erkennung verarbeitet werden. In einigen Ausführungsformen, in denen die Erkennungsgeschwindigkeit langsamer ist, kann ein Fehlererkennungsmechanismus eingebaut werden, der erkennt, wenn die abgetasteten Audiodaten überschrieben werden, bevor sie für die Erkennung verarbeitet werden.
  • Der Detektor 140 verarbeitet die zwischengespeicherten Audiodaten vor, um sie vom Zeitbereich in den Frequenzbereich zu transformieren (z. B. Fast Fourier Transform) und nützliche Merkmale zu extrahieren (z. B. Mel-Frequenz-Cepstral-Koeffizienten). Der Vorverarbeitungsschritt 212 ist so konzipiert, dass er mit dem gleichen Schritt übereinstimmt, der beim Training des Modells verwendet wird, und ist an einen gewählten Ansatz des maschinellen Lernens gebunden.
  • Das Mehrklassen-Klassifizierungsmodul 148 erzeugt Wahrscheinlichkeiten 214 für jede Weckphrase. Die Weckphrase (z. B. für den sprachgesteuerten Assistenten 86x) mit der höchsten Wahrscheinlichkeit wird für die weitere Verarbeitung ausgewählt 216. Die ausgewählte höchste Wahrscheinlichkeit wird auch mit einer Schwellenwahrscheinlichkeit verglichen, die (normalerweise durch Versuch und Irrtum während der Abstimmung) auf einen geeigneten Wert vorkonfiguriert wird. Wenn die höchste Wahrscheinlichkeit größer als die Schwellenwahrscheinlichkeit ist, die entsprechende Weckphrase in der Weckphrasenkarte enthalten ist (z. B. hat der siegreiche sprachaktivierte Assistent 86x die erkannte Weckphrase bereits registriert) und der ausgewählte sprachaktivierte Assistent 86x in den Einstellungen gemäß Schritt 217 aktiviert ist, geht die Multi-Assistenz-Steuerung 100 in den Erkennungszustand 218 über und der Erkennungsindex wird auf den Startindex des erkannten Rahmens gesetzt. Wenn eine erkannte Weckphrase gemäß dem Entscheidungsblock 219 verfügbar ist, wird der ausgewählte sprachaktivierte Assistent 86x durch den Erkennungs-Callback benachrichtigt, der Audioadapter 132 wird über das entsprechende Assistenten-Audioformat benachrichtigt, und der Callback-Timer wird gemäß Schritt 220 gestartet.
  • Sobald die Benachrichtigung 222 eingegangen ist, kann der ausgewählte sprachaktivierte Assistent 86x die Erkennung mit Hilfe eines internen akustischen Modells anhand der zuvor erfassten Pufferdaten validieren 224. Die abgetasteten Audiokriterien für die Erkennung der Weckphrase können sich von den abgetasteten Audiodaten unterscheiden, die im Ringspeicher 130 gespeichert sind. Daher kann in verschiedenen Ausführungsformen der ausgewählte sprachaktivierte Assistent 86x das Audioformat des Assistenten, wie z. B. Abtastrate, Bittiefe und Anzahl der Kanäle, in einem IPC-Leseaufruf 226 an den Audioadapter 132 weitergeben. Die Inter-Prozess-Kommunikation bezieht sich im Allgemeinen auf einen Mechanismus, mit dem ein Betriebssystem es mehreren ausführenden Prozessen ermöglicht, gemeinsame Daten zu verwalten. Gegebenenfalls führt der Audioadapter 132 die Audioformatkonvertierung (z. B. Resampling) an den vom Ringspeicher 130 empfangenen Daten durch und gibt die neu formatierten Daten an den sprachaktivierten Assistenten 86x zurück. In einigen Ausführungsformen übergibt der Erkennungs-Callback Informationen (z. B. einen gemeinsamen Speichernamen, Pfad oder Schlüssel) darüber, woher die gepufferten Daten zu ziehen sind, die der ausgewählte sprachaktivierte Assistent 86x verwenden kann, und dem Audioadapter 132 wird signalisiert, das Resampling durchzuführen, sobald es erkannt wird. Der Audioadapter 132 bestimmt das Audioformat des Assistenten für den ausgewählten sprachaktivierten Assistenten 86x, indem er die Wake-up Phrase Map 142 oder die Assistant Audio Format Map 134 abruft.
  • Nachdem der ausgewählte sprachaktivierte Assistent 86x die Validierung 224 durchgeführt und das Vorhandensein des Weckworts bestätigt hat, erzeugt der ausgewählte sprachaktivierte Assistent 86x im Entscheidungsschritt 228 einen Erfolgsruf 230, um der Multi-Assistenz-Steuerung 100 zu signalisieren, dass der ausgewählte sprachaktivierte Assistent 86x eine Sprachsitzung beginnt. Danach initiiert der ausgewählte sprachaktivierte Assistent 86x 232 die Sprachsitzung, der Detektor 140 bricht 233 den Rückruf-Timer ab, und der Detektor 140 bleibt ebenfalls im erkannten Zustand. Während der Sprachsitzung kann der ausgewählte sprachgesteuerte Assistent 86x nach der Weckphrase weiterhin eine Äußerung verarbeiten. Zu diesem Zweck verwendet der ausgewählte sprachaktivierte Assistent 86x den verbleibenden Inhalt des Ringspeichers 130, der auf die Weckphrase folgt. In Fällen, in denen der ausgewählte sprachaktivierte Assistent 86x auf zusätzliche Sprachdaten angewiesen ist, die über die im Ringspeicher 130 erfassten Daten hinausgehen, kann parallel zur Verarbeitung des Ringspeichers 130 eine zusätzliche Audioerfassung durchgeführt werden. So kann der Audioadapter 132 weiterhin die ungepufferte, abgetastete Audiodaten streamen, die erfasst wurden, nachdem der Inhalt des Ringspeichers 130 an den ausgewählten sprachaktivierten Assistenten 86x übertragen wurde. In einem solchen Fall wird der ungepufferte, abgetastete Ton an den Audioadapter 132 weitergeleitet, anstatt den ΔBuffer im erkannten Zustand zu verwerfen. In anderen Fällen wird ein gepuffertes Audio-Capture als ein anderes Audio-Capture abstrahiert (z. B. ähnlich wie ein AudioRecord - eine Unterklasse BufferedAudioCapture, die eine Identifikation annimmt, die den Ringspeicher 130 in der Multi-Assistenz-Steuerung 100 angibt). Danach öffnet der ausgewählte sprachaktivierte Assistent 86x (Client) ein BufferAudioCapture, das zunächst den gepufferten Ringspeicher zurückgibt und anschließend die Echtzeit-Audioaufnahme.
  • Wenn die von dem ausgewählten sprachaktivierten Assistenten 86x durchgeführte Validierung gemäß Schritt 228 fehlschlägt, signalisiert ein Fehleraufruf 236 der Multi-Assistenz-Steuerung 100, den Rückruf-Timer 238 abzubrechen. Es wird geprüft, ob eine Weckphrase mit der nächsthöheren Wahrscheinlichkeit verfügbar ist. Wenn der nächstwahrscheinliche Weckruf gemäß Entscheidungsschritt 219 verfügbar ist, benachrichtigt der Detektor 140 im Entscheidungsschritt 220 den entsprechenden sprachaktivierten Assistenten 86a-86n. Ist dies nicht der Fall, wechselt die Multi-Assistenz-Steuerung 100 zurück in den Erkennungszustand 239, löscht den Ringspeicher 130 und führt eine Fehlerbehandlung durch.
  • Sobald die Sprachsitzung endet (234), ruft der ausgewählte sprachaktivierte Assistent 86x ein Sitzungsende auf, um der Multi-Assistenz-Steuerung 100 zu signalisieren, dass er wieder in den Erkennungszustand übergeht (242). Während des Anrufs zum Sitzungsende löscht die Multi-Assistenz-Steuerung 100 auch den Ringspeicher 130, um veraltete Daten im Speicher zu vermeiden.
  • Als Reaktion auf die Deaktivierung 250 (z. B. während bestimmter Ereignisse wie dem Schlaf oder einer Benutzerauswahl) benachrichtigt der deaktivierte sprachaktivierte Assistent 86x oder 86y den Detektor 140 über eine Deregistrierung, indem er ein Deregistrierungssignal sendet. Der Detektor 140 reagiert darauf, indem er den sprachaktivierten Assistenten 86x oder 86y aus der Karte der Weckphrasen und der Karte des Assistenten-Audioformats 254 entfernt. Wenn jeder der sprachaktivierten Assistenten 86a-86n gemäß dem Entscheidungsschritt 256 deregistriert wurde, entlädt die Multi-Assistenz-Steuerung 100 das Erkennungsmodell 258, bricht die Audioerfassung ab, löscht den Ringspeicher 130 und setzt sich im Schritt 260 in den Ruhezustand zurück.
  • 6 zeigt ein schematisches Diagramm einer Beispielimplementierung eines Computers 270 gemäß einer oder mehrerer beispielhafter Ausführungsformen. Der Computer 270 kann die Multi-Assistenz-Steuerung 100 und die sprachgesteuerten Assistenten 86a-86n implementieren.
  • Der Computer 270 umfasst einen oder mehrere Prozessoren 272 (einer davon abgebildet), ein nicht-transitorisches computerlesbares Medium 274 und ein computerlesbares Medium 276. Das nichtübertragbare computerlesbare Medium 274 kann Anweisungen (oder Softwareprogramme oder Codes) 278 enthalten. Die Anweisungen 278 können von dem Prozessor 272 gelesen und ausgeführt werden. Die Anweisungen implementieren den Prozess der Steuerung der mehreren sprachaktivierten Assistenten 86a-86n. Die Anweisungen implementieren auch die Funktionalität der einzelnen sprachgesteuerten Assistenten 86a-86n. Das computerlesbare Medium 276 kann eine flüchtige und/oder eine nichtflüchtige Speicherschaltung implementieren. Der computerlesbare Datenträger 276 ist so konfiguriert, dass er den Ringspeicher 130 und die Assistenten-Audioformatkarte 134 speichert. In verschiedenen Ausführungsformen können sich die Anweisungen 278, der Ringspeicher 130 und/oder die Assistenten-Audioformat-Map 134 auf demselben Speichermedium befinden.
  • In 7 ist ein Flussdiagramm eines beispielhaften Arbeitsablaufs 280 für Push-to-talk-Vorgänge gemäß einer oder mehreren beispielhaften Ausführungsformen dargestellt. Der Arbeitsablauf 280 ist mit dem sprachgesteuerten Assistenten 86x, dem sprachgesteuerten Assistenten 86y und der Multi-Assistenz-Steuerung 100 dargestellt. Die Multi-Assistenz-Steuerung 100 umfasst das Push-to-talk-Modul 110 und den Detektor 140.
  • Die Multi-Assistenz-Steuerung 100 beginnt im Ruhezustand, bis ein erster sprachaktivierter Assistent (z.B. 86x) aktiviert wird 181. Der aktivierte sprachaktivierte Assistent 86x initiiert 182 einen Registrierungsanruf an den Detektor 140. Während des Registrierungsanrufs übergibt jeder sprachaktivierte Assistent 86x-86y eine oder mehrere eindeutige Weckphrasen, unterstützte Konfigurationen (Sprache usw.) und einen Erkennungsrückruf. Diese Informationen werden in die Weckphrasenkarte 184 aufgenommen. Eine Push-to-talk-Konfigurationsdatenbank 282 speichert im Allgemeinen eine Prioritätszuordnung zwischen den sprachgesteuerten Assistenten 86a-86n. Die Push-to-talk-Konfigurationsdaten können 284 in eine Assistentenprioritätskarte eingelesen werden. Ein Push-to-talk-Empfänger kann 286 auf den registrierten (aktiven) sprachaktivierten Assistenten 86x-86y mit der höchsten Priorität aktualisiert werden.
  • Die Person 82 kann den Push-to-talk-Schalter 94 290 drücken. Als Reaktion auf die Betätigung führt das Push-to-talk-Modul 110 eine Prüfung 292 auf einen Push-to-talk-Empfänger durch, der nicht leer ist. Wenn der Push-to-talk-Empfänger Null ist, kann eine Fehlerbehandlungsroutine 294 implementiert und ein mHandler auf false gesetzt werden. Wenn der Push-to-talk-Empfänger nicht null ist, benachrichtigt das Push-to-talk-Modul 110 den sprachaktivierten Assistenten 86x oder 86y, auf den der Push-to-talk-Empfänger verweist, und der mHandler kann auf true gesetzt werden. Das Push-to-talk-Modul 110 gibt 298 den mHandler zurück, unabhängig davon, ob das Ereignis erfolgreich behandelt wurde oder nicht. Die sprachgesteuerten Assistenten 86x oder 86y können als Reaktion auf die Benachrichtigung einen Push-to-talk-Rückruf 300 erzeugen. In verschiedenen Ausführungsformen können die Push-to-talk-Konfigurationsdaten für die Push-to-talk-Bedienelemente über einen Beobachter von einem anderen Bildschirm abgerufen werden, wodurch eine benutzerspezifische Anpassung des Systems 102 ermöglicht wird.
  • Als Reaktion auf die Deaktivierung 250 benachrichtigt der deaktivierte sprachaktivierte Assistent 86x oder 86y den Detektor 140 über eine Deregistrierung 252. Der Detektor 140 reagiert darauf, indem er 254 den sprachaktivierten Assistenten 86x oder 86y aus der Weckphrasenkarte 142 und der Assistenten-Audioformatkarte 134 entfernt, sofern diese getrennt von der Weckphrasenkarte 142 implementiert wurde. Wenn der aktive sprachaktivierte Assistent (z. B. 86x) abgemeldet wird, wird der Push-to-Talk-Empfänger aktualisiert, um auf den aktiven sprachaktivierten Assistenten (z. B. 86y) mit der nächsthöheren Priorität zu verweisen.
  • Ausführungsformen der vorliegenden Offenbarung bieten ein vom Benutzer konfigurierbares zentralisiertes Modul zur Erkennung von Weckphrasen, das ein Mehrklassen-Klassifizierungsmodul 148 verwendet, um sprachaktivierte Assistenten 86a-86n zu erkennen und auszulösen. Die gepufferte Audioerfassung im zentralisierten Modul ermöglicht es den sprachaktivierten Assistenten 86a-86n, eine zusätzliche Validierung und eine einmalige Verarbeitung von Äußerungen durchzuführen. Durch den zentralisierten Ansatz entfällt das Kriterium, dass jeder sprachaktivierte Assistent 86a-86n die Mikrofondaten für die Weckphrasen einzeln überwachen und verarbeiten muss. Durch die Nutzung des vortrainierten Mehrklassen-Klassifizierungsmoduls 148 kann die Person 82 mehrere sprachaktivierte Assistenten 86a-86n so konfigurieren, dass sie durch die zugehörigen Weckphrasen ausgelöst werden. Nach der Erkennung kann ein ausgewählter sprachgesteuerter Assistent 86a-86n die gepufferten Stichproben verwenden, um eine weitere Validierung durchzuführen und/oder Äußerungen der Person 82 zu verarbeiten.
  • Während die bevorzugten Ausführungsformen zur Durchführung der Offenbarung im Detail beschrieben wurden, werden diejenigen, die mit dem Stand der Technik, auf den sich diese Offenbarung bezieht, vertraut sind, verschiedene alternative Designs und Ausführungsformen zur Durchführung der Offenbarung im Rahmen der beigefügten Ansprüche erkennen.

Claims (10)

  1. Multi-Assistenz-Steuerung, umfassend: einen Audio-Recorder, der konfiguriert ist zum: Empfangen von abgetasteten Audiodaten von einem Mikrofon, Speichern der abgetasteten Audiodaten in einem Ringspeicher, und Übertragen der abgetasteten Audiodaten aus dem Ringspeicher an einen bestimmten sprachaktivierten Assistenten aus einer Vielzahl von sprachaktivierten Assistenten; und einen Detektor, der konfiguriert ist zum: Speichern einer Vielzahl von Weckphrasen, die von der Vielzahl von sprachaktivierten Assistenten erkannt werden können, Durchsuchen der abgetasteten Audiodaten, um eine Vielzahl von Wahrscheinlichkeiten zu bestimmen, dass die abgetasteten Audiodaten die Vielzahl von Weckphrasen enthält, Auswählen einer bestimmten Weckphrase aus der Vielzahl von Weckphrasen, die eine höchste Wahrscheinlichkeit unter der Vielzahl von Wahrscheinlichkeiten aufweist, und Senden eines Rückrufs an den bestimmten sprachaktivierten Assistenten aus der Vielzahl der sprachaktivierten Assistenten, dass die bestimmte Weckphrase erkannt wurde, wobei die an den bestimmten sprachaktivierten Assistenten abgetasteten Audiodaten die bestimmte Weckphrase enthalten, die erkannt wurde.
  2. Multi-Assistenz-Steuerung nach Anspruch 1, wobei die vom Ringspeicher an den bestimmten sprachaktivierten Assistenten abgetasteten Audiodaten mindestens eine Äußerung enthalten, die auf die bestimmte Weckphrase folgte.
  3. Multi-Assistenz-Steuerung nach Anspruch 1, wobei der Detektor ferner so konfiguriert ist, dass er eine Vielzahl von Assistenten-Audioformaten speichert, die von der Vielzahl von sprachaktivierten Assistenten akzeptiert werden, die abgetasteten Audiodaten ein internes Audioformat hat und der Audio-Recorder ferner so konfiguriert ist, dass er die abgetasteten Audiodaten, die an den bestimmten sprachaktivierten Assistenten übertragen werden, von dem internen Audioformat in eines der Vielzahl von Assistenten-Audioformaten umwandelt.
  4. Multi-Assistenz-Steuerung nach Anspruch 1, wobei der bestimmte sprachaktivierte Assistent in Reaktion auf die höchste Wahrscheinlichkeit, die einen Schwellenwert überschreitet, benachrichtigt wird.
  5. Multi-Assistenz-Steuerung nach Anspruch 1, wobei der Detektor ferner konfiguriert ist zum: Empfangen einer Benachrichtigung von dem bestimmten sprachaktivierten Assistenten, dass der bestimmte sprachaktivierte Assistent die bestimmte Weckphrase in den abgetasteten Audiodaten, die von dem Ringspeicher empfangen wurden, nicht erkennen konnte; und Suchen nach der Vielzahl von Weckphrasen in den abgetasteten Audiodaten fortsetzen.
  6. Multi-Assistenz-Steuerung nach Anspruch 1, wobei der Detektor ferner konfiguriert ist zum: Erhalten einer Benachrichtigung von dem bestimmten sprachgesteuerten Assistenten, dass der bestimmte sprachgesteuerte Assistent eine Sitzung mit den abgetasteten Audiodaten beendet hat, Befehlen des Audiorecorders, den Ringspeicher zu löschen; und Fortsetzen der Suche nach der Vielzahl von Weckphrasen in den abgetasteten Audiodaten.
  7. Multi-Assistenz-Steuerung nach Anspruch 1, wobei der Detektor ferner konfiguriert ist zum: Warten einer vorbestimmte Zeitspanne, nachdem der Rückruf an den bestimmten Sprachaktivierungsassistenten gesendet wurde; und Wiederaufnehmen der Suche nach der Vielzahl von Weckphrasen als Reaktion auf eine Nicht-Bestätigung des Rückrufs durch den bestimmten sprachgesteuerten Assistenten.
  8. Multi-Assistenz-Steuerung nach Anspruch 1, wobei der Detektor ferner konfiguriert ist zum: Empfangen eines Abmeldesignals von einem bestimmten sprachaktivierten Assistenten aus der Vielzahl der sprachaktivierten Assistenten; und Ignorieren der Vielzahl von Weckphrasen, die von dem gegebenen sprachaktivierten Assistenten erkannt werden, während einer nachfolgenden Suche in den abgetasteten Audiodaten nach der Vielzahl von Weckphrasen.
  9. Multi-Assistenz-Steuerung nach Anspruch 1, wobei der Audio-Recorder und der Detektor Teil eines Fahrzeugs sind.
  10. Verfahren zum Multi-Assistenz-Steuern, das Folgendes umfasst: Speichern einer Vielzahl von Weckphrasen, die von einer Vielzahl von sprachaktivierten Assistenten erkannt werden können; Empfangen von abgetasteten Audiodaten von einem Mikrofon; Speichern der abgetasteten Audiodaten in einem Ringpuffer in einer Speicherschaltung; Durchsuchen der abgetasteten Audiodaten, um eine Vielzahl von Wahrscheinlichkeiten zu bestimmen, dass die abgetasteten Audiodaten die Vielzahl von Weckphrasen enthält; Auswählen einer bestimmten Weckphrase aus der Vielzahl von Weckphrasen, die eine höchste Wahrscheinlichkeit unter der Vielzahl von Wahrscheinlichkeiten aufweist; Senden eines Rückrufs an einen bestimmten sprachgesteuerten Assistenten aus der Vielzahl der sprachgesteuerten Assistenten, dass die bestimmte Weckphrase erkannt wurde; und Übertragen der abgetasteten Audiodaten aus dem Ringspeicher an den bestimmten sprachaktivierten Assistenten, wobei die an den bestimmten sprachaktivierten Assistenten übertragenen abgetasteten Audiodaten die bestimmte Weckphrase enthalten, die erkannt wurde.
DE102021130691.4A 2021-03-10 2021-11-23 Multi-assistenz-steuerung Pending DE102021130691A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/197,257 US11657818B2 (en) 2021-03-10 2021-03-10 Multi-assistant control
US17/197,257 2021-03-10

Publications (1)

Publication Number Publication Date
DE102021130691A1 true DE102021130691A1 (de) 2022-09-15

Family

ID=83005603

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102021130691.4A Pending DE102021130691A1 (de) 2021-03-10 2021-11-23 Multi-assistenz-steuerung

Country Status (3)

Country Link
US (1) US11657818B2 (de)
CN (1) CN115083403A (de)
DE (1) DE102021130691A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2023013093A1 (de) * 2021-08-04 2023-02-09

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11164570B2 (en) * 2017-01-17 2021-11-02 Ford Global Technologies, Llc Voice assistant tracking and activation
US10325596B1 (en) * 2018-05-25 2019-06-18 Bao Tran Voice control of appliances
US11087754B2 (en) * 2018-09-27 2021-08-10 Coretronic Corporation Intelligent voice system and method for controlling projector by using the intelligent voice system
US11100923B2 (en) * 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10908883B2 (en) * 2018-11-13 2021-02-02 Adobe Inc. Voice interaction development tool
US20200184963A1 (en) * 2018-12-07 2020-06-11 At&T Intellectual Property I, L.P. Virtual assistant augmentation system

Also Published As

Publication number Publication date
CN115083403A (zh) 2022-09-20
US11657818B2 (en) 2023-05-23
US20220293097A1 (en) 2022-09-15

Similar Documents

Publication Publication Date Title
DE102019119171A1 (de) Spracherkennung für fahrzeugsprachbefehle
DE102018103188B4 (de) Verfahren zur spracherkennung in einem fahrzeug zur verbesserung der aufgabenerledigung
DE102013001219B4 (de) Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE112012007103B4 (de) Spracherkennungsvorrichtung
DE102019105251A1 (de) Dialekt- und sprachenerkennung zur spracherkennung in fahrzeugen
EP1927980A2 (de) Verfahren zur Klassifizierung der gesprochenen Sprache in Sprachdialogsystemen
DE10163213A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
DE102019107624A1 (de) System und Verfahren zur Erfüllung einer Sprachanforderung
EP3224830B1 (de) Kraftfahrzeug-gerätebedienung mit bedienkorrektur
EP3430615B1 (de) Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
DE112019001297T5 (de) Systeme und verfahren zur erfassung von geräuschen zur mustererkennungsverarbeitung
DE102021130691A1 (de) Multi-assistenz-steuerung
EP1184325A1 (de) Aufzug mit Sprachsteuerung
DE102018215293A1 (de) Multimodale Kommunikation mit einem Fahrzeug
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
DE112019003210T5 (de) Sprachverarbeitungsvorrichtung, Sprachverarbeitungsverfahren und Aufzeichnungsmedium
EP1168302B1 (de) Spracherkennungssytem mit einem aktiven Bereitschaftszustand
EP2907048B1 (de) Kraftwagen mit einem sprachübersetzungssystem
DE102018200746B4 (de) Aktivierung eines Sprachdialogsystems in einem Kraftfahrzeug
DE102019208742A1 (de) Sprachübersetzungssystem zum Bereitstellen einer Übersetzung eines Spracheingabesignals eines Sprechers in ein anderssprachiges Sprachausgabesignal für einen Hörer sowie Übersetzungsverfahren für ein derartiges Sprachübersetzungssystem
DE102005030965A1 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
DE102018221712B4 (de) Verfahren zum Betreiben eines interaktiven Informationssystems für ein Fahrzeug, sowie ein Fahrzeug
DE112018006597B4 (de) Sprachverarbeitungsvorrichtung und Sprachverarbeitungsverfahren
DE102022124133B3 (de) Verfahren zum Verarbeiten gestottert gesprochener Sprache mittels eines Sprachassistenten für ein Kraftfahrzeug

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015220000

Ipc: G10L0015320000

R016 Response to examination communication