DE102013001219B4 - Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus - Google Patents
Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus Download PDFInfo
- Publication number
- DE102013001219B4 DE102013001219B4 DE102013001219.8A DE102013001219A DE102013001219B4 DE 102013001219 B4 DE102013001219 B4 DE 102013001219B4 DE 102013001219 A DE102013001219 A DE 102013001219A DE 102013001219 B4 DE102013001219 B4 DE 102013001219B4
- Authority
- DE
- Germany
- Prior art keywords
- speech recognition
- recognition process
- audio data
- text
- audio buffer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/16—Transforming into a non-visible representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
- H04W52/0209—Power saving arrangements in terminal devices
- H04W52/0225—Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
Verfahren zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus, dadurch gekennzeichnet,
a) dass Audio-Daten (11) mit mindestens einem Mikrofon (2) aufgenommen werden,
b) dass die Audio-Daten (11) kontinuierlich in mindestens einem Audio-Puffer (6) zwischengespeichert werden, so dass der Audio-Puffer (6) stets die Audio-Daten (11) der jüngsten Vergangenheit enthält,
c) dass die Audio-Daten (11) zeitnahe mindestens einem sekundären Spracherkennungs-Prozess (7) zugeführt werden, welcher beim Erkennen eines Schlüsselworts (18) oder einer Phrase mindestens einen primären Spracherkennungs-Prozess (8) startet oder aus einem Ruhezustand aktiviert,
d) dass der primäre Spracherkennungs-Prozess (8) den gesamten oder den jüngsten Inhalt (21) des Audio-Puffers (6) sowie die sich daran anschließende Liveübertragung (22) in Text (13) umwandelt und diesen Text (13) mindestens einem Dialogsystem-Prozess (9) zuführt, welcher ebenfalls startet oder aus dem Ruhezustand aktiviert wird und den Inhalt des Textes (13) darauf hin analysiert, ob dieser eine Frage, eine Mitteilung und/oder eine Aufforderung enthält, die vom Benutzer an den Software-Agenten gerichtet wurde, wobei, falls dies bejaht wird, der Dialogsystem-Prozess (9) eine passende Aktion auslöst oder eine passende Antwort (14) generiert und mit dem Benutzer per Ausgabevorrichtung (3, 4) in Kontakt tritt und
e) dass anderenfalls, falls in den Audio-Daten (11) nur Störgeräusche vorliegen oder falls der Text (13) keinen relevanten oder keinen auswertbaren Inhalt enthält, der primäre Spracherkennungs-Prozess (8) und der Dialogsystem-Prozess (9) umgehend wieder in den Ruhezustand zurückkehren oder sich beenden und die Kontrolle wieder dem sekundären Spracherkennungs-Prozess (7) zurückgeben.
a) dass Audio-Daten (11) mit mindestens einem Mikrofon (2) aufgenommen werden,
b) dass die Audio-Daten (11) kontinuierlich in mindestens einem Audio-Puffer (6) zwischengespeichert werden, so dass der Audio-Puffer (6) stets die Audio-Daten (11) der jüngsten Vergangenheit enthält,
c) dass die Audio-Daten (11) zeitnahe mindestens einem sekundären Spracherkennungs-Prozess (7) zugeführt werden, welcher beim Erkennen eines Schlüsselworts (18) oder einer Phrase mindestens einen primären Spracherkennungs-Prozess (8) startet oder aus einem Ruhezustand aktiviert,
d) dass der primäre Spracherkennungs-Prozess (8) den gesamten oder den jüngsten Inhalt (21) des Audio-Puffers (6) sowie die sich daran anschließende Liveübertragung (22) in Text (13) umwandelt und diesen Text (13) mindestens einem Dialogsystem-Prozess (9) zuführt, welcher ebenfalls startet oder aus dem Ruhezustand aktiviert wird und den Inhalt des Textes (13) darauf hin analysiert, ob dieser eine Frage, eine Mitteilung und/oder eine Aufforderung enthält, die vom Benutzer an den Software-Agenten gerichtet wurde, wobei, falls dies bejaht wird, der Dialogsystem-Prozess (9) eine passende Aktion auslöst oder eine passende Antwort (14) generiert und mit dem Benutzer per Ausgabevorrichtung (3, 4) in Kontakt tritt und
e) dass anderenfalls, falls in den Audio-Daten (11) nur Störgeräusche vorliegen oder falls der Text (13) keinen relevanten oder keinen auswertbaren Inhalt enthält, der primäre Spracherkennungs-Prozess (8) und der Dialogsystem-Prozess (9) umgehend wieder in den Ruhezustand zurückkehren oder sich beenden und die Kontrolle wieder dem sekundären Spracherkennungs-Prozess (7) zurückgeben.
Description
- Technisches Gebiet
- Die Erfindung betrifft das Gebiet der Spracherkennung, insbesondere die Aktivierung von Vorgängen per Sprache.
- Stand der Technik
- Die Spracherkennung, also das Umwandeln von akustischen Sprachsignalen in Text, konkret, das Umwandeln in eine digitale Text-Darstellung mittels einer Zeichenkodierung, ist bekannt. Es ist möglich, Systeme ohne haptische Bedienung zu steuern. Die Verfahren und Systeme der Patente
US 8,260,618 B2 undUS 7,953,599 B2 und der OffenlegungsschriftenUS2013/0289994 A1 US2014/0163978 A1 - Smartphones (Mobiltelefone mit Computer-Funktionalität) haben aufgrund ihrer geringen Größe eine stark eingeschränkte Ergonomie, wenn sie per Touchscreen bedient werden. Eine Alternative sind digitale Sprachassistenten, bei denen das Smartphone mit Sprachkommandos gesteuert werden kann, zum Teil auch mit natürlicher Sprache ohne spezielle Steuerbefehle. Ein bekanntes Beispiel ist das System „Siri“ auf dem Smartphone „iPhone“ vom HerstellerApple (Fundstelle: http://www.apple.com).
- Ein Sprachassistent kann eine eigenständige App auf dem Smartphone sein oder in das Betriebssystem integriert sein. Die Spracherkennung, Auswertung und Reaktion kann lokal auf der Hardware des Smartphones erfolgen. In der Regel wird aber wegen der größeren Rechenleistung ein Server-Verbund im Internet („in the Cloud“) verwendet, mit dem der digitale Sprachassistent kommuniziert. D.h. es werden komprimierte Sprach- bzw. Tonaufnahmen an den Server bzw. Server-Verbund geschickt, und die per Sprachsynthese generierte verbale Antwort wird zurück auf das Smartphone gestreamt.
- Digitale Sprachassistent-Systeme sind eine Teilmenge der Software-Agenten. Man kann unterscheiden zwischen verschiedenen Interaktionsmöglichkeiten: z.B. das Abfragen von Fakten oder Wissen, das Abfragen von Status-Updates in Sozialen Netzwerken oder das Diktieren von E-Mails. In den meisten Fällen kommt auf der Seite des digitalen Sprachassistenten ein Dialogsystem (bzw. ein sogenannter Chatbot) zum Einsatz, welches zum Teil mit semantischer Analyse oder mit Ansätzen von Künstlicher Intelligenz ein realitätsnahes Gespräch zu einem Thema simuliert.
- Ein weiteres Beispiel für einen digitalen Sprachassistenten ist das als „S Voice“ bezeichnete System auf dem Smartphone „Galaxy S III“ des Herstellers Samsung (Fundstelle: http://www.samsung.com). Dieses Produkt verfügt über die Möglichkeit, das Smartphone aus einem Standby- bzw. Schlafzustand zu wecken, und zwar per Sprachbefehl, ohne einen Touchscreen zu berühren oder eine Taste zu drücken. Dazu kann der Benutzer in den Systemeinstellungen eine gesprochene Phrase hinterlegen, die zum Aufwecken dient. Werkseitig voreingestellt ist „Hi Galaxy“. Der Benutzer muss die akustische Überwachung explizit freischalten und später wieder deaktivieren, da der Stromverbrauch für einen tagelangen Betrieb zu hoch wäre. Laut Hersteller ist das System für Situationen vorgesehen, in denen eine Aktivierung per Hand keine Option ist, z.B. beim Autofahren. In diesem Fall gibt der Autofahrer das verbale Kommando „Hi Galaxy“, worauf hin sich je nach Einstellung „S Voice“ z.B. mit der Begrüßung meldet: „What would you like to do?“. Erst jetzt, in einem zweiten Schritt und nachdem der Benutzer bereits unproduktiv Zeit durch sein erstes Kommando und durch das Abwarten der benötigten Zeit zum Aufwecken sowie durch den Begrüßungsspruch verloren hat, kann er seine eigentliche Frage stellen, z.B. „Wie ist das Wetter in Paris?“
- In der Systemsteuerung des Smartphones „Galaxy S III“ ist es möglich, eine stark begrenzten Anzahl von weiteren Phrasen zu hinterlegen, mit denen dann im Anschluss sehr einfache Aktionen ausgelöst werden können. Durch das Kommando „Foto machen“ könnte z.B. die Kamera-App gestartet werden. Es ist jedoch nicht möglich, dem Smartphone bzw. „S Voice“ komplexe Fragen zu stellen oder das Smartphone zu komplexen Aktionen aufzufordern, solange sich das System im Standby- bzw. Schlafzustand befindet. Eine Frage, wie z.B. „Brauche ich übermorgen eine Regenjacke in Paris?“, kann von dem System - trotz akustischer Überwachung - aus dem Standby- bzw. Schlafzustand heraus nicht beantwortet werden. Dazu muss das Smartphone zuvor explizit aufgeweckt werden.
- Die vom Smartphone „Galaxy S III“ genutzte Sprachaktivierungs-Technologie stammt vom Hersteller Sensory Inc. (Fundstelle: http://www.sensoryinc.com). Der Hersteller betont die extrem niedrige Falsch-Positiv-Rate bei der akustischen Überwachung mittels seiner „TrulyHandsfree“ Technologie. „Falsch-Positiv“ bezieht sich auf das fälschliche Interpretieren von anderen Geräuschen als Erkennungs-Phrase und ein daraus resultierendes unerwünschtes Auslösen des Triggers. In seinen Beschreibungen beschränkt sich der Hersteller auf einen sequentiellen Ablauf, bei dem das Gerät zunächst per Schlüsselwort aufgeweckt wird und erst dann über weitere Kommandos gesteuert werden kann. Zitat: „TrulyHandsfree can be always-on and listening for dozens of keywords that will bring the device to life to be controlled via further voice commands.“ Eine andere, davon abweichende Vorgehensweise wird nicht offenbart.
- Darstellung der Erfindung
- Der vorliegenden Erfindung liegt die Aufgabe zu Grunde, ein Verfahren zu schaffen, mit dem es möglich ist, einem Software-Agenten oder einem digitalen Sprachassistenten, der sich in einem Standby- bzw. Schlafzustand befindet, per „natürlicher“ Sprache komplexe Fragen zu stellen oder auch Mitteilungen und Aufforderungen, wobei das System umgehend und ohne weitere zwischengeschaltete Interaktionsschritte mit einer finalen und vollständigen Antwort oder mit einer Aktion antworten bzw. reagieren soll. Die Komplexität der unterstützten Fragen, Mitteilungen und Aufforderungen soll dabei vergleichbar oder identisch sein mit der Komplexität, die das System im normalen Betrieb beherrscht. Des weiteren soll das Verfahren durch seine Konzeption besonders vorteilhaft für einen tagelangen Standby-Betrieb des Software-Agenten sein. Für den Benutzer soll der Unterschied zwischen Standby- bzw. Schlafzustand und dem regulären Betrieb kaum bemerkbar sein, d.h. der Benutzer soll den Eindruck gewinnen, dass das System auch im Standby-Modus mit der selben Aufmerksamkeit zuhört wie im regulären Betrieb.
- Erfindungsgemäß wird die voranstehende Aufgabe mit den Merkmalen aus den unabhängigen Ansprüchen
1 und12 gelöst. Vorteilhafte Ausgestaltungen, mögliche Alternativen und optionale Funktionalitäten sind in den Unteransprüchen angegeben. - Ein Software-Agent bzw. ein digitaler Sprachassistent befindet sich in einem stromsparenden Standby-Modus bzw. Schlafzustand, wobei die von einem oder mehreren Mikrofonen aufgenommenen Umgebungsgeräusche - beispielsweise Sprache - digitalisiert und kontinuierlich in einem Audio-Puffer zwischengespeichert werden, so dass der Audio-Puffer stets die Umgebungsgeräusche (bzw. die Sprache) der jüngsten Vergangenheit enthält, beispielsweise jene der letzten 30 Sekunden.
- Außerdem werden die von dem Mikrofon (oder den Mikrofonen) aufgenommenen digitalisierten Umgebungsgeräusche (bzw. die Sprache) ohne nennenswerte Verzögerung einem energiesparenden, sekundären Spracherkennungs-Prozess zugeführt, welcher beim Erkennen eines Schlüsselworts oder einer Phrase aus einem definierten Schlüsselwort- und Phrasen-Katalog einen primären Spracherkennungs-Prozess startet oder aus einem Ruhezustand aktiviert.
- Der Energie-intensivere, primäre Spracherkennungs-Prozess wandelt nun den gesamten Audio-Puffer oder den jüngsten Teil ab einer erkannten Sprechpause, die typischerweise den Satzanfang einer Frage kennzeichnet, in Text um, wobei der primäre Spracherkennungs-Prozess anschließend nahtlos mit einer Umwandlung der „Liveübertragung“ vom Mikrofon fortfährt. Der per Spracherkennung erzeugte Text, sowohl aus dem Audio-Puffer, als auch aus der anschließenden „Liveübertragung“, wird einem Dialogsystem (bzw. Chatbot) zugeführt, welches ebenfalls gestartet wird oder aus dem Ruhezustand aktiviert wird.
- Das Dialogsystem analysiert den Inhalt des Textes darauf hin, ob er eine Frage, eine Mitteilung und/oder eine Aufforderung enthält, die vom Benutzer an den Software-Agenten (bzw. an den digitalen Sprachassistenten) gerichtet wird, beispielsweise mittels semantischer Analyse.
- Falls im Text eine Aufforderung oder ein Thema erkannt wird, für welche oder für welches der Software-Agent (bzw. digitale Sprachassistent) zuständig ist, wird vom Dialogsystem eine passende Aktion ausgelöst oder eine passende Antwort generiert und dem Benutzer per Ausgabevorrichtung (z.B. Lautsprecher und/oder Display) mitgeteilt. Der Software-Agent (bzw. digitale Sprachassistent) befindet sich nun im regulären Vollbetrieb und in Interaktion mit dem Benutzer.
- Anderenfalls, falls der analysierte Text keinen relevanten oder keinen auswertbaren Inhalt enthält, beispielsweise wenn der Text-String leer ist oder die Text-Auswertung keinen Sinn in der Anordnung der Wörter erkennen kann, wird das Dialogsystem und der primäre Spracherkennungs-Prozess umgehend wieder in den Ruhezustand zurückversetzt oder beendet, um Strom zu sparen. Die Kontrolle kehrt dann wieder zum sekundären Spracherkennungs-Prozess zurück, welcher die Umgebungsgeräusche (bzw. die Sprache) nach weiteren Schlüsselwörtern oder Phrasen überwacht.
- Figurenliste
- Weitere Ziele, Merkmale, Vorteile und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus den Zeichnungen und der nachfolgenden Beschreibung. Dabei bilden, unabhängig von der Zusammenfassung in einzelnen Ansprüchen oder deren Rückbeziehung, alle beschriebenen und/oder bildlich dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der Erfindung.
-
1 zeigt ein Smartphone mit Mikrofon und Lautsprecher, auf dem ein digitaler Sprachassistent als Software läuft. (Stand der Technik) -
2 zeigt ein Datenflussdiagramm des grundlegenden Verfahrens. -
3 zeigt eine schematische Darstellung des zeitlichen Ablaufs des Verfahrens auf einer Zeitachse t mit Text-Beispiel und der Schlüsselwort-Phrase „wie ist“. -
4 veranschaulicht eine Ausführungsform, bei der sich sowohl der primäre Spracherkennungs-Prozess (ausgeführt auf einem Prozessor) als auch der sekundäre Spracherkennungs-Prozess (als Hardware-Schaltung) im lokalen Endgerät befinden. -
5 veranschaulicht eine einfache Ausführungsform, bei der sowohl der primäre Spracherkennungs-Prozess als auch der sekundäre Spracherkennungs-Prozess auf dem selben Single- oder Mehrkem-Prozessor ausgeführt werden. -
6 veranschaulicht eine bevorzugte Ausführungsform, bei der sich der sekundäre Spracherkennungs-Prozess (als Hardware-Schaltung) im lokalen Endgerät befindet und bei der der primäre Spracherkennungs-Prozess auf dem Prozessor eines Servers ausgeführt wird, der mit dem Endgerät über ein Netzwerk verbunden ist. -
7 zeigt einen Programmablaufplan (Flussdiagramm) des Verfahrens einschließlich der Erkennung von Satz-Anfang, Satz-Ende und irrelevanten Audio-Aufnahmen. - Grundlegende Ausführung der Erfindung
- Ein Endgerät kann als mobiles Computersystem oder als stationäres, kabelgebundenes Computersystem realisiert werden. Das Endgerät ist über ein Netzwerk mit einem Server verbunden und kommuniziert nach dem Client-Server-Modell. Mobile Endgeräte sind per Funk mit dem Netzwerk verbunden. Bei dem Netzwerk handelt es sich typischerweise um das Internet. In
1 ist das Endgerät1 ein Smartphone. - Auf dem Endgerät
1 läuft die Software eines digitalen Sprachassistenten. Unter Bezugnahme auf2 verfügt das Endgerät1 über eine Vorrichtung zur digitalen Tonaufnahme und Wiedergabe: typischerweise ein oder mehrere Mikrofone2 und ein oder mehrere Lautsprecher3 samt zugehörigen A/D-Wandler5 und D/A-Wandler Schaltungen. Im regulären Vollbetrieb wird die digitale Tonaufnahme11 (mit den Umgebungsgeräuschen bzw. der Sprache) einem primären Spracherkennungs-Prozess8 zugeführt. Der primäre Spracherkennungs-Prozess8 kann je nach Ausführungsform als Software oder als Hardware-Schaltkreis realisiert werden. Außerdem kann sich die Spracherkennung je nach Ausführungsform im lokalen Endgerät1 befinden oder auf einem Server28 , wobei die digitale Tonaufnahme11 dann kontinuierlich über ein Netzwerk29 zum Server28 übertragen wird. Eine typische Ausführungsform verwendet zur Spracherkennung den Server28 , wobei die Spracherkennung als Software implementiert ist. - Bei dem primären Spracherkennungs-Prozess
8 handelt es sich um eine hochwertige Spracherkennung, welche während des Dialogs mit dem Benutzer die akustischen Informationen möglichst vollständig in Text13 umsetzt und dabei typischerweise den gesamten unterstützten Wortschatz des Spracherkennungs-Systems verwendet. Dieser Betriebszustand wird im Folgenden als Vollbetrieb bezeichnet. Vor und nach dem Dialog mit dem Benutzer kann sich das Endgerät1 in einen Ruhezustand bzw. Standby-Modus versetzen, um Energie zu sparen. - Neben der Spracherkennung für den Vollbetrieb verfügt das System gemäß
2 über einen zweiten Spracherkennungs-Prozess für den Ruhezustand bzw. Standby-Modus. Dieser sekundäre Spracherkennungs-Prozess7 ist auf geringen Ressourcen-Verbrauch optimiert und kann ebenfalls je nach Ausführungsform als Software oder als Hardware-Schaltkreis realisiert werden. Bei einer Realisierung in Hardware ist auf geringe Leistungsaufnahme zu achten und bei einer Software-Implementierung auf eine geringe Beanspruchung von Ressourcen, wie Prozessor oder Arbeitsspeicher. Der sekundäre Spracherkennungs-Prozess7 kann je nach Ausführung auf dem lokalen Endgerät1 ausgeführt werden oder auf einem Server, wobei die digitale Tonaufnahme11 dann zum Server übertragen wird. - Eine bevorzugte Ausführungsform verwendet zur Spracherkennung im Standby-Modus das lokale Endgerät
1 , wobei der sekundäre Spracherkennungs-Prozess7 als FPGA (Field Programmable Gate Array) oder als ASIC (Application-Specific Integrated Circuit) realisiert ist und auf geringe Leistungsaufnahme optimiert ist. - Um den geringen Ressourcen-Verbrauch des sekundären Spracherkennungs-Prozesses
7 realisieren zu können, verfügt dieser über einen stark begrenzten Wortschatz. Der sekundäre Spracherkennungs-Prozess7 kann somit nur wenige Wörter oder kurze Ausschnitte aus Redewendungen (Phrasen) verstehen. Diese Schlüsselwörter und Phrasen sind so zu wählen, dass sie die typischen Merkmale bei einer Kontaktaufnahme oder einer Frage an den digitalen Sprachassistenten enthalten. Die gewählten Schlüsselwörter und Phrasen müssen sich dabei nicht notwendigerweise am Anfang eines Satzes befinden. Geeignet sind z.B. alle Schlüsselwörter und Phrasen, die eine Frage vermuten lassen, beispielsweise „hast du“, „gibt es“, „brauche ich“, „habe ich“. - Unter Bezugnahme auf
2 werden im Standby-Modus alle ankommenden Audio-Daten11 für eine gewisse Zeit in einem Audio-Puffer6 zwischengespeichert. Im einfachsten Fall wird für diesen Zweck der Arbeitsspeicher verwendet. Wenn sich der sekundäre Spracherkennungs-Prozess7 im Endgerät1 befindet, dann sollte sich auch der Audio-Puffer6 im Endgerät1 befinden. Wenn die Standby-Spracherkennung über den Server abgewickelt wird, sollte der Audio-Puffer6 vom Server vorgehalten werden. Die Länge des Audio-Puffers6 ist so zu wählen, dass mehrere gesprochene Sätze hineinpassen. Praxistaugliche Werte liegen zwischen 15 Sekunden und 2 Minuten. - Sobald der sekundäre Spracherkennungs-Prozess
7 ein potentiell relevantes Schlüsselwort18 oder eine Phrase erkannt hat, z.B. „weißt du ob“, veranlasst dieser ein vorübergehendes Aufwachen des primären Spracherkennungs-Prozesses8 ; siehe Trigger-Signal12 in2 . Dem primären Spracherkennungs-Prozess8 wird der Inhalt des Audio-Puffers6 übergeben: In einer einfachen Ausführungsform befindet sich der Audio-Puffer6 im Arbeitsspeicher des Endgeräts1 . Wenn auch der primäre Spracherkennungs-Prozess8 auf dem Endgerät1 ausgeführt wird, ist lediglich ein Zugriff auf den Audio-Puffer6 im Arbeitsspeicher erforderlich. Wenn der primäre Spracherkennungs-Prozess8 auf dem Server28 ausgeführt wird, wird der Inhalt des Audio-Puffers6 über das Netzwerk29 zum Server28 übertragen. - Durch den Audio-Puffer
6 liegt dem primären Spracherkennungs-Prozess8 nun die Vergangenheit des potentiellen Gesprächs vor, beispielsweise die letzten 30 Sekunden. Der primäre Spracherkennungs-Prozess8 muss in der Lage sein, die eintreffenden Audio-Daten11 mit hoher Priorität zu verarbeiten: Ziel ist es, den Audio-Puffer6 zeitnahe zu leeren, um bald möglichst „Live-Audio“-Daten22 zu verarbeiten. Weitere Details können der Zeichnung3 und der Bezugszeichenliste entnommen werden. Das Resultat des primären Spracherkennungs-Prozesses8 ist der gesprochene Text13 der jüngsten Vergangenheit bis zur Gegenwart. - Dieser Text
13 wird dem Dialogsystem9 zugeführt, welches mit semantischer Analyse oder ggf. Künstlicher Intelligenz analysiert, inwiefern tatsächlich eine Anfrage an den digitalen Sprachassistenten vorliegt. Es ist auch möglich, dass das von dem sekundären Spracherkennungs-Prozess7 erkannte Schlüsselwort18 im nun vorliegenden Text13 nicht mehr vorkommt, da die Spracherkennung im Vollbetrieb (d.h. der primäre Spracherkennungs-Prozess8 ) höherwertiger ist und sich der sekundäre Spracherkennungs-Prozess7 somit geirrt hat. - In allen Fällen, in denen sich die im Audio-Puffer
6 befindliche Tonaufnahme11 als irrelevant erweist, veranlasst das Dialogsystem9 eine unmittelbare Rückkehr in den Standby-Modus, insbesondere wenn nur Störgeräusche vorliegen oder wenn der Sinn des Textes vom Dialogsystem9 nicht erkannt wurde. Falls das Dialogsystem9 jedoch zu dem Ergebnis kommt, dass die im Audio-Puffer6 enthaltene Frage, Mitteilung oder Aufforderung relevant ist, so verbleibt das Endgerät1 im Vollbetrieb, und das Dialogsystem9 wird mit dem Benutzer interagieren. Sobald keine weiteren Anfragen oder Mitteilungen vom Benutzer erfolgen, wechselt das Endgerät1 wieder in den Standby-Modus und übergibt somit die Kontrolle an den sekundären Spracherkennungs-Prozess7 . Weitere Details können dem in7 dargestellten Flussdiagramm entnommen werden. - Bevorzugte Ausführungen der Erfindung
- Im folgenden werden bevorzugte Ausführungsformen beschrieben. In einigen Fällen werden auch Alternativen oder optionale Funktionen erwähnt.
- In einer vorteilhaften Ausführungsform wird nach dem Erkennen eines Schlüsselworts
18 oder einer Phrase durch den sekundären Spracherkennungs-Prozess7 zunächst im Audio-Puffer6 der Anfang eines Satzes mit einer Frage, Mitteilung oder Aufforderung gesucht. Wie in3 dargestellt, kann zumeist davon ausgegangen werden, dass sich vor dem Anfang des Satzes ein kurzer Zeitabschnitt16 ohne Sprache (d.h. mit relativer Stille, bezogen auf die Umgebungsgeräusche) befindet, da die meisten Menschen kurz inne halten, wenn sie eine konkrete, wohl formulierte Frage, Mitteilung oder Aufforderung an den digitalen Sprachassistenten richten wollen. - Um den Anfang des relevanten Satzes zu finden, wird der Audio-Puffer
6 , ausgehend von der zeitlichen Position des erkannten Schlüsselworts18 bzw. der Phrase, zeitlich rückwärts durchsucht, bis ein Zeitabschnitt gefunden wird, welcher sich als Stille bzw. Sprechpause16 interpretieren lässt. Typischerweise sollte die Länge dieses Zeitabschnitts mit der Sprechpause16 mindestens eine Sekunde betragen. - Sobald eine Position mit (relativer) Stille bzw. der Sprechpause
16 gefunden wird und somit der wahrscheinliche Anfang eines Satzes feststeht, wird dem nachfolgend gestarteten bzw. aktivierten primären Spracherkennungs-Prozess8 dieser Inhalt17 des Audio-Puffers6 übergeben. - Falls bei der Auswertung durch das Dialogsystem
9 kein Sinn im Text13 erkannt wird, möglicherweise weil der Satzanfang falsch gedeutet wurde, kann optional in einem zweiten Schritt der gesamte Inhalt21 des Audio-Puffers6 zusammen mit der nachfolgenden „Liveübertragung“22 in Text13 umgewandelt werden und vom Dialogsystem9 analysiert werden. - Falls es nicht gelingt, eine Position mit (relativer) Stille bzw. einer Sprechpause
16 im gesamten Audio-Puffer6 ,21 zu lokalisieren, liegt wahrscheinlich keine Frage, Mitteilung oder Aufforderung an den digitalen Sprachassistenten vor, sondern ein Störgeräusch oder ein Gespräch zwischen Menschen. In diesem Fall ist es nicht notwendig, den primären Spracherkennungs-Prozess8 zu starten oder zu aktivieren. - Damit ein Anwender nicht übermäßig lange auf eine Antwort
14 (oder Aktion) warten muss, ist es vorteilhaft, dass nach dem Auslösen12 durch ein Schlüsselwort18 oder durch eine Phrase, der primäre Spracherkennungs-Prozess8 mit hoher Priorität ausgeführt wird und in kurzer Zeit23 ,24 abgeschlossen ist. Dies wird in3 durch die gestrichelten Linien23 und24 dargestellt. - Da erfindungsgemäß eine vollwertige Spracherkennung durch den primären Spracherkennungs-Prozess
8 erfolgt, darf der sekundäre Spracherkennungs-Prozess7 beim Erkennen von Schlüsselwörtern18 bzw. Phrasen eine erhöhte Falsch-Positiv-Rate aufweisen, d.h. der Auslöser oder Trigger12 des sekundären Spracherkennungs-Prozesses7 reagiert empfindlich: Bei der Überwachung der Umgebungsgeräusche wird nur extrem selten ein Schlüsselwort18 bzw. eine Phrase übersehen. Werden hingegen andere Geräusche oder andere Wörter fälschlicherweise als Schlüsselwort18 bzw. Phrase interpretiert, so werden diese Fehler dann vom primären Spracherkennungs-Prozess8 korrigiert: Sobald erkannt wird, dass der Trigger12 fälschlicherweise ausgelöst worden ist, beendet bzw. deaktiviert sich der primäre Spracherkennungs-Prozess8 umgehend. - Die stark eingeschränkte Erkennungsleistung des sekundären Spracherkennungs-Prozesses
7 ermöglicht es, diesen besonders energiesparend zu gestalten; beispielsweise als Software auf einem langsam getakteten Prozessor mit geringer Leistungsaufnahme oder auf einem digitalen Signalprozessor25 , ebenfalls optimiert auf geringe Leistungsaufnahme. Ebenso möglich ist ein FPGA oder ein ASIC oder generell eine stromsparende Hardware-Schaltung25 ; siehe hierzu auch das Blockdiagramm gemäß4 . - Falls sowohl der primäre als auch der sekundäre Spracherkennungs-Prozess
7 ,8 auf der lokalen Hardware, d.h. auf dem Endgerät1 , ausgeführt werden, können, wie in5 dargestellt, beide Spracherkennungs-Prozesse7 ,8 auch den selben Single- oder Mehrkem-Prozessor27 verwenden, wobei der sekundäre Spracherkennungs-Prozess7 in einem besonders Ressourcen-schonenden Betriebsmodus läuft, welcher mit geringem Speicherbedarf und geringer Stromaufnahme auskommt. - Besonders vorteilhaft ist es jedoch, wenn der primäre Spracherkennungs-Prozess
8 und das Dialogsystem9 auf einem externen Server28 oder auf einem Serververbund ausgeführt werden, wie in6 dargestellt. Dabei wird der gesamte oder der jüngste Inhalt17 ,21 des Audio-Puffers6 sowie im Anschluss auch eine „Liveübertragung“ der Audio-Daten11 ,19 ,22 über ein Netzwerk29 bzw. Funknetzwerk zum Server28 oder Serververbund übertragen. Typischerweise handelt es sich bei dem Netzwerk29 um das Internet. - Es entsteht eine Latenz bzw. Übertragungsverzögerung, sobald nach einer Sprachaktivierung
12 (ausgelöst durch den sekundären Spracherkennungs-Prozess7 ) der Inhalt des Audio-Puffers6 über das Netzwerk29 zum Server28 bzw. zum Server-Verbund übertragen werden muss, damit der primäre Spracherkennungs-Prozess8 und das Dialogsystem9 den Inhalt auswerten können. Um diese Latenz zu vermeiden, kann ein „vorauseilender Standby-Modus“ verwendet werden: Sobald die Anwesenheit eines Benutzers detektiert wird, überträgt das System im „vorauseilenden Standby-Modus“ den Inhalt21 des Audio-Puffers6 und die sich daran anschließende „Liveübertragung“22 der Umgebungsgeräusche bzw. Sprache an den externen Server28 oder Serververbund. Die Audio-Daten11 werden dort zwischengespeichert, so dass im Fall einer Sprachaktivierung12 der primäre Spracherkennungs-Prozess8 nahezu latenzfrei auf die Audio-Daten11 zugreifen kann. - Von der Anwesenheit eines Benutzers kann ausgegangen werden, wenn Benutzeraktivitäten vorliegen; beispielsweise Eingaben per Touchscreen oder Bewegungen und Lageänderungen des Endgeräts
1 , welche mittels eines Beschleunigungs- und Lagesensors erfasst werden. Ebenfalls möglich ist das Erkennen von Änderungen in der Helligkeit mittels eines Lichtsensors, das Erkennen von Positionsänderungen per Satellitennavigation, beispielsweise GPS, sowie eine Gesichtserkennung per Kamera. - Optional kann der sekundäre Spracherkennungs-Prozess
7 die Überwachung der Umgebungsgeräusche auf Schlüsselwörter18 bzw. Phrasen intensivieren, solange sich das System im „vorauseilenden Standby-Modus“ befindet. - Grundsätzlich lassen sich die Einträge im Schlüsselwort- und Phrasen-Katalog einteilen in:
- - Fragewörter und fragende Phrasen: z.B. „wer hat“, „was ist“, „wie kann“, „wie ist“, „wo gibt es“, „gibt es“, „weißt du ob“, „kann man“.
- - Aufforderungen und Befehle: Beispielsweise die Aufforderung: „Bitte schreibe eine E-Mail an Hans“. Erkannt wird in diesem Beispiel die Phrase „schreibe eine E-Mail“. Ein weiteres Beispiel: „Ich möchte ein Foto machen.“ Erkannt wird die Phrase „Foto machen“.
- - Substantive zu Themen, zu denen es Informationen in der Datenbank des Dialogsystems
9 gibt: z.B. „Wetter“, „Termin“ und „Fußball“. - - Produktnamen, Spitznamen und Gattungsbegriffe zur direkten Ansprache des digitalen Sprachassistenten. Beispiele für Gattungsbegriffe: „Handy“, „Smartphone“, „Computer“, „Navi“.
- Die Verwendung eines Produktnamens als Schlüsselwort
18 hat den Vorteil, dass sich im Vergleich zu einem Katalog mit Fragewörtern die Häufigkeit reduzieren lässt, mit der das System unnötigerweise in den Vollbetrieb wechselt. Bei Verwendung eines Produktnamens kann davon ausgegangen werden, dass der digitale Sprachassistent zuständig ist. Zum Beispiel: „Hallo <Produktname>, bitte berechne die Quadratwurzel aus 49“ oder „Wie spät ist es, <Produktname>?“. - In einer vorteilhaften Ausführungsform lässt sich der Schlüsselwort- und Phrasen-Katalog vom Anwender ändern. Wenn die Sprachaktivierung per Produktname oder Gattungsbegriff erfolgt, so könnte der Benutzer beispielsweise einen Spitznamen für das Endgerät
1 als weiteres, alternatives Schlüsselwort18 festlegen. Der Benutzer könnte auch einige Schlüsselwörter18 oder Phrasen aus dem Katalog streichen, z.B. wenn sich der digitale Sprachassistent seltener melden soll oder nur noch zu bestimmten Themen. - Sobald der sekundäre Spracherkennungs-Prozess
7 ein Schlüsselwort18 oder eine Phrase erkannt hat, muss der Benutzer einige Augenblicke warten, bis der primäre Spracherkennungs-Prozess8 und das Dialogsystem9 eine Antwort14 (oder Aktion) generiert haben. In einer besonders vorteilhaften Ausführungsform wird beim Erkennen eines Schlüsselworts18 oder einer Phrase durch den sekundäre Spracherkennungs-Prozess7 umgehend ein optisches, akustisches und/oder haptisches Signal an den Benutzer ausgegeben, beispielsweise ein kurzes Piepsen oder Vibrieren des Endgeräts1 , eine Anzeige auf dem Display4 oder das Einschalten der Hintergrundbeleuchtung des Displays4 . Der Benutzer ist dann informiert, dass seine Anfrage bei dem Endgerät1 angekommen ist. Gleichzeitig stört diese Form von Signalisierung nur minimal, falls das Schlüsselwort18 oder die Phrase irrtümlich erkannt wurde. In diesem Fall, wenn im Audio-Puffer6 bzw. aus dem daraus resultierenden Text13 kein relevanter oder kein auswertbarer Inhalt erkannt werden kann, ist es vorteilhaft, ein weiteres optisches, akustisches oder haptisches Signal auszugeben, welches sich zweckmäßigerweise von dem ersten Signal unterscheidet, beispielsweise ein Doppelton (erst hoch, dann tief) oder das Ausschalten der Hintergrundbeleuchtung, welche zuvor eingeschaltet wurde. - In einer weiteren Ausführungsform kann der digitale Sprachassistent verschiedene Sprecher an der Stimme auseinander halten, so dass nur Fragen, Mitteilungen und Aufforderungen vom Dialogsystem
9 beantwortet werden, die von einer berechtigten Person ausgehen, beispielsweise nur Fragen vom Besitzer. Da der primäre Spracherkennungs-Prozess8 eine deutlich größere Erkennungsleistung hat, kann erfindungsgemäß nur dieser Prozess verschiedene Sprecher an der Stimme unterscheiden. Der sekundäre Spracherkennungs-Prozess7 kann in dieser Ausführungsform verschiedene Sprecher hingegen nicht unterscheiden: Beim Vorliegen eines Schlüsselworts18 bzw. einer Phrase eines noch nicht identifizierten Sprechers wird von dem sekundären Spracherkennungs-Prozess7 die Ausführung des primären Spracherkennungs-Prozesses8 veranlasst. Der primäre Spracherkennungs-Prozess8 erkennt an der Stimme, ob der Sprecher berechtigt ist, den digitalen Sprachassistenten zu nutzen. Falls keine entsprechende Berechtigung vorliegt, beendet sich der primäre Spracherkennungs-Prozess8 (bzw. er kehrt wieder in den Ruhezustand zurück), und die Kontrolle wird wieder dem sekundären Spracherkennungs-Prozess7 übergeben. Bei diesem Vorgang kann das Dialogsystem9 im Ruhezustand verbleiben. - In einer vorteilhaften Ausführungsform berücksichtigt das Dialogsystem
9 den Kontext einer Unterhaltung: Bei der Überwachung einer Unterhaltung zwischen Personen taucht im Gespräch ein Schlüsselwort18 bzw. eine Phrase aus dem Schlüsselwort- und Phrasen-Katalog auf (beispielsweise „Fußball“), so dass der primäre Spracherkennungs-Prozess8 und das Dialogsystem9 gestartet bzw. aktiviert werden. Das Dialogsystem9 prüft, ob es für den Inhalt21 ,22 des aktuellen Gesprächs zuständig ist, insbesondere, ob eine Frage, Mitteilung oder Aufforderung an den digitalen Sprachassistenten gerichtet wurde. Falls das Dialogsystem9 nicht zuständig ist, speichert das Dialogsystem9 den Kontext und/oder das Thema und/oder die Schlüsselwörter bzw. Phrasen für einen späteren Rückbezug und kehrt zusammen mit dem primären Spracherkennungs-Prozess8 in den Ruhezustand zurück. Wird jetzt zu einem etwas späteren Zeitpunkt das Dialogsystem9 emeut durch ein weiteres Schlüsselwort18 bzw. Phrase (z.B. „wer hat“) gestartet bzw. reaktiviert, so können die zuvor gesicherten Informationen als Kontext berücksichtigt werden. Beispielsweise kann auf die Frage „Wer hat heute das Spiel gewonnen?“ mit den Fußballergebnissen des aktuellen Spieltages geantwortet werden. - Da die vollständigen Sätze der auszuwertenden Fragen, Mitteilungen oder Aufforderungen des Benutzers im Audio-Puffer
6 vorliegen, ist es auch möglich, die Spracherkennung im Rahmen des primären Spracherkennungs-Prozesses8 mehrfach durchzuführen. Zunächst könnte die Spracherkennung mit einem besonders schnellen Algorithmus durchgeführt werden, der die Wartezeit des Benutzers verkürzt. Falls der resultierende Text13 für das Dialogsystem9 nicht stichhaltig ist bzw. nicht auswertbar ist, kann der Audio-Puffer6 emeut in Text13 umgewandelt werden, und zwar mit einem oder mehreren anderen Verfahren der Spracherkennung, die beispielsweise besonders resistent gegenüber Störgeräuschen sind. - Bezugszeichenliste
-
- 1
- Smartphone (Endgerät)
- 2
- Mikrofon
- 3
- Lautsprecher
- 4
- Display (Anzeige)
- 5
- Analog-Digital Wandler (A/D)
- 6
- Audio-Puffer
- 7
- Sekundärer Spracherkennungs-Prozess
- 8
- Primärer Spracherkennungs-Prozess
- 9
- Dialogsystem
- 10
- Analoge Mikrofon-Signale
- 11
- Digitale Audio-Daten
- 12
- Trigger-Signal nach erkanntem Schlüsselwort (bzw. Phrase)
- 13
- Text (digitale Darstellung mittels Zeichenkodierung)
- 14
- Antwort (oder Aktion) des Dialogsystems
- 15
- Tonaufnahme des zuvor gesprochenen Satzes im Audio-Puffer
- 16
- Tonaufnahme der Sprechpause (Stille)
- 17
- Tonaufnahme des aktuellen Satzes (erster Teil) im Audio-Puffer
- 18
- Schlüsselwort (bzw. Phrase)
- 19
- „Liveübertragung“ des aktuellen Satzes (zweiter Teil)
- 20
- Start des Dialogsystems
- 21
- Audio-Daten der jüngsten Vergangenheit im Audio-Puffer
- 22
- „Liveübertragung“ der Audio-Daten
- 23
- Verzögerung der Bearbeitung bezogen auf den Satz-Anfang
- 24
- Reduzierte Verzögerung am Satz-Ende
- 25
- Hardware-Schaltung (Digitaler Signalprozessor, FPGA oderASIC)
- 26
- Hauptprozessor
- 27
- Single- oder Mehrkem-Prozessor mit Stromsparfunktion
- 28
- Server (oder Server-Verbund)
- 29
- Netzwerk (Funk, Internet)
- 30
- Mikrofon-Signale per A/D-Wandler digitalisieren;
- 31
- Live-Audio-Daten im Audio-Puffer zwischenspeichern;
- 32
- Sekundären Spracherkennungs-Prozess mit Live-Audio-Daten ausführen;
- 33
- Schlüsselwort oder Phrase gefunden?
- 34
- Audio-Puffer rückwärts nach Sprechpause durchsuchen;
- 35
- Sprechpause gefunden?
- 36
- Primären Spracherkennungs-Prozess und Dialogsystem starten/aktivieren;
- 37
- Primären Spracherkennungs-Prozess anwenden auf Audio-Puffer ab Sprechpause;
- 38
- Primären Spracherkennungs-Prozess anwenden auf neue Live-Audio-Daten;
- 39
- Sprechpause des Satzendes gefunden?
- 40
- Den Text des Satzes im Dialogsystem analysieren;
- 41
- Text enthält relevante Frage, Mitteilung oder Befehl?
- 42
- Antwort generieren oder Aktion auslösen;
- 43
- Gibt es weitere Fragen/Befehle vom Benutzer?
- 44
- Primären Spracherkennungs-Prozess und Dialogsystem beenden/deaktivieren;
Claims (15)
- Verfahren zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus, dadurch gekennzeichnet, a) dass Audio-Daten (11) mit mindestens einem Mikrofon (2) aufgenommen werden, b) dass die Audio-Daten (11) kontinuierlich in mindestens einem Audio-Puffer (6) zwischengespeichert werden, so dass der Audio-Puffer (6) stets die Audio-Daten (11) der jüngsten Vergangenheit enthält, c) dass die Audio-Daten (11) zeitnahe mindestens einem sekundären Spracherkennungs-Prozess (7) zugeführt werden, welcher beim Erkennen eines Schlüsselworts (18) oder einer Phrase mindestens einen primären Spracherkennungs-Prozess (8) startet oder aus einem Ruhezustand aktiviert, d) dass der primäre Spracherkennungs-Prozess (8) den gesamten oder den jüngsten Inhalt (21) des Audio-Puffers (6) sowie die sich daran anschließende Liveübertragung (22) in Text (13) umwandelt und diesen Text (13) mindestens einem Dialogsystem-Prozess (9) zuführt, welcher ebenfalls startet oder aus dem Ruhezustand aktiviert wird und den Inhalt des Textes (13) darauf hin analysiert, ob dieser eine Frage, eine Mitteilung und/oder eine Aufforderung enthält, die vom Benutzer an den Software-Agenten gerichtet wurde, wobei, falls dies bejaht wird, der Dialogsystem-Prozess (9) eine passende Aktion auslöst oder eine passende Antwort (14) generiert und mit dem Benutzer per Ausgabevorrichtung (3, 4) in Kontakt tritt und e) dass anderenfalls, falls in den Audio-Daten (11) nur Störgeräusche vorliegen oder falls der Text (13) keinen relevanten oder keinen auswertbaren Inhalt enthält, der primäre Spracherkennungs-Prozess (8) und der Dialogsystem-Prozess (9) umgehend wieder in den Ruhezustand zurückkehren oder sich beenden und die Kontrolle wieder dem sekundären Spracherkennungs-Prozess (7) zurückgeben.
- Verfahren nach
Anspruch 1 , dadurch gekennzeichnet, dass der Audio-Puffer (6), ausgehend von der zeitlichen Position des erkannten Schlüsselworts (18) oder der erkannten Phrase, rückwärts durchsucht wird, bis ein Zeitabschnitt gefunden wird, welcher sich als Sprechpause (16) interpretieren lässt, wobei der primäre Spracherkennungs-Prozess (8) den Inhalt (17) des Audio-Puffers (6) ab der erkannten Sprechpause (16) verarbeitet. - Verfahren nach
Anspruch 2 , dadurch gekennzeichnet, dass der primäre Spracherkennungs-Prozess (8) im Ruhezustand verbleibt, falls im Audio-Puffer (6) keine Sprechpause (16) gefunden wird, und zwar im Bereich zwischen dem erkannten Schlüsselwort (18) oder der erkannten Phrase bis hin zu den ältesten Audio-Daten (11) im Audio-Puffer (6). - Verfahren nach einem der
Ansprüche 1 bis3 , dadurch gekennzeichnet, dass der sekundäre Spracherkennungs-Prozess (7) im Vergleich zum primären Spracherkennungs-Prozess (8) eine höhere Falsch-Positiv-Rate beim Erkennen von Schlüsselwörtern (18) und/oder Phrasen aufweist, wobei Falsch-Positiv-Fehler des sekundären Spracherkennungs-Prozesses (7) durch das Wechselspiel zwischen dem sekundären Spracherkennungs-Prozess (7) und dem primären Spracherkennungs-Prozess (8) korrigiert werden. - Verfahren nach einem der
Ansprüche 1 bis4 , dadurch gekennzeichnet, dass der sekundäre Spracherkennungs-Prozess (7) im Vergleich zum primären Spracherkennungs-Prozess (8) eine geringere Leistungsaufnahme hat. - Verfahren nach einem der
Ansprüche 1 bis5 , dadurch gekennzeichnet, dass der primäre Spracherkennungs-Prozess (8) und der Dialogsystem-Prozess (9) auf einem externen Server (28) oder auf einem Serververbund ausgeführt werden, wobei der gesamte oder der jüngste Inhalt (17, 21) des Audio-Puffers (6) über ein Netzwerk (29) und/oder Funknetzwerk zum Server (28) oder Serververbund übertragen wird. - Verfahren nach
Anspruch 6 , dadurch gekennzeichnet, dass, sobald im Standby-Modus die Anwesenheit eines Benutzers mittels eines Ereignissensors detektiert wird, der gesamte oder der jüngste Inhalt (17, 21) des Audio-Puffers (6) und die Liveübertragung (22) der Audio-Daten (11) kontinuierlich zum externen Server (28) oder Serververbund übertragen werden und dort zwischengespeichert werden, so dass im Fall einer Sprachaktivierung der primäre Spracherkennungs-Prozess (8) mit geringer Latenz auf die lokal zwischengespeicherten Audio-Daten (11) zugreifen kann. - Verfahren nach
Anspruch 7 , dadurch gekennzeichnet, a) dass der Ereignissensor ein Beschleunigungs- und Lagesensor ist, der Bewegungen und Lageänderungen des Endgeräts erfasst und/oder b) dass der Ereignissensor ein Lichtsensor ist, der Änderungen der Helligkeit erkennt und/oder c) dass der Ereignissensor eine Kamera ist, mittels welcher eine Gesichtserkennung erfolgt und/oder d) dass der Ereignissensor ein Satellitennavigations-System ist, das Positionsänderungen erkennt und/oder e) dass der Ereignissensor eine Benutzerschnittstelle ist, die Benutzereingaben erfasst. - Verfahren nach einem der
Ansprüche 1 bis8 , dadurch gekennzeichnet, dass von einer Ausgabevorrichtung (3, 4) ein optisches, akustisches und/oder haptisches Signal an den Benutzer ausgegeben wird, sobald ein Schlüsselwort (18) oder eine Phrase vom sekundären Spracherkennungs-Prozess (7) erkannt wird. - Verfahren nach einem der
Ansprüche 1 bis9 , gekennzeichnet durch einen primären Spracherkennungs-Prozess (8), welcher verschiedene Sprecher an der Stimme unterscheiden kann, und einen sekundären Spracherkennungs-Prozess (7), welcher verschiedene Sprecher nicht unterscheiden kann, so dass der sekundäre Spracherkennungs-Prozess (7) beim Vorliegen eines Schlüsselworts (18) oder einer Phrase eines beliebigen Sprechers, die Ausführung des primären Spracherkennungs-Prozesses (8) veranlasst, wobei der primäre Spracherkennungs-Prozess (8) an der Stimme erkennt, ob der Sprecher berechtigt ist, den Software-Agenten zu nutzen und, falls keine entsprechende Berechtigung vorliegt, wieder in den Ruhezustand zurückkehrt oder sich beendet und die Kontrolle wieder dem sekundären Spracherkennungs-Prozess (7) zurückgibt. - Verfahren nach einem der
Ansprüche 1 bis10 , dadurch gekennzeichnet, dass, falls das Dialogsystem (9) für eine Frage oder eine Aufforderung nicht zuständig ist, das Dialogsystem (9) den Kontext, das Thema, das Schlüsselwort (18) und/oder die Phrase auf einer Speichervorrichtung speichert, wobei bei mindestens einer der nachfolgenden Reaktivierungen des Dialogsystems (9) die gespeicherte Information berücksichtigt wird. - System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus, mit mindestens einem Mikrofon (2), mindestens einem Audio-Puffer (6), mindestens einer Ausgabevorrichtung (3, 4) und einer Hardware-Infrastruktur (25, 26, 27, 28, 29), welche Prozesse (7, 8, 9) ausführen kann, dadurch gekennzeichnet, dass die Hardware-Infrastruktur (25, 26, 27, 28, 29) so konfiguriert ist, a) dass Audio-Daten (11) mit dem mindestens einen Mikrofon (2) aufgenommen werden, b) dass die Audio-Daten (11) kontinuierlich in dem Audio-Puffer (6) zwischengespeichert werden, so dass der Audio-Puffer (6) stets die Audio-Daten (11) der jüngsten Vergangenheit enthält, c) dass die Audio-Daten (11) zeitnahe mindestens einem sekundären Spracherkennungs-Prozess (7) zugeführt werden, welcher beim Erkennen eines Schlüsselworts (18) oder einer Phrase mindestens einen primären Spracherkennungs-Prozess (8) startet oder aus einem Ruhezustand aktiviert, d) dass der primäre Spracherkennungs-Prozess (8) den gesamten oder den jüngsten Inhalt (21) des Audio-Puffers (6) sowie die sich daran anschließende Liveübertragung (22) in Text (13) umwandelt und diesen Text (13) mindestens einem Dialogsystem-Prozess (9) zuführt, welcher ebenfalls startet oder aus dem Ruhezustand aktiviert wird und den Inhalt des Textes (13) darauf hin analysiert, ob dieser eine Frage, eine Mitteilung und/oder eine Aufforderung enthält, die vom Benutzer an den Software-Agenten gerichtet wurde, wobei, falls dies bejaht wird, der Dialogsystem-Prozess (9) eine passende Aktion auslöst oder eine passende Antwort (14) generiert und mit dem Benutzer per Ausgabevorrichtung (3, 4) in Kontakt tritt und e) dass anderenfalls, falls in den Audio-Daten (11) nur Störgeräusche vorliegen oder falls der Text (13) keinen relevanten oder keinen auswertbaren Inhalt enthält, der primäre Spracherkennungs-Prozess (8) und der Dialogsystem-Prozess (9) umgehend wieder in den Ruhezustand zurückkehren oder sich beenden und die Kontrolle wieder dem sekundären Spracherkennungs-Prozess (7) zurückgeben.
- System nach
Anspruch 12 , dadurch gekennzeichnet, dass die Umwandlung des gesamten oder des jüngsten Inhalts (17, 21) des Audio-Puffers (6) in Text (13) in einer Zeitspanne erfolgt, die kürzer ist als es für den Benutzer gedauert hat, den entsprechenden Inhalt (17, 21) zu sprechen. - System nach
Anspruch 12 oder13 , dadurch gekennzeichnet, dass von der mindestens einen Ausgabevorrichtung (3, 4) ein optisches, akustisches und/oder haptisches Signal an den Benutzer ausgegeben wird, sobald ein Schlüsselwort (18) oder eine Phrase vom sekundären Spracherkennungs-Prozess (7) erkannt wird. - System nach einem der
Ansprüche 12 bis14 , dadurch gekennzeichnet, a) dass das mindestens eine Mikrofon (2), der mindestens eine Audio-Puffer (6) und die mindestens eine Ausgabevorrichtung (3, 4) Bestandteile eines lokalen Endgeräts (1) sind und dass der sekundären Spracherkennungs-Prozess (7) auf dem lokalen Endgerät (1) ausgeführt wird und b) dass der primäre Spracherkennungs-Prozess (8) und der Dialogsystem-Prozess (9) auf einem externen Server (28) oder auf einem Serververbund ausgeführt werden, wobei der gesamte oder der jüngste Inhalt (17, 21) des Audio-Puffers (6) über ein Netzwerk (29) und/oder Funknetzwerk vom lokalen Endgerät (1) zum Server (28) oder Serververbund übertragen wird.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102013001219.8A DE102013001219B4 (de) | 2013-01-25 | 2013-01-25 | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
US14/152,780 US20140214429A1 (en) | 2013-01-25 | 2014-01-10 | Method for Voice Activation of a Software Agent from Standby Mode |
GB1400604.3A GB2512178B (en) | 2013-01-25 | 2014-01-14 | Method for voice activation of a software agent from standby mode |
IE20140051A IE86422B1 (en) | 2013-01-25 | 2014-01-20 | Method for voice activation of a software agent from standby mode |
AU2014200407A AU2014200407B2 (en) | 2013-01-25 | 2014-01-24 | Method for Voice Activation of a Software Agent from Standby Mode |
AU2019246868A AU2019246868B2 (en) | 2013-01-25 | 2019-10-11 | Method and system for voice activation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102013001219.8A DE102013001219B4 (de) | 2013-01-25 | 2013-01-25 | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
Publications (2)
Publication Number | Publication Date |
---|---|
DE102013001219A1 DE102013001219A1 (de) | 2014-07-31 |
DE102013001219B4 true DE102013001219B4 (de) | 2019-08-29 |
Family
ID=50238946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102013001219.8A Active DE102013001219B4 (de) | 2013-01-25 | 2013-01-25 | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
Country Status (5)
Country | Link |
---|---|
US (1) | US20140214429A1 (de) |
AU (2) | AU2014200407B2 (de) |
DE (1) | DE102013001219B4 (de) |
GB (1) | GB2512178B (de) |
IE (1) | IE86422B1 (de) |
Families Citing this family (247)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9992745B2 (en) | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
WO2013085507A1 (en) | 2011-12-07 | 2013-06-13 | Hewlett-Packard Development Company, L.P. | Low power integrated circuit to analyze a digitized audio stream |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9152203B2 (en) * | 2012-05-31 | 2015-10-06 | At&T Intellectual Property I, Lp | Managing power consumption state of electronic devices responsive to predicting future demand |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
CN110442699A (zh) | 2013-06-09 | 2019-11-12 | 苹果公司 | 操作数字助理的方法、计算机可读介质、电子设备和系统 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US20150032238A1 (en) * | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device for Audio Input Routing |
US9245527B2 (en) | 2013-10-11 | 2016-01-26 | Apple Inc. | Speech recognition wake-up of a handheld portable electronic device |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9460735B2 (en) * | 2013-12-28 | 2016-10-04 | Intel Corporation | Intelligent ancillary electronic device |
US10643616B1 (en) * | 2014-03-11 | 2020-05-05 | Nvoq Incorporated | Apparatus and methods for dynamically changing a speech resource based on recognized text |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
EP3480811A1 (de) | 2014-05-30 | 2019-05-08 | Apple Inc. | Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10360597B2 (en) | 2014-06-27 | 2019-07-23 | American Express Travel Related Services Company, Inc. | System and method for contextual services experience |
US9721001B2 (en) * | 2014-06-27 | 2017-08-01 | Intel Corporation | Automatic question detection in natural language |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10217151B1 (en) | 2014-07-23 | 2019-02-26 | American Express Travel Related Services Company, Inc. | Systems and methods for proximity based communication |
US10062073B2 (en) | 2014-08-26 | 2018-08-28 | American Express Travel Related Services Company, Inc. | System and method for providing a BLUETOOTH low energy mobile payment system |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10147421B2 (en) * | 2014-12-16 | 2018-12-04 | Microcoft Technology Licensing, Llc | Digital assistant voice input integration |
US10121472B2 (en) * | 2015-02-13 | 2018-11-06 | Knowles Electronics, Llc | Audio buffer catch-up apparatus and method with two microphones |
KR102346302B1 (ko) * | 2015-02-16 | 2022-01-03 | 삼성전자 주식회사 | 전자 장치 및 음성 인식 기능 운용 방법 |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
JP6564058B2 (ja) * | 2015-04-10 | 2019-08-21 | 華為技術有限公司Huawei Technologies Co.,Ltd. | 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 |
CN106161755A (zh) * | 2015-04-20 | 2016-11-23 | 钰太芯微电子科技(上海)有限公司 | 一种关键词语音唤醒系统及唤醒方法及移动终端 |
US10303768B2 (en) * | 2015-05-04 | 2019-05-28 | Sri International | Exploiting multi-modal affect and semantics to assess the persuasiveness of a video |
US10133613B2 (en) | 2015-05-14 | 2018-11-20 | Microsoft Technology Licensing, Llc | Digital assistant extensibility to third party applications |
US9635164B2 (en) * | 2015-05-14 | 2017-04-25 | Otter Products, Llc | Remote control for electronic device |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10452339B2 (en) * | 2015-06-05 | 2019-10-22 | Apple Inc. | Mechanism for retrieval of previously captured audio |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US9444928B1 (en) * | 2015-06-16 | 2016-09-13 | Motorola Mobility Llc | Queueing voice assist messages during microphone use |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10582167B2 (en) * | 2015-08-31 | 2020-03-03 | Sensory, Inc. | Triggering video surveillance using embedded voice, speech, or sound recognition |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
GB2552090B (en) * | 2017-06-29 | 2021-06-16 | Inodyn Newmedia Gmbh | Front-facing camera and maximized display screen of a mobile device |
US20170092278A1 (en) * | 2015-09-30 | 2017-03-30 | Apple Inc. | Speaker recognition |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9620140B1 (en) * | 2016-01-12 | 2017-04-11 | Raytheon Company | Voice pitch modification to increase command and control operator situational awareness |
US11159519B2 (en) | 2016-01-13 | 2021-10-26 | American Express Travel Related Services Company, Inc. | Contextual injection |
US20170330233A1 (en) | 2016-05-13 | 2017-11-16 | American Express Travel Related Services Company, Inc. | Systems and methods for contextual services across platforms based on selectively shared information |
US10515384B2 (en) * | 2016-05-13 | 2019-12-24 | American Express Travel Related Services Company, Inc. | Systems and methods for contextual services using voice personal assistants |
US11232187B2 (en) | 2016-01-13 | 2022-01-25 | American Express Travel Related Services Company, Inc. | Contextual identification and information security |
CN105739977A (zh) * | 2016-01-26 | 2016-07-06 | 北京云知声信息技术有限公司 | 一种语音交互设备的唤醒方法及装置 |
US10831273B2 (en) * | 2016-01-26 | 2020-11-10 | Lenovo (Singapore) Pte. Ltd. | User action activated voice recognition |
US10097919B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Music service selection |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
CN105744074A (zh) * | 2016-03-30 | 2016-07-06 | 青岛海信移动通信技术股份有限公司 | 一种在移动终端中进行语音操作方法和装置 |
US10880833B2 (en) * | 2016-04-25 | 2020-12-29 | Sensory, Incorporated | Smart listening modes supporting quasi always-on listening |
US10275529B1 (en) | 2016-04-29 | 2019-04-30 | Rich Media Ventures, Llc | Active content rich media using intelligent personal assistant applications |
US9736311B1 (en) | 2016-04-29 | 2017-08-15 | Rich Media Ventures, Llc | Rich media interactive voice response |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10152969B2 (en) | 2016-07-15 | 2018-12-11 | Sonos, Inc. | Voice detection by multiple devices |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
CN107767861B (zh) * | 2016-08-22 | 2021-07-02 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US9743204B1 (en) | 2016-09-30 | 2017-08-22 | Sonos, Inc. | Multi-orientation playback device microphones |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
KR102409303B1 (ko) * | 2016-12-15 | 2022-06-15 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
US11003417B2 (en) * | 2016-12-15 | 2021-05-11 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus with activation word based on operating environment of the apparatus |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10319375B2 (en) * | 2016-12-28 | 2019-06-11 | Amazon Technologies, Inc. | Audio message extraction |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
CN110192193A (zh) * | 2017-01-19 | 2019-08-30 | 惠普发展公司有限责任合伙企业 | 隐私保护设备 |
US11010601B2 (en) | 2017-02-14 | 2021-05-18 | Microsoft Technology Licensing, Llc | Intelligent assistant device communicating non-verbal cues |
US11100384B2 (en) | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
US10467510B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Intelligent assistant |
US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10360909B2 (en) * | 2017-07-27 | 2019-07-23 | Intel Corporation | Natural machine conversing method and apparatus |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10488831B2 (en) * | 2017-11-21 | 2019-11-26 | Bose Corporation | Biopotential wakeup word |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10861462B2 (en) | 2018-03-12 | 2020-12-08 | Cypress Semiconductor Corporation | Dual pipeline architecture for wakeup phrase detection with speech onset detection |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
WO2019193378A1 (en) * | 2018-04-06 | 2019-10-10 | Flex Ltd. | Device and system for accessing multiple virtual assistant services |
CN108521515A (zh) * | 2018-04-08 | 2018-09-11 | 联想(北京)有限公司 | 一种语音设备唤醒方法及电子设备 |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10847178B2 (en) | 2018-05-18 | 2020-11-24 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
US10896675B1 (en) | 2018-06-29 | 2021-01-19 | X Development Llc | Multi-tiered command processing |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US10878811B2 (en) * | 2018-09-14 | 2020-12-29 | Sonos, Inc. | Networked devices, systems, and methods for intelligently deactivating wake-word engines |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
EP3654249A1 (de) | 2018-11-15 | 2020-05-20 | Snips | Erweiterte konvolutionen und takt zur effizienten schlüsselwortauffindung |
US11049496B2 (en) * | 2018-11-29 | 2021-06-29 | Microsoft Technology Licensing, Llc | Audio pipeline for simultaneous keyword spotting, transcription, and real time communications |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US11031005B2 (en) * | 2018-12-17 | 2021-06-08 | Intel Corporation | Continuous topic detection and adaption in audio environments |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
EP3906549B1 (de) * | 2019-02-06 | 2022-12-28 | Google LLC | Sprachabfragen-qos auf basis von client-berechneten inhaltsmetadaten |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
KR102225001B1 (ko) * | 2019-05-21 | 2021-03-08 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
EP3970000A1 (de) * | 2019-07-19 | 2022-03-23 | Google LLC | Kondensierte, gesprochene äusserungen für die automatisierte hilfssteuerung einer komplexen grafischen anwendungsbenutzerschnittstelle |
US10971151B1 (en) | 2019-07-30 | 2021-04-06 | Suki AI, Inc. | Systems, methods, and storage media for performing actions in response to a determined spoken command of a user |
US11176939B1 (en) * | 2019-07-30 | 2021-11-16 | Suki AI, Inc. | Systems, methods, and storage media for performing actions based on utterance of a command |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11705114B1 (en) * | 2019-08-08 | 2023-07-18 | State Farm Mutual Automobile Insurance Company | Systems and methods for parsing multiple intents in natural language speech |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
KR20210055347A (ko) * | 2019-11-07 | 2021-05-17 | 엘지전자 주식회사 | 인공 지능 장치 |
CN111028831B (zh) * | 2019-11-11 | 2022-02-18 | 云知声智能科技股份有限公司 | 一种语音唤醒方法及装置 |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
JP7442331B2 (ja) | 2020-02-05 | 2024-03-04 | キヤノン株式会社 | 音声入力装置およびその制御方法ならびにプログラム |
JP7442330B2 (ja) * | 2020-02-05 | 2024-03-04 | キヤノン株式会社 | 音声入力装置およびその制御方法ならびにプログラム |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11308962B2 (en) | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN111916082A (zh) * | 2020-08-14 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 语音交互方法、装置、计算机设备和存储介质 |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US20220139379A1 (en) * | 2020-11-02 | 2022-05-05 | Aondevices, Inc. | Wake word method to prolong the conversational state between human and a machine in edge devices |
US11551700B2 (en) | 2021-01-25 | 2023-01-10 | Sonos, Inc. | Systems and methods for power-efficient keyword detection |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
DE19635754A1 (de) * | 1996-09-03 | 1998-03-05 | Siemens Ag | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
EP1058876A1 (de) * | 1999-01-06 | 2000-12-13 | Koninklijke Philips Electronics N.V. | Spracheingabegerät mit aufmerksamkeitsspanne |
WO2001001389A2 (de) * | 1999-06-24 | 2001-01-04 | Siemens Aktiengesellschaft | Verfahren und vorrichtung zur spracherkennung |
DE10030369A1 (de) * | 2000-06-21 | 2002-01-03 | Volkswagen Ag | Spracherkennungssystem |
DE10163213A1 (de) * | 2001-12-21 | 2003-07-10 | Philips Intellectual Property | Verfahren zum Betrieb eines Spracherkennungssystems |
DE60015531T2 (de) * | 1999-03-26 | 2005-03-24 | Scansoft, Inc., Peabody | Client-server spracherkennungssystem |
DE60010827T2 (de) * | 1999-10-06 | 2005-06-16 | Microsoft Corp., Redmond | Hintergrundsystem für Audiodatenbeseitigung |
DE102009059792A1 (de) * | 2009-12-21 | 2011-06-22 | Continental Automotive GmbH, 30165 | Verfahren und Vorrichtung zur Bedienung technischer Einrichtungen, insbesondere eines Kraftfahrzeugs |
US20120010890A1 (en) * | 2008-12-30 | 2012-01-12 | Raymond Clement Koverzin | Power-optimized wireless communications device |
WO2014093238A1 (en) * | 2012-12-11 | 2014-06-19 | Amazon Technologies, Inc. | Speech recognition power management |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7424431B2 (en) | 2005-07-11 | 2008-09-09 | Stragent, Llc | System, method and computer program product for adding voice activation and voice control to a media player |
US7996228B2 (en) * | 2005-12-22 | 2011-08-09 | Microsoft Corporation | Voice initiated network operations |
US8260618B2 (en) | 2006-12-21 | 2012-09-04 | Nuance Communications, Inc. | Method and apparatus for remote control of devices through a wireless headset using voice activation |
US8165886B1 (en) * | 2007-10-04 | 2012-04-24 | Great Northern Research LLC | Speech interface system and method for control and interaction with applications on a computing system |
US8359020B2 (en) * | 2010-08-06 | 2013-01-22 | Google Inc. | Automatically monitoring for voice input based on context |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
-
2013
- 2013-01-25 DE DE102013001219.8A patent/DE102013001219B4/de active Active
-
2014
- 2014-01-10 US US14/152,780 patent/US20140214429A1/en not_active Abandoned
- 2014-01-14 GB GB1400604.3A patent/GB2512178B/en active Active
- 2014-01-20 IE IE20140051A patent/IE86422B1/en unknown
- 2014-01-24 AU AU2014200407A patent/AU2014200407B2/en active Active
-
2019
- 2019-10-11 AU AU2019246868A patent/AU2019246868B2/en active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19533541C1 (de) * | 1995-09-11 | 1997-03-27 | Daimler Benz Aerospace Ag | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
DE19635754A1 (de) * | 1996-09-03 | 1998-03-05 | Siemens Ag | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
EP1058876A1 (de) * | 1999-01-06 | 2000-12-13 | Koninklijke Philips Electronics N.V. | Spracheingabegerät mit aufmerksamkeitsspanne |
DE60015531T2 (de) * | 1999-03-26 | 2005-03-24 | Scansoft, Inc., Peabody | Client-server spracherkennungssystem |
WO2001001389A2 (de) * | 1999-06-24 | 2001-01-04 | Siemens Aktiengesellschaft | Verfahren und vorrichtung zur spracherkennung |
DE60010827T2 (de) * | 1999-10-06 | 2005-06-16 | Microsoft Corp., Redmond | Hintergrundsystem für Audiodatenbeseitigung |
DE10030369A1 (de) * | 2000-06-21 | 2002-01-03 | Volkswagen Ag | Spracherkennungssystem |
DE10163213A1 (de) * | 2001-12-21 | 2003-07-10 | Philips Intellectual Property | Verfahren zum Betrieb eines Spracherkennungssystems |
US20120010890A1 (en) * | 2008-12-30 | 2012-01-12 | Raymond Clement Koverzin | Power-optimized wireless communications device |
DE102009059792A1 (de) * | 2009-12-21 | 2011-06-22 | Continental Automotive GmbH, 30165 | Verfahren und Vorrichtung zur Bedienung technischer Einrichtungen, insbesondere eines Kraftfahrzeugs |
WO2014093238A1 (en) * | 2012-12-11 | 2014-06-19 | Amazon Technologies, Inc. | Speech recognition power management |
Also Published As
Publication number | Publication date |
---|---|
GB2512178B (en) | 2015-11-04 |
GB201400604D0 (en) | 2014-03-05 |
AU2019246868B2 (en) | 2020-05-28 |
IE20140051A1 (en) | 2014-08-13 |
IE86422B1 (en) | 2014-08-13 |
US20140214429A1 (en) | 2014-07-31 |
AU2014200407B2 (en) | 2019-09-19 |
AU2019246868A1 (en) | 2019-10-31 |
DE102013001219A1 (de) | 2014-07-31 |
AU2014200407A1 (en) | 2014-08-14 |
GB2512178A (en) | 2014-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102013001219B4 (de) | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus | |
DE102019112380B4 (de) | Verfahren und System zur robusten Sprechererkennungsaktivierung | |
DE102018010463B3 (de) | Tragbare Vorrichtung, computerlesbares Speicherungsmedium, Verfahren und Einrichtung für energieeffiziente und leistungsarme verteilte automatische Spracherkennung | |
KR102523982B1 (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 | |
DE112014000709B4 (de) | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten | |
DE102017122200A1 (de) | Bilden einer Chatbot-Ausgabe auf der Grundlage eines Anwenderzustandes | |
CN114207710A (zh) | 检测和/或登记热命令以由自动助理触发响应动作 | |
US20140172423A1 (en) | Speech recognition method, device and electronic apparatus | |
DE102017125196A1 (de) | Proaktive Aufnahme von nicht angefordertem Inhalt in Mensch-Computer-Dialoge | |
DE102014107027A1 (de) | Management von virtuellen Assistentaktionseinheiten | |
DE112016002370T5 (de) | Lokales persistent machen von daten für eine selektiv offline taugliche sprachaktion in einer sprachfähigen elektronischen vorrichtung | |
DE112019001297B4 (de) | Systeme und verfahren zur erfassung von geräuschen zur mustererkennungsverarbeitung | |
DE102018114658A1 (de) | Eingabe während einer Unterhaltungssitzung | |
DE112016002588T5 (de) | Kontextgetriebenes nachrichtenübermittlungssystem | |
JP2021507315A (ja) | 呼び出しフレーズの検出における雑音低減技術の選択的適応および利用 | |
CN109040444B (zh) | 一种通话录音方法、终端及计算机可读存储介质 | |
DE102017126306A1 (de) | Kontextabhängiger Koversionsmodus für digitalen Assistenten | |
DE202016008204U1 (de) | Suchergebnis unter vorherigem Abrufen von Sprachanfragen | |
CN109089018A (zh) | 一种智能提词装置及其方法 | |
DE112019003234T5 (de) | Audioverarbeitungsvorrichtung, audioverarbeitungsverfahren und aufzeichnungsmedium | |
WO2024012501A1 (zh) | 语音处理方法及相关装置、电子设备、存储介质 | |
CN111370004A (zh) | 人机交互方法、语音处理方法及设备 | |
DE102020130041A1 (de) | Verbergen von phrasen in über luft laufendem audio | |
CN110111795B (zh) | 一种语音处理方法及终端设备 | |
DE102013022596B3 (de) | Verfahren und System zur Sprachaktivierung mit Aktivierungswort am Satzanfang, innerhalb des Satzes oder am Satzende |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R086 | Non-binding declaration of licensing interest | ||
R163 | Identified publications notified | ||
R012 | Request for examination validly filed | ||
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R130 | Divisional application to |
Ref document number: 102013022596 Country of ref document: DE |
|
R020 | Patent grant now final | ||
R082 | Change of representative |
Representative=s name: ULLRICH & NAUMANN PATENT- UND RECHTSANWAELTE, , DE Representative=s name: PATENT- UND RECHTSANWAELTE ULLRICH & NAUMANN P, DE |
|
R008 | Case pending at federal patent court | ||
R039 | Revocation action filed |