DE102018114658A1 - Eingabe während einer Unterhaltungssitzung - Google Patents

Eingabe während einer Unterhaltungssitzung Download PDF

Info

Publication number
DE102018114658A1
DE102018114658A1 DE102018114658.2A DE102018114658A DE102018114658A1 DE 102018114658 A1 DE102018114658 A1 DE 102018114658A1 DE 102018114658 A DE102018114658 A DE 102018114658A DE 102018114658 A1 DE102018114658 A1 DE 102018114658A1
Authority
DE
Germany
Prior art keywords
input
user
session
processor
instructions executable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102018114658.2A
Other languages
English (en)
Inventor
John Weldon Nicholson
Daryl Cromer
Ming Qian
Song Wang
David Alexander Schwarz
Aaron Michael Stewart
Lincoln Penn Hancock
Jonathan Jen-Wei Yu
Jeffrey E. Skinner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Singapore Pte Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of DE102018114658A1 publication Critical patent/DE102018114658A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/453Help systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4812Task transfer initiation or dispatching by interrupt, e.g. masked
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2027Live party detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Eine Ausführungsform stellt ein Verfahren bereit, enthaltend: Eintreten in eine Unterhaltungssitzung mit einem Benutzer an einer Informationshandhabungsvorrichtung; Empfangen einer Eingabe von einer Quelle, die von dem Benutzer verschieden ist, während der Unterhaltungssitzung; und Durchführen einer Handlung, die in Bezug zu der Unterhaltungssitzung steht, in Erwiderung auf die empfangene Eingabe an der Informationshandhabungsvorrichtung.

Description

  • HINTERGRUND
  • Informationshandhabungsvorrichtungen („Vorrichtungen“), zum Beispiel Smartphones, Tabletvorrichtungen, Smart-Lautsprecher, Laptops und Personalcomputer und dergleichen können eingerichtet sein, Befehlseingaben zu empfangen und Ausgaben in Erwiderung auf die Eingaben bereitzustellen. Allgemein interagiert ein Benutzer mit einem Spracheingabemodul, das zum Beispiel in einem persönlichen Assistenten durch Verwendung von natürlicher Sprache ausgeführt ist. Diese Art von Schnittstelle ermöglicht einer Vorrichtung, Spracheingaben von einem Benutzer (z.B. Anfragen, Befehle, etc.) zu empfangen, diese Eingaben zu verarbeiten und eine Ausgabe in Erwiderung auf die Eingabe bereitzustellen.
  • KURZE ZUSAMMENFASSUNG
  • Zusammenfassend stellt ein Aspekt ein Verfahren bereit, umfassend: Eintreten in eine Unterhaltungssitzung mit einem Benutzer an einer Informationshandhabungsvorrichtung; Empfangen einer Eingabe von einer Quelle, die von dem Benutzer verschieden ist, während der Unterhaltungssitzung; und Durchführen einer Handlung, die in Bezug zu der Unterhaltungssitzung steht, in Erwiderung auf die empfangene Eingabe an der Informationshandhabungsvorrichtung.
  • Ein anderer Aspekt stellt ein Informationshandhabungsgerät bereit, umfassend: einen Prozessor; eine Speichervorrichtung, die Instruktionen speichert, die von dem Prozessor ausführbar sind zum: Eintreten in eine Unterhaltungssitzung mit einem Benutzer an einer Informationshandhabungsvorrichtung; Empfangen einer Eingabe von einer Quelle, die von dem Benutzer verschieden ist, während der Unterhaltungssitzung; und Durchführen einer Handlung, die in Bezug zu der Unterhaltungssitzung steht, in Erwiderung auf die empfangene Eingabe an der Informationshandhabungsvorrichtung.
  • Ein weiterer Aspekt stelle ein Produkt bereit, umfassend: eine Speichervorrichtung, die Code speichert, wobei der Code von einem Prozessor ausführbar ist und umfasst: Code der in eine Unterhaltungssitzung mit einem Benutzer eintritt; Code der eine Eingabe von einer Quelle, die von dem Benutzer verschieden ist, während der Unterhaltungssitzung empfängt; und Code der eine Handlung, die in Bezug zu der Unterhaltungssitzung steht, in Erwiderung auf die empfangene Eingabe durchführt.
  • Das Vorgenannte ist eine Zusammenfassung und kann deshalb Vereinfachungen, Verallgemeinerungen und Auslassungen von Details enthalten; dementsprechend werden Fachmänner anerkennen, dass die Zusammenfassung nur veranschaulicht und nicht gedacht ist, um in irgendeiner Weise zu beschränken.
  • Für ein besseres Verständnis der Ausführungsformen, zusammen mit anderen und weiteren Merkmalen und Vorteilen davon, wird nun Bezug genommen auf die folgende Beschreibung zusammen mit den beigefügten Zeichnungen. Der Umfang der Erfindung wird in den angehängten Ansprüchen herausgestellt.
  • Figurenliste
    • 1 illustriert ein Beispiel einer Schaltung einer Informationshandhabungsvorrichtung.
    • 2 illustriert ein weiteres Beispiel einer Schaltung eine Informationshandhabungsvorrichtung.
    • 3 illustriert ein beispielhaftes Verfahren eines Erkennens und Erwiderns auf eine Eingabe während einer Unterhaltungssitzung.
  • DETAILLIERTE BESCHREIBUNG
  • Es wird leicht verständlich sein, dass die Komponenten der Ausführungsformen, wie im Allgemeinen in den Figuren hierin beschrieben und illustriert, in einer weiten Vielzahl von verschiedenen Konfigurationen angeordnet und ausgebildet sein können, zusätzlich zu den beschriebenen Beispiel-Ausführungsformen. Deshalb beabsichtigt die folgende, detailliertere Beschreibung der Beispiel-Ausführungsformen, wie in den Figuren repräsentiert, nicht, den Umfang der Ausführungsformen wie beansprucht zu beschränken, sondern soll lediglich Beispiel-Ausführungsformen repräsentieren.
  • Ein Bezug auf „die eine Ausführungsform“ oder „eine Ausführungsform“ (oder dergleichen) in dieser Beschreibung meint, dass ein bestimmtes Merkmal, Struktur oder Charakteristik, die in Verbindung mit der Ausführungsform beschrieben ist, in zumindest einer Ausführungsform enthalten ist. Deshalb bezieht sich das Auftreten der Phrasen „in der einen Ausführungsform“ oder „in einer Ausführungsform“ oder dergleichen an verschiedenen Stellen in dieser Beschreibung nicht zwangsläufig auf dieselbe Ausführungsform.
  • Weiter können die beschriebenen Merkmale, Strukturen oder Charakteristiken in jeder passenden Weise in einer oder mehreren Ausführungsformen kombiniert werden. In der folgenden Beschreibung werden zahlreiche spezifische Details bereitgestellt, um ein gründliches Verständnis von Ausführungsformen bereitzustellen. Ein Fachmann wird jedoch erkennen, dass die verschiedenen Ausführungsformen ohne eine oder mehrere der spezifischen Details oder mit anderen Verfahren, Komponenten, Materialien, etc. ausgebildet sein können. In anderen Beispielen sind wohlbekannte Strukturen, Materialien oder Bedienungen nicht im Detail gezeigt oder beschrieben, um Verwirrung zu vermeiden.
  • Benutzer verwenden häufig Vorrichtungen, um eine Vielzahl von verschiedenen Befehlen oder Anfragen auszuführen. Ein Verfahren der Interaktion mit einer Vorrichtung ist es, digitale Assistentensoftware zu verwenden, die auf der Vorrichtung ausgeliefert wird (z.B. Siri® für Apple®, Cortana® für Windows®, Alexa® für Amazon®, etc.). Digitale Assistenten sind in der Lage, Ausgaben bereitzustellen (z.B. akustische Ausgaben, visuelle Ausgaben, etc.), die auf eine Vielzahl von unterschiedlichen Arten von Benutzereingaben (z.B. Spracheingaben etc.) reagieren.
  • Aus Gründen der einfachen Lesbarkeit wird hierin auf den Austausch zwischen einem Benutzer und dem digitalen Assistenten als eine Unterhaltungssitzung Bezug genommen. Eine Unterhaltungssitzung kann einen einzelnen Austausch enthalten, auf den hierin als eine Einfach-Unterhaltung Bezug genommen wird, in der der Benutzer eine Eingabe an die Vorrichtung bereitstellt und die Vorrichtung die Handlung durchführt. In anderen Worten kann die Vorrichtung in einer Einfach-Unterhaltung die der Eingabe zugeordneten Funktion mit einer einzelnen Anfrage oder Eingabe von dem Benutzer durchführen und erledigen. Als ein Beispiel einer Einfach-Unterhaltung kann der Benutzer fragen: „Welches Lied wird gegenwärtig gespielt?“. Der Assistent kann die Erwiderung auf die Frage ohne zusätzliche Information von dem Benutzer bereitstellen.
  • Alternativ kann die Unterhaltungssitzung einen mehrfachen Austausch enthalten, auf den hierin als eine Mehrfach-Unterhaltung Bezug genommen wird, in der der Benutzer eine Eingabe an die Vorrichtung bereitstellt, die Vorrichtung eine Ausgabe bereitstellt, die zusätzliche Benutzereingabe benötigt, der Benutzer die zusätzliche Eingabe bereitstellt, und so weiter, bis der Austausch erledigt ist. Mit anderen Worten benötigt die Vorrichtung in einer Mehrfach-Unterhaltung zusätzliche Benutzereingabe, um die Funktion, die der ursprünglichen Eingabe, die von dem Benutzer empfangen wurde, zugeordnet ist zu verarbeiten und zu erledigen. Als ein Beispiel kann der Benutzer den Befehl „Bestelle Pizza“ bereitstellen. Die Vorrichtung muss dann Fragen in Erwiderung auf den Befehl stellen, um den Befehl vollständig zu erfüllen, zum Beispiel kann die Vorrichtung fragen: „Woher willst Du die Pizza bestellen?“, „Welche Größe der Pizza möchtest Du bestellen?“, „Welche Arten von Zutaten möchtest Du auf Deiner Pizza?“ und dergleichen.
  • In herkömmlichen System wird die Vorrichtung Eingaben oder Unterbrechungen, die entweder dem Benutzer oder der Vorrichtung zugeordnet sind, nicht erkennen. Zum Beispiel wird, wenn ein Benutzer eine Eingabe an die Vorrichtung bereitstellt und jemand anderes betritt den Raum und stellt dem Benutzer eine Frage, der digitale Assistent versuchen, die Eingabe, die von dem Benutzer empfangen wurde, und die zusätzliche Eingabe, die von der zusätzlichen Person bereitgestellt wurde, zu verarbeiten. Dies führt nicht nur zu einer nicht reagierenden Ausgabe durch den digitalen Assistenten, sondern bewirkt auch, dass der Benutzer den Assistenten korrigieren und die Eingabe erneut bereitstellen muss, was unbequem, nicht intuitiv und verwirrend sein kann. Zunächst ist die Vorrichtung nicht in der Lage zu bestimmen, dass eine Unterbrechung aufgetreten ist. Mit anderen Worten ist die Vorrichtung nicht in der Lage zu bestimmen, dass die empfangene Eingabe tatsächlich nicht an die Vorrichtung gerichtet war. Zusätzlich ist die Vorrichtung nicht in der Lage, eine Unterbrechung in einer menschenähnlichen Art zu verarbeiten, zum Beispiel durch Erkennen der Unterbrechung und Bestimmen, dass die unterbrochene Eingabe nicht an den Assistenten gerichtet ist.
  • Dementsprechend stellt eine Ausführungsform ein Verfahren zum Erkennen und Erwidern auf eine Eingabe bereit, die während einer Unterhaltungssitzung von einer Quelle, die von dem Benutzer verschieden ist, empfangen wurde. Eine Ausführungsform kann in eine Unterhaltungssitzung mit einem Benutzer eintreten. Eine Ausführungsform kann dann eine Eingabe von einer Quelle, die von dem Benutzer verschieden ist, während der Unterhaltungssitzung empfangen. Zum Beispiel kann eine Ausführungsform eine Unterbrechung der Unterhaltungssitzung durch eine andere Person oder eine andere Quelle detektieren. In einer Ausführungsform kann das Detektieren der Unterbrechung ein Identifizieren, dass eine andere Person den Raum betreten hat enthalten. Ein Detektieren der Unterbrechung kann auch ein Bestimmen, dass eine Eingabe von einem anderen Benutzer in dem Raum empfangen wurde enthalten. Zum Beispiel kann eine Ausführungsform natürliche Sprachverarbeitung verwenden und verstehen, zu bestimmen, dass die Eingabe nicht in Bezug zu der Unterhaltungssitzung steht. Beim Detektieren einer Unterbrechung kann eine Ausführungsform eine Handlung durchführen, die mit der Unterhaltungssitzung in Bezug steht in Erwiderung auf die empfangene Eingabe. Zum Beispiel kann eine Ausführungsform die Unterhaltungssitzung pausieren, die Lautstärke der Ausgabe verringern, die Unterhaltungssitzung speichern und dergleichen. Solch ein Verfahren assistiert einem Benutzer bei der Durchführung einer menschenähnlicheren Unterhaltung mit dem Assistenten, indem die Vorrichtung erlaubt, Unterbrechungen in einer Art zu erkennen und darauf zu erwidern, die ähnlich dazu ist, wie Menschen Unterbrechungen erkennen und darauf erwidern.
  • Die illustrierten Beispiel-Ausführungsformen können am besten durch Bezug auf die Figuren verstanden werden. Die folgende Beschreibung ist nur als Beispiel gedacht und veranschaulicht einfach einige Beispiel-Ausführungsformen.
  • Während verschiedene andere Schaltkreise, Schaltungen oder Komponenten in Informationshandhabungsvorrichtungen in Bezug auf Smartphone- oder Tablet-Schaltungen 100 verwendet werden können, enthält ein in 1 illustriertes Beispiel ein System-on-Chip-Design, wie es zum Beispiel in Tablets oder anderen mobilen Berechnungsplattformen verwendet wird. Software und Prozessor(en) sind in einem einzelnen Chip 110 kombiniert. Prozessoren umfassen interne arithmetische Einheiten, Register, Cachespeicher, Busse, I/O-Anschlüsse, etc., wie aus dem Stand der Technik wohlbekannt. Interne Busse und dergleichen hängen von verschiedenen Anbietern ab, aber im Wesentlichen können alle peripheren Vorrichtungen (120) an einen einzelnen Chip 110 gekoppelt sein. Die Schaltung 100 kombiniert den Prozessor, Speichersteuerung und I/O-Steuerungszentrale in einem einzelnen Chip 110. Systeme 100 dieser Art verwenden typischerweise auch nicht SATA oder PCI oder LPC. Übliche Schnittstellen enthalten zum Beispiel SDIO und I2C.
  • Es gibt Leistungsverwaltungs-Chip(s) 130, z.B. eine Batterieverwaltungseinheit BMU, die die zum Beispiel durch eine wiederaufladbare Batterie 140, die durch eine Verbindung mit einer Leistungsquelle (nicht gezeigt) wiederaufgeladen werden kann, bereitgestellte Leistung verwalten. In zumindest einem Design wird ein einzelner Chip sowie 110 verwendet, um BIOSähnliche Funktionalität und DRAM-Speicher zu versorgen.
  • System 100 enthält typischerweise einen oder mehrere von einem WWAN-Sendeempfänger 150 und einem WLAN-Sendeempfänger 160 zum Verbinden mit verschiedenen Netzwerken, so wie Telekommunikationsnetzwerken und drahtlosen Internetvorrichtungen, z.B. Zugangspunkten. Zusätzlich sind Vorrichtungen 120 üblicherweise enthalten, z.B. einen Bildsensor, wie eine Kamera, Audioerfassungsvorrichtung, wie ein Mikrofon, ein Thermalsensor, etc. System 100 enthält oft einen Berührungsbildschirm 170 zur Dateneingabe und -anzeige/-darstellung. System 100 enthält typischerweise auch verschiedene Speichervorrichtungen, zum Beispiel Flash-Speicher 180 und SDRAM 190.
  • 2 bildet ein Blockdiagramm eines anderen Beispiels von Informationshandhabungsvorrichtungs-Schaltkreisen, -Schaltungen oder -Komponenten ab. Das in 2 abgebildete Beispiel kann Berechnungssystemen so wie die THINKPAD-Serie von Personalcomputern, die von Lenovo (US) Inc. aus Morrisville, NC, oder anderen Vorrichtungen entsprechen. Wie aus der Beschreibung hierin offenbar wird, können Ausführungsformen andere Merkmale oder nur einige der in dem Beispiel wie in 2 illustrierten Merkmale enthalten.
  • Das Beispiel von 2 enthält einen sogenannten Chipsatz 210 (eine Gruppe von integrierten Schaltkreisen oder Chips, die zusammenarbeiten, Chipsätze) mit einer Architektur, die abhängig vom Hersteller (zum Beispiel INTEL, AMD, ARM, etc.) variieren kann. INTEL ist eine registrierte Marke der Intel Corporation in den Vereinigten Staaten und anderen Ländern. AMD ist eine registrierte Marke von Advanced Micro Devices, Inc. in den Vereinigten Staaten und anderen Ländern. ARM ist eine nichteingetragene Marke von ARM Holdings plc in den Vereinigten Staaten und anderen Ländern. Die Architektur des Chipsatzes 210 enthält eine Kern- und Speichersteuergruppe 220 und eine I/O-Steuerzentrale 250, die Informationen (zum Beispiel Daten, Signale, Befehle, etc.) über eine direkte Verwaltungsschnittstelle (DMI) 242 oder eine Verbindungssteuerung 244 austauscht. In 2 ist die DMI 242 eine Chip-zu-Chip-Schnittstelle (auf die sich manchmal als eine Verbindung zwischen einer „Northbridge“ und einer „Southbridge“ bezogen wird). Die Kern- und Speichersteuergruppe 220 enthält einen oder mehrere Prozessoren 222 (z.B. einzelkern oder mehrkern), und eine Speicher-Steuerzentrale 226, die Informationen über einen Vorderseitenbus (FSB) 224 austauschen kann; unter Kenntnisnahme, dass Komponenten der Gruppe 220 in einen Chip integriert sein können, der die herkömmliche „Northbridge“-Typ-Architektur ablöst. Ein oder mehrere Prozessoren 222 umfassen interne arithmetische Einheiten, Register, Cachespeicher, Busse, I/O-Anschlüsse, etc, wie aus dem Stand der Technik wohlbekannt.
  • In 2 koppelt die Speicher-Steuerzentrale 226 mit Speicher 240 (zum Beispiel um Unterstützung für eine Art RAM bereitzustellen, auf den sich als „Systemspeicher“ oder „Speicher“ bezogen wird). Die Speicher-Steuerzentrale 226 enthält weiter eine Niedrigspannungs-Differenzsignal (LVDS)-Schnittstelle 232 für eine Anzeigevorrichtung 292 (zum Beispiel ein CRT, ein Flachbild, ein Berührungsbildschirm, etc.). Ein Block 238 enthält einige Technologien, die durch die LVDS-Schnittstelle 232 unterstützt werden können (zum Beispiel serielles digitales Video, HDMI/DVI, Display Port). Die Speicher-Steuerzentrale 226 enthält auch eine PCI-Express-Schnittstellen (PCI-E) 234, die diskrete Grafik 236 unterstützen kann.
  • In 2 enthält die I/O-Steuerzentrale 250 eine SATA-Schnittstelle 251 (zum Beispiel für HDDs, SDDs, etc., 280), eine PCI-E-Schnittstelle 252 (zum Beispiel für drahtlose Verbindungen 282), eine USB-Schnittstelle 253 (zum Beispiel für Vorrichtungen 284, wie einen Digitalisierer, Tastatur, Maus, Kamera, Telefone, Mikrofone, Speicher, andere verbundene Vorrichtungen, etc.), eine Netzwerkschnittstelle 254 (zum Beispiel LAN), eine GPIO-Schnittstelle 255, eine LPC-Schnittstelle 270 (für ASICs 271, ein TPM 272, einen Super-I/O 273, eine Firmware-Zentrale 274, BIOS-Unterstützung 275 sowie verschiedene Arten von Speicher 276, so wie ROM 277, Flash 278 und NVRAM 279), eine Leistungsverwaltungsschnittstelle 261, eine Taktgeneratorschnittstelle 262, eine Audioschnittstelle 263 (zum Beispiel für Lautsprecher 294), eine TCO-Schnittstelle 264, eine Systemverwaltungsbus-Schnittstelle 265 und SPI Flash 266, die BIOS 268 und Bootcode 290 enthalten kann. Die I/O-Steuerzentrale 250 kann Gigabit-Ethernet-Unterstützung enthalten.
  • Das System kann ausgebildet sein, beim Aufstarten Bootcode 290 für das BIOS 268 auszuführen, wie innerhalb des SPI Flash 266 gespeichert, und danach Daten unter der Steuerung von einem oder mehreren Betriebssystemen und Anwendungssoftware (wie z.B. in dem Systemspeicher 240 gespeichert) zu verarbeiten. Ein Betriebssystem kann in einer Vielzahl von Orten gespeichert sein und zum Beispiel auf dieses gemäß Instruktionen des BIOS 268 zugegriffen werden. Wie hierin beschrieben kann eine Vorrichtung weniger oder mehr Merkmale als in dem System von 2 gezeigt enthalten.
  • Informationshandhabungsvorrichtung-Schaltungen, wie zum Beispiel in 1 oder 2 umrissen, können in Vorrichtungen, wie Tablets, Smartphones, Smart-Lautsprechern, Personalcomputervorrichtungen im Allgemeinen und/oder elektronischen Vorrichtungen verwendet werden, die digitale Assistenten enthalten können, mit denen ein Benutzer interagieren kann und die verschiedenen Funktionen in Erwiderung auf ein Empfangen einer Benutzereingabe durchführen können. Zum Beispiel kann die Schaltung wie in 1 umrissen in einer Tablet- oder Smartphone-Ausführungsform implementiert sein, wohingegen die Schaltung wie in 2 umrissen in einer Personalcomputer-Ausführungsform implementiert sein kann.
  • Bezugnehmend nun auf 3 kann bei 301 eine Ausführungsform in eine Unterhaltungssitzung mit einem Benutzer eintreten. Eine Unterhaltungssitzung kann definiert sein als eine Sitzung mit einem digitalen Assistenten oder einer anderen interaktiven Applikation, in der ein Benutzer eine Eingabe bereitstellt, der digitale Assistent die Eingabe verarbeitet oder analysiert und der digitale Assistent dann eine Ausgabe in Erwiderung auf die Eingabe bereitstellt. Eine Unterhaltungssitzung kann einen einzelnen Austausch einer Eingabe und Ausgabe enthalten, auf die hierin als eine Einfach-Unterhaltungssitzung Bezug genommen wird, oder einen mehrfachen Austausch von Eingabe und Ausgabe, auf die hierin als Mehrfachinteraktionssitzung Bezug genommen wird. Ein Eintreten in die Unterhaltungssitzung kann jeden Punkt während der Unterhaltungssitzung enthalten, zum Beispiel beginnen der Unterhaltungssitzung, verarbeiten einer Eingabe, die von einem Benutzer empfangen wurde, bereitstellen einer Ausgabe und dergleichen.
  • In einer Ausführungsform kann ein Eintreten in die Unterhaltungssitzung ein Empfangen eines Hinweises enthalten, eine Unterhaltungssitzung zu beginnen. In einer Ausführungsform kann der Hinweis eine Unterhaltungssitzung zu beginnen einer durch den Benutzer bereitgestellten Eingabe zugeordnet sein. In einer Ausführungsform kann der durch den Benutzer bereitgestellte Eingabehinweis eine Aufweckeingabe oder -handlung sein, die durch den Benutzer bereitgestellt wird (z.B. eine oder mehrere Aufweckworte oder vorbestimmte Befehle,.ein Niederdrücken eines Knopfes für eine vorbestimmte Zeitdauer, eine Auswahl eines Symbols eines digitalen Assistenten, etc.). In einer Ausführungsform kann die Aufweckhandlung vor oder in Verbindung mit einer Benutzereingabe bereitgestellt werden. Zum Beispiel kann ein Benutzer die gesprochene Eingabe „Ok Surlexana, bestelle eine Pizza“ bereitstellen. In diesem Szenario ist „Ok Surlexana“ das Aufweckwort und bei der Identifikation des Aufweckwortes kann eine Ausführungsform das System vorbereiten, auf eine zusätzliche Benutzereingabe zu hören. In Erwiderung auf die Identifikation der Aufweckhandlung kann eine Ausführungsform eine Unterhaltungssitzung einleiten. In einer anderen Ausführungsform kann der Hinweis nicht einer Aufweckhandlung zugeordnet sein. Zum Beispiel kann das System einfach dem Benutzer „zuhören“ und bestimmen, wenn der Benutzer eine an das System gerichtete Eingabe bereitstellt. Die Unterhaltungssitzung kann dann eingeleitet werden, wenn das System bestimmt, dass die Benutzereingabe an das System gerichtet ist.
  • In einer Ausführungsform kann ein Eintreten in die Unterhaltungssitzung ein Empfangen einer Anfrage von einem Benutzer enthalten. Der Begriff Anfrage wird hierin verwendet, jedoch sollte verstanden werden, dass eine Anfrage nicht zwangsläufig eine Frage enthält. Vielmehr kann die Anfrage einen Befehl oder eine andere Eingabe zur Verarbeitung durch den digitalen Assistenten enthalten. Die Anfrage kann unmittelbar nachdem die Unterhaltungssitzung aktiviert worden ist empfangen werden, zum Beispiel, unter Verwendung des oben genannten Pizza-Beispiels, wird die Anfrage („bestelle eine Pizza“) nach dem Empfang des Aktivierungsbefehls empfangen. Alternativ kann die Anfrage an einem anderen Punkt in der Unterhaltungssitzung empfangen werden, zum Beispiel in Erwiderung auf eine Ausgabe, die durch den digitalen Assistenten bereitgestellt wird.
  • Während der Unterhaltungssitzung kann eine Ausführungsform eine Benutzereingabe (z.B. Spracheingabe, Berührungseingabe, etc.), inklusive einer Benutzeranfrage oder eines Benutzerbefehls oder diesen zugeordnet, auf welche hierin als eine Anfrageeingabe Bezug genommen wird, an einer Vorrichtung (z.B. Smartphone, Smart-Lautsprecher, Tablet, Laptop-Computer, etc.) empfangen. In einer Ausführungsform kann die Vorrichtung digitale Assistentensoftware nutzen, die eingerichtet ist eine Benutzereingabe zu empfangen und zu verarbeiten und anschließend eine Ausgabe (z.B. akustische Ausgabe, textliche Ausgabe, visuelle Ausgabe, etc.) bereitzustellen, die der Benutzereingabe entspricht oder in Erwiderung darauf erfolgt. In einer Ausführungsform kann die Benutzereingabe jede Eingabe sein, die den digitalen Assistenten anfragt, eine Antwort bereitzustellen. Zum Beispiel kann der Benutzer den digitalen Assistenten eine allgemeine Frage zu einem Thema stellen, der Benutzer kann den digitalen Assistenten fragen, Instruktionen um ein Objekt zusammenzubauen bereitzustellen, der Benutzer kann die Meinung des digitalen Assistenten zu einem Thema erfragen, der Benutzer kann eine Aussage machen, die eine Antwort erlaubt, und dergleichen.
  • Die Eingabe kann an einer Eingabevorrichtung (z.B. physikalischen Tastatur, Bildschirmtastatur, Audioerfassungsvorrichtung, Bilderfassungsvorrichtung, Videoerfassungsvorrichtung, etc.) empfangen werden und kann durch jedes bekannte Verfahren zur Bereitstellung einer Eingabe an eine elektronische Vorrichtung (z.B. Berührungseingabe, Texteingabe, Spracheingabe, etc.) bereitgestellt werden. Aus Gründen der Einfachheit, wird der Großteil der Diskussion hierin Spracheingabe betreffen, die an einer Eingabevorrichtung (z.B. einem Mikrofon, einer Spracherfassungsvorrichtung, etc.) empfangen wird, die betriebsbereit mit einer Spracherkennungsvorrichtung gekoppelt ist. Es sollte jedoch verstanden werden, dass allgemein jede Form von Benutzereingabe verwendet werden kann. Zum Beispiel kann der Benutzer eine Texteingabe an den digitalen Assistenten bereitstellen, zum Beispiel durch einen Chatassistenten oder eine Direktnachricht-Applikation.
  • In einer Ausführungsform kann die Eingabevorrichtung eine Eingabevorrichtung sein, die integral mit der Vorrichtung des digitalen Assistenten ist. Zum Beispiel kann ein Smartphone mit einem Mikrofon ausgestattet sein, das zum Empfang von Spracheingabedaten eingerichtet ist. Alternativ kann die Eingabevorrichtung an einer anderen Vorrichtung angeordnet sein und kann empfangene Eingabedaten an die Vorrichtung des digitalen Assistenten übertragen. Zum Beispiel kann Spracheingabe an einem Smart-Lautsprecher empfangen werden, der anschließend die Sprachdaten an eine andere Vorrichtung (z.B. an ein Smartphone eines Benutzers zur Verarbeitung) überträgt. Eingabedaten können von anderen Quellen an die Vorrichtung des digitalen Assistenten über eine drahtlose Verbindung (z.B. unter Verwendung einer BLUETOOTH-Verbindung, Nahfeld-Kommunikation (NFC), drahtlose Verbindungstechnologien, etc.), eine drahtgebundene Verbindung (z.B. ist die Vorrichtung mit einer anderen Vorrichtung oder Quelle gekoppelt, etc.), durch ein verbundenes Datenspeichersystem (z.B. über Cloud-Speicher, entfernten Speicher, lokalen Speicher, Netzwerkspeicher, etc.) und dergleichen kommuniziert werden.
  • In einer Ausführungsform kann die Eingabevorrichtung ausgebildet sein, durchgängig Eingabedaten zu empfangen indem die Eingabevorrichtung in einem aktiven Zustand gehalten wird. Die Eingabevorrichtung kann zum Beispiel durchgängig Eingabedaten detektieren, selbst wenn andere Sensoren (z.B. Kameras, Lichtsensoren, Lautsprecher, andere Mikrofone, etc.), die der Vorrichtung des digitalen Assistenten zugeordnet sind, inaktiv sind. Alternativ kann die Eingabevorrichtung in einem aktiven Zustand für eine vorbestimmte Zeitdauer (z.B. 30 Minuten, 1 Stunde, 2 Stunden, etc.) verbleiben. Anschließend an ein Nichtempfangen jeglicher Eingabedaten während dieses vorbestimmten Zeitfensters kann eine Ausführungsform die Eingabevorrichtung in einen ausgeschalteten Zustand schalten. Das vorbestimmte Zeitfenster kann durch einen Hersteller voreingestellt sein oder kann alternativ von einem oder mehreren Benutzern eingestellt und gesetzt werden.
  • Ein Eintreten in die Unterhaltungssitzung kann auch eine Handlung durch den digitalen Assistenten enthalten. Zum Beispiel kann ein Eintreten in die Unterhaltungssitzung enthalten, dass der digitale Assistent die Eingabe verarbeitet (z.B. zugreifen auf eine Datenbank für eine Antwort, zergliedern der Eingabe um die Anfrage zu identifizieren, etc.), eine Ausgabe in Erwiderung auf die Eingabe bereitstellt (z.B. eine darauffolgende Frage stellen, eine akustischen Ausgabe bereitstellen, die eine bereitgestellte Frage beantwortet, eine akustischen Ausgabe bereitstellen, die auf ein Problem mit der Antwort hinweist, etc.), eine Funktion, die der Eingabe zugeordnet ist durchführt (z.B. die Lichter zu dimmen in Erwiderung auf eine Entsprechende Anfrage, eine Pizza bestellen in Erwiderung auf eine entsprechende Anfrage, eine erwiderte Ausgabe auf eine entsprechende Anfrage bereitstellen, etc.) und dergleichen.
  • Mit anderen Worten enthält ein Eintreten in die Unterhaltungssitzung jeden Punkt, in dem eine Unterhaltungssitzung zwischen einem Benutzer und einem digitalen Assistenten anhält, selbst wenn keine Eingabe oder Ausgabe in dem exakten Moment bereitgestellt wird.
  • Bei 302 kann eine Ausführungsform bestimmen, ob eine Eingabe von einer Quelle, die von dem Benutzer verschieden ist, während der Unterhaltungssitzung empfangen wurde. Zum Beispiel kann eine Ausführungsform bestimmen, ob die Unterhaltungssitzung von zumindest einem anderen Benutzer oder Quelle unterbrochen wurde. Ein Empfangen einer Eingabe von einer Quelle, die von dem Benutzer verschieden ist, kann ein Empfangen von einer Vielzahl von Quellen oder ein Detektieren der Eingabe unter Verwendung einer Vielzahl von Technologien enthalten. Eine Ausführungsform kann eine Eingabe empfangen, die einer anderen Person zugeordnet ist, die denselben Raum betritt wie der Benutzer. Dies kann einer Ausführungsform signalisieren, dass eine Unterbrechung der Unterhaltungssitzung bevorstehen kann. Die Bestimmung, ob eine andere Person den Raum betreten hat, kann unter Verwendung eines oder mehrerer Sensoren oder Vorrichtungen, die integral mit der oder zugreifbar durch die Vorrichtung sind (z.B. Bilderfassungsvorrichtung, Thermosäulensensoren, Nahfeldkommunikationsvorrichtung, Mikrofon, Audioerfassungsvorrichtung, etc.) durchgeführt werden. Zum Beispiel kann eine Ausführungsform einen Thermosäulensensor verwenden, um eine Wärmesignatur oder Wärmequelle zu detektieren. Die Vorrichtung kann bestimmen, dass es mehr als eine Wärmequelle gibt, eine Wärmequelle kürzlich aufgetaucht ist oder dergleichen, um zu bestimmen, dass eine Person den Raum betreten hat oder eine andere Person innerhalb des Raums anwesend ist. Die Vorrichtung kann Wärmesignaturtechnologien verwenden, um zwischen Menschen, Haustieren, Pflanzen oder anderen wärmegenerierenden Quellen zu unterscheiden.
  • Als ein anderes Beispiel kann eine Ausführungsform eine Bilderfassungsvorrichtung (z.B. Kamera, Videorekorder, Infrarotsensoren, etc.) verwenden, um zu detektieren, dass eine andere Person die Fläche betreten hat. Eine Ausführungsform kann Funksignaturen/-signale oder Nahfeldkommunikationssignale (z.B. Bluetooth®, drahtlose Netzwerksignale, MAC-Adressen, etc.) verwenden, um zu bestimmen, dass eine andere Person den Bereich der Vorrichtung betreten hat. Als ein Beispiel kann eine Ausführungsform drahtlose Signale von einer Mobilvorrichtung eines Benutzers detektieren. Bei Detektion eines zweiten drahtlosen Signals kann eine Ausführungsform bestimmen, dass eine andere Person den gleichen Raum betreten hat. Eine Ausführungsform kann die Funksignatur oder Nahfeldkommunikationssignale einem bestimmten Benutzer zuordnen. Zum Beispiel kann eine Ausführungsform das Signal mit bekannten Signalen vergleichen und bestimmen, dass die Vorrichtung Benutzer A gehört. Bei Detektion eines zweiten Signals kann eine Ausführungsform das zweite Signal mit bekannten Signalen vergleichen und bestimmen, dass die Vorrichtung Benutzer B gehört. Alternativ kann eine Ausführungsform annehmen, dass das Signal einem anderen Benutzer gehört, wenn die Signale nicht mit einem bekannten Signal übereinstimmen. Eine Identifikation des zu einem Signal zugeordneten Benutzers kann einer Ausführungsform ermöglichen, zu unterscheiden, ob es sich um denselben Benutzer mit mehr als einer Vorrichtung oder verschiedene Benutzer handelt.
  • Eine Ausführungsform kann Sensoren oder Vorrichtungen in Verbindung mit anderen Technologien verwenden, um eine Eingabe zu empfangen oder eine Unterbrechung zu detektieren. Als ein Beispiel kann eine Ausführungsform eine Audioerfassungsvorrichtung verwenden, um eine Eingabe zu detektieren, die von einem oder mehreren Benutzern bereitgestellt wird. Eine Ausführungsform kann dann eine Technologie verwenden, um Benutzer zu unterscheiden oder zu bestimmen, ob die Eingabe an die Vorrichtung bereitgestellt wird. Zum Beispiel kann eine Ausführungsform Sprachidentifikation oder andere Technologien verwenden, um den Benutzer zu identifizieren, der die Eingabe bereitstellt und zu bestimmen, dass der Benutzer, der die Eingabe bereitstellt nicht derselbe Benutzer ist, der die Eingabe zuvor bereitgestellt hat. Alternativ kann eine Ausführungsform eine Sprachidentifikation oder andere Sprachdifferenzierungstechnologien verwenden, um zu bestimmen, dass eine Eingabe von mehr als einem Benutzer bereitgestellt wurde. Als ein Beispiel kann das System Charakteristiken der Eingabe (z.B. Tonhöhe, Frequenz, Lautstärke, etc.) identifizieren und bestimmen, dass die Charakteristiken, die der jeweiligen Eingabe zugeordnet ist, nicht übereinstimmen. Dadurch kann die Ausführungsform bestimmen, dass mehr als ein Benutzer eine Eingabe bereitgestellt haben.
  • Eine Ausführungsform kann Schallquellen-Lokalisierungstechnologien verwenden, um den Ort oder die Richtung der Benutzereingabe zu bestimmen. Eine Ausführungsform kann dann diese Information verwenden, um zu bestimmen, ob ein neuer Benutzer den Raum betreten oder die Eingabe bereitgestellt hat. Als ein Beispiel kann eine Ausführungsform bestimmen, dass der Benutzer, der die Eingabe der Unterhaltungssitzung bereitgestellt hat, an einem Platz in dem Raum angeordnet ist und die neue Eingabe an einem neuen Ort in dem Raum bereitgestellt wurde. Andere Technologien sind möglich und betrachtet, zum Beispiel Diarisierungstechnologien, Signalverarbeitungstechnologien, Blindquellentrennungstechnologien und dergleichen.
  • Eine Ausführungsform kann natürliche Sprachverarbeitung oder Verständnistechnologien verwenden, um die Eingabe zu verarbeiten und zu analysieren, um zu bestimmen, ob die Eingabe wahrscheinlich an den Assistenten oder einen anderen Benutzer bereitgestellt wird. Zum Beispiel kann einen Ausführungsform die Eingabe analysieren, um zu bestimmen, dass die neue bereitgestellte Eingabe nicht in Bezug zu der ersten Eingabe steht, zum Beispiel enthält die neue Eingabe ein anderes Thema, die neue Eingabe enthält in Bezug auf die erste Eingabe einen Gedankensprung und dergleichen. Um diese Bestimmung zu treffen, dass die neue Eingabe nicht in Bezug zu der ersten Eingabe steht kann eine Ausführungsform verschiedene Aussprache- oder natürliche Sprachverarbeitungstechnologien verwenden, zum Beispiel Domänenklassifikation, Absichtsabbildung, Dialogakterkennung und dergleichen. Eine Ausführungsform kann natürliche Sprachverarbeitung verwenden oder verstehen zu bestimmen, dass die neue Eingabe wahrscheinlich keine Eingabe ist, die an den digitalen Assistenten bereitgestellt wurde. Zum Beispiel kann eine Ausführungsform bestimmen, dass die Eingabe „Mama, was gibt es zum Abendessen?“ keine Anfrage ist, die der digitale Assistent verarbeiten und eine Ausgabe in Erwiderung darauf bereitstellen kann. Alternativ kann eine Ausführungsform verstehen, dass der Begriff „Mama“ ein Begriff ist, der darauf hinweist, dass die Eingabe an ein Individuum gerichtet ist und nicht an den digitalen Assistenten.
  • Eine Ausführungsform kann eine Eingabe die in Bezug zu einem Ereignis steht, das einer Unterbrechung vorausgeht öder einen Hinweis darauf gibt, dass eine Unterbrechung kommen kann. Zum Beispiel kann eine Ausführungsform bestimmen, dass Benachrichtigungen oder Kommunikationen darauf hinweisen, dass die Unterhaltungssitzung unterbrochen werden kann. Beispiele von Benachrichtigungen oder Kommunikationen können klangbasierte Benachrichtigungen, die von woanders als der Vorrichtung kommen (z.B. Türklingel, Telefonläuten, etc.), eingehende Kommunikationen oder Benachrichtigungen an der Vorrichtung oder gekoppelten Vorrichtungen (z.B. Textnachricht, Kalenderbenachrichtigung, Direktnachricht, Alarmbenachrichtigung, etc.), Kommunikationen oder Benachrichtigungen, die von einer anderen Vorrichtung gesendet werden (z.B. Smart-Home-Türklingel, Smart-Home-Thermostat-Benachrichtigung, Alarm, etc.) oder dergleichen sein. Mit anderen Worten können Ereignisse von der Vorrichtung detektiert werden, die einer möglichen Unterbrechung zugeordnet sind oder die allgemein zu einer Unterbrechung führen können. Jede Kombination der oben genannten Technologien, Sensoren und/oder Vorrichtungen kann von einer Ausführungsform verwendet werden, um eine Unterbrechung der Unterhaltungssitzung zu detektieren.
  • Falls die Unterhaltungssitzung nicht bei 302 unterbrochen wurde, kann eine Ausführungsform die Unterhaltungssitzung bei 304 in einer herkömmlichen Art weiterführen. Falls jedoch die Unterhaltungssitzung bei 302 unterbrochen wurde, kann eine Ausführungsform eine Handlung in Bezug auf die Unterhaltungssitzung in Erwiderung auf die empfangene Eingabe bei 303 durchführen. In Erwiderung auf den Empfang der Eingabe oder Detektion der Unterbrechung kann eine Ausführungsform die Kontextinformationen, die in Bezug zu der Eingabe oder.Unterbrechung stehen, verwenden, um eine Handlung durchzuführen. Mit anderen Worten kann eine Ausführungsform abhängig von dem Typ oder der Art der Eingabe oder Unterbrechung verschiedene Handlungen durchführen. Mögliche Handlungen beinhalten Pausieren oder Anhalten der Unterhaltungssitzung, Warten, dass die zusätzliche Person zu sprechen beginnt, Anpassen einer Charakteristik der Ausgabe (z.B. verringern der Lautstärke der bereitgestellten Ausgabe, beschleunigen der Ausgabe, verlangsamen der Ausgabe, etc.), Warten, dass der Benutzer eine zusätzliche Eingabe bereitstellt (z.B. sagen „weiterführen“, sagen „weitermachen“, bereitstellen einer Fortführungsgeste, etc.), speichern der gegenwärtigen Unterhaltungssitzung um diese später fortzuführen und dergleichen, sind aber nicht darauf beschränkt.
  • In dem Fall, in dem eine Ausführungsform die gegenwärtige Unterhaltungssitzung speichert, um diese später fortzuführen, kann eine Ausführungsform Technologien zur Weiterführung der Unterhaltungssitzung bereitstellen. Ein Benutzer kann anfragen, dass die Unterhaltungssitzung fortgeführt wird durch ein Bereitstellen einer Eingabe, die darauf hinweist, dass die Unterhaltungssitzung fortgeführt werden soll, zum Beispiel durch Bereitstellen der Eingabe „Wo waren wir?“, Bereitstellen der Eingabe „bitte fortführen“, oder dergleichen. Eine Ausführungsform kann den Benutzer anregen eine Sitzung fortzuführen. Zum Beispiel, wenn der Benutzer entweder allein ist oder die Vorrichtung erneut aktiviert, kann die Vorrichtung darauf hinweisen, dass eine Sitzung gespeichert wurde und fragen, ob sie fortgeführt werden soll.
  • Eine Ausführungsform kann alle Unterhaltungssitzungen speichern und eine Liste oder Datenbank der unbeendeten Unterhaltungen beibehalten. Jeder Sitzung in der Liste oder Datenbank kann eine Information zum späteren Abruf zugeordnet sein. Zum Beispiel kann die Sitzung einen Hinweis auf das Thema der Unterhaltung, einen Benutzer, der der Unterhaltungssitzung zugeordnet ist, eine Zeit, die der Unterhaltungssitzung zugeordnet ist, oder dergleichen enthalten. Dies kann einer Ausführungsform ermöglichen, entweder nach der Unterhaltungssitzung basierend auf einer Anfrage von einem Benutzer die Sitzung weiterzuführen zu suchen. Alternativ kann eine Ausführungsform den Benutzer anregen die Sitzung weiterzuführen sobald eine Ausführungsform den Benutzer als denjenigen identifiziert, der eine vorher gespeicherte Unterhaltungssitzung hat.
  • Die durchgeführte Handlung kann basierend auf dem Kontext entweder der Eingabe oder der Unterbrechung oder dem Kontext der Unterhaltungssitzung ausgewählt sein. Zum Beispiel kann, wenn die Unterbrechung eine kurze Unterbrechung ist, von einer bestimmten Person bereitgestellt wird, oder dergleichen, eine Ausführungsform eine Handlung durchführen, wohingegen, wenn die Unterbrechung lang ist, von einer anderen Person bereitgestellt wird, oder dergleichen, eine Ausführungsform eine andere Handlung durchführen kann. Als ein weiteres Beispiel kann, wenn die Unterhaltungssitzung sich auf ein Bereitstellen einer Wettervorhersage bezieht, eine Ausführungsform eine Handlung durchführen, wohingegen, wenn die Unterhaltungssitzung sich auf einen Bankauszug bezieht, eine Ausführungsform eine andere Handlung durchführen kann.
  • Die durchgeführte Handlung kann vorprogrammiert, von einem Benutzer gesetzt, auf dem Benutzer, der die Eingabe bereitstellt basieren oder durch die Vorrichtung erlernt sein. Zum Beispiel kann die Vorrichtung eine Handlung in Erwiderung auf eine bestimmte Art von Unterbrechung für einen Benutzer durchführen und eine andere Handlung in Erwiderung auf die gleiche Art von Unterbrechung für einen anderen Benutzer. Ein Erlernen einer Handlung in Erwiderung auf eine Unterbrechung kann enthalten, dass die Vorrichtung eine Handlung einem bestimmten Kontext, einer Unterbrechung oder einem Benutzer zuordnet. Zum Beispiel kann die Vorrichtung bestimmen, dass ein Benutzer bevorzugt, dass eine Handlung durchgeführt wird, wenn eine Unterbrechung kurz ist und dadurch diese Handlung erlernen und speichern und diese durchführen, wenn die Unterbrechung kurz ist. Die durchgeführte Handlung kann auch basierend auf dem emotionalen Zustand des Benutzers bestimmt werden. Zum Beispiel kann eine Ausführungsform bestimmen, dass keine Ausgabe bereitgestellt werden sollte, wenn der Benutzer verärgert ist, und die Unterhaltung für später gespeichert werden sollte. Wenn jedoch der Benutzer glücklich oder neutral ist, kann eine Ausführungsform eine Ausgabe bereitstellen und darauf hinweisen, dass die Unterhaltungssitzung für später gespeichert wird und dann die Unterhaltungssitzung speichern.
  • Die verschiedenen hierin beschriebenen Ausführungsformen repräsentieren somit einen technischen Fortschritt gegenüber herkömmlichen Kommunikationen mit einem digitalen Assistenten. Bei Verwendung der hierein beschriebenen Verfahren und Systeme kann der digitale Assistent Eingaben und/oder Unterbrechungen, die während einer Unterhaltungssitzung empfangen werden, erkennen und darauf erwidern, in einer Art ähnlich wie eine Person eine Eingabe oder Unterbrechung erkennen und darauf erwidern würde. Vielmehr als lediglich jede Eingabe während einer aktivierten Unterhaltungssitzung zu verarbeiten kann die Vorrichtung erkennen, dass manche Eingaben nicht an die Vorrichtung gerichtet sind, und kann eine Handlung in Bezug auf die Unterhaltungssitzung in Erwiderung auf diese zusätzliche Eingabe durchführen. Solche Technologien stellen einen intuitiveren digitalen Assistenten bereit, der eine Unterbrechung der Unterhaltungssitzung erkennen und darauf erwidern kann.
  • Wie von einem Fachmann verstanden werden wird, können verschiedene Aspekte in einem System, Verfahren oder Vorrichtungs-Programmprodukt ausgeführt sein. Dementsprechend können Aspekte die Form einer vollständigen Hardware-Ausführungsform oder einer Ausführungsform, die Software enthält, annehmen, auf die alle im Allgemeinen hierin als „Schaltkreis“, „Modul“ oder „System“ Bezug genommen werden kann. Weiterhin können Aspekte die Form eines Vorrichtungs-Programmprodukts annehmen, das in einer oder mehreren vorrichtungslesbaren Medien ausgeführt sein kann, die vorrichtungslesbaren Programmcode darin ausgeführt haben.
  • Es sollte zur Kenntnis genommen werden, dass die verschiedenen hierin beschriebenen Funktionen unter Verwendung von Instruktionen, die auf einem vorrichtungslesbaren Speichermedium, so wie einer signallosen Speichervorrichtung, gespeichert sein können, die von einem Prozessor ausgeführt werden. Eine Speichervorrichtung kann zum Beispiel ein System, Gerät oder Vorrichtung sein (z.B. ein elektronische, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, - Gerät oder -Vorrichtung) oder jede passende Kombination der vorgenannten. Spezifischere Beispiele einer Speichervorrichtung/-medium enthalten die Folgenden: eine tragbare Computerdiskette, eine Festplatte, einen wahlfreien Zugriffsspeicher (RAM), einen Nur-Lese-Speicher (ROM), einen elektrisch löschbaren Nur-Lese-Speicher (EEPROM oder Flash-Speicher), eine optische Faser, ein tragbarer Kompaktdisk-Nur-Lese-Speicher (CD-ROM), eine optische Speichervorrichtung, eine magnetische Speichervorrichtung oder jede passende Kombination der Vorgenannten. In dem Kontext dieses Dokuments ist eine Speichervorrichtung kein Signal und enthält „nicht transient“ alle Medien ausgenommen Signalmedien.
  • Programcode, der auf einem Speichermedium ausgeführt ist kann unter Verwendung eines geeigneten Mediums übertragen werden, inklusive drahtlos, drahtgebunden, optisches Faserkabel, HF, etc., oder jede andere passende Kombination der Vorgenannten, ist aber nicht darauf beschränkt.
  • Programcode zum Durchführen von Handlungen kann in jeder Kombination von einer oder mehrerer Programmiersprachen geschrieben sein. Der Programmcode kann vollständig auf einer einzelnen Vorrichtung, teilweise auf einer einzelnen Vorrichtung, wie ein eigenständiges Softwarepaket, teilweise auf einer einzelnen Vorrichtung und teilweise auf einer anderen Vorrichtung oder vollständig auf der anderen Vorrichtung ausgeführt sein. In einigen Fällen können die Vorrichtungen durch jede Art von Verbindung oder Netzwerk verbunden sein, inklusive eines lokalen Netzwerk (LAN) oder einem Weitverkehrsnetz (WAN), oder die Verbindung kann durch andere Vorrichtungen erzeugt werden (zum Beispiel durch das Internet unter Verwendung eines Internetdienstanbieters), durch drahtlose Verbindungen, z.B. Nahfeld-kommunikation, oder durch eine drahtgebundene Verbindung, so wie über eine USB-Verbindung.
  • Beispiel-Ausführungsformen sind hierin mit Bezug auf die Figuren beschrieben, die Beispiel-Verfahren, -Vorrichtungen und - Programmprodukte gemäß verschiedenen Beispiel-Ausführungsformen illustrieren. Es wird verstanden werden, dass die Handlungen und Funktionalität zumindest teilweise durch Programminstruktionen implementiert sein können. Diese Programminstruktionen können an einen Prozessor einer Vorrichtung, einer Sonderzweck-Informationshandhabungsvorrichtung oder anderen programmierbaren Datenverarbeitungsvorrichtungen bereitgestellt werden, um eine Maschine herzustellen, sodass die Instruktionen, die durch einen Prozessor ausgeführt werden, die Funktionen/Handlungen wie spezifiziert implementieren.
  • Es ist lohnenswert zu verstehen, dass, während spezifische Blöcke in den Figuren verwendet wurden und eine bestimmte Reihenfolge der Blöcke illustriert wurde, diese nichtbeschränkende Beispiele sind. In einem bestimmten Kontext können zwei oder mehr Blöcke kombiniert werden, ein Block kann in zwei oder mehr Blöcke aufgeteilt werden oder bestimmte Blöcke können neu angeordnet oder reorganisiert werden, wie es passt, da die explizit illustrierten Beispiele nur für beschreibende Zwecke verwendet wurden und nicht als beschränkend ausgelegt werden sollen.
  • Wie hierin verwendet kann der Singular „ein“ oder „eine“ ausgelegt werden als dass er den Plural „einer oder mehrere“ enthält, soweit nicht deutlich anders angezeigt.
  • Diese Offenbarung wurde für Zwecke der Illustration und Beschreibung präsentiert, es ist jedoch nicht beabsichtigt, erschöpfend oder beschränkend zu sein. Viele Modifikationen und Variationen werden dem Fachmann offenbar sein. Die Beispiel-Ausführungsformen wurden ausgewählt und beschrieben, um Prinzipien und praktische Anwendung zu erläutern und anderen Fachmännern zu ermöglichen, die Offenbarung für verschiedene Ausführungsformen mit verschiedenen Modifikationen verstehen zu können, die für die jeweilige Verwendung geeignet sind.
  • Deshalb muss, obwohl illustrative Beispiel-Ausführungsformen hierin mit Bezug auf die beigefügten Figuren beschrieben worden sind, verstanden werden, dass diese Beschreibung nicht beschränkend ist und dass verschiedene andere Veränderungen und Modifikationen von dem Fachmann dadurch betroffen sein können, ohne von dem Umfang oder dem Geist dieser Offenbarung abzuweichen.

Claims (21)

  1. Was beansprucht wird, ist:
  2. Verfahren, umfassend: - Eintreten in eine Unterhaltungssitzung mit einem Benutzer an einer Informationshandhabungsvorrichtung; - Empfangen einer Eingabe von einer Quelle, die von dem Benutzer verschieden ist, während der Unterhaltungssitzung; und - Durchführen einer Handlung, die in Bezug zu der Unterhaltungssitzung steht, in Erwiderung auf die empfangene Eingabe an der Informationshandhabungsvorrichtung.
  3. Verfahren nach Anspruch 1, wobei das Eintreten in eine Unterhaltungssitzung ein Empfangen einer Anfrage von dem Benutzer umfasst.
  4. Verfahren nach Anspruch 1, wobei das Eintreten in eine Unterhaltungssitzung ein Bereitstellen einer Ausgabe in Erwiderung auf eine von dem Benutzer empfangenen Anfrage umfasst.
  5. Verfahren nach Anspruch 1, wobei das Empfangen einer Eingabe ein Empfangen einer Eingabe von einer oder mehreren Vorrichtungen umfasst, die ausgewählt sind aus der Gruppe bestehend aus: Thermosäulensensor, Bilderfassungsvorrichtung, Funkempfänger, Audioerfassungsvorrichtung und betriebsbereit gekoppeltes Informationshandhabungsgerät.
  6. Verfahren nach Anspruch 1, wobei das Empfangen einer Eingabe ein Detektieren einer akustischen Eingabe umfasst, die nicht in Bezug zu der Unterhaltungssitzung steht.
  7. Verfahren nach Anspruch 1, wobei das Durchführen einer Handlung ein Anhalten der Unterhaltungssitzung umfasst.
  8. Verfahren nach Anspruch 6, wobei das Durchführen einer Handlung weiter ein Speichern eines Zustands der Unterhaltungssitzung umfasst.
  9. Verfahren nach Anspruch 6, wobei das Durchführen einer Handlung weiter eine Weiterführung der Unterhaltungssitzung umfasst, basierend auf einer Eingabe von dem Benutzer zum Fortführen.
  10. Verfahren nach Anspruch 1, wobei das Empfangen einer Eingabe ein Detektieren eines Ereignisses, das auf eine mögliche Unterbrechung hinweist, umfasst.
  11. Verfahren nach Anspruch 1, wobei das Durchführen einer Handlung ein Anpassen einer akustischen Charakteristik umfasst, die der Unterhaltungssitzung zugeordnet ist.
  12. Informationshandhabungsgerät, umfassend: - einen Prozessor; - eine Speichervorrichtung, die Instruktionen speichert, die von dem Prozessor ausführbar sind zum: - Eintreten in eine Unterhaltungssitzung mit einem Benutzer an einer Informationshandhabungsvorrichtung; - Empfangen einer Eingabe von einer Quelle, die von dem Benutzer verschieden ist, während der Unterhaltungssitzung; und - Durchführen einer Handlung, die in Bezug zu der Unterhaltungssitzung steht, in Erwiderung auf die empfangene Eingabe an der Informationshandhabungsvorrichtung.
  13. Informationshandhabungsgerät nach Anspruch 11, wobei die Instruktionen, die von dem Prozessor ausführbar sind zum Eintreten in eine Unterhaltungssitzung Instruktionen umfassen, die von dem Prozessor ausführbar sind zum Empfangen einer Anfrage von dem Benutzer.
  14. Informationshandhabungsgerät nach Anspruch 11, wobei die Instruktionen, die von dem Prozessor ausführbar sind zum Eintreten in eine Unterhaltungssitzung Instruktionen umfassen, die von dem Prozessor ausführbar sind zum Bereitstellen einer Ausgabe in Erwiderung auf eine von dem Benutzer empfangenen Anfrage.
  15. Informationshandhabungsgerät nach Anspruch 11, wobei die Instruktionen, die von dem Prozessor ausführbar sind zum Empfangen einer Eingabe Instruktionen umfassen, die von dem Prozessor ausführbar sind zum Empfangen einer Eingabe von einer oder mehreren Vorrichtungen umfasst, die ausgewählt sind aus der Gruppe bestehend aus: Thermosäulensensor, Bilderfassungsvorrichtung, Funkempfänger, Audioerfassungsvorrichtung und betriebsbereit gekoppeltes Informationshandhabungsgerät.
  16. Informationshandhabungsgerät nach Anspruch 11, wobei die Instruktionen, die von dem Prozessor ausführbar sind zum Empfangen einer Eingabe Instruktionen umfassen, die von dem Prozessor ausführbar sind zum Detektieren einer akustischen Eingabe, die nicht in Bezug zu der Unterhaltungssitzung steht.
  17. Informationshandhabungsgerät nach Anspruch 11, wobei die Instruktionen, die von dem Prozessor ausführbar sind zum Durchführen einer Handlung Instruktionen umfassen, die von dem Prozessor ausführbar sind zum Anhalten der Unterhaltungssitzung.
  18. Informationshandhabungsgerät nach Anspruch 11, wobei die Instruktionen, die von dem Prozessor ausführbar sind zum Durchführen einer Handlung Instruktionen umfassen, die von dem Prozessor ausführbar sind zum Speichern eines Zustands der Unterhaltungssitzung.
  19. Informationshandhabungsgerät nach Anspruch 11, wobei die Instruktionen, die von dem Prozessor ausführbar sind zum Empfangen einer Eingabe Instruktionen umfassen, die von dem Prozessor ausführbar sind zum Detektieren eines Ereignisses, das auf eine mögliche Unterbrechung hinweist.
  20. Informationshandhabungsgerät nach Anspruch 11, wobei die Instruktionen, die von dem Prozessor ausführbar sind zum Durchführen einer Handlung Instruktionen umfassen, die von dem Prozessor ausführbar sind zum Anpassen einer akustischen Charakteristik, die der Unterhaltungssitzung zugeordnet ist.
  21. Produkt, umfassend: - eine Speichervorrichtung, die Code speichert, wobei der Code von einem Prozessor ausführbar ist und umfasst: - Code der in eine Unterhaltungssitzung mit einem Benutzer eintritt; - Code der eine Eingabe von einer Quelle, die von dem Benutzer verschieden ist, während der Unterhaltungssitzung empfängt; und - Code der eine Handlung, die in Bezug zu der Unterhaltungssitzung steht, in Erwiderung auf die empfangene Eingabe durchführt.
DE102018114658.2A 2017-06-20 2018-06-19 Eingabe während einer Unterhaltungssitzung Pending DE102018114658A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/628,080 US11178280B2 (en) 2017-06-20 2017-06-20 Input during conversational session
US15/628,080 2017-06-20

Publications (1)

Publication Number Publication Date
DE102018114658A1 true DE102018114658A1 (de) 2018-12-20

Family

ID=64457309

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018114658.2A Pending DE102018114658A1 (de) 2017-06-20 2018-06-19 Eingabe während einer Unterhaltungssitzung

Country Status (3)

Country Link
US (1) US11178280B2 (de)
CN (1) CN109101517B (de)
DE (1) DE102018114658A1 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019138651A1 (ja) * 2018-01-10 2019-07-18 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10991369B1 (en) * 2018-01-31 2021-04-27 Progress Software Corporation Cognitive flow
CN111831795B (zh) * 2019-04-11 2023-10-27 北京猎户星空科技有限公司 多轮对话处理方法、装置、电子设备及存储介质
US11308958B2 (en) * 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US20230230587A1 (en) * 2022-01-19 2023-07-20 Google Llc Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101137205B1 (ko) * 2002-03-15 2012-07-06 소니 주식회사 로봇의 행동 제어 시스템 및 행동 제어 방법, 및 로봇 장치
EP1560200B8 (de) 2004-01-29 2009-08-05 Harman Becker Automotive Systems GmbH Verfahren und System zur Sprachdialogschnittstelle
US8631075B2 (en) 2004-08-12 2014-01-14 International Business Machines Corporation Method and system for managing interrupts in an instant messaging application
DE102009051508B4 (de) 2009-10-30 2020-12-03 Continental Automotive Gmbh Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
US8595014B2 (en) 2010-04-19 2013-11-26 Qualcomm Incorporated Providing audible navigation system direction updates during predetermined time windows so as to minimize impact on conversations
US8473949B2 (en) * 2010-07-08 2013-06-25 Microsoft Corporation Methods for supporting users with task continuity and completion across devices and time
US8928483B2 (en) * 2010-12-22 2015-01-06 Verizon Patent And Licensing Inc. Automated attendance tracking and event notification
CN102945672B (zh) 2012-09-29 2013-10-16 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
US9368114B2 (en) * 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101904293B1 (ko) * 2013-03-15 2018-10-05 애플 인크. 콘텍스트-민감성 방해 처리
US9294455B2 (en) 2013-06-04 2016-03-22 Google Inc. Maintaining video conference session continuity during transfer of session to alternative device
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US9981191B2 (en) * 2013-10-08 2018-05-29 Google Llc Native gameplay experience across platforms
US9549068B2 (en) * 2014-01-28 2017-01-17 Simple Emotion, Inc. Methods for adaptive voice interaction
US10529359B2 (en) * 2014-04-17 2020-01-07 Microsoft Technology Licensing, Llc Conversation detection
US20180074785A1 (en) * 2015-03-31 2018-03-15 Sony Corporation Information processing device, control method, and program
CN105957521B (zh) * 2016-02-29 2020-07-10 青岛克路德机器人有限公司 一种用于机器人的语音和图像复合交互执行方法及系统
US20170289766A1 (en) * 2016-03-29 2017-10-05 Microsoft Technology Licensing, Llc Digital Assistant Experience based on Presence Detection
US10049663B2 (en) * 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10170116B1 (en) * 2016-09-21 2019-01-01 Amazon Technologies, Inc. Maintaining context for voice processes
US10679608B2 (en) * 2016-12-30 2020-06-09 Google Llc Conversation-aware proactive notifications for a voice interface device
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US10395659B2 (en) * 2017-05-16 2019-08-27 Apple Inc. Providing an auditory-based interface of a digital assistant

Also Published As

Publication number Publication date
US20180367669A1 (en) 2018-12-20
CN109101517B (zh) 2022-11-04
CN109101517A (zh) 2018-12-28
US11178280B2 (en) 2021-11-16

Similar Documents

Publication Publication Date Title
DE102016122708A1 (de) Verlängern des Spracherkennungszeitraums
DE102015110621B4 (de) Intelligente Untertitel
DE102018114658A1 (de) Eingabe während einer Unterhaltungssitzung
US11893311B2 (en) Virtual assistant configured to automatically customize groups of actions
DE102015119592A1 (de) Durch einen Blick veranlasste Spracherkennung
DE102013001219B4 (de) Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
DE102011054197B4 (de) Selektive Übertragung von Sprachdaten
DE102019112380A1 (de) Verfahren und System zur robusten Sprechererkennungsaktivierung
DE102016103216A1 (de) Serielle visuelle Präsentation für tragbare Anzeigen
DE102016103218A1 (de) Blickbasierte Benachrichtigungsantwort
DE102017115933B4 (de) Koordinieren einer Eingabe an mehreren lokalen Geräten
DE102018114453A1 (de) Interaktive Sessions
DE102017115936A1 (de) Systeme und Verfahren zum Aktivieren eines Sprachassistenten und Bereitstellen eines Indikators, dass der Sprachassistent Hilfe zu leisten hat
DE102015117843A1 (de) Kontextbasierte Textkorrektur
DE102017126306A1 (de) Kontextabhängiger Koversionsmodus für digitalen Assistenten
DE102016113914B4 (de) Einfügung von Zeichen bei Spracherkennung
DE112016002588T5 (de) Kontextgetriebenes nachrichtenübermittlungssystem
US9285856B2 (en) Method and system for rapid entry into and for rapid exiting from sleep states for processors of a portable computing device
DE102014117343B4 (de) Erfassen einer Pause in einer akustischen Eingabe in ein Gerät
DE102016109521A1 (de) Multimodale Disambiguierung einer sprachunterstützten Eingabe
CN110047484A (zh) 一种语音识别交互方法、系统、设备和存储介质
DE102018105401A1 (de) Interaktive session
DE102018118349A1 (de) Verfahren und vorrichtung zum auswählen einer audioausgabeschaltung basierend auf prioritätsattributen
CN111370004A (zh) 人机交互方法、语音处理方法及设备
DE102018119101A1 (de) Durchführen einer handlung auf aktiven medieninhalt

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: GRUENECKER PATENT- UND RECHTSANWAELTE PARTG MB, DE