DE202017106514U1

DE202017106514U1 - Proaktive Aufnahme von nicht angefordertem Inhalt in Mensch-Computer-Dialoge

Info

Publication number: DE202017106514U1
Application number: DE202017106514.6U
Authority: DE
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-03-22
Filing date: 2017-10-27
Publication date: 2018-02-01
Anticipated expiration: 2027-10-28
Also published as: US11232792B2; KR102393817B1; JP7247271B2; WO2018174956A1; US20220130386A1; DE102017125196A1; US20240112679A1; JP2020514834A; KR102541523B1; KR20190131088A; JP2023063444A; CN108628921A; US20200227043A1; US11887594B2; JP2021165843A; US20180277108A1; US10636418B2; EP3602541A1; KR20220058971A; JP6903764B2

Abstract

Ein oder mehrere nichttransitorische computerlesbare Speichermedien, die Anweisungen umfassen, die, wenn sie durch eine oder mehrere Computervorrichtungen ausgeführt werden, die eine oder die mehreren Computervorrichtungen veranlassen, Operationen auszuführen, die umfassen: Bestimmen durch einen oder mehrere Prozessoren, dass in einer bestehenden Mensch-Computer-Dialogsitzung zwischen einem Anwender und einem automatisierten Assistenten der automatisierte Assistent auf alle während der Mensch-Computer-Dialogsitzung von dem Anwender empfangenen Eingaben in natürlicher Sprache geantwortet hat; Identifizieren durch einen oder mehrere der Prozessoren basierend auf einer oder mehreren Eigenschaften des Anwenders von Informationen von potentiellem Interesse für den Anwender oder einer oder mehrerer Handlungen von potentiellem Interesse für den Anwender; Erzeugen durch einen oder mehrere der Prozessoren nicht angeforderten Inhalts, der die Informationen von potentiellem Interesse für den Anwender oder die eine oder die mehreren Handlungen von potentiellen Interesse angibt; und Aufnehmen durch den automatisierten Assistenten des nicht angeforderten Inhalts in die vorhandene Mensch-Computer-Dialogsitzung; wobei wenigstens das Aufnehmen in Reaktion auf das Bestimmen ausgeführt wird, dass der automatisierte Assistent auf alle während der Mensch-Computer-Dialogsitzung von dem Anwender empfangenen Eingaben in natürlicher Sprache geantwortet hat.

Description

Hintergrund
Menschen können sich an Mensch-Computer-Dialogen mit interaktiven Software-Anwendungen, die hier als ”automatisierte Assistenten” bezeichnet werden (die außerdem als ”Chatbots”, ”interaktive persönliche Assistenten”, ”intelligente persönliche Assistenten”, ”dialogorientierte Agenten” usw. bezeichnet werden), beteiligen. Menschen (die, wenn sie mit automatisierten Assistenten in Wechselwirkung treten, als ”Anwender” bezeichnet werden können) können unter Verwendung einer gesprochenen Eingabe in natürlicher Sprache (d. h., Äußerungen), die in einigen Fällen in Text umgesetzt und dann verarbeitet werden kann, und/oder durch das Bereitstellen einer textlichen (z. B. getippten) Eingabe in natürlicher Sprache Befehle und/oder Anforderungen bereitstellen. Die automatisierten Assistenten sind im Gegensatz zu proaktiv typischerweise reaktiv. Am Beginn einer Mensch-Computer-Dialogsitzung zwischen einem Anwender und einem automatisierten Assistenten (z. B. wenn es keinen gegenwärtig anwendbaren Gesprächskontext gibt) kann der automatisierte Assistent höchstens einen generischen Gruß, wie z. B. ”Hallo”, ”Guten Morgen” usw. bereitstellen. Der automatisierte Assistent erhält keine spezifischen Informationen von potentiellem Interesse für den Anwender proaktiv und stellt keine spezifischen Informationen von potentiellem Interesse für den Anwender proaktiv bereit. Folglich muss der Anwender eine anfängliche Eingabe in natürlicher Sprache (z. B. gesprochen oder getippt) bereitstellen, bevor der automatisierte Assistent mit wesentlichen Informationen antwortet und/oder eine oder mehrere Aufgaben im Interesse des Anwenders beginnt.
Zusammenfassung
In Übereinstimmung mit den Anforderungen des Gebrauchsmustergesetzes sind nur Vorrichtungen, wie sie in den beigefügten Ansprüchen definiert sind, aber keine Verfahren durch das Gebrauchsmuster zu schützen und der Gegenstand des Gebrauchsmusters. Falls in der Beschreibung auf Verfahren Bezug genommen wird, dienen diese Bezugnahmen lediglich dazu, die Vorrichtung oder die Vorrichtungen, für die mit den beigefügten Ansprüchen Schutz gesucht wird, zu veranschaulichen. Hier werden Techniken zum Konfigurieren automatisierter Assistenten beschrieben, um in bestehende oder neu begonnene Mensch-Computer-Dialogsitzungen nicht angeforderten Inhalt von potentiellem Interesse für einen Anwender proaktiv aufzunehmen. In einigen Implementierungen können ein automatisierter Assistent, der mit ausgewählten Aspekten der vorliegenden Offenbarung konfiguriert ist, – und/oder eine oder mehrere andere Komponenten, die in Zusammenarbeit mit einem automatisierten Assistenten wirken – eine derartige Aufnahme ausführen, wenn er bestimmt, dass in einer vorhandenen Mensch-Computer-Dialogsitzung der automatisierte Assistent seine Verpflichtungen gegenüber dem Anwender effektiv erfüllt hat (der automatisierte Assistent z. B. weitere Anweisungen erwartet). Dies kann so einfach sein, dass der Anwender ”Guten Morgen” sagt und der automatisierte Assistent eine generische Antwort, ”Guten Morgen an Sie” bereitstellt. In einem derartigen Szenario kann der Anwender wahrscheinlich dennoch (wenigstens kurz) an der Mensch-Computer-Dialogsitzung beteiligt sein (es kann z. B. ein Chatbot-Schirm, der eine andauernde Mitschrift des Mensch-Computer-Dialogs zeigt, immer noch offen sein, der Anwender kann sich immer noch innerhalb der Hörweite einer Audioeingabe-/-ausgabevorrichtung, durch die der Mensch-Computer-Dialog implementiert ist, befinden usw.). Entsprechend ist es wahrscheinlich, dass irgendwelcher nicht angeforderter Inhalt, der in die Mensch-Computer-Dialogsitzung aufgenommen wird, durch den Anwender konsumiert (z. B. gehört, gesehen, wahrgenommen, verstanden usw.) wird.
Das Aufnehmen nicht angeforderten Inhalts von potentiellem Interesse für einen Anwender in einer Mensch-Computer-Dialogsitzung kann mehrere technische Vorteile aufweisen. Ein Anwender kann vom bejahenden Anfordern derartigen Inhalts entlastet werden, was Computerbetriebsmittel einsparen kann, die andernfalls verwendet werden würden, um die Eingabe in natürlicher Sprache des Anwenders zu verarbeiten, und/oder was für Anwender, die verminderte Fähigkeiten aufweisen, um Eingaben bereitzustellen, (z. B. Fahren, körperliche Einschränkungen usw.), hilfreich sein kann. Zusätzlich kann der Anwender potentiell hilfreichen Inhalt empfangen, der andernfalls dem Anwender nicht eingefallen sein kann, um ihn anzufordern. Als ein noch weiteres Beispiel kann die Aufnahme von nicht angefordertem Inhalt einem Anwender Informationen bereitstellen, die der Anwender andernfalls durch das Absenden zusätzlicher Anforderungen gesucht haben kann. Das Vermeiden derartiger zusätzlicher Anforderungen kann Computerbetriebsmittel (z. B. Netzbandbreite, Verarbeitungszyklen, Batterieleistung) einsparen, die erforderlich sind, um diese Anforderungen zu parsen und/oder zu interpretieren.
In einigen Implementierungen kann der automatisierte Assistent in Reaktion auf verschiedene Ereignisse einen Mensch-Computer-Dialog (für die Aufnahme von nicht angefordertem Inhalt) beginnen und/oder den nicht angeforderten Inhalt in einen vorhandenen Mensch-Computer-Dialog aufnehmen. In einigen Implementierungen kann das Ereignis eine Bestimmung umfassen, dass sich der Anwender innerhalb der Hörweite des automatisierten Assistenten befindet. Ein selbstständiger interaktiver Lautsprecher, der einen automatisierten Assistenten betreibt, kann z. B. unter Verwendung verschiedener Typen von Sensoren (z. B. einer IP-Webcam oder eines Bewegungssensors/einer Kamera, der/die in ein Gerät, wie z. B. einen intelligenten Thermostaten, einen Rauchdetektor, einen Kohlenmonoxiddetektor usw., eingebaut ist) oder durch das Detektieren des gemeinsamen Vorhandenseins einer durch den Anwender getragenen weiteren Computervorrichtung detektieren, dass sich der Anwender in der Nähe befindet. In Reaktion kann der automatisierte Assistent dem Anwender nicht angeforderten Inhalt hörbar bereitstellen, wie z. B. ”Es wird Regen erwartet, vergessen Sie heute Ihren Schirm nicht”, ”Vergessen Sie nicht, dass heute der Geburtstag Ihrer Schwester ist”, ”Haben sie von der Verletzung des Power Forward von <Sportmannschaft> gehört?” oder ”Die <Aktie> ist während der letzten Stunden 8% gestiegen.”
In einigen Implementierungen kann ein automatisierter Assistent, der in einer ersten Computervorrichtung eines koordinierten Ökosystems von Computervorrichtungen, das einem Anwender zugeordnet ist, arbeitet, ein oder mehrere Signale von einer weiteren Computervorrichtung des Ökosystems empfangen. Derartige Signale können Computerwechselwirkungen durch den Anwender (der Anwender führt z. B. eine Suche aus, recherchiert ein Thema, liest einen speziellen Artikel), Zustände einer Anwendung (von Anwendungen), die in einer weiteren Computervorrichtung ausgeführt wird (werden) (z. B. das Konsumieren von Medien, das Spielen eines Spiels usw.) usw. enthalten. Es wird z. B. angenommen, dass ein Anwender einem speziellen musikalischen Künstler an einem selbstständigen interaktiven Lautsprecher (der eine Instanz des automatisierten Assistenten betreiben kann oder nicht) zuhört. Ein automatisierter Assistent in dem Smartphone des Anwenders kann die Musik hörbar detektieren und/oder ein oder mehrere Signale von dem selbständigen interaktiven Lautsprecher empfangen und in Reaktion in einen neu begonnenen oder vorher bestehenden Mensch-Computer-Dialog den nicht angeforderten Inhalt, wie z. B. zusätzliche Informationen über den Künstler (oder das Lied), Empfehlungen hinsichtlich anderer ähnlicher Künstler/Lieder, eine Benachrichtigung(en) über bevorstehende Tourneetermine oder andere auf den Künstler bezogene Ereignisse usw., aufnehmen.
Der nicht angeforderte Inhalt, der in einen Mensch-Computer-Dialog aufgenommen wird, kann Informationen von potentiellem Interesse für einen Anwender (z. B. das Wetter, Spielstände, Verkehrsinformationen, Antworten auf Fragen, Erinnerungen usw.) und/oder Handlungen von potentiellem Interesse für einen Anwender (z. B. das Abspielen von Musik, das Erzeugen einer Erinnerung, das Hinzufügen eines Artikels zu einer Einkaufsliste, das Erzeugen usw.) enthalten. Die Informationen und/oder die Handlungen von potentiellem Interesse werden basierend auf verschiedenen Signalen ausgewählt. In einigen Implementierungen können die Signale frühere Mensch-Computer-Dialoge zwischen einem Anwender und einem automatisierten Assistenten enthalten. Es wird angenommen, dass während einer ersten Mensch-Computer-Sitzung ein Anwender Flüge zu einem speziellen Ziel recherchiert, aber keine Tickets kauft. Es wird ferner angenommen, dass ein anschließender Mensch-Computer-Dialog zwischen dem automatisierten Assistenten und dem Anwender ausgelöst wird und dass der automatisierte Assistent bestimmt, dass er auf alle Eingaben in natürlicher Sprache von dem Anwender geantwortet hat. In einem derartigen Szenario hat der Anwender noch keine zusätzliche Eingabe in natürlicher Sprache dem automatisierten Assistenten bereitgestellt. Entsprechend kann der automatisierte Assistent die Initiative ergreifen, um nicht angeforderten Inhalt, der Informationen bezüglich der vorhergehenden Flugsuche des Anwenders enthält, aufzunehmen, wie z. B. ”Haben Sie schon ein Ticket für ihr Ziel gekauft” oder ”Ich weiß nicht, ob Sie immer noch nach einem Flug suchen, aber ich habe ein gutes Schnäppchen auf der <Website> gefunden.”
Andere Signale, die verwendet werden können, um die Informationen und/oder Handlungen auszuwählen, die als nicht angeforderter Inhalt in einen Mensch-Computer-Dialog aufzunehmen sind, enthalten einen Anwenderort (der z. B. den automatisierten Assistenten auffordern könnte, spezielle Menüpunkte, Besonderheiten usw. proaktiv vorzuschlagen), Kalendereinträge (z. B. ”Vergessen Sie nicht Ihr Jubiläum am nächsten Montag”), Termine (ein bevorstehender Flug kann z. B. einem automatisierten Assistenten auffordern, den Anwender proaktiv zu erinnern, das Online-Einchecken auszuführen und/oder das Packen zu beginnen), Erinnerungen, eine Suchhistorie, eine Surf-Historie, Themen von Interesse (das Interesse an einer speziellen Sportmannschaft könnte einen automatisierten Assistenten z. B. veranlassen, den Anwender ”Haben Sie den Spielstand gestern Abend gesehen?” proaktiv zu fragen), Dokumente (eine E-Mail, die eine Einladung zu einem bevorstehenden Ereignis enthält, könnte den automatisierten Assistenten z. B. veranlassen, den Anwender proaktiv an das bevorstehende Ereignis zu erinnern), Anwendungszustände (z. B. ”Ich habe die Aktualisierungen dieser drei Anwendungen ausgeführt”, ”Ich sehe, dass Sie noch mehrere Anwendungen offen haben, die die Betriebsmittel ihrer Vorrichtung belasten können”, ”Ich sehe, dass sie gegenwärtig den <Film> auf ihrem Fernsehgerät streamen; kennen sie diese <Trivialitäten über den Film>?” usw.), neu verfügbare Merkmale (z. B. ”Willkommen zurück. Während Sie fort waren, habe ich gelernt, ein Taxi zu rufen. Sagen sie mir nur, wann immer sie eines benötigen”), das Wetter (z. B. ”Ich sehe, dass es draußen schön ist. Möchten sie, dass ich nach Restaurants für Mahlzeiten im Freien suche?”) usw., sind aber nicht darauf eingeschränkt.
In einigen Implementierungen wird ein Verfahren, das durch einen oder mehrere Prozessoren ausgeführt wird, geschaffen, das enthält: Bestimmen durch einen oder mehrere Prozessoren, dass in einer bestehenden Mensch-Computer-Dialogsitzung zwischen einem Anwender und einem automatisierten Assistenten der automatisierte Assistent auf alle während der Mensch-Computer-Dialogsitzung von dem Anwender empfangenen Eingaben in natürlicher Sprache geantwortet hat; Identifizieren durch einen oder mehrere der Prozessoren basierend auf einer oder mehreren Eigenschaften des Anwenders von Informationen von potentiellem Interesse für den Anwender oder einer oder mehrerer Handlungen von potentiellem Interesse für den Anwender; Erzeugen durch einen oder mehrere der Prozessoren nicht angeforderten Inhalts, der die Informationen von potentiellem Interesse für den Anwender oder die eine oder die mehreren Handlungen von potentiellen Interesse angibt; und Aufnehmen durch den automatisierten Assistenten des nicht angeforderten Inhalts in die bestehende Mensch-Computer-Dialogsitzung. In verschiedenen Implementierungen wird wenigstens das Aufnehmen in Reaktion auf das Bestimmen ausgeführt, dass der automatisierte Assistent auf alle während der Mensch-Computer-Dialogsitzung von dem Anwender empfangenen Eingaben in natürlicher Sprache geantwortet hat.
Diese und andere Implementierungen der hier offenbarten Technik können optional ein oder mehrere der folgenden Merkmale enthalten.
In verschiedenen Implementierungen kann der nicht angeforderte Inhalt nicht angeforderten Inhalt in natürlicher Sprache enthalten. In verschiedenen Implementierungen kann das Identifizieren wenigstens teilweise auf einem oder mehreren Signalen basieren, die von einer oder mehreren durch den Anwender betriebenen Computervorrichtungen erhalten werden. In verschiedenen Implementierungen können die eine oder die mehreren durch den Anwender betriebenen Computervorrichtungen die gegebene Computervorrichtung enthalten, die gegenwärtig durch den Anwender betrieben wird.
In verschiedenen Implementierungen können das eine oder die mehreren Signale von einer weiteren Computervorrichtung der einen oder der mehreren Computervorrichtungen, die durch den Anwender betrieben werden, empfangen werden, die von der gegebenen Computervorrichtung, die gegenwärtig durch den Anwender betrieben wird, verschieden ist. In verschiedenen Implementierungen können das eine oder die mehreren Signale eine Angabe eines Zustands einer Anwendung enthalten, die in der weiteren Computervorrichtung ausgeführt wird. In verschiedenen Implementierungen kann die Angabe des Zustands der Anwendung eine Angabe enthalten, dass die Anwendung das Bereitstellen einer Medienwiedergabe ist. In verschiedenen Implementierungen kann die Angabe des Zustands der Anwendung eine Angabe enthalten, dass die Anwendung eine Suchabfrage von dem Anwender empfangen hat oder die Suchergebnisse dem Anwender bereitgestellt hat.
In verschiedenen Implementierungen kann das Verfahren ferner das Bestimmen durch einen oder mehrere der Prozessoren eines Erwünschtheitsmaßes enthalten, das den Wunsch des Anwenders angibt, nicht angeforderten Inhalt zu empfangen, wobei das Erwünschtheitsmaß basierend auf einem oder mehreren Signalen bestimmt wird, und wobei wenigstens das Aufnehmen in Reaktion auf eine Bestimmung ausgeführt wird, dass das Erwünschtheitsmaß einem oder mehreren Schwellenwerten entspricht. In verschiedenen Implementierungen kann der nicht angeforderte Inhalt ein oder mehrere Anwenderschnittstellenelemente enthalten, wobei jedes Anwenderschnittstellenelement durch den Anwender auswählbar ist, um den automatisierten Assistenten zu veranlassen, die Informationen von potentiellem Interesse dem Anwender bereitzustellen oder um eine oder mehrere der Handlungen von potentiellem Interesse für den Anwender auszulösen.
In einem weiteren Aspekt kann ein Verfahren enthalten: Bestimmen basierend auf einem oder mehreren Signalen, dass sich ein Anwender innerhalb der Hörweite einer oder mehrerer Audioausgabevorrichtungen befindet; Identifizieren wenigstens teilweise basierend auf einer oder mehreren Eigenschaften des Anwenders der Informationen von potentiellem Interesse für den Anwender oder einer oder mehrerer Handlungen von potentiellem Interesse für den Anwender; Erzeugen nicht angeforderten Inhalts, der die Informationen von potentiellem Interesse oder die eine oder die mehreren Handlungen von potentiellem Interesse angibt; und Aufnehmen des nicht angeforderten Inhalts in eine hörbare Mensch-Computer-Dialogsitzung zwischen dem automatisierten Assistenten und dem Anwender. In verschiedenen Implementierungen kann die Aufnahme durch den automatisierten Assistenten in Reaktion auf die Bestimmung ausgeführt werden, dass sich der Anwender innerhalb der Hörweite der einen oder der mehreren Audioausgabevorrichtungen befindet.
Zusätzlich enthalten einige Implementierungen einen oder mehrere Prozessoren einer oder mehrerer Computervorrichtungen, wobei der eine oder die mehreren Prozessoren betreibbar sind, um die in einem zugeordneten Datenspeicher gespeicherten Anweisungen auszuführen, und wobei die Anweisungen konfiguriert sind, um die Ausführung irgendeines der obenerwähnten Verfahren zu veranlassen. Einige Implementierungen enthalten außerdem ein oder mehrere nicht-transitorische computerlesbare Speichermedien, die Computeranweisungen speichern, die durch einen oder mehrere Prozessoren ausführbar sind, um irgendeines der obenerwähnten Verfahren auszuführen.
Es sollte erkannt werden, dass alle Kombinationen der vorhergehenden Konzepte und zusätzlicher Konzepte, die hier ausführlicher beschrieben werden, als Teil des hier offenbarten Gegenstands betrachtet werden. Alle Kombinationen des beanspruchten Gegenstands, der am Ende dieser Offenbarung erscheint, werden als Teil des hier offenbarten Gegenstands betrachtet.
Kurzbeschreibung der Zeichnungen
1 ist ein Blockschaltplan einer beispielhaften Umgebung, in der die hier offenbarten Implementierungen implementiert sein können.
2, 3, 4, 5, 6 und 7 stellen beispielhafte Dialoge zwischen verschiedenen Anwendern und automatisierten Assistenten gemäß verschiedenen Implementierungen dar.
8 und 9 sind Ablaufpläne, die beispielhafte Verfahren gemäß den hier offenbarten Implementierungen veranschaulichen.
10 veranschaulicht eine beispielhafte Architektur einer Computervorrichtung.
Ausführliche Beschreibung
In 1 ist eine beispielhafte Umgebung, in der die hier offenbarten Techniken implementiert sein können, veranschaulicht. Die beispielhafte Umgebung enthält mehrere Client-Computervorrichtungen 106 _1-N und einen automatisierten Assistenten 120. Obwohl der automatisierte Assistent 120 in 1 als von den Client-Computervorrichtungen 106 _1-N getrennt veranschaulicht ist, können in einigen Implementierungen alles oder Aspekte des automatisierten Assistenten 120 durch eine oder mehrere der Client-Computervorrichtungen 106 _1-N implementiert sein. Die Client-Vorrichtung 106 ₁ kann z. B. eine Instanz eines oder mehrerer Aspekte des automatisierten Assistenten 120 implementieren, wobei die Client-Vorrichtung 106 _N außerdem eine separate Instanz dieses einen oder dieser mehreren Aspekte des automatisierten Assistenten 120 implementieren kann. In den Implementierungen, in denen ein oder mehrere Aspekte des automatisierten Assistenten 120 durch eine oder mehrere Computervorrichtungen implementiert sind, die sich entfernt von den Client-Computervorrichtungen 106 _1-N befinden, können die Client-Computervorrichtungen 106 _1-N und diese Aspekte des automatisierten Assistenten 120 über ein oder mehrere Netze, wie z. B. ein lokales Netz (LAN) und/oder ein Weitbereichsnetz (WAN) (z. B. das Internet), kommunizieren.
Die Client-Vorrichtungen 106 _1-N können z. B. ein oder mehrere von: einer Desktop-Computervorrichtung, einer Laptop-Computervorrichtung, einer Tablet-Computervorrichtung, einer Mobiltelephon-Computervorrichtung, einer Computervorrichtung eines Fahrzeugs des Anwenders (z. B. einem fahrzeuginternen Kommunikationssystem, einem fahrzeuginternen Unterhaltungssystem, einem fahrzeuginternen Navigationssystem), einem selbstständigen interaktiven Lautsprecher und/oder einer tragbaren Vorrichtung des Anwenders, die eine Computervorrichtung enthält, (z. B. einer Armbanduhr des Anwenders, die eine Computervorrichtung aufweist, einer Brille des Anwenders, die eine Computervorrichtung aufweist, einer Computervorrichtung der virtuellen oder erweiterten Realität) enthalten. Es können zusätzliche und/oder alternative Client-Computervorrichtungen vorgesehen sein. In einigen Implementierungen kann ein gegebener Anwender unter Verwendung mehrerer Client-Computervorrichtungen, die gemeinsam ein koordiniertes ”Ökosystem” von Computervorrichtungen bilden, mit dem automatisierten Assistenten 120 kommunizieren. In einigen derartigen Implementierungen kann in Betracht gezogen werden, dass der automatisierte Assistent 120 diesem speziellen Anwender ”dient”, indem z. B. der automatisierte Assistent 120 mit erweiterten Zugriff auf Betriebsmittel (z. B. Inhalt, Dokumente usw.) ausgestattet wird, für die der Zugriff durch den ”bedienten” Anwender gesteuert wird. Um der Kürze willen konzentrieren sich jedoch einige der in dieser Beschreibung beschriebenen Beispiele auf einen Anwender, der eine einzige Client-Computervorrichtung 106 betreibt.
Jede der Client-Computervorrichtungen 106 _1-N kann verschiedene unterschiedliche Anwendungen betreiben, wie z. B. einen entsprechenden der Nachrichtenaustausch-Clients 107 _1-N. Die Nachrichtenaustausch-Clients 107 _1-N können in verschiedenen Formen auftreten, wobei die Formen über die Client-Computervorrichtungen 106 _1-N variieren können und/oder mehrere Formen in einer einzigen der Client-Computervorrichtungen 106 _1-N betrieben werden können. In einigen Implementierungen können einer oder mehrere der Nachrichtenaustausch-Clients 107 _1-N in der Form eines Kurznachrichtendienst-(”SMS”-) und/oder Multimedia-Nachrichtenübermittlungsdienst-(”MMS”-)Clients, eines Online-Chat-Clients (z. B. des Instant-Messagers, des Internet-Relay-Chats oder ”IRC” usw.), einer Nachrichtenübermittlungsanwendung, die einem sozialen Netz zugeordnet ist, eines Nachrichtenübermittlungsdienstes eines persönlichen Assistenten, der für die Unterhaltungen mit dem automatisierten Assistenten 120 dediziert ist, usw. auftreten. In einigen Implementierungen können einer oder mehrere der Nachrichtenaustausch-Clients 107 _1-N über eine Webseite oder andere Betriebsmittel, die durch einen (nicht dargestellten) Web-Browser oder eine andere Anwendung der Client-Computervorrichtung 106 wiedergegeben werden, implementiert sein.
Zusätzlich zu dem Nachrichtenaustausch-Client 107 kann jede der Client-Computervorrichtungen 106 _1-N außerdem verschiedene andere Anwendungen (”sonstige Anwendungen” 109 _1-N in 1) betreiben. Diese anderen Anwendungen können Spielanwendungen, Medienwiedergabeanwendungen (z. B. Musik-Wiedergabeprogramme, Video-Wiedergabeprogramme usw.), Produktivitätsanwendungen (z. B. Textverarbeitungsprogramme, Tabellenkalkulationsprogramme usw.), Web-Browser, Kartenanwendungen, Erinnerungsanwendungen, Cloud-Speicheranwendungen, Photographieanwendungen usw. enthalten, sind aber nicht darauf eingeschränkt. Wie im Folgenden ausführlicher erklärt wird, können verschiedene Zustände dieser anderen Anwendungen 109 _1-N in einigen Ausführungsformen als Signale verwendet werden, die den automatisierten Assistenten 120 auffordern, nicht angeforderten Inhalt in die Mensch-Computer-Dialoge aufzunehmen.
Wie hier ausführlicher beschrieben wird, beteiligt sich der automatisierte Assistent 120 an Mensch-Computer-Dialogsitzungen mit einem oder mehreren Anwendern über die Eingabe- und Ausgabevorrichtungen der Anwenderschnittstellen einer oder mehrerer Client-Vorrichtungen 106 _1-N. In einigen Implementierungen kann sich der automatisierte Assistent 120 an einer Mensch-Computer-Dialogsitzung mit einem Anwender in Reaktion auf eine durch den Anwender über eine oder mehrere Eingabevorrichtungen der Anwenderschnittstelle einer der Client-Vorrichtungen 106 _1-N bereitgestellte Anwenderschnittstelleneingabe beteiligen. In einigen dieser Implementierungen ist die Anwenderschnittstelleneingabe explizit an den automatisierten Assistenten 120 gerichtet. Einer der Nachrichtenaustausch-Clients 107 _1-N kann z. B. ein Nachrichtenübermittlungsdienst eines persönlichen Assistenten sein, der für die Unterhaltungen mit dem automatisierten Assistenten 120 dediziert ist, wobei die über diesen Nachrichtenübermittlungsdienst eines persönlichen Assistenten bereitgestellte Anwenderschnittstelleneingabe dem automatisierten Assistenten 120 automatisch bereitgestellt werden kann. Außerdem kann die Anwenderschnittstelleneingabe z. B. basierend auf einer speziellen Anwenderschnittstelleneingabe, die angibt, dass der automatisierte Assistent 120 aufgerufen werden soll, explizit an den automatisierten Assistenten 120 in einem oder mehreren der Nachrichtenaustausch-Clients 107 _1-N gerichtet sein. Die spezielle Anwenderschnittstelleneingabe kann z. B. ein oder mehrere getippte Zeichen (z. B. @AutomatedAssitant), eine Anwenderwechselwirkung mit einer Hardware-Taste und/oder einer virtuellen Taste (z. B. ein Antippen, ein langes Antippen), ein mündlicher Befehl (z. B. ”Hallo automatisierter Assistent”) und/oder eine andere spezielle Anwenderschnittstelleneingabe sein. In einigen Implementierungen kann sich der automatisierte Assistent 120 in Reaktion auf die Anwenderschnittstelleneingabe an einer Dialogsitzung beteiligen, selbst wenn die Anwenderschnittstelleneingabe nicht explizit an den automatisierten Assistenten 120 gerichtet ist. Der automatisierte Assistent 120 kann z. B. die Inhalte der Anwenderschnittstelleneingabe untersuchen und sich in Reaktion auf bestimmte Begriffe, die in der Anwenderschnittstelleneingabe vorhanden sind, und/oder basierend auf anderen Hinweisen an der Dialogsitzung beteiligen. In vielen Implementierungen kann der automatisierte Assistent 120 eine interaktive Sprachantwort (”IVR”) übernehmen, so dass der Anwender Befehle, Suchen usw. aussprechen kann und der automatisierte Assistent die Verarbeitung natürlicher Sprache und/oder eine oder mehrere Grammatiken, um die Äußerungen in Text umzusetzen, verwenden und entsprechend auf den Text antworten kann.
Jede der Client-Computervorrichtungen 106 _1-N und der automatisierte Assistent 120 können einen oder mehrere Datenspeicher für die Speicherung von Daten und Software-Anwendungen, einen oder mehrere Prozessoren zum Zugreifen auf die Daten und Ausführen von Anwendungen und andere Komponenten, die die Kommunikation über ein Netz fördern, enthalten. Die durch eine oder mehrere der Client-Computervorrichtungen 106 _1-N und/oder durch den automatisierten Assistenten 120 ausgeführten Operationen können über mehrere Computersysteme verteilt sein. Der automatisierte Assistent 120 kann z. B. als Computerprogramme implementiert sein, die in einem oder mehreren Computern an einem oder mehreren Orten, die durch ein Netz aneinandergekoppelt sind, ausgeführt werden.
Der automatisierte Assistent 120 kann einen Prozessor 122 für natürliche Sprache und eine Antwortinhaltsmaschine 130 enthalten. In einigen Implementierungen können eine oder mehrere der Maschinen und/oder eines oder mehrere der Module des automatisierten Assistenten 120 weggelassen, kombiniert und/oder in einer Komponente, die von dem automatisierten Assistenten 120 getrennt ist, implementiert sein. Der automatisierte Assistent 120 kann sich über die zugeordneten Client-Vorrichtungen 106 _1-N an Mensch-Computer-Dialogsitzungen mit einem oder mehreren Anwendern beteiligen, um den durch die Antwortinhaltsmaschine 130 erzeugten und/oder aufrechterhaltenen Antwortinhalt bereitzustellen.
In einigen Implementierungen erzeugt die Antwortinhaltsmaschine 130 den Antwortinhalt in Reaktion auf verschiedene durch einen Anwender einer der Client-Vorrichtungen 106 _1-N während einer Mensch-Computer-Dialogsitzung mit dem automatisierten Assistenten 120 erzeugte Eingaben. Die Antwortinhaltsmaschine 130 stellt den Antwortinhalt (z. B. über ein oder mehrere Netze, wenn sie von einer Client-Vorrichtung eines Anwenders getrennt ist) zum Darstellen für den Anwender als Teil der Dialogsitzung bereit. Die Antwortinhaltsmaschine 130 kann z. B. den Antwortinhalt in Reaktion auf eine über eine der Client-Vorrichtungen 106 _1-N bereitgestellte Eingabe in natürlicher Sprache in freier Form erzeugen. Eine Eingabe in freier Form, wie sie hier verwendet wird, ist eine Eingabe, die durch einen Anwender formuliert wird und die nicht auf eine Gruppe von Optionen, die für die Auswahl durch den Anwender dargestellt ist, eingeschränkt ist.
Eine ”Dialogsitzung”, wie sie hier verwendet wird, kann einen logisch in sich geschlossenen Austausch von einer oder mehreren Nachrichten zwischen einem Anwender und dem automatisierten Assistenten 120 enthalten. Der automatisierte Assistent 120 kann zwischen mehreren Dialogsitzungen mit einem Anwender basierend auf verschiedenen Signalen, wie z. B. dem Verlauf der Zeit zwischen den Sitzungen, der Änderung des Anwenderkontexts (z. B. des Ortes, vor/während/nach einer geplanten Versammlung usw.) zwischen den Sitzungen, der Detektion einer oder mehrerer dazwischenliegender Wechselwirkungen zwischen dem Anwender und einer Client-Vorrichtung außer dem Dialog zwischen dem Anwender und dem automatisierten Assistenten (der Anwender wechselt z. B. zeitweise die Anwendungen, der Anwender geht von einem selbstständigen sprachaktivierten Produkt fort und kehrt dann später zu einem selbstständigen sprachaktivierten Produkt zurück), dem Sperren/Schlafen der Client-Vorrichtung zwischen den Sitzungen, dem Wechsel der Client-Vorrichtungen, die verwendet werden, um mit einer oder mehreren Instanzen des automatisierten Assistenten 120 eine Schnittstelle zu bilden, usw., unterscheiden.
Wenn in einigen Implementierungen der automatisierte Assistent 120 eine Aufforderung bereitstellt, die eine Anwenderrückkopplung anfordert, kann der automatisierte Assistent 120 präventiv eine oder mehrere Komponenten der Client-Vorrichtung (über die die Aufforderung bereitgestellt wird) aktivieren, die konfiguriert sind, um die in Reaktion auf die Aufforderung zu empfangende Anwenderschnittstelleneingabe zu verarbeiten. Wo die Anwenderschnittstelleneingabe z. B. über ein Mikrophon der Client-Vorrichtung 106 ₁ bereitgestellt werden soll, kann der automatisierte Assistent 120 einen oder mehrere Befehle bereitstellen, um zu veranlassen: dass das Mikrophon präventiv ”geöffnet” wird (und dadurch die Notwendigkeit verhindert wird, ein Schnittstellenelement zu drücken oder ein ”heißes Wort” zu sprechen, um das Mikrophon zu öffnen), dass ein lokaler Sprache-zu-Text-Prozessor der Client-Vorrichtung 106 ₁ präventiv aktiviert wird, dass eine Kommunikationssitzung zwischen der Client-Vorrichtung 106 ₁ und einem entfernten Sprache-zu-Text-Prozessor präventiv hergestellt wird und/oder dass eine graphische Anwenderschnittstelle auf der Client-Vorrichtung 106 ₁ wiedergegeben wird (z. B. eine Schnittstelle, die ein oder mehrere auswählbare Elemente enthält, die ausgewählt werden können, um eine Rückkopplung bereitzustellen). Dies kann es ermöglichen, dass die Anwenderschnittstelleneingabe schneller bereitgestellt und/oder verarbeitet wird, als wenn die Komponenten nicht präventiv aktiviert würden.
Der Prozessor 122 für natürliche Sprache des automatisierten Assistenten 120 verarbeitet die durch die Anwender über die Client-Vorrichtungen 106 _1-N erzeugte Eingabe in natürlicher Sprache, wobei er eine kommentierte Ausgabe für die Verwendung durch eine oder mehrere andere Komponenten des automatisierten Assistenten 120, wie z. B. die Antwortinhaltsmaschine 130, erzeugen kann. Der Prozessor 122 für natürliche Sprache kann z. B. die Eingabe in freier Form in natürlicher Sprache, die durch einen Anwender über eine oder mehrere Eingabevorrichtungen der Anwenderschnittstelle der Clientvorrichtung 106 ₁ erzeugt wird, verarbeiten. Die erzeugte kommentierte Ausgabe enthält einen oder mehrere Kommentare der Eingabe in natürlicher Sprache und optional einen oder mehrere (z. B. alle) Begriffe der Eingabe in natürlicher Sprache.
In einigen Implementierungen ist der Prozessor 122 für natürliche Sprache konfiguriert, um verschiedene Typen der grammatischen Informationen in der Eingabe natürlicher Sprache zu identifizieren und zu kommentieren. Der Prozessor 122 für natürliche Sprache kann z. B. einen Abschnitt eines Sprach-Taggers enthalten, der konfiguriert ist, um die Begriffe mit ihren grammatischen Rollen zu kommentieren. Der Abschnitt des Sprach-Taggers kann z. B. jeden Begriff mit seinem Teil der Sprache, wie z. B. ”Substantiv”, ”Verb”, ”Adjektiv”, ”Pronomen” usw. markieren. Außerdem kann in einigen Implementierungen der Prozessor 122 für natürliche Sprache z. B. zusätzlich und/oder alternativ einen Abhängigkeits-Parser enthalten, der konfiguriert ist, um die syntaktischen Beziehungen zwischen den Begriffen in der Eingabe in natürlicher Sprache zu bestimmen. Der Abhängigkeits-Parser kann z. B. bestimmen, welche Begriffe andere Begriffe, Subjekte und Verben der Sätze usw. modifizieren, (z. B. einen Parse-Baum bestimmen) – und kann Kommentare derartiger Abhängigkeiten herstellen.
In einigen Implementierungen kann der Prozessor 122 für natürliche Sprache zusätzlich und/oder alternativ einen Entitäts-Tagger enthalten, der konfiguriert ist, um die Entitätsbezugnahmen in einem oder mehreren Segmenten, wie z. B. die Bezugnahmen auf Menschen (einschließlich z. B. literarischer Charaktere), Organisationen, (reale und imaginäre) Orte usw. zu kommentieren. Der Entitäts-Tagger kann die Bezugnahmen auf eine Entität auf einem hohen Niveau der Granularität (um z. B. die Identifikation aller Bezugnahmen auf eine Entitätsklasse, wie z. B. Menschen, zu ermöglichen) und/oder auf einem tieferen Niveau der Granularität (um z. B. die Identifikation aller Bezugnahmen auf eine spezielle Entität, wie z. B. eine spezielle Person, zu ermöglichen) kommentieren. Der Entitäts-Tagger kann sich auf den Inhalt der Eingabe in natürlicher Sprache stützen, um eine spezielle Entität aufzulösen, und/oder kann optional mit einem Kenntnisgraph oder einer anderen Entitätsdatenbank kommunizieren, um eine spezielle Entität aufzulösen.
In einigen Implementierungen kann der Prozessor 122 für natürliche Sprache zusätzlich und/oder alternativ einen Koreferenz-Auflöser enthalten, der konfiguriert ist, um die Bezugnahmen auf dieselbe Entität basierend auf einem oder mehreren Kontexthinweisen zu gruppieren oder ”in Clustern anzuordnen”. Der Koreferenz-Auflöser kann z. B. verwendet werden, um den Begriff ”wo” in das ”Hypothetische Café” in der Eingabe in natürlicher Sprache ”Mir hat das Hypothetische Café gefallen, wo wir letztes Mal gegessen haben” aufzulösen.
In einigen Implementierungen können sich eine oder mehrere Komponenten des Prozessors 122 für natürliche Sprache auf die Kommentare von einer oder mehreren anderen Komponenten des Prozessors 122 für natürliche Sprache stützen. In einigen Implementierungen kann sich z. B. der genannte Entitäts-Tagger auf die Kommentare von dem Koreferenz-Auflöser und/oder dem Abhängigkeits-Parser beim Kommentieren aller Erwähnungen einer speziellen Entität stützen. Außerdem kann sich in einigen Implementierungen der Koreferenz-Auflöser z. B. bei der Clusterbildung der Bezugnahmen auf dieselbe Entität auf die Kommentare von dem Abhängigkeits-Parser stützen. In einigen Implementierungen können beim Verarbeiten einer speziellen Eingabe in natürlicher Sprache ein oder mehrere Komponenten des Prozessors 122 für natürliche Sprache eine in Beziehung stehende frühere Eingabe und/oder andere in Beziehung stehende Daten außerhalb der speziellen Eingabe in natürlicher Sprache verwenden, um einen oder mehrere Kommentare zu bestimmen.
Wie oben erwähnt worden ist, verwendet die Antwortinhaltsmaschine 130 ein oder mehrere Betriebsmittel beim Erzeugen von Vorschlägen und/oder anderem Inhalt, die während einer Dialogsitzung mit einem Anwender einer der Client-Vorrichtungen 106 _1-N bereitzustellen sind. In verschiedenen Implementierungen kann die Antwortinhaltsmaschine 130 ein Handlungsmodul 132, ein Entitätsmodul 134 und ein Inhaltsmodul 136 enthalten.
Das Handlungsmodul 132 der Antwortinhaltsmaschine 130 verwendet die von den Client-Computervorrichtungen 106 _1-N empfangene Eingabe in natürlicher Sprache und/oder die durch den Prozessor 122 für natürliche Sprache bereitgestellten Kommentare der Eingabe in natürlicher Sprache, um wenigstens eine Handlung zu bestimmen, die auf die Eingabe in natürlicher Sprache reagiert. In einigen Implementierungen kann das Handlungsmodul 132 basierend auf einem oder mehreren Begriffen, die in der Eingabe natürlicher Sprache enthalten sind, eine Handlung bestimmen. Das Handlungsmodul 132 kann z. B. eine Handlung basierend auf der Handlung bestimmen, die in einem oder mehreren computerlesbaren Medien auf ein oder mehrere Begriffe abgebildet ist, die in der Eingabe in natürlicher Sprache enthalten sind. Eine Handlung von ”Füge <den Artikel> zu meiner Einkaufsliste hinzu” kann z. B. auf einen oder mehrere Begriffe, wie z. B. ”Ich benötige <den Artikel> von dem Markt ...”, ”Ich muss <den Artikel> erwerben”, ”Uns ist <der Artikel> ausgegangen” usw. abgebildet werden.
Das Entitätsmodul 134 bestimmt Kandidatenentitäten basierend auf einer durch einen oder mehrere Anwender über eine Eingabevorrichtung(en) der Anwenderschnittstellen während einer Dialogsitzung zwischen dem Anwender (den Anwendern) und dem automatisierten Assistenten 120 bereitgestellten Eingabe. Das Entitätsmodul 134 verwendet ein oder mehrere Betriebsmittel beim Bestimmen der Kandidatenentitäten und/oder beim Verfeinern dieser Kandidatenentitäten. Das Entitätsmodul 134 kann z. B. die Eingabe in natürlicher Sprache selbst oder die durch den Prozessor 122 für natürliche Sprache bereitgestellten Kommentare verwenden.
Das proaktive Inhaltsmodul 136 kann konfiguriert sein, um nicht angeforderten Inhalt von potentiellem Interesse für einen Anwender in vorhandene oder neu begonnene Mensch-Computer-Dialogsitzungen proaktiv aufzunehmen. In einigen Implementierungen kann das proaktive Inhaltsmodul 136 z. B. – z. B. basierend auf den von anderen Modulen, wie z. B. dem Prozessor 122 für natürliche Sprache, dem Handlungsmodul 132 und/oder dem Entitätsmodul 134, empfangenen Daten – bestimmen, dass in einer vorhandenen Mensch-Computer-Dialogsitzung zwischen einem Anwender und dem automatisierten Assistenten 120 der automatisierte Assistent 120 auf alle während der Mensch-Computer-Dialogsitzung von dem Anwender empfangenen Eingaben in natürlicher Sprache geantwortet hat. Es wird angenommen, dass ein Anwender die Client-Vorrichtung 106 betreibt, um eine Suche nach speziellen Informationen anzufordern, und dass der automatisierte Assistent 120 die Suche ausführt (oder veranlasst, dass die Suche ausgeführt wird) und Antwortinformationen als Teil des Mensch-Computer-Dialogs zurückschickt. An diesem Punkt hat der automatisierte Assistent 120 vollständig auf die Anforderung des Anwenders geantwortet, wenn nicht der Anwender außerdem andere Informationen angefordert hat. In einigen Implementierungen kann das proaktive Inhaltsmodul 136 während eines vorgegebenen Zeitintervalls (z. B. zwei Sekunden, fünf Sekunden usw.) warten, bis der automatisierte Assistent 120 eine zusätzliche Anwendereingabe empfängt. Falls während des Zeitintervalls keine empfangen wird, kann das proaktive Inhaltsmodul 136 bestimmen, dass es auf alle während der Mensch-Computer-Dialogsitzung von dem Anwender empfangenen Eingaben in natürlicher Sprache geantwortet hat.
Das proaktive Inhaltsmodul 136 kann ferner konfiguriert sein, um basierend auf einer oder mehreren Eigenschaften des Anwenders die Informationen von potentiellem Interesse für den Anwender oder eine oder mehrere Handlungen von potentiellem Interesse für den Anwender (die hier gemeinsam als ”Inhalt” von potentiellem Interesse für den Anwender bezeichnet werden) zu identifizieren. In einigen Implementierungen kann diese Identifikation des Inhalts von potentiellem Interesse für den Anwender in verschiedenen Zeitintervallen (z. B. regelmäßig, kontinuierlich, periodisch usw.) durch das proaktive Inhaltsmodul 136 ausgeführt werden. Folglich kann in einigen derartigen Implementierungen das proaktive Inhaltsmodul 136 kontinuierlich (oder wenigstens periodisch) ”vorbereitet” werden, um nicht angeforderten Inhalt von potentiellem Interesse für den Anwender bereitzustellen. Zusätzlich oder alternativ kann in einigen Implementierungen diese Identifikation des Inhalts von potentiellem Interesse durch das proaktive Inhaltsmodul 136 in Reaktion auf verschiedene Ereignisse ausgeführt werden. Ein derartiges Ereignis kann die Bestimmung sein, dass der automatisierte Assistent 120 auf alle während des Mensch-Computer-Dialogs von dem Anwender empfangene Eingaben in natürlicher Sprache geantwortet hat und dass nach Ablauf des obenerwähnten Zeitintervalls keine zusätzliche Anwendereingabe empfangen worden ist. Andere Ereignisse, die das proaktive Inhaltsmodul 136 auslösen können, um den Inhalt von potentiellem Interesse für den Anwender zu identifizieren, können z. B. enthalten, dass ein Anwender eine Suche unter Verwendung einer Client-Vorrichtung 106 ausführt, dass ein Anwender eine spezielle Anwendung in einer Client-Vorrichtung 106 betreibt, dass sich ein Anwender zu einem neuen Ort bewegt (was z. B. durch einen Positionskoordinatensensor einer Client-Vorrichtung oder durch einen Anwender, der sich an einem Ort bei sozialen Medien ”anmeldet”, detektiert wird), dass ein Anwender innerhalb der Hörweite eines Lautsprechers unter der Steuerung eines automatischen Assistenten detektiert wird usw.
Die Eigenschaften des Anwenders, die, z. B. durch das proaktive Inhaltsmodul 136, verwendet werden können, um den Inhalt von potentiellem Interesse für den Anwender zu bestimmen, können in verschiedenen Formen auftreten und können aus verschiedenen Quellen bestimmt werden. Die Themen von Interesse für den Anwender können z. B. aus Quellen, wie z. B. der Suchhistorie des Anwenders, der Surf-Historie, den vom Anwender festgelegten Vorlieben, dem Ort, der Historie der Medienwiedergabe, der Reisehistorie, früherer Mensch-Computer-Dialogsitzungen zwischen dem Anwender und dem automatisierten Assistenten 120 usw., bestimmt werden. Folglich kann in einigen Implementierungen das proaktive Inhaltsmodul 136 Zugriff auf verschiedene Signale oder andere Daten von einer oder mehreren Client-Vorrichtungen 106, die durch einen Anwender betrieben werden, z. B. direkt von den Client-Vorrichtungen 106 und/oder indirekt über ein oder mehrere Computersysteme, die als eine sogenannte ”Cloud” arbeiten, haben. Die Themen von Interesse für einen Anwender können z. B. spezielle Hobbys (z. B. Golfspielen, Skifahren, Spielen, Malen usw.), Literatur, Filme, Musikstile, spezielle Entitäten (z. B. Künstler, Athleten, Sportmannschaften, Gesellschaften) usw. enthalten. Andere Eigenschaften des Anwenders können z. B. das Alter, den Ort (der z. B. aus einem Positionskoordinatensensor einer Client-Vorrichtung 106, wie z. B. einem Sensor des globalen Positionierungssystems (”GPS”-Sensor) oder einem anderen triangulationsbasierten Positionskoordinatensensor, bestimmt wird), vom Anwender festgelegten Vorlieben, ob sich der Anwender gegenwärtig in einem sich bewegenden Fahrzeug befindet (wie z. B. von einem Beschleunigungsmesser einer Client-Vorrichtung 106 bestimmt wird), geplante Ereignisse des Anwenders (wie sie z. B. aus einem oder mehreren Kalendereinträgen bestimmt werden) usw. enthalten.
In verschiedenen Implementierungen kann das proaktive Inhaltsmodul 136 konfiguriert sein, um nicht angeforderten Inhalt zu erzeugen, der die Informationen von potentiellem Interesse für den Anwender und/oder die eine oder die mehreren Handlungen von potentiellem Interesse angibt, und um den nicht angeforderten Inhalt in einen Mensch-Computer-Dialog aufzunehmen. Der nicht angeforderte Inhalt kann in verschiedenen Formen auftreten, die in eine vorhandene Mensch-Computer-Dialogsitzung aufgenommen werden können. In einigen Implementierungen, in denen der Anwender unter Verwendung eines textbasierten Nachrichtenaustausch-Clients 107 mit dem automatisierten Assistenten 120 in Wechselwirkung tritt, kann der durch das proaktive Inhaltsmodul 136 erzeugte nicht angeforderte Inhalt die Form von Text, Bildern, Video oder irgendeiner Kombination daraus annehmen, der in eine Mitschrift des durch den Nachrichtenaustausch-Client 107 wiedergegebenen Mensch-Computer-Dialogs aufgenommen werden kann. In einigen Implementierungen kann der nicht angeforderte Inhalt die Form eines sogenannten ”tiefen Links” enthalten oder annehmen, der durch den Anwender auswählbar ist, um eine andere Anwendungsschnittstelle für den Anwender zu zeigen. Ein tiefer Link kann z. B., wenn er durch einen Anwender ausgewählt wird, die Client-Vorrichtung 106 veranlassen, eine spezielle Anwendung 109 in einem speziellen Zustand zu starten (oder aktiv zu machen). In anderen Implementierungen, in denen der Anwender unter Verwendung einer Sprachschnittstelle mit dem automatisierten Assistenten 120 in Wechselwirkung tritt (z. B. wenn der automatisierte Assistent 120 in einem selbstständigen interaktiven Lautsprecher oder in einem fahrzeuginternen System arbeitet), kann der nicht angeforderte Inhalt die Form einer Ausgabe in natürlicher Sprache, die dem Anwender hörbar bereitgestellt wird, annehmen.
In einigen Implementierungen kann die Aufnahme des nicht angeforderten Inhaltes in Reaktion auf die Bestimmung, z. B. durch das proaktive Inhaltsmodul 136, ausgeführt werden, dass der automatisierte Assistent 120 auf alle während der Mensch-Computer-Dialogsitzung von dem Anwender empfangenen Eingaben in natürlicher Sprache geantwortet hat. In einigen Implementierungen können eine oder mehrere der oben beschriebenen anderen Operationen bezüglich des proaktiven Inhaltsmoduls 136 außerdem in Reaktion auf ein derartiges Ereignis ausgeführt werden. Alternativ können, wie oben angegeben worden ist, diese Operationen durch das proaktive Inhaltsmodul 136 periodisch oder kontinuierlich ausgeführt werden, so dass das proaktive Inhaltsmodul 136 (und folglich der automatisierte Assistent 120) ”vorbereitet” bleibt, um den nicht angeforderten Inhalt von potentiellen Interesse für einen Anwender schnell in eine vorhandene Mensch-Computer-Dialogsitzung aufzunehmen.
In einigen Implementierungen kann der automatisierte Assistent 120 eine nicht angeforderte Ausgabe sogar vor dem Beginn einer Mensch-Computer-Dialogsitzung durch einen Anwender bereitstellen. In einigen Implementierungen kann das proaktive Inhaltsmodul 136 konfiguriert sein, um basierend auf einem oder mehreren Signalen zu bestimmen, dass sich ein Anwender innerhalb der Hörweite der einen oder der mehreren Audioausgabevorrichtungen (z. B. eines selbstständigen interaktiven Lautsprechers oder eines passiven Lautsprechers, der betriebstechnisch mit einer Client-Vorrichtung 106 gekoppelt ist, die alles oder einen Anteil des automatisierten Assistenten 120 betreibt) befindet. Diese Signale können z. B. das gemeinsame Vorhandensein einer oder mehrerer durch den Anwender getragenen Client-Vorrichtungen 106 mit der Audioausgabevorrichtung, die Detektion der physischen Anwenderanwesenheit (z. B. unter Verwendung einer passiven Infrarot-, Schalldetektion (z. B. das Detektieren der Stimme des Anwenders) usw.) usw. enthalten.
Sobald das proaktive Inhaltsmodul 136 bestimmt hat, dass sich der Anwender innerhalb der Hörweite der einen oder der mehreren Audioausgabevorrichtungen befindet, kann das proaktive Inhaltsmodul 136: wenigstens teilweise basierend auf einer oder mehreren Eigenschaften des Anwenders die Informationen von potentiellem Interesse für den Anwender oder eine oder mehrerer Handlungen von potentiellem Interesse für den Anwender identifizieren (wie oben beschrieben worden ist); den nicht angeforderten Inhalt, der die Informationen von potentiellem Interesse oder die eine oder die mehreren Handlungen von potentiellem Interesse angibt, erzeugen; und/oder den nicht angeforderten Inhalt in eine hörbare Mensch-Computer-Dialogsitzung zwischen dem automatisierten Assistenten 120 und dem Anwender aufnehmen. Wie oben angegeben worden ist, können eine oder mehrere dieser zusätzlichen Operationen in Reaktion auf die Bestimmung ausgeführt werden, dass sich der Anwender innerhalb der Hörweite der Audioausgabevorrichtung(en) befindet. Zusätzlich oder alternativ können eine oder mehrere dieser Operationen periodisch oder kontinuierlich ausgeführt werden, so dass das proaktive Inhaltsmodul 136 immer (oder wenigstens normalerweise) ”vorbereitet” ist, um nicht angeforderten Inhalt in einen Mensch-Computer-Dialog aufzunehmen.
2 veranschaulicht ein Beispiel einer Mensch-Computer-Dialogsitzung zwischen einem Anwender 101 und einer Instanz des automatisierten Assistenten (120 in 1, die in 2 nicht dargestellt ist). 2 veranschaulicht Beispiele der Dialogsitzung, die über das Mikrophon (die Mikrophone) und den Lautsprecher (die Lautsprecher) zwischen einem Anwender 101 einer Computervorrichtung 210 (die als ein selbstständiger interaktiver Lautsprecher dargestellt ist, wobei dies aber nicht als einschränkend gemeint ist) und dem automatisierten Assistenten 120 gemäß den hier beschriebenen Implementierungen stattfinden kann. Ein oder mehrere Aspekte des automatisierten Assistenten 120 können in der Computervorrichtung 210 und/oder in einer oder mehreren Computervorrichtungen, die mit der Computervorrichtung 210 in Netzverbindung stehen, implementiert sein.
In 2 stellt der Anwender 101 eine Eingabe 280 in natürlicher Sprache ”Guten Morgen. Was steht heute auf der Tagesordnung?” bereit, um eine Mensch-Computer-Dialogsitzung zwischen dem Anwender 101 und dem automatisierten Assistenten 120 zu beginnen. In Reaktion auf die Eingabe 280 in natürlicher Sprache stellt der automatisierte Assistent 120 eine Antwortausgabe 282 in natürlicher Sprache ”Sie haben einen Zahnarzttermin um 09:30 Uhr und dann ein Treffen im Hypothetischen Café um 11:00 Uhr” bereit. Angenommen, dass dies die einzigen beiden Ereignisse des Plans des Anwenders für den Tag sind, hat der automatisierte Assistent 120 (z. B. über das Handlungsmodul 132) vollständig auf die Eingabe in natürlicher Sprache des Anwenders geantwortet. Anstatt auf eine zusätzliche Anwendereingabe zu warten, kann der automatisierte Assistent 120 (z. B. über das proaktive Inhaltsmodul 136) zusätzlichen Inhalt von potentiellem Interesse für den Anwender in den Mensch-Computer-Dialog nach 2 proaktiv aufnehmen. Der automatisierte Assistent 120 kann z. B. eine oder mehrere Fahrtrouten zwischen dem Ort des Zahnarztes und des Treffens suchen (oder eine weitere Komponente auffordern, zu suchen), z. B. um zu bestimmen, dass es auf dem direktesten Weg beträchtliche Bauarbeiten gibt. Weil sich die beide Termine relativ nah beieinander befinden, nimmt der automatisierte Assistent 120 den folgenden (in Kursivschrift gezeigten) nicht angeforderten Inhalt proaktiv in den Mensch-Computer-Dialog auf: ”Es gibt beträchtliche Bauarbeiten auf dem direkten Weg zwischen Ihrem Zahnarzt und dem Hypothetischen Café. Dürfte ich Ihnen vorschlagen, stattdessen <die alternative Route> zu nehmen?”
3 stellt einen weiteren beispielhaften Dialog zwischen dem Anwender 101 und dem automatisierten Assistenten 120, der in der Computervorrichtung 210 ausgeführt wird, während einer anderen Sitzung dar. Bei 380 spricht der Anwender 101 die Redewendung ”Was ist die Außentemperatur?” Nach dem Bestimmen der Außentemperatur von einer oder mehreren Quellen (z. B. einem wetterbezogenen Web-Dienst) kann der automatisierte Assistent 120 bei 382 ”Sie beträgt 75 Grad Fahrenheit” antworten. Abermals kann der automatisierte Assistent 120 (z. B. über das proaktive Inhaltsmodul 136) bestimmen, dass er auf die Eingabe in natürlicher Sprache des Anwenders vollständig geantwortet hat. Entsprechend und basierend auf einem Interesse des Anwenders 101 an einer speziellen Mannschaft und einer Bestimmung, dass die Mannschaft ein Spiel am vorherigen Abend gewonnen hat, kann der automatisierte Assistent 120 den folgenden nicht angeforderten Inhalt proaktiv in den Mensch-Computer-Dialog aufnehmen: ”Haben Sie gesehen, dass <die Mannschaft> gestern Abend mit zwanzig Punkten gewonnen hat?”
4 stellt einen weiteren beispielhaften Dialog zwischen dem Anwender 101 und dem automatisierten Assistenten 120, der in der Computervorrichtung 120 ausgeführt wird, während einer anderen Sitzung dar. In diesem Beispiel stellt der Anwender 101 keine Eingabe in natürlicher Sprache bereit. Stattdessen bestimmt der automatisierte Assistent 120 oder eine weitere Komponente, die in der Computervorrichtung 210 ausgeführt wird, z. B. basierend auf einem oder mehreren durch eine Client-Vorrichtung 406 (einem Smartphone in diesem Beispiel) bereitgestellten Signalen, dass sich der Anwender 101 bei der Computervorrichtung 210 befindet und sich folglich innerhalb der Hörweite einer durch die Computervorrichtung 210 bereitgestellten hörbaren Ausgabe befindet. Entsprechend nimmt der automatisierte Assistent 120 bei 482 den nicht angeforderten Inhalt (den gleichen nicht angeforderten Inhalt wie in 3) in einen neuen Mensch-Computer-Dialog proaktiv auf, der durch den automatisierten Assistenten basierend auf der Anwesenheit des Anwenders 101 bei der Computervorrichtung 210 begonnen wird. Das eine oder die mehreren durch die Client-Vorrichtung 406 der Computervorrichtung 210 bereitgestellten Signale können z. B. ein drahtloses Signal (z. B. Wi-Fi, Blue-Tooth), ein gemeinsam benutztes Netz (die Client-Vorrichtung 406 ist z. B. mit demselben WiFi-Netz wie die Computervorrichtung 210 verbunden) usw. enthalten.
In einigen Implementierungen kann der automatisierte Assistent 120 anderen Inhalt von potentiellem Interesse für den Anwender beim Bestimmen, dass sich der Anwender 101 bei der Computervorrichtung 210 befindet, proaktiv in den Mensch-Computer-Dialog aufnehmen. In einigen Implementierungen kann dieser andere Inhalt z. B. basierend auf einem Zustand einer in der Client-Vorrichtung 406 ausgeführten Anwendung bestimmt werden. Es wird angenommen, dass der Anwender 101 an der Client-Vorrichtung 406 ein Spiel spielt. Der automatisierte Assistent 120 in der Computervorrichtung 210 kann bestimmen, dass sich die Client-Vorrichtung 406 in einem speziellen Spielzustand des Spiels befindet, und kann verschiedenen nicht angeforderten Inhalt von potentiellem Interesse für den Anwender, wie z. B. Tipps, Tricks, Empfehlungen ähnlicher Spiele usw., als Teil des Mensch-Computer-Dialogs bereitstellen. In einigen Implementierungen, in denen die Computervorrichtung 210 ein selbstständiger interaktiver Lautsprecher ist, kann die Computervorrichtung 210 sogar Hintergrundmusik (z. B. Hintergrundmusik kopieren oder hinzufügen) und/oder Klangeffekte, die dem an der Client-Vorrichtung 406 gespielten Spiel zugeordnet sind, ausgeben, wenigstens solange wie der Anwender 101 bei der Computervorrichtung 210 anwesend bleibt.
5 stellt einen beispielhaften Mensch-Computer-Dialog zwischen dem Anwender 101 und einer Instanz des automatisierten Assistenten 120, die in der Client-Vorrichtung 406 ausgeführt wird, dar. In diesem Beispiel stellt der Anwender 101 abermals keine Eingabe in natürlicher Sprache bereit. Stattdessen spielt die Computervorrichtung 210 (die abermals die Form eines selbständigen interaktiven Lautsprechers annimmt) Musik ab. Diese Musik wird an einem oder mehreren Audiosensoren (z. B. Mikrofonen) der Client-Vorrichtung 406 detektiert. Eine oder mehrere Komponenten der Client-Vorrichtung 406, wie z. B. eine Software-Anwendung, die konfiguriert ist, um hörbar detektierte Musik zu analysieren, können ein oder mehrere Attribute der detektierten Musik, wie z. B. den Künstler/das Lied/usw., identifizieren. Eine weitere Komponente, wie z. B. das Entitätsmodul 134 in 1, kann diese Attribute verwenden, um eine oder mehrere Online-Quellen für Informationen über die Entität zu suchen. Der automatisierte Assistent 120, der in der Client-Vorrichtung 406 ausgeführt wird, kann dann (bei 582) nicht angeforderten Inhalt bereitstellen – z. B. über einen oder mehrere Lautsprecher der Clientvorrichtung 406 in 5 laut ausgeben – der den Anwender 101 von verschiedenen Informationen über die Entität informiert. Bei 582 nach 5 sagt der automatisierte Assistent 120 z. B. ”Ich habe gesehen, dass sie <den Künstler> hören. Wussten Sie, dass <der Künstler> am <Datum> einen Tourneetermin in <Ihrer Stadt> hat?” Ähnliche Techniken können durch eine Instanz des automatisierten Assistenten 120, die in einer Client-Vorrichtung (z. B. einem Smartphone, einem Tablet, einem Laptop, einem selbständigen interaktiven Lautsprecher) ausgeführt wird, angewendet werden, wenn sie (über eine Ton- und/oder visuelle Detektion) audiovisuellen Inhalt (z. B. einen Film, ein Fernsehprogramm, ein Sportereignis usw.), der auf einem Fernsehgerät des Anwenders dargestellt wird, detektiert.
In 5 gibt die Computervorrichtung 210 hörbar Musik aus, die durch die Client-Vorrichtung 406 ”gehört” wird. Es wird angenommen, dass der Anwender 101 jedoch unter Verwendung der Client-Vorrichtung 406 anstatt der Computervorrichtung 210 Musik gehört hat. Es wird ferner angenommen, dass der Anwender 101 die Musik unter Verwendung von Kopfhörern gehört hat, so dass die Musik nur für den Anwender 101 und nicht notwendigerweise für andere Computervorrichtungen, wie z. B. die Computervorrichtung 210, hörbar sein würde. In verschiedenen Implementierungen, insbesondere wo die Client-Vorrichtung 406 und die Computervorrichtung 210 Teil desselben Ökosystems der Computervorrichtungen, das dem Anwender 101 zugeordnet ist, sind, kann die Computervorrichtung 210 bestimmen, dass sich eine Musikwiedergabeanwendung der Client-Vorrichtung 406 gegenwärtig in einem Zustand befindet, in dem sie Musik wiedergibt. Die Client-Vorrichtung 406 kann z. B. unter Verwendung einer drahtlosen Kommunikationstechnik, wie z. B. Wi-Fi, Bluetooth usw., z. B. den Vorrichtungen in der Nähe (wie z. B. der Computervorrichtung 210) eine Angabe des Zustands der Musikwiedergabeanwendung (und/oder Angaben der Zustände anderer Anwendungen) bereitstellen. Zusätzlich oder alternativ kann für ein durch den Anwender 101 betriebenes Ökosystem der Computervorrichtungen ein globaler Index der gegenwärtig ausgeführten Anwendungen und ihrer jeweiligen Zustände (z. B. durch einen automatisierten Assistenten, der dem Anwender 101 dient) aufrechterhalten werden und unter den Computervorrichtungen des Ökosystems verfügbar sein. Auf die eine oder andere Art kann der automatisierte Assistent 120, sobald der der Computervorrichtung 210 zugeordnete automatisierte Assistent 120 den Zustand der Musikwiedergabeanwendung in der Client-Vorrichtung 406 erfährt, Inhalt, der zu dem ähnlich ist, der bei 582 in 2 dargestellt ist, z. B. in einen Mensch-Computer-Dialog zwischen dem Anwender 101 und dem automatisierten Assistenten 120 über die Computervorrichtung 210 (der durch den automatisierten Assistenten 120 ausgelöst werden kann) proaktiv aufnehmen.
Die 2–5 stellen Mensch-Computer-Dialoge dar, in denen ein Anwender 101 unter Verwendung einer Audioeingabe/-ausgabe mit dem automatisierten Assistenten 120 beschäftigt ist. Dies ist jedoch nicht als einschränkend gemeint. Wie oben angegeben worden ist, können sich die Anwender in verschiedenen Implementierungen unter Verwendung anderer Mittel, wie z. B. der Nachrichtenaustausch-Clients 107, mit den automatisierten Assistenten beschäftigen. 6 stellt ein Beispiel dar, in dem eine Client-Vorrichtung 606 in der Form eines Smartphones oder eines Tablets (wobei dies aber nicht als einschränkend gemeint ist) einen Berührungsschirm 640 enthält. Auf dem Berührungsschirm 640 wird eine Mitschrift 642 eines Mensch-Computer-Dialogs zwischen einem Anwender (”Sie” in 6) der Client-Vorrichtung 606 und einer Instanz des automatisierten Assistenten 120, der in der Client-Vorrichtung 606 ausgeführt wird, visuell wiedergegeben. Es ist außerdem ein Eingabefeld 644 vorgesehen, in dem der Anwender sowohl Inhalt in natürlicher Sprache als auch andere Typen von Eingaben, wie z. B. Bilder, Ton usw., bereitstellen kann.
In 6 beginnt der Anwender die Mensch-Computer-Dialogsitzung mit der Frage ”Wann öffnet <der Laden>?” Der automatisierte Assistent 120 (”AA” in 6) führt z. B. über das Handlungsmodul 132 oder eine weitere Komponente eine oder mehrere Suchen nach Informationen bezüglich der Öffnungszeiten des Ladens aus und antwortet ”<Der Laden> öffnet um 10:00 Uhr.” An diesem Punkt hat der automatisierte Assistent 120 auf die einzige in der aktuellen Mensch-Computer-Dialogsitzung durch den Anwender bereitgestellte Eingabe in natürlicher Sprache geantwortet. Für dieses Beispiel wird jedoch angenommen, dass der Anwender vor kurzem die Client-Vorrichtung 606 oder eine weitere Client-Vorrichtung in einem Ökosystem der Client-Vorrichtungen, das außerdem die Client-Vorrichtung 606 enthält, betrieben hat, um nach Flugtickets nach New York zu suchen. Der Anwender könnte diese Suche über die Beteiligung an einer oder mehreren Mensch-Computer-Dialogsitzungen mit dem automatisierten Assistenten 120, über einen Web-Browser oder irgendeine Kombination daraus ausgeführt haben.
Basierend auf dieser früheren Suchaktivität kann der automatisierte Assistent 120 in einigen Implementierungen (z. B. über das proaktive Inhaltsmodul 136) – periodisch/kontinuierlich oder in Reaktion auf das Bestimmen, dass der automatisierte Assistent 120 auf alle in der aktuellen Mensch-Computer-Dialogsitzung empfangenen Eingaben in natürlicher Sprache geantwortet hat – eine oder mehrerer Online-Quellen nach Informationen, die für diese Suche relevant sind und folglich potentiell von Interesse für den Anwender sind, durchsuchen. Der automatisierte Assistent 120 kann dann den folgenden nicht angeforderten Inhalt in die in 6 dargestellte Mensch-Computer-Dialogsitzung proaktiv aufnehmen: ”Haben Sie schon die Tickets nach New York gekauft? Ich habe ein Schnäppchen für einen Direktflug und ein Hotel gefunden.” Dann kann der automatisierte Assistent 120 (z. B. über das proaktive Inhaltsmodul 136) den zusätzlichen nicht angeforderten Inhalt in der Form eines Anwenderschnittstellenelements (z. B. eines tiefen Links) 646, das durch den Anwender auswählbar ist, um eine in der Client-Vorrichtung 606 installierte Reiseanwendung zu öffnen, in den Mensch-Computer-Dialog aufnehmen. Falls das Anwenderschnittstellenelement 646 ausgewählt wird, kann sich die Reiseanwendung in einem vorgegebenen Zustand öffnen, z. B. mit einer bereits im Voraus gefüllten Eingabe über das Buchen des Flugs nach New York, so dass der Anwender die im Voraus gefüllten Informationen bearbeiten kann und/oder relativ wenige zusätzliche Eingabebefehle ausgeben kann, um das Ticket zu kaufen. Es könnte ebenso anderer nicht angeforderter Inhalt als auswählbare Optionen dargestellt werden, wie z. B. ein oder mehrere Hyperlinks 648 zu Web-Seiten, z. B. zum Buchen des Tickets oder für allgemeine Informationen über das Ziel.
Während das Anwenderschnittstellenelement 646 in 6 ein visuelles Element ist, das durch Antippen, oder indem es anderweitig berührt wird, ausgewählt werden kann, ist dies nicht als einschränkend gemeint. Ein ähnlicher Mensch-Computer-Dialog wie der, der in 6 dargestellt ist, könnte hörbar zwischen einem Anwender und einer Audioausgabevorrichtung (z. B. dem in den vorhergehenden Figuren dargestellten selbstständigen interaktiven Lautsprecher) stattfinden. In einigen derartigen Implementierungen kann das Anwenderschnittstellenelement stattdessen die Form einer hörbaren Aufforderung, wie z. B. einer Frage oder einer Option, annehmen, die ”ausgewählt” werden kann, falls sie durch den Anwender bejahend beantwortet wird. Der automatisierte Assistent 120 kann z. B. anstelle des Darstellens des visuellen Anwenderschnittstellenelements 646 etwas wie ”Teilen Sie mir mit, falls Sie es wünschen, dass ich <die Reiseanwendung> öffne, so dass Sie Ihr Ticket nach New York buchen können” hörbar ausgeben. In einigen Implementierungen kann die Reiseanwendung selbst ihren eigenen automatisierten Assistenten enthalten, der angepasst ist, um sich an einem Mensch-Computer-Dialog mit den Anwendern zu beteiligen, um Reisearrangements zu buchen. In einigen derartigen Implementierungen kann der Anwender zu dem für die Reiseanwendung spezifischen automatisierten Assistenten ”weitergegeben” werden. In anderen Implementierungen kann der automatisierte Assistent 120 verschiedene Informationen und Zustände, die einer Reiseanwendung zugeordnet sind, verwenden, um eine Ausgabe in natürlicher Sprache zu formulieren, die von dem Anwender Informationen anfordert, die benötigt werden, um ein Ticket unter Verwendung der Reiseanwendung zu buchen. Der automatisierte Assistent 120 kann dann im Auftrag des Anwenders (z. B. in Reaktion auf durch den Anwender bereitgestellte gesprochene Eingaben in natürlicher Sprache) mit der Reiseanwendung in Wechselwirkung treten.
7 stellt abermals sowohl die Client-Vorrichtung 606 mit dem Berührungsschirm 640 und dem Anwendereingabefeld 644 als auch die Mitschrift 742 einer Mensch-Computer-Dialogsitzung dar. In diesem Beispiel beginnt der Anwender (”Sie”) den Mensch-Computer-Dialog durch das Tippen und/oder Sprechen (das erkannt und in Text umgesetzt werden kann) der Eingabe in natürlicher Sprache ”Guten Morgen.” Der automatisierte Assistent 120 (”AA”) antwortet ”Guten Morgen.” An diesem Punkt gibt es keine weiteren ausstehenden Anforderungen in natürlicher Sprache von dem Anwender, die erfüllt werden müssen. Entsprechend bestimmt der automatisierte Assistent 120 unter Verwendung der hier beschriebenen Techniken – z. B. aus einem Kalender, der dem Anwender zugeordnet ist, aus einer Korrespondenz (z. B. E-Mails, Textnachrichten), die mit anderen Anwendern ausgetauscht wurde, von einer in der Client-Vorrichtung 6060 installierten Restaurantanwendung usw. – dass der Anwender an diesem Abend eine Reservierung im <Restaurant> hat. Entsprechend nimmt der automatisierte Assistent 120 die folgende Aussage: ”Vergessen Sie nicht, dass Sie heute Abend Reservierungen im <Restaurant> haben” proaktiv in den Mensch-Computer-Dialog auf. Dann nimmt der automatisierte Assistent 120 ein Anwenderschnittstellenelement 746, das durch den Anwender auswählbar ist, um die Restaurantanwendung (”Meine Reservierungen”) in einem Zustand zu öffnen, in dem der Anwender die Reservierung betrachten und/oder bearbeiten/stornieren kann, proaktiv auf. Zusätzlich nimmt der automatisierte Assistent 120 anderen Inhalt von potentiellem Interesse für den Anwender, wie z. B. die Hyperlinks 748 zu einer Website, die der Reservierung und/oder Attraktionen in der Nähe des Restaurants zugeordnet ist, proaktiv auf. In einigen Implementierungen kann, sobald der Anwender an dem Restaurant ankommt, anderer nicht angeforderter Inhalt, wie z. B. vorher in dem Restaurant (durch die Anwender und/oder durch andere) aufgenommene Bilder, Kritiken, Empfehlungen, die Tageskarte usw., durch den automatisierten Assistenten 120 in dieselbe Mensch-Computer-Dialogsitzung oder eine neue Mensch-Computer-Dialogsitzung aufgenommen werden.
Die oben beschriebenen Beispiele des proaktiv aufgenommenen nicht angeforderten Inhalts sind nicht als einschränkend gemeint. Es kann anderer nicht angeforderter Inhalt von potentiellem Interesse für die Anwender unter Verwendung der hier beschriebenen Techniken proaktiv in die Mensch-Computer-Dialoge aufgenommen werden. In einigen Implementierungen, in denen ein Anwender einen bevorstehenden geplanten Flug (oder eine bevorstehende Abfahrt eines Zuges oder ein anderes Reisearrangement) hat, kann der automatisierte Assistent 120 den nicht angeforderten Inhalt in eine Mensch-Computer-Dialogsitzung mit dem Anwender proaktiv aufnehmen. Dieser nicht angeforderte Inhalt kann z. B. eine Erinnerung, das der Flug des Anwenders bevorstehend ist, ein oder mehrere Anwenderschnittstellenelemente, die (durch eine Berührung, Sprache, eine Geste usw.) auswählbar sind, um eine Anwendung zu öffnen, die es dem Anwender ermöglicht, den geplanten Flug zu betrachten oder zu bearbeiten, Informationen über die Fahrzeit bis zum Flughafen (oder auswählbare Anwenderschnittstellenelemente, die zu der Fahrzeit bis zum Flughafen verlinken) usw. enthalten. Falls der automatisierte Assistent 120 (z. B. basierend auf dem Plan des Anwenders, einem Positionskoordinatensensor usw.) bestimmt, dass der Flug des Anwenders an seinem Ziel gelandet ist, kann der automatisierte Assistent 120 alternativ verschiedene Informationen und/oder Anwenderschnittstellenelemente, die für den Anwender von Interesse sein könnten, wie z. B. Informationen/Anwenderschnittstellenelemente, die auf das Anrufen eines Taxidienstes (oder das Starten einer Fahrgemeinschaftsanwendung), das Erhalten von Führungen zu einem Hotel oder anderen Attraktionen, Restaurants in der Nähe usw. bezogen sind, in eine neue oder vorher vorhandene Mensch-Computer-Dialogsitzung proaktiv aufnehmen.
Als ein weiteres Beispiel kann der automatisierte Assistent 120 bestimmen, dass an einer oder mehreren durch einen Anwender betriebenen Computervorrichtungen (die in einigen Fällen ein Teil eines koordinierten Ökosystems von Computervorrichtungen, das dem Anwender zugeordnet ist, sein können) Änderungen vorgenommen worden sind. Der automatisierte Assistent 120 kann z. B. bestimmen, dass seit der letzten Mensch-Computer-Dialogsitzung mit dem Anwender eine oder mehrere Anwendungen (einschließlich des automatisierten Assistenten 120 selbst), die in einer oder mehreren dem Anwender zugeordneten Client-Vorrichtungen installiert sind, aktualisiert worden sind. Weil der Anwender potentiell daran interessiert sein kann, über derartige Aktualisierungen informiert zu sein, kann der automatisierte Assistent einen nicht angeforderten Inhalt in einen Mensch-Computer-Dialog, wie z. B. ”Willkommen zurück. Während Sie fort waren, habe ich gelernt, ein Taxi zu rufen. Sagen sie mir nur, wann immer Sie eines benötigen” aufnehmen.
Als ein noch weiteres Beispiel kann der automatisierte Assistent 120 in einigen Implementierungen zu speziellen Zeitpunkten verschiedene Stücke von Informationen bestimmen, die für einen Anwender potentiell von Interesse sein können (z. B. in Abhängigkeit von einem oder mehreren Themen, die für den Anwender von allgemeinem Interesse sind, der Surf-Historie des Anwenders usw.), wobei er nicht angeforderten Inhalt, der mit diesen Stücken von Informationen in Beziehung steht, in eine Mensch-Computer-Dialogsitzung mit dem Anwender proaktiv aufnehmen kann. Es wird z. B. angenommen, dass ein spezieller Anwender an Geschichte und Elektronik interessiert ist. In verschiedenen Implementierungen kann der automatisierte Assistent 120, wenn der automatisierte Assistent 120 bestimmt, dass er während einer vorhandenen Mensch-Computer-Dialogsitzung auf alle von dem Anwender empfangenen Eingaben in natürlicher Sprache geantwortet hat, Informationen von potentiellem Interesse für den Anwender, die z. B. für den aktuellen Tag relevant sind, proaktiv aufnehmen. An Nicola Teslas Geburtstag kann dem an Geschichte und Elektronik interessierten Anwender z. B. ein Anwenderschnittstellenelement dargestellt werden, das durch den Anwender auswählbar ist, um eine Anwendung oder eine Web-Seite zu öffnen, die für Tesla relevant ist. Als ein weiteres Beispiel wird angenommen, dass heute der Hochzeitstag eines Anwenders ist. Der automatisierte Assistent kann graphische Elemente oder andere Informationen, die wahrscheinlich für den Anwender an dem Jahrestag von Interesse sein würden, wie z. B. Links zu Blumen-Websites, Restaurants usw., in eine vorhandene Mensch-Computer-Dialogsitzung proaktiv aufnehmen.
Als ein noch weiteres Beispiel kann in einigen Implementierungen ein Ort eines Anwenders (der z. B. durch einen Positionskoordinatensensor einer durch den Anwender getragenen Computervorrichtung bestimmt wird) den automatisierten Assistenten 120 auffordern, nicht angeforderten Inhalt in eine Mensch-Computer-Dialogsitzung mit dem Anwender proaktiv aufzunehmen. Es wird z. B. angenommen, dass sich der Anwender in einem oder in der Nähe eines Lebensmittelladens befindet. Der automatisierte Assistent 120 kann z. B. basierend auf einem oder mehreren dem Anwender zugeordneten Einkaufszetteln (die z. B. lokal in einer Client-Vorrichtung gespeichert oder cloud-basiert sind) bestimmen, dass es Artikel gibt, die der Anwender vermutlich in dem Lebensmittelladen erwirbt. Der automatisierte Assistent 120 kann dann nicht angeforderten Inhalt in einen Mensch-Computer-Dialog mit dem Anwender proaktiv aufnehmen, wobei der nicht angeforderte Inhalt die benötigten Artikel, Informationen über die Artikel, für die Artikel verfügbare Schnäppchen usw. enthält.
Als ein noch weiteres Beispiel können die häufig durch einen Anwender angeforderten Informationen oder Handlungen als nicht angeforderter Inhalt in eine Mensch-Computer-Dialogsitzung proaktiv aufgenommen werden. Es wird z. B. angenommen, dass ein Anwender mit dem automatisierten Assistenten 120 über verschiedene Themen spricht und dass sich die Zeit einem typischen Zeitpunkt nähert, zu dem der Anwender die Hauptmahlzeit einnimmt. In einigen Implementierungen kann der automatisierte Assistent 120 nicht angeforderten Inhalt bezüglich des Essens, wie z. B. ein Anwenderschnittstellenelement, das durch den Anwender auswählbar ist, um eine Pizza zu bestellen, ein Rezept (von einem lokalen Speicher oder von einer häufig besuchten Rezept-Web-Seite usw.) zu öffnen usw., in die vorhandene Mensch-Computer-Dialogsitzung aufnehmen. In anderen Implementierungen kann der nicht angeforderte Inhalt, der in eine vorhandene Mensch-Computer-Dialogsitzung aufgenommen werden kann, laufende Nachrichtenbeiträge, laufende Suchen, aktualisierte Suchergebnisse für die vorher durch den Anwender ausgegebenen Suchabfragen usw. enthalten, ist aber nicht darauf eingeschränkt.
Selbstverständlich kann der Anwender nicht immer nicht angeforderten Inhalt wünschen. Ein Anwender kann z. B. in dichtem Verkehr fahren, kann sich in einer Notfallsituation befinden, kann an einer Computervorrichtung in einer Weise arbeiten, die nahelegt, dass der Anwender es nicht wünschen würde, nicht angeforderten Inhalt (z. B. in einem Videoanruf) zu empfangen usw. Entsprechend kann der automatisierte Assistent 120 in einigen Implementierungen konfiguriert sein, um (z. B. basierend auf Signalen, wie z. B. einem Ortsignal, dem Kontext eines Gesprächs, den Zuständen einer oder mehrerer Anwendungen, einem Beschleunigungsmessersignal usw.) ein Maß der Erwünschtheit durch den Anwender, um nicht angeforderten Inhalt zu empfangen, zu bestimmen, wobei er nur nicht angeforderten Inhalt bereitstellen kann, falls dieses Maß einem oder mehreren Schwellenwerten entspricht.
Ähnlich kann in einigen Implementierungen der automatisierte Assistent 120 während spezieller Zeiträume nicht angeforderten Inhalt (als Teil einer neuen oder einer vorhandenen Mensch-Computer-Dialogsitzung) bereitstellen. Falls z. B. ein Anwender innerhalb der Hörweite einer Client-Vorrichtung, die einen automatisierten Assistenten 120 betreibt, zwischen den Stunden von 7:00 Uhr bis 8:00 Uhr detektiert wird, kann der automatisierte Assistent 120 automatisch eine nicht angeforderte Begrüßung, wie z. B. ”Guten Morgen”, ”Vergessen Sie nicht Ihren Schirm, weil es regnet”, ”Es gibt dichten Verkehr auf der 405”, ”Hier sind die heutigen Schlagzeilen ...”, ”Hier ist Ihr Plan für heute ...” usw. automatisch ausgeben.
Als ein weiteres Beispiel kann der automatisierte Assistent 120 in einigen Implementierungen die Aktivität mehrerer Anwender zu einem speziellen Zeitpunkt und/oder an einem speziellen Ort berücksichtigen, um zu bestimmen, dass ein spezieller Anwender wahrscheinlich nicht angeforderten Inhalt positiv aufnimmt. In verschiedenen Implementierungen kann der automatisierte Assistent 120 die Suchabfragen von mehreren Anwendern analysieren, um Spitzen, Trends und/oder andere Muster in den Suchen zu identifizieren, die einem speziellen Ort, einer speziellen Tageszeit usw. zugeordnet sein können. Es wird z. B. angenommen, dass viele Anwender, die ein Wahrzeichen besuchen, ähnliche Web-Suchen in ihren Mobilvorrichtungen ausführen, wie z. B. ”Wie viele Stockwerke hat es”, ”Wann wurde es gebaut”, ”Wie alt ist es” usw. Nach dem Detektieren eines Musters oder eines Trends, der unter diesen Suchen offensichtlich ist, kann ein automatisierter Assistent 120 nicht angeforderten Inhalt einem neuen Anwender proaktiv bereitstellen, wenn sie an dem Wahrzeichen ankommen.
8 ist ein Ablaufplan, der ein beispielhaftes Verfahren 800 gemäß den hier offenbarten Implementierungen veranschaulicht. Für die Zweckmäßigkeit werden die Operationen des Ablaufplans bezüglich eines Systems, das die Operationen ausführt, beschrieben. Dieses System kann verschiedene Komponenten verschiedener Computersysteme, wie z. B. eine oder mehrere Komponenten des automatisierten Assistenten 120, enthalten. Während die Operationen des Verfahrens 800 in einer speziellen Reihenfolge gezeigt sind, ist dies überdies nicht als einschränkend gemeint. Eine oder mehrere Operationen können umgeordnet, weggelassen oder hinzugefügt werden.
Im Block 802 kann das System bestimmen, dass in einer vorhandenen Mensch-Computer-Dialogsitzung zwischen einem Anwender und einem automatisierten Assistenten der automatisierte Assistent auf alle während der Mensch-Computer-Dialogsitzung von dem Anwender empfangenen Eingaben in natürlicher Sprache geantwortet hat. In einigen Implementierungen kann dies das Warten enthalten, bis irgendein vorgegebenes Zeitintervall nach dem Antworten auf alle Eingaben in natürlicher Sprache vergangen ist, obwohl dies nicht erforderlich ist.
In einigen Implementierungen kann das System nur in Reaktion auf eine weitere Bestimmung im Block 804, dass der Anwender wahrscheinlich nicht angeforderten Inhalt (d. h., wie er durch das obenerwähnte ”Erwünschtheitsmaß” repräsentiert sein kann) wünschen würde, fortfahren, um eine oder mehrere der Operationen 806–810 auszuführen. Diese weitere Bestimmung kann basierend auf verschiedenen Quellen, wie z. B. dem Gesprächskontext der Mensch-Computer-Dialogsitzung, dem Kontext des Anwenders, der aus einem Signal(en), das (die) von der Mensch-Computer-Dialogsitzung unabhängig ist (sind), (z. B. Ortssignalen, Beschleunigungsmessersignalen usw.) bestimmt wird, oder einer Kombination daraus ausgeführt werden. Falls z. B. basierend auf einem Beschleunigungsmesser- und/oder Positionskoordinatensensorsignal eines Anwenders bestimmt wird, dass der Anwender gegenwärtig fährt (z. B. nachdem der Anwender nach einer Verkehrsaktualisierung oder Verkehrsführungen gefragt hat), kann das System bestimmen, dass der Anwender es wahrscheinlich nicht wünschen würde, durch nicht angeforderten Inhalt abgelenkt zu werden. Als ein weiteres Beispiel kann der Kontext der Mensch-Computer-Dialogsitzung nahelegen, dass es ein Anwender nicht wünschen würde, mit nicht angefordertem Inhalt abgelenkt zu werden. Falls ein Anwender z. B. einen automatisierten Assistenten nach dem Ort der nächsten Notaufnahme fragt oder nach der Behandlung einer Verletzung fragt, kann das bestimmte Erwünschtheitsmaß relativ tief sein (z. B. einem Schwellenwert nicht entsprechen), wobei der automatisierte Assistent das Bereitstellen nicht angeforderten Inhalts als eine Fortsetzung der angeforderten Informationen unterlassen kann. Falls als ein noch weiteres Beispiel der Anwender den automatisierten Assistenten auffordert, irgendeine Handlung auszulösen (z. B. einen Videoanruf einzuleiten, einen Telephonanruf einzuleiten, einen Film abzuspielen usw.), die wahrscheinlich etwas Zeit erfordert, um abgeschlossen zu werden, und die die Aufmerksamkeit des Anwenders erfordert, dann würde der Anwender wahrscheinlich nicht wünschen, durch zusätzlichen nicht angeforderten Inhalt abgelenkt zu werden.
Im Block 806 kann das System basierend auf einer oder mehreren Eigenschaften des Anwenders die Informationen von potentiellem Interesse für den Anwender oder eine oder mehrere Handlungen von potentiellem Interesse für den Anwender identifizieren. Wie oben angegeben worden ist, kann die Operation des Blocks 806 in Reaktion auf die Bestimmungen des Blocks 802–804 ausgeführt werden oder kann auf einer permanenten Grundlage ausgeführt werden, so dass der automatisierte Assistent ”vorbereitet” ist, um zu irgendeinem gegebenen Zeitpunkt nicht angeforderten Inhalt bereitzustellen. In verschiedenen Implementierungen kann der automatisierte Assistent die Informationen oder die Handlung(en) von potentiellem Interesse für den Anwender basierend auf verschiedenen Quellen, einschließlich der Suchhistorie des Anwenders, der Surf-Historie, der Historie des Mensch-Computer-Dialogs (einschließlich derselben Sitzung und/oder vorheriger Sitzungen an derselben oder anderen Client-Vorrichtungen), des Ortes des Anwenders (der z. B. aus einem Plan des Anwenders, dem Status eines sozialen Netzes (z. B. dem Anmelden), einem Positionskoordinatensensor usw. bestimmt wird), eines Plans/Kalenders, allgemeiner Themen von Interesse für den Anwender (die manuell durch den Anwender festgelegt werden können und/oder basierend auf der Aktivität des Anwenders erlernt werden können) usw., identifizieren.
Im Block 808 kann das System nicht angeforderten Inhalt erzeugen, der die Informationen von potentiellem Interesse für den Anwender oder die eine oder die mehreren Handlungen von potentiellem Interesse angibt. Dieser nicht angeforderte Inhalt kann z. B. eine Ausgabe in natürlicher Sprache, die die Informationen von potentiellem Interesse für den Anwender in einem Format in natürlicher Sprache (z. B. in einer hörbaren Ausgabe oder in visueller Form) bereitstellt, (graphische oder hörbare) Anwenderschnittstellenelemente, die durch den Anwender auswählbar sind, um zusätzliche Informationen zu erhalten und/oder eine oder mehrere Aufgaben auszulösen (z. B. eine Erinnerung festzulegen, einen Kalendereintrag zu erzeugen, eine Reservierung zu erzeugen, eine Anwendung in einem vorgegebenen Zustand zu öffnen usw.) usw. enthalten.
Im Block 810 kann das System den im Block 808 erzeugten nicht angeforderten Inhalt in die vorhandene Mensch-Computer-Dialogsitzung aufnehmen. Der nicht angeforderte Inhalt kann z. B. als eine Ausgabe in natürlicher Sprache von dem automatisierten Assistenten, Anwenderschnittstellenelemente, wie z. B. Karten, Hyperlinks, hörbare Aufforderungen usw., usw. dargestellt werden. Das Aufnehmen des nicht angeforderten Inhalts in einen vorhandenen Mensch-Computer-Dialog unterscheidet sich z. B. von dem einfachen Auftauchen von Informationen für einen Anwender (wie z. B. als eine Karte auf einem Sperrbildschirm oder ein Pull-down-Menü). Der Anwender ist bereits an einer Mensch-Computer-Dialogsitzung mit dem automatisierten Assistenten beteiligt, wobei deshalb der nicht angeforderte Inhalt wahrscheinlicher durch den Anwender gesehen/gehört werden kann und wahrscheinlicher auf den nicht angeforderten Inhalt eingewirkt werden kann, als wenn der Inhalt einfach für den Anwender auf einem Sperrbildschirm (den der Anwender oft ignorieren kann und/oder der den Anwender mit zu vielen Benachrichtigungen überfluten kann) auftaucht.
9 ist ein Ablaufplan, der ein beispielhaftes Verfahren 900 gemäß den hier offenbarten Implementierungen veranschaulicht. Für die Zweckmäßigkeit werden die Operationen des Ablaufplans bezüglich eines Systems, das die Operationen ausführt, beschrieben. Dieses System kann verschiedene Komponenten verschiedener Computersysteme, wie z. B. eine oder mehrere Komponenten des automatisierten Assistenten 120, enthalten. Während die Operationen des Verfahrens 900 in einer speziellen Reihenfolge gezeigt sind, ist dies überdies nicht als einschränkend gemeint. Eine oder mehrere Operationen können umgeordnet, weggelassen oder hinzugefügt werden.
Im Block 902 kann das System basierend auf einem oder mehreren Signalen bestimmen, dass sich ein Anwender innerhalb der Hörweite einer oder mehrerer Audioausgabevorrichtungen (z. B. eines oder mehrerer Lautsprecher, die betriebstechnisch mit einer Computervorrichtung gekoppelt sind, die eine Instanz eines automatisierten Assistenten ausführt, eines selbständigen interaktiven Lautsprechers, der eine Instanz eines automatisierten Assistenten ausführt, usw.) befindet. Diese Signale können verschiedene Formen annehmen. In einigen Implementierungen können das eine oder die mehreren Signale durch eine durch einen Anwender betriebene Computervorrichtung ausgelöst werden, die von dem System verschieden ist, wobei sie an einer oder mehreren Kommunikationsschnittstellen empfangen werden, die betriebstechnisch mit dem einen oder den mehreren Prozessoren gekoppelt sind. Eine Computervorrichtung könnte z. B. eine Benachrichtigung zu anderen Computervorrichtungen schieben, dass der Anwender mit einer speziellen Aktivität, wie z. B. Fahren, dem Betreiben einer speziellen Anwendung (z. B. um Musik oder einen Film wiederzugeben) usw., beschäftigt ist. In einigen Implementierungen können das eine oder die mehreren Signale eine Detektion des gemeinsamen Vorhandenseins des Systems und der Computervorrichtung enthalten. In einigen Implementierungen können das eine oder die mehreren Signale eine Angabe eines Zustands einer Anwendung, die in der Computervorrichtung ausgeführt wird, die von dem System getrennt ist, enthalten, wie z. B. dass ein Anwender ein Dokument vorbereitet, verschiedene Suchen ausführt, Medien wiedergibt, Photographien betrachtet, an einem Telephon-/Videoanruf beteiligt ist usw. In einigen Implementierungen kann der Mensch-Computer-Dialog in Reaktion auf die Bestimmung begonnen werden, dass sich der Anwender innerhalb der Hörweite der einen oder der mehreren Audioausgabevorrichtungen befindet, obwohl dies nicht erforderlich ist. Die Blöcke 904–908 nach 9 können zu den Blöcken 804–808 nach 8 ähnlich sein. Während dies in 9 nicht dargestellt ist, kann der automatisierte Assistent in verschiedenen Implementierungen bestimmen, ob der Anwender wahrscheinlich nicht angeforderten Inhalt wünscht, bevor er bereitgestellt wird, wie oben bezüglich des Blocks 804 beschrieben worden ist.
10 ist ein Blockschaltplan einer beispielhaften Computervorrichtung 1010, die optional verwendet werden kann, um einen oder mehrere Aspekte der hier beschriebenen Techniken auszuführen. In einigen Implementierungen können eine oder mehrere einer Client-Computervorrichtung, des automatisierten Assistenten 120 und/oder einer anderen Komponente(n) eine oder mehrere Komponenten der beispielhaften Computervorrichtung 1010 umfassen.
Die Computervorrichtung 1010 enthält typischerweise wenigstens einen Prozessor 1014, der über ein Bus-Teilsystem 1012 mit einer Anzahl Peripherievorrichtungen kommuniziert. Diese Peripherievorrichtungen können ein Speicher-Teilsystem 1024, das z. B. ein Datenspeicher-Teilsystem 1025 und ein Dateispeicher-Teilsystem 1026 enthält, die Ausgabevorrichtungen 1020 der Anwenderschnittstelle, die Eingabevorrichtungen 1022 der Anwenderschnittstelle und ein Netzschnittstellen-Teilsystem 1016 enthalten. Die Eingabe- und Ausgabevorrichtungen ermöglichen eine Anwenderwechselwirkung mit der Computervorrichtung 1010. Das Netzschnittstellen-Teilsystem 1016 schafft eine Schnittstelle zu äußeren Netzen und ist an entsprechende Schnittstellenvorrichtungen in anderen Computervorrichtungen gekoppelt.
Die Eingabevorrichtungen 1022 der Anwenderschnittstelle können eine Tastatur, Zeigevorrichtungen, wie z. B. eine Maus, eine Rollkugel, ein Tastfeld, ein Graphiktablett, einen Scanner, einen in die Anzeige aufgenommenen Berührungsschirm, Audioeingabevorrichtungen, wie z. B. ein Spracherkennungssystem, Mikrophone und/oder andere Typen von Eingabevorrichtungen, enthalten. Im Allgemeinen ist vorgesehen, dass die Verwendung des Begriffs ”Eingabevorrichtung” alle möglichen Typen von Vorrichtungen und Arten, um Informationen in die Computervorrichtung 1010 oder in ein Kommunikationsnetz einzugeben, enthält.
Die Ausgabevorrichtungen 1020 der Anwenderschnittstelle können ein Anzeige-Teilsystem, einen Drucker, ein Faxgerät oder nicht visuelle Anzeigen, wie z. B. Audioausgabevorrichtungen, enthalten. Das Anzeige-Teilsystem kann eine Kathodenstrahlröhre (CRT), eine Flachtafelvorrichtung, wie z. B. eine Flüssigkristallanzeige (LCD), eine Projektionsvorrichtung oder irgendeinen anderen Mechanismus zum Erzeugen eines sichtbaren Bildes enthalten. Das Anzeige-Teilsystem kann außerdem eine nicht visuelle Anzeige, wie z. B. über Audioausgabevorrichtungen, bereitstellen. Im Allgemeinen ist vorgesehen, dass die Verwendung des Begriffs ”Ausgabevorrichtung” alle möglichen Typen von Vorrichtungen und Arten, um Informationen von der Computervorrichtung 1010 zu dem Anwender oder zu einer weiteren Maschine oder Computervorrichtung auszugeben, enthält.
Das Speicher-Teilsystem 1024 speichert Programmierungs- und Datenkonstrukte, die die Funktionalität einiger oder aller der hier beschriebenen Module bereitstellen. Das Speicher-Teilsystem 1024 kann z. B. die Logik enthalten, um sowohl ausgewählte Aspekte der Verfahren nach den 8 und 9 auszuführen als auch um verschiedene in 1 dargestellten Komponenten zu implementieren.
Diese Software-Module werden im Allgemeinen durch den Prozessor 1014 allein oder in Kombination mit anderen Prozessoren ausgeführt. Der in dem Speicher-Teilsystem 1024 verwendete Datenspeicher 1025 kann eine Anzahl von Speichern, einschließlich eines Schreib-Lese-Hauptspeichers (RAM) 1030 zur Speicherung von Anweisungen und Daten während der Programmausführung und eines Festwertspeichers (ROM) 1032, in dem feste Anweisungen gespeichert sind, enthalten. Ein Dateispeicher-Teilsystem 1026 kann einen beständigen Speicher für Programm- und Datendateien bereitstellen und kann ein Festplattenlaufwerk, ein Diskettenlaufwerk zusammen mit zugeordneten abnehmbaren Medien, ein CD-ROM-Laufwerk, ein optisches Laufwerk oder abnehmbare Medienkassetten enthalten. Die Module, die die Funktionalität bestimmter Implementierungen implementieren, können durch das Dateispeicher-Teilsystem 1026 in dem Speicher-Teilsystem 1024 oder in anderen durch den Prozessor (die Prozessoren) 1014 zugänglichen Maschinen gespeichert sein.
Das-Teilsystem 1012 schafft einen Mechanismus, um die verschiedenen Komponenten und Teilsysteme der Computervorrichtung 1010 miteinander kommunizieren zu lassen, wie es vorgesehen ist. Obwohl das Bus-Teilsystem 1012 schematisch als ein einziger Bus gezeigt ist, kann in alternativen Implementierungen das Bus-Teilsystem mehrere Busse verwenden.
Die Computervorrichtung 1010 kann von verschiedenen Typen einschließlich eines Arbeitsplatzrechners, eines Servers, eines Computer-Clusters, eines Blade-Servers, einer Server-Farm oder irgendeines anderen Datenverarbeitungssystems oder irgendeiner anderen Computervorrichtung sein. Aufgrund der sich ständig verändernden Art der Computer und Netze ist die Beschreibung der in 10 dargestellten Computervorrichtung 1010 lediglich als ein spezifisches Beispiel für die Zwecke des Veranschaulichens einiger Implementierungen vorgesehen. Es sind viele andere Konfigurationen der Computervorrichtung 1010 möglich, die mehr oder weniger Komponenten als die in 10 dargestellte Computervorrichtung aufweisen.
In den Situationen, in denen bestimmte hier erörterte Implementierungen persönliche Informationen über die Anwender (z. B. aus anderen elektronischen Kommunikationen extrahierte Anwenderdaten, Informationen über ein soziales Netz des Anwenders, einen Ort des Anwenders, eine Zeit des Anwenders, biometrische Informationen des Anwenders und die Aktivitäten und demographischen Informationen des Anwenders, die Beziehungen zwischen Anwendern usw.) sammeln oder verwenden können, werden die Anwender mit einer oder mehreren Gelegenheiten versehen, um zu steuern, ob die Informationen gesammelt werden, ob die persönlichen Informationen gespeichert werden, ob die persönlichen Informationen verwendet werden und wie die Informationen über den Anwender gesammelt, gespeichert und verwendet werden. Das heißt, die hier erörterten Systeme und Verfahren sammeln, speichern und/oder verwenden die persönlichen Informationen des Anwenders nur beim Empfangen einer expliziten Autorisierung von den relevanten Anwendern, dies zu tun.
Ein Anwender wird z. B. mit der Steuerung darüber versehen, ob die Programme oder Merkmale Anwenderinformationen über diesen speziellen Anwender oder andere Anwender, die für das Programm oder das Merkmal relevant sind, sammeln. Jedem Anwender, für den persönliche Informationen gesammelt werden sollen, werden eine oder mehrere Optionen, um eine Steuerung über die für diesen Anwender relevante Informationssammlung zu erlauben, geboten, um eine Erlaubnis oder Autorisierung bezüglich dessen, ob die Informationen gesammelt werden, und bezüglich dessen, welche Abschnitte der Informationen gesammelt werden sollen, bereitzustellen. Die Anwender können z. B. mit einer oder mehreren derartigen Steueroptionen über ein Kommunikationsnetz versehen werden. Zusätzlich können bestimmte Daten in einer oder mehreren Weisen behandelt werden, bevor sie gespeichert oder verwendet werden, so dass die persönlich identifizierbaren Informationen entfernt sind. Als ein weiteres Beispiel kann die Identität eines Anwenders behandelt werden, so dass keine persönlich identifizierbaren Informationen bestimmt werden können. Als ein weiteres Beispiel kann der geographische Ort eines Anwenders auf einen größeren Bereich verallgemeinert werden, so dass der spezielle Ort des Anwenders nicht bestimmt werden kann. Im Kontext der vorliegenden Offenbarung können irgendwelche durch das System erfassten Beziehungen, wie z. B. eine Eltern-Kind-Beziehung, in einer sicheren Weise aufrechterhalten werden, so dass sie z. B. unter Verwendung dieser Beziehungen, um eine Eingabe in natürlicher Sprache zu parsen und/oder zu interpretieren, von außerhalb des automatisierten Assistenten nicht zugänglich sind.
Es werden Vorrichtungen und computerlesbare Medien bezüglich automatisierter Assistenten beschrieben, die nicht angeforderten Inhalt von potentiellem Interesse für einen Anwender in Mensch-Computer-Dialogsitzungen proaktiv aufnehmen. In verschiedenen Implementierungen kann in einer vorhandenen Mensch-Computer-Dialogsitzung zwischen einem Anwender und einem automatisierten Assistenten bestimmt werden, dass der automatisierte Assistent auf alle von dem Anwender empfangenen Eingaben in natürlicher Sprache geantwortet hat. Basierend auf der Eigenschaft (den Eigenschaften) des Anwenders können die Informationen von potentiellem Interesse für den Anwender oder die Handlung(en) von potentiellem Interesse für den Anwender identifiziert werden. Der nicht angeforderte Inhalt, der die Informationen von potentiellem Interesse für den Anwender oder die Handlung(en) angibt, kann durch den automatisierten Assistenten erzeugt und in die vorhandene Mensch-Computer-Dialogsitzung aufgenommen werden. In verschiedenen Implementierungen kann die Aufnahme in Reaktion auf das Bestimmen ausgeführt werden, das der automatisierte Assistent auf alle während der Mensch-Computer-Dialogsitzung von dem Anwender empfangenen Eingaben in natürlicher Sprache geantwortet hat.
Zusätzlich zu den oben beschriebenen Vorteilen wird erkannt, dass die hier beschriebenen Techniken bewirken können, dass der automatisierte Assistent für den Anwender ”lebensechter” oder ”menschlicher” erscheint, was einen Anreiz für eine vergrößerte Wechselwirkung mit dem automatisierten Assistenten bieten kann.
Während hier mehrere Implementierungen beschrieben und veranschaulicht worden sind, können verschiedene andere Mittel und/oder Strukturen zum Ausführen der Funktion und/oder Erhalten der Ergebnisse und/oder einer oder mehrerer der hier beschriebenen Vorteile verwendet werden, wobei jede der derartigen Variationen und/oder Modifikationen als innerhalb des Schutzumfangs der hier beschriebenen Implementierungen betrachtet wird. Allgemeiner sind alle hier beschriebenen Parameter, Abmessungen, Materialien und Konfigurationen als beispielhaft gemeint, wobei die tatsächlichen Parameter, Abmessungen, Materialien und/oder Konfigurationen von der spezifischen Anwendung oder den spezifischen Anwendungen, für die die Lehren verwendet werden, abhängen. Die Fachleute auf dem Gebiet erkennen unter Verwendung von nicht mehr als Routineexperimenten viele Äquivalente für die hier beschriebenen spezifischen Implementierungen oder können unter Verwendung von nicht mehr als Routineexperimenten viele Äquivalente für die hier beschriebenen spezifischen Implementierungen ermitteln. Es ist deshalb selbstverständlich, dass die vorhergehenden Implementierungen lediglich beispielhaft dargestellt sind und dass innerhalb des Schutzumfangs der beigefügten Ansprüche und ihrer Äquivalente Implementierungen anders praktiziert werden können, als spezifisch beschrieben und beansprucht ist. Die Implementierungen der vorliegenden Offenbarung sind auf jedes einzelne Merkmal, jedes einzelne System, jeden einzelnen Gegenstand, jedes einzelne Material, jede einzelne Ausstattung und/oder jedes einzelne Verfahren, die hier beschrieben sind, gerichtet. Zusätzlich ist jede Kombination aus zwei oder mehr derartigen Merkmalen, Systemen, Gegenständen, Materialien, Ausstattungen und/oder Verfahren, falls derartige Merkmale, Systeme, Gegenstände, Materialien, Ausstattungen und/oder Verfahren nicht wechselseitig inkonsistent sind, innerhalb des Schutzumfangs der vorliegenden Offenbarung enthalten.

Claims

Ein oder mehrere nichttransitorische computerlesbare Speichermedien, die Anweisungen umfassen, die, wenn sie durch eine oder mehrere Computervorrichtungen ausgeführt werden, die eine oder die mehreren Computervorrichtungen veranlassen, Operationen auszuführen, die umfassen: Bestimmen durch einen oder mehrere Prozessoren, dass in einer bestehenden Mensch-Computer-Dialogsitzung zwischen einem Anwender und einem automatisierten Assistenten der automatisierte Assistent auf alle während der Mensch-Computer-Dialogsitzung von dem Anwender empfangenen Eingaben in natürlicher Sprache geantwortet hat; Identifizieren durch einen oder mehrere der Prozessoren basierend auf einer oder mehreren Eigenschaften des Anwenders von Informationen von potentiellem Interesse für den Anwender oder einer oder mehrerer Handlungen von potentiellem Interesse für den Anwender; Erzeugen durch einen oder mehrere der Prozessoren nicht angeforderten Inhalts, der die Informationen von potentiellem Interesse für den Anwender oder die eine oder die mehreren Handlungen von potentiellen Interesse angibt; und Aufnehmen durch den automatisierten Assistenten des nicht angeforderten Inhalts in die vorhandene Mensch-Computer-Dialogsitzung; wobei wenigstens das Aufnehmen in Reaktion auf das Bestimmen ausgeführt wird, dass der automatisierte Assistent auf alle während der Mensch-Computer-Dialogsitzung von dem Anwender empfangenen Eingaben in natürlicher Sprache geantwortet hat.
Ein oder mehrere nichttransitorische computerlesbare Speichermedien nach Anspruch 1, wobei der nicht angeforderte Inhalt nicht angeforderten Inhalt in natürlicher Sprache umfasst.
Ein oder mehrere nichttransitorische computerlesbare Speichermedien nach Anspruch 1 oder Anspruch 2, wobei das Identifizieren wenigstens teilweise auf einem oder mehreren Signalen basiert, die von einer oder mehreren durch den Anwender betriebenen Computervorrichtungen erhalten werden.
Ein oder mehrere nichttransitorische computerlesbare Speichermedien nach Anspruch 3, wobei die eine oder die mehreren durch den Anwender betriebenen Computervorrichtungen eine gegebene Computervorrichtung enthalten, die gegenwärtig durch den Anwender betrieben wird.
Ein oder mehrere nichttransitorische computerlesbare Speichermedien nach Anspruch 3 oder Anspruch 4, wobei das eine oder die mehreren Signale von einer weiteren Computervorrichtung der einen oder der mehreren Computervorrichtungen, die durch den Anwender betrieben werden, empfangen werden, die von der gegebenen Computervorrichtung, die gegenwärtig durch den Anwender betrieben wird, verschieden ist.
Ein oder mehrere nichttransitorische computerlesbare Speichermedien nach Anspruch 5, wobei das eine oder die mehreren Signale eine Angabe eines Zustands einer Anwendung enthalten, die in der weiteren Computervorrichtung ausgeführt wird.
Ein oder mehrere nichttransitorische computerlesbare Speichermedien nach Anspruch 6, wobei die Angabe des Zustands der Anwendung eine Angabe enthält, dass die Anwendung das Bereitstellen einer Medienwiedergabe ist.
Ein oder mehrere nichttransitorische computerlesbare Speichermedien nach Anspruch 6, wobei die Angabe des Zustands der Anwendung eine Angabe enthält, dass die Anwendung eine Suchabfrage von dem Anwender empfangen hat oder die Suchergebnisse dem Anwender bereitgestellt hat.
Ein oder mehrere nichttransitorische computerlesbare Speichermedien nach einem vorhergehenden Anspruch, das ferner das Bestimmen durch einen oder mehrere der Prozessoren eines Erwünschtheitsmaßes umfasst, das den Wunsch des Anwenders angibt, nicht angeforderten Inhalt zu empfangen, wobei das Erwünschtheitsmaß basierend auf einem oder mehreren Signalen bestimmt wird, und wobei wenigstens das Aufnehmen in Reaktion auf eine Bestimmung ausgeführt wird, dass das Erwünschtheitsmaß einem oder mehreren Schwellenwerten entspricht.
Ein oder mehrere nichttransitorische computerlesbare Speichermedien nach einem vorhergehenden Anspruch, wobei der nicht angeforderte Inhalt ein oder mehrere Anwenderschnittstellenelemente enthält, wobei jedes Anwenderschnittstellenelement durch den Anwender auswählbar ist, um den automatisierten Assistenten zu veranlassen, die Informationen von potentiellem Interesse dem Anwender bereitzustellen oder eine oder mehrere der Handlungen von potentiellem Interesse für den Anwender auszulösen.
System, das einen oder mehrere Prozessoren und einen Datenspeicher, der betriebstechnisch mit dem einen oder den mehreren Prozessoren gekoppelt ist, und eine oder mehrerer Audioausgabevorrichtungen, die betriebstechnisch mit dem einen oder den mehreren Prozessoren gekoppelt sind, umfasst, wobei der Datenspeicher Anweisungen speichert, die in Reaktion auf die Ausführung der Anweisungen durch einen oder mehrere Prozessoren den einen oder die mehreren Prozessoren veranlassen, einen automatisierten Assistenten zu betreiben, um: basierend auf einem oder mehreren Signalen zu bestimmen, dass sich ein Anwender innerhalb der Hörweite einer oder mehrerer Audioausgabevorrichtungen befindet; wenigstens teilweise basierend auf einer oder mehreren Eigenschaften des Anwenders die Informationen von potentiellem Interesse für den Anwender oder eine oder mehrere Handlungen von potentiellem Interesse für den Anwender zu identifizieren; nicht angeforderten Inhalt, der die Informationen von potentiellem Interesse oder die eine oder die mehreren Handlungen von potentiellem Interesse angibt, zu erzeugen; und den nicht angeforderten Inhalt in eine hörbare Mensch-Computer-Dialogsitzung zwischen dem automatisierten Assistenten und dem Anwender aufzunehmen; wobei wenigstens die Aufnahme durch den automatisierten Assistenten in Reaktion auf die Bestimmung ausgeführt wird, dass sich der Anwender innerhalb der Hörweite der einen oder mehreren Audioausgabevorrichtungen befindet.
System nach Anspruch 11, wobei das eine oder die mehreren Signale durch eine durch einen Anwender betriebene Computervorrichtung ausgelöst werden, die von dem System verschieden ist, und an einer oder mehreren Kommunikationsschnittstellen, die betriebstechnisch mit dem einen oder den mehreren Prozessoren gekoppelt sind, empfangen werden.
System nach Anspruch 12, wobei das eine oder die mehreren Signale die Detektion des gemeinsamen Vorhandenseins des Systems und der Computervorrichtung umfassen.
System nach Anspruch 12, wobei das eine oder die mehreren Signale eine Angabe eines Zustands einer Anwendung, die in der Computervorrichtung ausgeführt wird, enthalten.
System nach Anspruch 14, wobei die Angabe des Zustands der Anwendung eine Angabe enthält, dass die Anwendung eine Medienwiedergabe bereitstellt.
System nach einem der Ansprüche 11 bis 15, wobei die Informationen von potentiellem Interesse für den Anwender oder die eine oder die mehreren Handlungen von potentiellem Interesse für den Anwender ferner basierend auf einem oder mehreren der Signale identifiziert werden.
System nach einem der Ansprüche 11 bis 16, wobei ein oder mehrere der Signale die Identität des Anwenders angeben und die Informationen von potentiellem Interesse für den Anwender oder die eine oder die mehreren Handlungen von potentiellem Interesse für den Anwender wenigstens teilweise basierend auf der Identität des Anwenders identifiziert werden.
System nach einem der Ansprüche 11 bis 17, wobei der Mensch-Computer-Dialog in Reaktion auf die Bestimmung begonnen wird, dass sich der Anwender innerhalb der Hörweite der einen oder der mehreren Audioausgabevorrichtungen befindet.
System nach einem der Ansprüche 11 bis 18, wobei der nicht angeforderte Inhalt nicht angeforderten Inhalt in natürlicher Sprache umfasst.
System nach einem der Ansprüche 11 bis 18, wobei der nicht angeforderte Inhalt ein oder mehrere Anwenderschnittstellenelemente umfasst, wobei jedes Anwenderschnittstellenelement durch den Anwender auswählbar ist, um den automatisierten Assistenten zu veranlassen, die Informationen von potentiellem Interesse für den Anwender bereitzustellen oder eine oder mehrere der Handlungen von potentiellem Interesse für den Anwender auszulösen.