DE102021125855A1

DE102021125855A1 - Selbstlernende sprachsteuerung durch künstliche intelligenz auf grundlage eines benutzerverhaltens während einer interaktion

Info

Publication number: DE102021125855A1
Application number: DE102021125855.3A
Authority: DE
Inventors: Shikhar KWATRA; Sarbajit K. Rakshit; Jeremy R. Fox
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-11-20
Filing date: 2021-10-05
Publication date: 2022-05-25
Also published as: GB2603249B; US11500660B2; CN114519098A; US20220164204A1; JP2022082454A; GB2603249A

Abstract

Es wird ein System zum Empfehlen von Anleitungsanweisungen an einen Benutzer bereitgestellt. Das System umfasst einen Speicher, welcher computerlesbare Anweisungen aufweist, und einen Prozessor zum Ausführen der computerlesbaren Anweisungen. Die computerlesbaren Anweisungen steuern den Prozessor, Operationen des Überwachens einer laufenden Aufgabe, umfassend mindestens eine Handlung, die von einem Benutzer ausgeführt wird, des Erzeugens von Bilddaten, welche die laufende Aufgabe darstellen, und des Anzeigens der laufenden Aufgabe auf Grundlage der Bilddaten auszuführen. Das System analysiert die laufende Aufgabe und erzeugt ein augmentiertes Bild. Das augmentierte Bild wird über die Bilddaten gelegt, so dass das augmentierte Bild gleichzeitig mit der laufenden Aufgabe angezeigt wird, um den Benutzer dazu zu führen, mit der laufenden Aufgabe fortzufahren.

Description

HINTERGRUND
Die Erfindung betrifft allgemein Künstliche-Intelligenz(AI)-Datenverarbeitungssysteme und insbesondere AI-Empfehlungen von Anleitungsanweisungen an einen Benutzer.
Sprachsteuerungssysteme werden immer beliebter. Typischerweise überwachen Sprachsteuerungssysteme Umgebungstöne auf Sprachbefehle von Benutzern. Die Sprachbefehle führen die Sprachsteuerungssysteme dazu, spezielle Handlungen auszuführen und dem Benutzer akustische Antworten zu geben. In einigen Fällen können die von dem Sprachsteuerungssystem vorgenommenen Handlungen und die dem Benutzer gegebenen Antworten basierend auf dem beabsichtigten Kontext des Benutzers ungenau sein, da die von dem Sprachsteuerungssystem verwendete AI die Wörter falsch verstanden hat, aus denen der Sprachbefehl aufgebaut war.
KURZDARSTELLUNG
Gemäß einer nicht-beschränkenden Ausführungsform wird ein System zum Empfehlen von Anleitungsanweisungen an einen Benutzer bereitgestellt. Das System umfasst einen Speicher, welcher computerlesbare Anweisungen aufweist, und einen Prozessor zum Ausführen der computerlesbaren Anweisungen. Die computerlesbaren Anweisungen steuern den Prozessor, Operationen des Überwachens einer laufenden Aufgabe, umfassend mindestens eine Handlung, die von einem Benutzer ausgeführt wird, des Erzeugens von Bilddaten, welche die laufende Aufgabe darstellen, und des Anzeigens der laufenden Aufgabe auf Grundlage der Bilddaten auszuführen. Das System analysiert die laufende Aufgabe und erzeugt ein augmentiertes Bild. Das augmentierte Bild wird über die Bilddaten gelegt, so dass das augmentierte Bild gleichzeitig mit der laufenden Aufgabe angezeigt wird, um den Benutzer dazu zu führen, mit der laufenden Aufgabe fortzufahren.
Gemäß einer anderen nicht-beschränkenden Ausführungsform umfasst ein Verfahren zum Empfehlen von Anleitungsanweisungen an einen Benutzer Überwachen einer laufenden Aufgabe, welche mindestens eine Handlung aufweist, die von einem Benutzer ausgeführt wird, Erzeugen von Bilddaten, welche die laufende Aufgabe darstellen, und Anzeigen der laufenden Aufgabe auf Grundlage der Bilddaten. Das Verfahren umfasst ferner Analysieren der laufenden Aufgabe, Erzeugen eines augmentierten Bildes und Legen des augmentierten Bildes derart über die Bilddaten, dass das augmentierte Bild gleichzeitig mit der laufenden Aufgabe angezeigt wird, um den Benutzer dazu zu führen, die laufende Aufgabe fortzusetzen.
Gemäß einer anderen nicht-beschränkenden Ausführungsform wird ein Computerprogrammprodukt zum Empfehlen von Anleitungsanweisungen an einen Benutzer bereitgestellt. Das Computerprogrammprodukt weist ein computerlesbares Speichermedium auf, mit welchem Programmanweisungen verkörpert sind. Die Programmanweisungen sind von einer Verarbeitungsschaltung lesbar, um zu bewirken, dass die Verarbeitungsschaltung Operationen ausführt, umfassend Überwachen einer laufenden Aufgabe, welche mindestens eine Handlung aufweist, die von einem Benutzer ausgeführt wird, Erzeugen von Bilddaten, welche die laufende Aufgabe darstellen, und Anzeigen der laufenden Aufgabe auf Grundlage der Bilddaten. Die Operationen umfassen ferner Analysieren der laufenden Aufgabe, Erzeugen eines augmentierten Bildes und Legen des augmentierten Bildes derart über die Bilddaten, dass das augmentierte Bild gleichzeitig mit der laufenden Aufgabe angezeigt wird, um den Benutzer dazu zu führen, mit der laufenden Aufgabe fortzufahren.
Durch die Techniken der Erfindungen werden weitere Merkmale und Vorteile realisiert. Andere Ausführungsformen und Aspekte der Erfindungen werden hierin detailliert beschrieben werden als ein Teil der beanspruchten Erfindung angesehen. Für ein besseres Verständnis der Erfindung mit den Vorteilen und den Merkmalen sei auf die Beschreibung und die Zeichnungen verwiesen.
Figurenliste
Der Gegenstand der Erfindung wird in den Patentansprüchen am Ende der Beschreibung besonders herausgestellt und unterscheidbar beansprucht. Die vorstehenden und andere Merkmale und Vorteile der Erfindung werden aus der folgenden detaillierten Beschreibung in Verbindung mit den begleitenden Zeichnungen ersichtlich, in welchen:

1 eine Cloud-Computing-Umgebung gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung zeigt;
2 Abstraktionsmodellschichten gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung zeigt;
3 ein beispielhaftes Computersystem zeigt, welches in der Lage ist, eine oder mehrere Ausführungsformen der vorliegenden Erfindung zu realisieren;
4A ein Al-Benutzeraktivitäts-Anleitungssystem gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung zeigt;
4B ein Al-Benutzeraktivitäts-Anleitungssystem gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung zeigt;
5 eine gelernte modellierte Benutzeraktivität gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung zeigt;
6 eine unrichtig ausgeführte Benutzeraktivität gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung zeigt;
7 ein Bild der unrichtig ausgeführten Benutzeraktivität, überlagert mit der richtigen modellierten Benutzeraktivität, gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung zeigt;
8 eine gelernte modellierte Benutzeraktivität gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung zeigt;
9 eine unrichtig ausgeführte Benutzeraktivität gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung zeigt;
10 ein Bild der unrichtig ausgeführten Benutzeraktivität, überlagert mit der richtigen modellierten Benutzeraktivität, gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung zeigt;
11 ein Bild einer ausgeführten Benutzeraktivität, die zu einer Aufgabe gehört, gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung zeigt;
12 ein Bild der in 11 dargestellten ausgeführten Benutzeraktivität, überlagert mit der nächsten Benutzeraktivität, die zu der Aufgabe gehört, gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung zeigt;
13 ein Ablaufplan ist, welcher ein Verfahren veranschaulicht, das von einem Al-Benutzeraktivitäts-Anleitungssystem zum Empfehlen von Anleitungsanweisungen an einen Benutzer gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung ausgeführt wird;
14 ein Maschinenlernsystem zeigt, welches verwendet werden kann, um verschiedene Ausführungsformen der Erfindung zu realisieren;
15 eine Lernphase zeigt, welche durch das Maschinenlernsystem realisiert werden kann, das in 14 dargestellt ist; und
16 ein beispielhaftes Datenverarbeitungssystem zeigt, welches in der Lage ist, verschiedene Ausführungsformen der Erfindung zu realisieren.

DETAILLIERTE BESCHREIBUNG
Hierin werden verschiedene Ausführungsformen der Erfindung in Bezug auf die zugehörigen Zeichnungen beschrieben. Alternative Ausführungsformen der Erfindung können abgeleitet werden, ohne vom Umfang der vorliegenden Erfindung abzuweichen. In der folgenden Beschreibung und in den Zeichnungen werden verschiedene Verbindungen und Positionsbeziehungen (z.B. über, unter, in Nachbarschaft zu usw.) zwischen Elementen ausgeführt. Diese Verbindungen und/oder Positionsbeziehungen können, sofern nicht anders angegeben, direkte oder indirekte sein und die vorliegende Erfindung soll in dieser Beziehung nicht beschränkt sein. Entsprechend kann sich eine Verknüpfung von Einheiten entweder auf eine direkte oder auf eine indirekte Verknüpfung beziehen und eine Positionsbeziehung zwischen Einheiten kann eine direkte oder eine indirekte Positionsbeziehung sein. Außerdem können die hierin beschriebenen verschiedenen Aufgaben und Verfahrensschritte in eine umfassendere Prozedur oder ein umfassenderes Verfahren integriert sein, welche bzw. welches zusätzliche Schritte oder Funktionalitäten aufweist, die hierin nicht detailliert beschrieben werden.
Für die Interpretation der Ansprüche und der Beschreibung sind die folgenden Definitionen und Abkürzungen zu verwenden. Wie hierin verwendet, sollen die Begriffe „weist auf“, „aufweisend“, „umfasst“. „umfassend“, „enthält“ oder „enthaltend“ oder beliebige Variationen davon, ein nicht-ausschließliches Einbeziehen abdecken. Beispielsweise ist eine Zusammensetzung, ein Gemisch, ein Prozess, ein Verfahren, ein Gegenstand oder eine Vorrichtung, welche/welches/welcher eine Liste von Elementen aufweist, nicht notwendigerweise auf lediglich diese Elemente beschränkt, sondern kann andere Elemente umfassen, welche nicht ausdrücklich aufgelistet sind oder einer solchen Zusammensetzung, einem solchen Gemisch, einem solchen Prozess, einem solchen Verfahren, einem solchen Gegenstand oder einer solchen Vorrichtung innewohnen.
Außerdem wird hierin der Begriff „beispielhaft“ so verwendet, dass er „als ein Beispiel, ein Fall oder eine Veranschaulichung dienend“ bedeutet. Keine Ausführungsform oder Ausgestaltung, die hierin als „beispielhaft“ beschrieben wird, ist notwendigerweise als bevorzugt oder vorteilhaft gegenüber anderen Ausführungsformen oder Ausgestaltungen auszulegen. Die Begriffe „mindestens einer/eine“ und „einer/eine oder mehrere“ können so verstanden werden, dass sie eine beliebige ganze Zahl größer oder gleich eins umfassen, also eins, zwei, drei, vier usw. Der Begriff „eine Mehrzahl“ kann so verstanden werden, dass er eine beliebige ganze Zahl größer oder gleich zwei umfasst, also zwei, drei, vier, fünf usw. Der Begriff „Verbindung“ kann sowohl eine indirekte „Verbindung“ als auch eine direkte „Verbindung“ umfassen.
Die Begriffe „etwa“, „im Wesentlichen“, „ungefähr“ und Variationen davon sollen den Fehlergrad umfassen, der auf Grundlage der Geräte, die zum Zeitpunkt der Einreichung der Anmeldung verfügbar sind, mit einer Messung der bestimmten Größe verbunden ist. Beispielsweise kann „etwa“ einen Bereich von ± 8 % oder 5 % oder 2 % eines gegebenen Wertes umfassen.
Um die Beschreibung kurz zu halten, werden herkömmliche Techniken in Bezug auf die Herstellung und die Verwendung von Aspekten der Erfindung hierin möglicherweise nicht detailliert beschrieben. Insbesondere sind verschiedene Aspekte von Datenverarbeitungssystemen und speziellen Computerprogrammen zum Realisieren der verschiedenen technischen Merkmale, die hierin beschrieben werden, wohlbekannt. Entsprechend werden zur Abkürzung viele herkömmliche Realisierungsdetails hier nur kurz erwähnt oder vollständig weggelassen, ohne die wohlbekannten System- und/oder Verfahrensdetails vorzustellen.
Es versteht sich, dass, obwohl diese Offenbarung eine ausführliche Beschreibung des Cloud-Computing umfasst, das Umsetzen der hierin angeführten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist. Stattdessen können Ausführungsformen der vorliegenden Erfindung in Verbindung mit jeder beliebigen Art von jetzt bekannter oder später entwickelter Datenverarbeitungsumgebung realisiert werden.
Cloud-Computing ist ein Dienstbereitstellungsmodell zum Ermöglichen eines problemlosen bedarfsgesteuerten Netzwerkzugriffs auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungsressourcen (z.B. Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Hauptspeicher, Speicher, Anwendungen, virtuelle Maschinen und Dienste), die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Dienstes schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Eigenschaften, mindestens drei Dienstmodelle und mindestens vier Einsatzmodelle umfassen.
Bei den Eigenschaften handelt es sich um die Folgenden:
On-Demand Self-Service: Ein Cloud-Nutzer kann einseitig automatisch nach Bedarf für Datenverarbeitungsfunktionen wie Serverzeit und Netzwerkspeicher sorgen, ohne dass eine menschliche Interaktion mit dem Anbieter des Dienstes erforderlich ist.
Broad Network Access: Es sind Funktionen über ein Netzwerk verfügbar, auf die durch Standardmechanismen zugegriffen wird, welche die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z.B. Mobiltelefone, Laptops und PDAs) unterstützen.
Resource-Pooling: Die Datenverarbeitungsressourcen des Anbieters werden zusammengeschlossen, um mehreren Nutzern unter Verwendung eines Multi-Tenant-Modells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen (z.B. Land, Staat oder Rechenzentrum).
Rapid Elasticity: Funktionen können, in einigen Fällen auch automatisch, für ein schnelles Skalieren (Scale out) schnell und flexibel bereitgestellt werden und für ein schnelles Skalieren (Scale in) schnell freigegeben werden. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Funktionen häufig unbegrenzt und sie können jederzeit in jeder beliebigen Menge gekauft werden.
Measured Service: Cloud-Systeme steuern und optimieren die Verwendung von Ressourcen automatisch, indem sie eine Messfunktion auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist (z.B. Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten). Die Nutzung von Ressourcen kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Nutzer des verwendeten Dienstes Transparenz geschaffen wird.
Bei den Dienstmodellen handelt es sich um die Folgenden:
Software as a Service (SaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, die in einer Cloud-Infrastruktur laufenden Anwendungen des Anbieters zu verwenden. Die Anwendungen sind über eine Thin-Client-Schnittstelle wie einen Web-Browser (z.B. auf dem Web beruhende E-Mail) von verschiedenen Client-Einheiten her zugänglich. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher oder sogar einzelne Anwendungsfunktionen, mit der möglichen Ausnahme eingeschränkter benutzerspezifischer Anwendungskonfigurationseinstellungen.
Platform as a Service (PaaS): Die dem Nutzer bereitgestellte Funktion besteht darin, durch einen Nutzer erstellte oder erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen der Application Hosting Environment.
Infrastructure as a Service (laaS): Die dem Nutzer bereitgestellte Funktion besteht darin, die Verarbeitung, Speicher, Netzwerke und andere grundlegende Datenverarbeitungsressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet oder steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eine eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten (z.B. Host-Firewalls).
Bei den Einsatzmodellen handelt es sich um die Folgenden:
Private Cloud: Die Cloud-Infrastruktur wird einzig und allein für eine Organisation betrieben. Sie kann durch die Organisation oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder in fremden Räumen befinden.
Community Cloud: Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezielle Benutzergemeinschaft, die gemeinsame Angelegenheiten hat (z.B. Mission, Sicherheitsanforderungen, Richtlinien sowie Überlegungen bezüglich der Einhaltung von Vorschriften). Sie kann durch die Organisationen oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder fremden Räumen befinden.
Public Cloud: Die Cloud-Infrastruktur wird der allgemeinen Öffentlichkeit oder einer großen Industriegruppe zur Verfügung gestellt und sie gehört einer Cloud-Dienste verkaufenden Organisation.
Hybrid Cloud: Die Cloud-Infrastruktur ist eine Zusammensetzung aus zwei oder mehreren Clouds (Private Cloud, Community Cloud oder Public Cloud), die zwar einzelne Einheiten bleiben, aber durch eine standardisierte oder proprietäre Technologie miteinander verbunden sind, die Daten- und Anwendungsportierbarkeit ermöglicht (z.B. Cloud-Bursting für den Lastenausgleich zwischen Clouds).
Eine Cloud-Computing-Umgebung ist dienstorientiert mit Fokus auf Statusunabhängigkeit, geringer Kopplung, Modularität und semantischer Interoperabilität. Im Zentrum des Cloud-Computing steht eine Infrastruktur, welche ein Netzwerk aus zusammengeschalteten Knoten aufweist.
Im Folgenden wird ein Überblick gegeben, der spezieller für Aspekte der Erfindung relevant ist, beispielsweise umfassen handwerkliche Aktivitäten wie Kochen, Nähen, kreative Handarbeit und die Handhabung von Musikinstrumenten typischerweise die Ausführung mehrerer Schritte oder Handlungen zum Ausführen einer laufenden Aufgabe oder zum Erfüllen einer gewünschten Aufgabe. Ein Lied umfasst zum Beispiel typischerweise eine Anordnung mehrerer verschiedener Akkorde oder Noten. Um ein gewünschtes Lied vorzutragen, muss ein Benutzer mehrere verschiedene Handlungen vornehmen, um ein Instrument auf eine Weise zu betätigen, dass dadurch die richtigen Akkorde oder Noten hervorgebracht werden, die erforderlich sind, um die Aufgabe zu vollenden, d.h. um das Lied richtig vorzutragen. Beim Versuch, das Lied zu spielen, realisiert der Benutzer des Instruments jedoch möglicherweise nicht, dass er den falschen Akkord oder die falsche Note spielt. In ähnlicher Weise kennt man, wenn man erstmals ein neues Lied erlernt, möglicherweise nicht den nächsten Akkord oder die nächste Notensequenz, die erforderlich ist, um die Aufgabe genau auszuführen, d.h. das Lied weiterzuspielen. Bei herkömmlichen Techniken muss ein Benutzer mit dem Ausführen der Aufgabe innehalten und seine Aufmerksamkeit von dem Instrument abwenden und einem Liedblatt zuwenden, um den nächsten Akkord oder die nächste Notensequenz zu bestimmen. Diese Handlung wird typischerweise mehrere Male ausgeführt, bevor man sich die Handlung merkt, und somit verlängert sich die Zeit, die benötigt wird, um die Aufgabe auszuführen, d.h. das Lied richtig vorzutragen.
Eine oder mehrere nicht-beschränkende Ausführungsformen, die hierin beschrieben werden, stellen ein Al-Benutzeraktivitäts-Anleitungssystem bereit, welches in der Lage ist, mehrere verschiedene Benutzerhandlungen zu lernen, die erforderlich sind, um eine gegebene Aufgabe auszuführen, von einem Benutzer ausgeführte Handlungen in Echtzeit zu überwachen und dem Benutzer eine Anleitung zu geben, wie eine oder mehrere der Handlungen auszuführen sind, um die Aufgabe fortzusetzen oder zu vollenden. In einer oder mehreren nicht-beschränkenden Ausführungsformen nimmt das Al-Benutzeraktivitäts-Anleitungssystem eine Abbildung der Handlungen eines Benutzers in Echtzeit vor, während er die Aufgabe ausführt, und erkennt eine unrichtig ausgeführte Handlung. Es ist eine Anzeigevorrichtung vorgesehen, welche Bilder, wie der Benutzer die Handlungen der Aufgabe ausführt, in Echtzeit anzeigt. In Reaktion auf das Erkennen der unrichtig ausgeführten Handlung erzeugt das Al-Benutzeraktivitäts-Anleitungssystem ein haptisches Warnsignal, welches den Benutzer warnt, dass ein eine aktuell ausgeführte Handlung unrichtig ausgeführt wird, und es erzeugt eine Empfehlungsausgabe, welche eine Korrektur der unrichtig ausgeführten Handlung anzeigt. Die Empfehlungsausgabe umfasst sprachliche Anweisungen, welche den Benutzer anleiten, wie die unrichtig ausgeführte Handlung zu korrigieren ist, und/oder ein augmentiertes Bild, welches über das angezeigte Bild der laufenden Aufgabe gelegt wird und die richtige Handlung anzeigt. Auf diese Weise kann der Benutzer seine Handlung einfach korrigieren, ohne innezuhalten und/oder seine Aufmerksamkeit von der laufenden Aufgabe abzuwenden.
Nun Bezug nehmend auf 1, ist dort die veranschaulichende Cloud-Computing-Umgebung 50 dargestellt. Wie dargestellt, weist die Cloud-Computing-Umgebung 50 einen oder mehrere Cloud-Computing-Knoten 10 auf, mit denen von Cloud-Nutzern verwendete lokale Datenverarbeitungseinheiten, zum Beispiel ein elektronischer Assistent (PDA) oder ein Mobiltelefon 54A, ein Desktop-Computer 54B, ein Laptop-Computer 54C und/oder ein Kraftfahrzeug-Computersystem 54N, Daten austauschen können. Die Knoten 10 können miteinander Daten austauschen. Sie können physisch oder virtuell in ein oder mehrere Netzwerke, z.B. Private, Community-, Public oder Hybrid Clouds, wie oben beschrieben, oder eine Kombination daraus gruppiert werden (nicht dargestellt). Dies ermöglicht es der Cloud-Computing-Umgebung 50, Infrastruktur, Plattformen und/oder Software als Dienste anzubieten, für die ein Cloud-Nutzer keine Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es sei darauf hingewiesen, dass die Arten der in 1 dargestellten Datenverarbeitungseinheiten 54A bis N lediglich veranschaulichend sein sollen und dass die Datenverarbeitungsknoten 10 und die Cloud-Computing-Umgebung 50 über eine beliebige Art eines Netzwerks und/oder über eine beliebige Art einer über ein Netzwerk aufrufbaren Verbindung (z.B. unter Verwendung eines Web-Browsers) mit einer beliebigen Art einer computergestützten Einheit Daten austauschen können.
Nun Bezug nehmend auf 2, ist dort ein Satz von funktionalen Abstraktionsschichten dargestellt, die durch die Cloud-Computing-Umgebung 50 (1) bereitgestellt werden. Es sollte von vornherein klar sein, dass die in 2 dargestellten Komponenten, Schichten und Funktionen lediglich veranschaulichend sein sollen und Ausführungsformen der Erfindung nicht darauf beschränkt sind. Wie abgebildet ist, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt:
Eine Hardware- und Software-Schicht 60 umfasst Hardware- und Software-Komponenten. Zu Beispielen für Hardware-Komponenten gehören: Mainframe-Computer 61; auf der RISC-Architektur (Reduced Instruction Set Computer) beruhende Server 62; Server 63; Blade-Server 64; Speichereinheiten 65 und Netzwerke und Netzwerkkomponenten 66. In einigen Ausführungsformen umfassen Software-Komponenten eine Netzwerk-Anwendungsserver-Software 67 und eine Datenbank-Software 68.
Eine Virtualisierungsschicht 70 stellt eine Abstraktionsschicht bereit, aus der die folgenden Beispiele für virtuelle Einheiten bereitgestellt werden können: virtuelle Server 71, virtueller Speicher 72, virtuelle Netzwerke 73, darunter virtuelle private Netzwerke, virtuelle Anwendungen und Betriebssysteme 74 und virtuelle Clients 75.
In einem Beispiel kann eine Verwaltungsschicht 80 die nachfolgend beschriebenen Funktionen bereitstellen. Ressourcen-Bereitstellung 81 stellt die dynamische Beschaffung von Datenverarbeitungsressourcen sowie anderen Ressourcen bereit, die zum Durchführen von Aufgaben innerhalb der Cloud-Computing-Umgebung verwendet werden. Messen und Preisfindung 82 stellt die Kostenverfolgung beim Verwenden von Ressourcen innerhalb der Cloud-Computing-Umgebung sowie die Abrechnung oder Rechnungsstellung für den Verbrauch dieser Ressourcen bereit. In einem Beispiel können diese Ressourcen Anwendungs-Software-Lizenzen umfassen. Sicherheit stellt eine Identitätsüberprüfung für Cloud-Nutzer und Aufgaben sowie Schutz für Daten und andere Ressourcen bereit. Benutzerportal 83 stellt Nutzern und Systemadministratoren den Zugang zu der Cloud-Computing-Umgebung bereit. Dienstumfangsverwaltung 84 stellt die Zuordnung und Verwaltung von Cloud-Computing-Ressourcen bereit, so dass die benötigten Dienstumfänge erreicht werden. Planen und Erfüllen von Vereinbarungen zum Dienstumfang (SLA, Service Level Agreement) 85 stellt die Vorbereitung und die Beschaffung von Cloud-Computing-Ressourcen, für die ein zukünftiges Erfordernis vorausgesehen wird, gemäß einer SLA bereit.
Eine Arbeitslastschicht 90 stellt Beispiele für Funktionalitäten bereit, für welche die Cloud-Computing-Umgebung verwendet werden kann. Zu Beispielen für Arbeitslasten und Funktionen, die von dieser Schicht bereitgestellt werden können, gehören: Abbildung und Navigation 91; Software-Entwicklung und Lebenszyklusverwaltung 92; Bereitstellung von Ausbildung in virtuellen Klassenzimmern 93; Datenanalyseverarbeitung 94; Transaktionsverarbeitung 95 und Training einer künstlichen Intelligenz (AI) eines Sprachsteuerungssystems 96.
Nun übergehend zu einer detaillierteren Beschreibung von Aspekten der vorliegenden Erfindung, zeigt 3 ein übergeordnetes Blockschaubild, welches ein Beispiel eines computerbasierten Systems 300 zeigt, das zum Realisieren einer oder mehrerer Ausführungsformen der Erfindung geeignet ist. Obwohl ein beispielhaftes Computersystem 300 dargestellt ist, umfasst das Computersystem 300 einen Datenaustauschpfad 326, welcher das Computersystem 300 mit weiteren Systemen verbindet und ein oder mehrere Weitverkehrsnetzwerke (Wide Area Networks, WANs) und/oder lokale Netzwerke (Local Area Networks, LANs) wie das Internet, ein Intranet (Intranets) und/oder ein drahtloses Datenaustausch-Netzwerk (drahtlose Datenaustausch-Netzwerke) umfassen kann. Das Computersystem 300 und die weiteren Systeme tauschen über den Datenaustauschpfad 326 Daten aus (um z.B. Daten zwischen ihnen zu übermitteln).
Das Computersystem 300 umfasst einen oder mehrere Prozessoren, z.B. den Prozessor 302. Der Prozessor 302 ist mit einer Datenaustausch-Infrastruktur 304 (z.B. einem Datenaustauschbus, einer Cross-over Bar oder einem Netzwerk) verbunden. Das Computersystem 300 kann eine Anzeigeschnittstelle 306 umfassen, welche Graphik, Text und andere Daten aus der Datenaustausch-Infrastruktur 304 (oder aus einem nicht dargestellten Rahmenspeicher) zur Anzeige auf einer Anzeigeeinheit 308 weiterleitet. Das Computersystem 300 umfasst ferner einen Hauptspeicher 310, vorzugsweise einen Direktzugriffsspeicher (RAM), und kann außerdem einen Sekundärspeicher 312 umfassen. Der Sekundärspeicher 312 kann zum Beispiel ein Festplattenlaufwerk 314 und/oder ein Wechselspeicherlaufwerk 316 umfassen, welches zum Beispiel ein Diskettenlaufwerk, ein Magnetbandlaufwerk oder ein optisches Plattenlaufwerk repräsentiert. Das Wechselspeicherlaufwerk 316 liest aus einer austauschbaren Speichereinheit 318 aus oder beschreibt diese auf eine Weise, wie sie dem Fachmann bekannt ist. Die austauschbare Speichereinheit 318 repräsentiert zum Beispiel eine Diskette, eine Compact Disk, ein Magnetband oder eine optische Platte usw., welche von einem Wechselpeicherlaufwerk 316 ausgelesen oder beschrieben wird. Wie zu erkennen ist, umfasst die austauschbare Speichereinheit 318 ein computerlesbares Medium, auf welchem Computer-Software und/oder Daten gespeichert sind.
In einigen alternativen Ausführungsformen der Erfindung kann der Sekundärspeicher 312 andere ähnliche Mittel umfassen, um zu ermöglichen, dass Computerprogramme oder andere Anweisungen in das Computersystem geladen werden. Solche Mittel können zum Beispiel eine austauschbare Speichereinheit 320 und eine Schnittstelle 322 umfassen. Beispiele für solche Mittel können ein Programmpaket und eine Paketschnittstelle (wie man sie bei Videospieleinheiten findet), einen austauschbaren Speicherchip (z.B. einen EPROM oder einen PROM) und einen zugehörigen Steckplatz und andere austauschbare Speichereinheiten 320 und Schnittstellen 322 umfassen, welche ermöglichen, dass Software und Daten von der austauschbaren Speichereinheit 320 auf das Computersystem 300 übertragen werden.
Das Computersystem 300 kann außerdem eine Datenaustausch-Schnittstelle 324 umfassen. Die Datenaustausch-Schnittstelle 324 ermöglicht, dass Software und Daten zwischen dem Computersystem und externen Einheiten übertragen werden. Beispiele für die Datenaustausch-Schnittstelle 324 können ein Modem, eine Netzwerk-Schnittstelle (z.B. eine Ethernet-Karte), einen Datenaustauschanschluss oder einen PCM-CIA-Slot und eine PCM-CIA-Karte usw. umfassen. Software und Daten, die über die Datenaustausch-Schnittstelle 324 übertragen werden, liegen in der Form von Signalen vor, welche zum Beispiel elektronische, elektromagnetische, optische oder andere Signale sein können, die von der Datenaustausch-Schnittstelle 324 empfangen werden können. Diese Signale werden der Datenaustausch-Schnittstelle 324 über den Datenaustauschpfad (d.h. über den Kanal) 326 bereitgestellt. Der Datenaustauschpfad 326 überträgt Signale und kann durch Drähte oder Kabel, Lichtwellenleiter, eine Telefonleitung, eine Mobiltelefonverbindung, eine HF-Verbindung und/oder andere Datenaustauschkanäle realisiert werden.
In der vorliegenden Offenbarung werden die Begriffe „Computerprogrammmedium“, „durch einen Computer verwendbares Medium“ und „computerlesbares Medium“ verwendet, um allgemein Medien wie den Hauptspeicher 310 und den Sekundärspeicher 312, das Wechselspeicherlaufwerk 316 und eine Festplatte zu bezeichnen, die in dem Festplattenlaufwerk 314 installiert ist. In dem Hauptspeicher 310 und/oder dem Sekundärspeicher 312 sind Computerprogramme (auch als Computersteuerlogik bezeichnet) gespeichert. Computerprogramme können auch über die Datenaustausch-Schnittstelle 324 empfangen werden. Solche Computerprogramme ermöglichen, wenn man sie ablaufen lässt, dass das Computersystem die Merkmale der vorliegenden Offenbarung ausführt, wie hierin beschrieben. Insbesondere ermöglichen die Computerprogramme, wenn man sie ablaufen lässt, dass der Prozessor 302 die Merkmale des Computersystems ausführt. Entsprechend repräsentieren solche Computerprogramme Steuerungen des Computersystems.
In beispielhaften Ausführungsformen wird ein System zum Trainieren einer künstlichen Intelligenz (AI) eines Sprachsteuerungssystems bereitgestellt. In beispielhaften Ausführungsformen ist ein Sprachsteuerungssystem so konfiguriert, dass es ein Umgebungsaudio auf einen Sprachbefehl von einem Benutzer überwacht. Das Sprachsteuerungssystem verwendet eine AI zum interpretieren des Sprachbefehls und auf Grundlage der Interpretation stellt das Sprachsteuerungssystem eine Antwort für den Benutzer bereit und/oder führt eine Handlung durch, die von dem Benutzer angefordert wurde. Das Sprachsteuerungssystem ist außerdem so konfiguriert, dass es die Reaktion des Benutzers auf die bereitgestellte Antwort oder die von dem Sprachsteuerungssystem vorgenommene Handlung überwacht. Die Reaktion kann durch Mikrofone und/oder Kameras überwacht werden, die mit dem Sprachsteuerungssystem Daten austauschen. Das Sprachsteuerungssystem analysiert die Reaktion des Benutzers und bestimmt, ob der Benutzer mit der bereitgestellten Antwort oder der vorgenommenen Handlung zufrieden ist. Wenn der Benutzer mit der bereitgestellten Antwort oder der vorgenommenen Handlung nicht zufrieden ist, aktualisiert das Sprachsteuerungssystem das AI-Modell, das verwendet wird, um die Sprachbefehle zu interpretieren.
Nun übergehend zu 4A, ist dort ein Al-Benutzeraktivitäts-Anleitungssystem 400 gemäß einer nicht-beschränkenden Ausführungsform dargestellt. Das Al-Benutzeraktivitäts-Anleitungssystem 400 umfasst ein Datenverarbeitungssystem 12, welches mit funktionellen Komponenten im Signalaustausch steht. Die funktionellen Komponenten umfassen, ohne darauf beschränkt zu sein, eine oder mehrere Datenverarbeitungseinheiten 430, eine Abbildungseinheit 432 und einen durch Sprache aktivierten Hub 420. Jede/Jedes der Einheiten, Komponenten, Module und/oder Funktionen, die in 1 bis 3 beschrieben werden, können auch für die Einheiten, Komponenten, Module und Funktionen der 4A gelten. Außerdem können eine/einer oder mehrere der Operationen, und Schritte der 1 bis 3 auch von einer oder mehreren Operationen oder Handlungen der 4A umfasst sein.
Bezug nehmend auf 4B, ist dort ein Al-Benutzeraktivitäts-Anleitungssystem 400 gemäß einer anderen nicht-beschränkenden Ausführungsform dargestellt. In der nicht-beschränkenden Ausführungsform, die in 4B dargestellt ist, sind mehrere Komponenten des Al-Benutzeraktivitäts-Anleitungssystems 400 in eine einzelne am Körper tragbare Smart-Datenverarbeitungseinheit 430 (z.B. in eine Smart-Brille 430) integriert. Da das Al-Benutzeraktivitäts-Anleitungssystem 400 ähnlich arbeitet wie das Al-Benutzeraktivitäts-Anleitungssystem 400, sind Einzelheiten der einzelnen Komponenten, die nachstehend beschrieben werden, auch auf das Al-Benutzeraktivitäts-Anleitungssystem 400 anwendbar.
Die Datenverarbeitungseinheiten 430 umfassen, ohne darauf beschränkt zu sein, ein Fernsehgerät, ein Smartphone, einen Desktop-Computer, einen Laptop-Computer, ein Tablet, eine Smartwatch, eine am Körper tragbare Smart-Einheit und/oder eine andere elektronische/drahtlose Datenaustauscheinheit, welche einen oder mehrere Prozessoren, Speicher und/oder eine drahtlose Datenaustauschtechnologie zum Anzeigen/Streamen von Audio-/Videodaten aufweisen kann. Die Datenverarbeitungseinheiten 430 können Eingaben (z.B. Berührungseingaben, gesprochene Eingaben, Maus-Klicks usw.) empfangen, welche das Al-Benutzeraktivitäts-Anleitungssystem 400 steuern können. In einer oder mehreren nicht-beschränkenden Ausführungsformen können die Eingaben die Art der Aufgabe anzeigen, die von dem Benutzer auszuführen ist. Die Aufgabe umfasst zum Beispiel Kochen, Nähen, kreative Handarbeit und die Handhabung von Musikinstrumenten (d.h. das Spielen eines Musikinstruments). In Bezug auf die Handhabung von Musikinstrumenten kann die Eingabe beispielsweise ein zu spielendes Lied, die Art des Instruments, das zum Spielen des Liedes benutzt wird, und/oder die Einstellung des Instruments anzeigen. Außerdem kann die Eingabe einen Schwierigkeitsgrad der auszuführenden Aufgabe umfassen. In Bezug auf die Handhabung von Musikinstrumenten kann beispielsweise ein Anfänger-Schwierigkeitsgrad in Verbindung mit dem Spielen eines Liedes mit einem Musikinstrument das richtige Spielen von Barreakkorden oder Powerakkorden umfassen, während ein Fortgeschrittenenniveau beim Spielen des gleichen Liedes das richtige Spielen der gleichen Akkorde als offene Dur-/Mollakkorde umfassen kann.
Die Abbildungseinheit 432 umfasst, ohne darauf beschränkt zu sein, eine Kamera oder einen Videorekorder. Entsprechend ist die Abbildungseinheit 432 in der Lage, Bilder einer laufenden Aufgabe 434 (d.h. einer Aufgabe, die in Echtzeit ausgeführt wird) aufzunehmen. Der intelligente Dienst 402 kann mit der Abbildungseinheit 432 zusammenwirken, um Bilderkennungsoperationen durchzuführen. Beispielsweise kann der intelligente Dienst 402 Bilder einer laufenden Aufgabe überwachen und erkennen, ob eine Handlung richtig oder unrichtig ausgeführt wird. Der intelligente Dienst 402 kann die Bilder 432 einer laufenden Aufgabe 432 überwachen und die nächste Handlung vorhersagen, die von der laufenden Aufgabe 432 umfasst ist.
Der durch Sprache aktivierte Hub 420 umfasst zum Beispiel eine persönliche assistierende Datenverarbeitungseinheit des Internet der Dinge (Internet of Things, loT). Der durch Sprache aktivierte Hub 420 kann durch Sprache aktivierte Befehle und/oder Abfragen erkennen und gesprochene Sprache ausgeben, welche Antworten, Anleitungen, Empfehlungen usw. umfasst.
Erneut ist das Computersystem/der Server 12 dargestellt, welches/welcher einen intelligenten Dienst 402 oder „intelligenten Dienst für Empfehlungen von Anleitungsanweisungen 402“ (z.B. einen Artificial Intelligence Simulated Humanoid Assistant, „A.I.S.H.A.“) umfassen kann. Wie in 4A dargestellt, kann das Computersystem/der Server 12 einer oder mehreren Datenverarbeitungseinheiten, wie hierin beschrieben, virtualisierte Datenverarbeitungsdienste bereitstellen (d.h. virtualisierte Datenverarbeitung, virtualisierten Speicher, virtualisierte Netzwerke usw.). Insbesondere kann das Computersystem/der Server 12 virtualisierte Datenverarbeitung, virtualisierten Speicher, virtualisierte Netzwerke und andere virtualisierte Dienste bereitstellen, die auf einem Hardware-Boden ablaufen.
Der intelligente Dienst 402 (z.B. der intelligente Dienst für Empfehlungen von Anleitungsanweisungen 402), der in 4A dargestellt ist, steht mit den Datenverarbeitungseinheiten 430, der Abbildungseinheit 432 und dem durch Sprache aktivierten Hub 420 im Datenaustausch oder in Verbindung. Entsprechend können der intelligente Dienst für Empfehlungen von Anleitungsanweisungen 402, die Datenverarbeitungseinheiten 430, die Abbildungseinheit 432 und der durch Sprache aktivierte Hub 420 jeweils durch ein oder mehrere Datenaustauschverfahren, z.B. ein Datenverarbeitungs-Netzwerk, ein drahtloses Datenaustausch-Netzwerk oder andere Netzwerkmittel, die einen Datenaustausch ermöglichen (in 4A jeweils zusammenfassend als „Netzwerk 18“ bezeichnet), miteinander verbunden sein oder im Datenaustausch stehen. Gemäß einer nicht-beschränkenden Ausführungsform kann der intelligente Dienst für Empfehlungen von Anleitungsanweisungen 402 lokal auf dem durch Sprache aktivierten Hub 420 und/oder den Datenverarbeitungseinheiten 430 installiert sein. Alternativ kann der intelligente Dienst für Empfehlungen von Anleitungsanweisungen 402 (z.B. über einen Cloud-Computing-Server) extern des durch Sprache aktivierten Hubs 420 und/oder der Datenverarbeitungseinheiten 430 angeordnet sein.
Der intelligente Dienst für Empfehlungen von Anleitungsanweisungen 402 kann eine Verarbeitungseinheit 16 zum Ausführen verschiedener Rechen-, Datenverarbeitungs- und anderer Funktionalitäten gemäß verschiedenen nicht-beschränkenden Ausführungsformen der vorliegenden Erfindung umfassen. Ein Domänenwissen 412 (z.B. eine Datenbank, welche eine Ontologie umfassen kann) ist zusammen mit einer Anleitungsanweisungskomponente 404, einer Analysekomponente 406, einer Überwachungskomponente 408, einer Maschinenlernkomponente 410, einer Erkennungskomponente 414 und/oder einer Augmented-Reality-Komponente (AR-Komponente) 416 dargestellt. In einer oder mehreren nicht-beschränkenden Ausführungsformen ist eine bzw. eines der Anleitungsanweisungskomponente 404, der Analysekomponente 406, der Überwachungskomponente 408, der Maschinenlernkomponente 410, der Erkennungskomponente 414, des Domänenwissens 412 und/oder der Augmented-Reality-Komponente (AR-Komponente) 416 als eine elektronische Hardware-Steuerung konstruiert, welche Speicher und einen Prozessor umfasst, der so konfiguriert ist, dass er Algorithmen und computerlesbare Programmanweisungen ausführt, die in dem Speicher gespeichert sind. Außerdem können die Anleitungsanweisungskomponente 404, die Analysekomponente 406, die Überwachungskomponente 408, die Maschinenlernkomponente 410, die Erkennungskomponente 414, das Domänenwissen 412 und/oder die Augmented-Reality-Komponente (AR-Komponente) 416 alle als eine einzelne Steuerung eingebettet oder integriert sein.
Das Domänenwissen 412 kann eine Ontologie von Konzepten, Schlüsselwörtern, Ausdrücken umfassen und/oder damit verbunden sein, welche eine Wissensdomäne repräsentiert. Ein Wortschatz oder eine Ontologie kann als die Datenbank benutzt werden und kann auch benutzt werden, um durch die Maschinenlernkomponente 410 (z.B. eine kognitive Komponente) semantische Beziehungen zwischen überwachten und/oder unüberwachten Variablen zu identifizieren. Gemäß einer nicht-beschränkenden Ausführungsform ist der Begriff „Domäne“ ein Begriff, der seine gewöhnliche Bedeutung aufweisen soll. Außerdem kann der Begriff „Domäne“ einen Expertisebereich für ein System oder eine Zusammenstellung von Material, Informationen, Inhalt und/oder andere Ressourcen in Bezug auf ein bestimmtes Subjekt oder bestimmte Subjekte umfassen. Eine Domäne kann sich auf Informationen beziehen, welche einen bestimmten Gegenstand oder eine Kombination ausgewählter Subjekte betreffen.
Der Begriff „Ontologie“ ist ebenfalls ein Begriff, der seine gewöhnliche Bedeutung aufweisen soll. Gemäß einer nicht-beschränkenden Ausführungsform kann der Begriff „Ontologie“ in seinem weitesten Sinn alles umfassen, was als eine Ontologie modelliert werden kann, umfassend, ohne darauf beschränkt zu sein, Taxonomien, Wortschätze, Vokabularien und dergleichen. Beispielsweise kann eine Ontologie Informationen oder Inhalt, der für eine Domäne von Interesse relevant ist, oder Inhalt einer bestimmten Klasse oder eines bestimmten Konzepts umfassen. Die Ontologie kann kontinuierlich mit den Informationen aktualisiert werden, synchronisiert mit den Quellen, wobei Informationen aus den Quellen der Ontologie als Modelle, Attribute von Modellen oder Verbindungen zwischen Modellen innerhalb der Ontologie hinzugefügt werden. In einer oder mehreren nicht-beschränkenden Ausführungsform speichert das Domänenwissen gelernte Modellhandlungen, welche Bilder umfassen, die beispielhafte oder richtige Ausführungen einer Handlung anzeigen, die von einer gegebenen Aufgabe umfasst sind. In Bezug auf Musikinstrumente können die gelernten Modellhandlungen Bilder umfassen, welche zeigen, wie der richtige Akkord oder die richtige Note eines gegebenen Instruments zu spielen ist.
Außerdem kann das Domänenwissen 412 eine oder mehrere externe Ressourcen umfassen, wie zum Beispiel Links zu einer oder mehreren Internet-Domänen, Web-Seiten und dergleichen. Beispielsweise können Textdaten durch Hyperlink mit einer Web-Seite verbunden sein, welche die Textdaten beschreiben oder erläutern kann oder weitere Informationen zu den Textdaten bereitstellen kann. Somit kann eine Zusammenfassung über Links zu externen Ressourcen verbessert werden, welche weiter erläutern, anweisen, veranschaulichen, Kontext und/oder zusätzliche Informationen, um eine Entscheidung zu unterstützen, einen Alternativvorschlag, eine Alternativauswahl und/oder Kriterien liefern.
Die Analysekomponente 406 des Computersystems/Servers 12 kann mit der Verarbeitungseinheit 16 zusammenarbeiten, um verschiedene Ausführungsformen der vorliegenden Erfindung auszuführen. Beispielsweise kann die Analysekomponente 406 verschiedene Datenanalysefunktionen durchlaufen, um Daten zu analysieren, die von einer oder mehreren Einheiten wie z.B. dem durch Sprache aktivierten Hub 420 und/oder der Datenverarbeitungseinheit 430 übermittelt werden.
Die Analysekomponente 406 kann jede physische Eigenschaft empfangen und analysieren, die mit Mediendaten (z.B. Audiodaten und/oder Videodaten) in Verbindung steht. Die Analysekomponente 406 kann kognitiv Audiodaten und/oder Videodaten für die Anleitungsanweisungskomponente 404 empfangen und/oder erkennen.
Die Analysekomponente 406, die Überwachungskomponente 408 und/oder die Maschinenlernkomponente 410 können auf eine oder mehrere Audiodatenquellen und/oder Videodatenquellen (z.B. Website, Audio-Speichersysteme, Video-Speichersysteme, Cloud-Computing-Systeme usw.) zugreifen und diese überwachen, um die Audiodaten, Videodaten und/oder Textdaten zum Bereitstellen von Anleitungsanweisungen zum Ausführen einer Aufgabe bereitzustellen. Die Analysekomponente 406 kann die Daten, die aus dem Domänenwissen 412, einer oder mehreren Online-Quellen, einem Cloud-Computing-System, einem Textkörper oder einer Kombination daraus abgerufen werden, kognitiv analysieren. Die Analysekomponente 406 und/oder die Maschinenlernkomponente 410 können durch Verarbeitung natürlicher Sprache (Natural Language Processing, „NLP“) ein oder mehrere Schlüsselwörter, Ausdrücke, Anweisungen und/oder Transkripte extrahieren (z.B. Audiodaten in Textdaten umschreiben).
Als Teil des Erkennens der Daten können die Analysekomponente 406, die Überwachungskomponente 408 und/oder die Maschinenlernkomponente 410 aus einer oder mehreren Quellen Audiodaten, Videodaten, Textdaten und/oder Kontextfaktoren, die mit den Audiodaten, den Videodaten und/oder den Textdaten in Verbindung stehen, oder eine Kombination davon identifizieren. Außerdem kann die Maschinenlernkomponente 410 eine Maschinenlernoperation auslösen, um die Kontextfaktoren zu lernen, die mit den Audiodaten, den Videodaten und/oder den Textdaten in Verbindung stehen, die mit Anleitungsanweisungen zum Ausführen einer Aufgabe wie beispielsweise Zusammenbauen und/oder Reparieren eines Gegenstands (z.B. Zusammenbauen eines neuen Fahrrads oder Reparieren eines Computers) in Verbindung stehen.
Die Überwachungskomponente 408 kann über die Abbildungseinheit 432 und einen/ein oder mehrere Töne/Wörter 423 (über ein Mikrofon 433 und/oder den Sprach-Hub 420) des Benutzers während des Ausführens der Aufgabe 434 das Ausführen der laufenden Aufgabe 434 in Echtzeit überwachen. Die Erkennungskomponente 414 kann unter Verwendung des durch Sprache aktivierten Hubs 420 und/oder der Datenverarbeitungseinheit 430 einen Benutzer erkennen, der die Aufgabe auf einem Gegenstand ausführt. Beispielsweise können der durch Sprache aktivierte Hub 420, die Datenverarbeitungseinheit 430 und/oder die Abbildungseinheit 432 eine oder mehrere Aktivitäten, Körperbewegungen und/oder Merkmale (z.B. Gesichtserkennung, Gesichtsausdrücke, Gesten von Händen/Füßen usw.), Verhalten, Audiodaten (z.B. Spracherfassung und/oder Stimmenerkennung), Begleitumstände oder andere definierte Parameter/Merkmale identifizieren, welche einen Benutzer und/oder eine Aufgabe, die von dem Benutzer ausgeführt wird, identifizieren, lokalisieren und/oder erkennen können. Die Analysekomponente 406 kann mit der Überwachungskomponente zusammenarbeiten, um eine Bilderkennung durchzuführen, um in einem gegebenen Bild oder Videoclip jedes Objekt aus den Objekten in jedem Rahmen zu erkennen.
In einer oder mehreren nicht-beschränkenden Ausführungsformen kann die Überwachungskomponente 408 eine unrichtig ausgeführte Handlung erfassen, die von einer laufenden Aufgabe 434 umfasst ist. In Reaktion auf das Erfassen der unrichtigen Handlung und/oder der nächsten kann die Überwachungskomponente der einen oder den mehreren Datenverarbeitungseinheiten 430 befehlen, eine haptische Warnung 436 zu erzeugen, welche den Benutzer warnt, dass die aktuelle Handlung unrichtig ausgeführt wird. In ähnlicher Weise kann die Überwachungskomponente 408 die nächste auszuführende Handlung der laufenden Aufgabe 434 vorhersagen und eine haptische Warnung 436 erzeugen, welche den Benutzer über die nächste auszuführende Handlung alarmiert.
Die Anleitungsanweisungskomponente 404 kann eine oder mehrere Anleitungsanweisungen zum Unterstützen bei der Ausführung der ausgewählten Aufgabe gemäß identifizierten Kontextfaktoren bereitstellen. Die Anleitungsanweisungen können Textdaten, Audiodaten und/oder Videodaten sein. Beispielsweise kann der durch Sprache aktivierte Hub 420 die Anleitungsanweisungen 422 hörbar übermitteln. Die Datenverarbeitungseinheiten 430 können Anleitungsanweisungen 450 zusammen mit Bild-/Videodaten 485 bereitstellen, die von der graphischen Benutzerschnittstelle (Graphical User Interface, „GUI“) der Datenverarbeitungseinheit 430 angezeigt werden, und/oder als Sprachanweisungen, die von einem Lautsprecher 431 ausgegeben werden.
Die Anleitungsanweisungskomponente 404 kann den Benutzer kognitiv anleiten, die ausgewählte Aufgabe unter Nutzung der einen oder der mehreren Anleitungsanweisungen 422 auszuführen. Die Anleitungsanweisungskomponente 404 kann eine Folge von Anleitungsanweisungen 422 bereitstellen, welche sie aus einem Domänenwissen, einer oder mehreren Online-Quellen, einem Cloud-Computing-System, einem Textkörper oder einer Kombination daraus abgerufen hat. Die Anleitungsanweisungskomponente 404 kann Mediendaten aus einer oder mehreren Online-Quellen, einem Cloud-Computing-System oder einer Kombination daraus bereitstellen.
Die Anleitungsanweisungskomponente 404 kann zur Unterstützung bei der Ausführung der ausgewählten Aufgabe jeden Schritt der einen oder der mehreren Anleitungsanweisungen 422 verifizieren. Die Anleitungsanweisungskomponente 404 kann außerdem einen Schwierigkeitsgrad (z.B. ein Maß an Stress, Frustration, Ängstlichkeit, Erregbarkeit oder andere emotionale Reaktionen) identifizieren, den der Benutzer realisiert, während er eine Gruppe von Aufgaben ausführt, die mit der einen oder den mehreren Anleitungsanweisungen 422 verbunden sind, die über gestreamte Medien übermittelt werden, die Übermittlung der gestreamten Medien für eine ausgewählte Dauer pausieren/anhalten/beenden und/oder dem Benutzer eine modifizierte Gruppe von Anleitungsanweisungen 422 bereitstellen, um den Benutzer durch ein verbessertes Niveau der Anweisungen anzuleiten.
Die Anleitungsanweisungskomponente 404 kann zum Ausführen der ausgewählten Aufgabe zusätzliche Anleitungsinformationen in Bezug auf die Anleitungsanweisungen 422 bereitstellen, die sie aus einem Domänenwissen, einer oder mehreren Online-Quellen, einem Cloud-Computing-System, einem Textkörper oder einer Kombination daraus erhalten hat. Wenn beispielsweise eine erste Gruppe von Anweisungen für einen Benutzer unzureichend ist, kann eine weitere Gruppe bereitgestellt werden, welche eine oder mehrere der ursprünglichen Anweisungen weiter erläutern kann.
Gemäß einer oder mehreren nicht-beschränkenden Ausführungsformen kann die Anleitungsanweisungskomponente 404 auch mit der AR-Komponente 416 zusammenarbeiten, um verbesserte Anleitungsanweisungen 422 zur Unterstützung bei der Ausführung der ausgewählten Aufgabe bereitzustellen. Insbesondere kann die AR-Komponente 416 ein augmentiertes Bild 500 erzeugen, welches über Echtzeit-Bild/VideoDaten 485 gelegt wird, die auf einer graphischen Benutzerschnittstelle (GUI) 429 angezeigt werden. Entsprechend wird das augmentierte Bild 500 derart mit der laufenden Aufgabe 434 angezeigt, dass das augmentierte Bild 500 dem Benutzer zeigt, wie eine unrichtig ausgeführte Handlung zu korrigieren ist. Auf diese Weise kann der Benutzer seine Handlung einfach korrigieren, ohne innezuhalten und/oder seine Aufmerksamkeit von der laufenden Aufgabe 434 abzuwenden. In einer anderen nicht-beschränkenden Ausführungsform kann das augmentierte Bild 500 dem Benutzer zeigen, wie die nächste Handlung einer laufenden Aufgabe 434 richtig auszuführen ist.
Der intelligente Dienst für Empfehlungen von Anleitungsanweisungen 402 kann einen Ton, eine Lautstärke, eine Geschwindigkeit der Sprache und/oder eine Häufigkeit der Anleitungsanweisungen 422 in den Audio-/Mediendaten auf Grundlage der Geschwindigkeit/des Tempos eines Benutzers anpassen, der den Anleitungsanweisungen 422 folgt. Außerdem können Wörter, Ausdrücke und/oder vollständige Sätze (z.B. eine gesamte Konversation oder Teile davon) von Dritten in Bezug auf die Audiodaten auf Grundlage einer NLP-Extraktionsoperation (z.B. einer Schlüsselwortextraktion auf NLP-Basis) in eine Textform übertragen werden. Die Textdaten können weitergegeben, gesendet, gespeichert oder weiterverarbeitet werden, so dass die gleichen Audio-/Videodaten (z.B. die gesamten Konversationen oder Teile davon) gehört oder angehört werden können, während gleichzeitig die Textversion der Anleitungsanweisung bereitgestellt wird.
Wie bereits angeführt, kann der intelligente Dienst für Empfehlungen von Anleitungsanweisungen 402 auch mit anderen verbundenen Einheiten Daten austauschen, zum Beispiel mit dem durch Sprache aktivierten Hub 420, den Datenverarbeitungseinheiten 430 und/oder der Abbildungseinheit 432. Außerdem können die Analysekomponente 406 und/oder die Maschinenlernkomponente 410 auf eine oder mehrere Online-Datenquellen zugreifen, zum Beispiel auf ein Social-Media-Netzwerk, eine Website oder eine Daten-Site, um eine oder mehrere Anleitungsanweisungen 422 zur Unterstützung bei der Ausführung der ausgewählten Aufgabe gemäß identifizierten Kontextfaktoren bereitzustellen. Das heißt, die Analysekomponente 406, die Erkennungskomponente 414 und/oder die Maschinenlernkomponente 410 können für einen Benutzer ein Maß an Aufmerksamkeit, einen Schwierigkeitsgrad bei der Ausführung einer Aufgabe durch einen Benutzer, eine Art einer Reaktion und/oder Rückmeldungen zu verschiedenen Themen und/oder Anleitungsanweisungen 422 lernen und überwachen. Das gelernte und überwachte Verhalten des Benutzers kann mit verschiedenen Datenquellen verbunden werden, welche persönliche Informationen, Social-Media-Daten oder Benutzerprofilinformationen bereitstellen, um einen Vertrauensfaktor in Bezug auf die Qualität der Anleitungsanweisungen 422 zu lernen, einzurichten und/oder zu bestimmen.
In einer oder mehreren nicht-beschränkenden Ausführungsformen kann die Überwachung der Reaktionen anderer Personen (Benutzer) auf die gleichen Verfahren von dem Al-Benutzeraktivitäts-Anleitungssystem 400 genutzt werden, um Lernen zu verstehen und Handlungen für den Benutzer zu empfehlen. Anschließend können wiederholte Rückmeldungen zwischen Crowd-Sourced-Daten und dem betreffenden Benutzer genutzt werden, um intelligente Entscheidungen über den Benutzungsverlauf und die Projektion einer gegebenen Aufgabe zu treffen. Außerdem kann das Al-Benutzeraktivitäts-Anleitungssystem 400 auf Grundlage von Geschwindigkeiten des Lernerfolgs den erwarteten Verlauf einer laufenden Aufgabe aktiv ändern.
Gemäß einer nicht-beschränkenden Ausführungsform kann die Maschinenlernkomponente 410, wie hierin beschrieben, durch eine breite Vielfalt von Verfahren oder Kombinationen von Verfahren realisiert werden, wie z.B. überwachtes Lernen, unüberwachtes Lernen, Temporal-Difference-Lernen, Verstärkungslernen usw. Einige nicht-beschränkende Beispiele für überwachtes Lernen, welche mit der vorliegenden Technologie genutzt werden können, umfassen AODE (Averaged One-Dependence Estimators), künstliche neuronale Netze, Backpropagation, Bayes'sche Statistik, naive Bayes-Klassifikatoren, Bayes'sche Netze, Bayes'sche Wissensdatenbanken, fallbasierte Schlussfolgerung, Entscheidungsbäume, induktives logisches Programmieren, Gauß‘sche Prozessregression, Genexpressionsprogrammierung, Gruppenverfahren der Datenverarbeitung (Group Method of Data Handling, GMDH), lernende Automaten, lernende Vektorquantisierung, minimale Mitteilungslänge (Entscheidungsbäume, Entscheidungsgraphen usw.), Lazy Learning, instanzbasiertes Lernen, Nearest-Neighbor-Algorithmus, analoges Modellieren, wahrscheinlich annähernd richtiges (Probably Approximately Correct, PAC) Lernen, Ripple-Down-Regeln, eine Wissenserwerbsmethodik, symbolische Maschinenlernalgorithmen, subsymbolische Maschinenlernalgorithmen, Support Vector Machines, Zufallswälder, Ensembles von Klassifikatoren, Bootstrap Aggregating (Bagging), Boosting (Metaalgorithmus), ordinale Klassifikation, Regressionsanalyse, Informations-Fuzzy-Netzwerke (IFN), statistische Klassifikation, lineare Klassifikatoren, Fishers lineare Diskriminanzanalyse, logistische Regression, ein Perzeptron, Support Vector Machines, quadratische Klassifikatoren, k-Nearest-Neighbor, verborgene Markov-Modelle und Boosting. Einige nicht-beschränkende Beispiele für ein unüberwachtes Lernen, welche mit der vorliegenden Technologie genutzt werden können, umfassen ein künstliches neuronales Netz, Daten-Clustering, Erwartungsmaximierung, selbstorganisierende Abbildung, Radiale-Basisfunktion-Netzwerk, Vektorquantisierung, generative topographische Abbildung, Information-Bottleneck-Methode, IBSEAD (auf Systemen verteilter autonomer Einheiten basierende Interaktion), Assoziationsanalyse, Apriori-Algorithmus, Eclat-Algorithmus, FP-Wachstumsalgorithmus, hierarchisches Clustering, Single-Linkage-Clustering, konzeptionelles Clustering, Partitionelles Clustering, k-Means-Algorithmus, Fuzzy Clustering und Verstärkungslernen. Einige nicht-beschränkende Beispiele für ein Temporal-Difference-Lernen können Q-Lernen und lernende Automaten umfassen. Spezielle Einzelheiten hinsichtlich einiger der Beispiele des überwachten Lernens, des unüberwachten Lernens, des Temporal-Difference-Lernens oder eines anderen Maschinenlernens, die in diesem Absatz beschrieben werden, sind bekannt und vom Umfang der vorliegenden Offenbarung umfasst. Außerdem kann, wenn ein oder mehrere Maschinenlernmodelle eingesetzt werden, eine Datenverarbeitungseinheit zuerst in einer kontrollierten Umgebung getestet werden, bevor sie in einem öffentlichen Rahmen eingesetzt wird. Ferner können die Datenverarbeitungseinheiten, auch wenn sie in einer öffentlichen Umgebung eingesetzt werden (z.B. außerhalb der kontrollierten Testumgebung), auf ihre Regelkonformität überwacht werden.
Gemäß einer nicht-beschränkenden Ausführungsform kann der intelligente Dienst für Empfehlungen von Anleitungsanweisungen 402 eine oder mehrere Berechnungen gemäß mathematischen Operationen oder Funktionen durchführen, die eine oder mehrere mathematische Operationen umfassen (z.B. analytisches oder rechnerisches Lösen von Differentialgleichungen oder partiellen Differentialgleichungen, Verwenden von Addition, Subtraktion, Division, Multiplikation, Standardabweichungen, Mittelwerten, Durchschnittswerten, Prozentsätzen, statistische Modellierung unter Verwendung statistischer Verteilungen durch Finden von Minima, Maxima oder ähnlichen Schwellenwerten für kombinierte Variablen usw.). Somit kann, wie hierin verwendet, eine Berechnungsoperation alle oder einen Teil der einen oder der mehreren mathematischen Operationen umfassen.
Gemäß einer nicht-beschränkenden Ausführungsform kann ein Benutzer, wenn die Aufgabe, die der Benutzer ausführen möchte, anfänglich nicht erkannt werden kann, dem intelligenten Dienst für Empfehlungen von Anleitungsanweisungen 402 (z.B. verbal über den durch Sprache aktivierten Hub 420 und/oder das Mikrofon 433 und/oder über die interaktive GUI 429 der Datenverarbeitungseinheit 430) Aktivitätsdaten als eine Eingabe bereitstellen, so dass der intelligente Dienst für Empfehlungen von Anleitungsanweisungen 402 mit der Objektabtastung, der Anweisungsabtastung (nach dem Herunterladen in den Korpus, wenn dies nicht bereits geschehen ist) und dem Anleiten des Benutzers durch die Schritt-für-Schritt-Anweisungen auf Grundlage des Überwachens der Aktivität des Benutzers beginnen kann.
Wie hierin beschrieben, umfasst das Al-Benutzeraktivitäts-Anleitungssystem 400 eine AR-Komponente 416, welche so konfiguriert ist, dass sie ein augmentiertes Bild 500 erzeugt, welches über Echtzeit-Bild/Video-Daten gelegt wird, um verbesserte Anleitungsanweisungen 422 zum Unterstützen eines Benutzers beim Ausführen einer Aufgabe bereitzustellen. 5, 6 und 7 zeigen zusammen ein Beispiel einer Aufgabe, wie ein Benutzer Gitarre spielt.
In 5 ist zunächst eine gelernte modellierte Benutzeraktivität gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung dargestellt. Die gelernte modellierte Benutzeraktivität 600 ist in diesem Beispiel ein gelernter richtig gespielter Barre-Gitarrenakkord 600 (z.B. ein C-Barre-Akkord 600). Der richtig gespielte Barre-Gitarrenakkord 600 kann von der Maschinenlernkomponente 410, wie hierin beschrieben, gelernt werden und für einen zukünftigen Rückgriff durch das Al-Benutzeraktivitäts-Anleitungssystem 400 (z.B. durch die AR-Komponente 416) im Domänenwissen 412 gespeichert werden. Ein Akkorddiagramm 602, welches dem richtig gespielten Barre-Gitarrenakkord 600 entspricht, kann ebenfalls für einen zukünftigen Rückgriff durch das Al-Benutzeraktivitäts-Anleitungssystem 400 im Domänenwissen 412 gespeichert werden.
6 zeigt eine GUI 429, welche Bild-/Videodaten 485 einer laufenden Aufgabe 434 (z.B. das Spielen eines gewünschten Liedes durch einen Benutzer auf einer Gitarre) anzeigt, die in Echtzeit ausgeführt wird, wobei der Benutzer eine Benutzeraktivität unrichtig ausführt, die zu der Aufgabe 434 gehört. In diesem Beispiel ist die unrichtige Benutzeraktivität ein unrichtig ausgeführter Barre-Gitarrenakkord (z.B. ein unrichtiger Barre-Gitarrenakkord C). In einer oder mehreren nicht-beschränkenden Ausführungsformen kann die GUI 429 auch ein Akkorddiagramm 602 anzeigen, welches Anzeigen 604 umfasst, die die aktuell von dem Benutzer gespielten Saiten anzeigen. In einer oder mehreren Ausführungsformen kann das Anzeigen der Anzeigen (z.B. Farbe, Form usw.) geändert werden, um anzuzeigen, welche speziellen Gitarrensaiten unrichtig gespielt werden.
7 zeigt die GUI 429, welche ein augmentiertes Bild 500 anzeigt, das über Echtzeit-Bild/Video-Daten 485 gelegt ist. Wie hierin beschrieben, zeigt das augmentierte Bild 500 dem Benutzer, wie die unrichtig ausgeführte Handlung zu korrigieren ist. In diesem Beispiel zeigt das augmentierte Bild 500 dem Benutzer, wie der Barre-Gitarrenakkord richtig auszuführen ist (z.B. eines richtigen Barre-C-Akkords), um die Aufgabe richtig fortzusetzen oder die Aufgabe richtig abzuschließen, z.B. das Lied richtig zu spielen. Entsprechend kann der Benutzer seine Handlung einfach korrigieren, ohne innezuhalten und/oder seine Aufmerksamkeit von der Gitarre abzuwenden. In einer oder mehreren nicht-beschränkenden Ausführungsformen kann die GUI 429 auch ein Akkorddiagramm 602 anzeigen, welches Korrekturanzeigen 606 umfasst, welche die Gitarrensaiten anzeigen, die gespielt werden sollten, um das Lied richtig zu spielen.
8, 9 und 10 zeigen zusammen ein Beispiel für eine Aufgabe, wie ein Benutzer Gitarre spielt, gemäß einem anderen nicht-beschränkenden Beispiel. Wie hierin erwähnt, kann ein Benutzer einen Schwierigkeitsgrad eingeben, der einer ausgewählten auszuführenden Aufgabe entspricht. Beispielsweise können die zuvor beschriebenen 5, 6 und 7 dem Eingeben einer Anforderung durch einen Benutzer entsprechen, ein bestimmtes Lied auf einem Anfängerniveau zu spielen. Entsprechend kann das Al-Benutzeraktivitäts-Anleitungssystem 400 aus dem Domänenwissen 412 gelernte modellierte Bilder von Barre-Akkorden erhalten.
Wenn jedoch der Benutzer eine Anforderung eingibt, das Lied auf einem fortgeschritteneren Niveau zu spielen, kann das Al-Benutzeraktivitäts-Anleitungssystem 400 aus dem Domänenwissen 412 gelernte modellierte Bilder 600 von offenen Dur-/Mollakkorden (z.B. eines offenen C-Gitarrenakkords) erhalten (siehe 8), welche verglichen mit Barre-Akkorden schwieriger zu spielen sein können.
In 9 zeigt die GUI 429 Bild-/Videodaten 485 einer laufenden Aufgabe 434 (z.B. wie ein Benutzer ein gewünschtes Lied auf einer Gitarre spielt) in Echtzeit an, wobei der Benutzer einen offenen C-Akkord unrichtig ausführt. Das Akkorddiagramm 602 umfasst eine Anzeige 604, welche zeigt, dass der Benutzer auf eine falsche Saite drückt.
In 10 zeigt die GUI 429 ein augmentiertes Bild 500 an, welches über Echtzeit-Bild/Video-Daten 485 gelegt ist. Wie hierin beschrieben, zeigt das augmentierte Bild 500 dem Benutzer, wie der offene Akkord (z.B. der richtige offene C-Akkord) richtig auszuführen ist, um gemäß einem fortgeschritteneren Schwierigkeitsgrad die Aufgabe richtig fortzusetzen oder die Aufgabe abzuschließen. Die GUI 429 zeigt auch ein Akkorddiagramm 602 an, welches Korrekturanzeigen 606 umfasst, die anzeigen, wie die Handlung zu korrigieren ist, z.B. wie der offene C-Akkord richtig zu spielen ist.
Wie hierin beschrieben, kann das Al-Benutzeraktivitäts-Anleitungssystem 400 die Bilder einer laufenden Aufgabe 432 überwachen und die nächste Handlung der laufenden Aufgabe 432 vorhersagen. Entsprechend kann ein augmentiertes Bild 500 erzeugt werden, welches den Benutzer über die nächste Handlung informiert, die in der laufenden Aufgabe 432 auszuführen ist.
11 und 12 zeigen zusammen, wie das Al-Benutzeraktivitäts-Anleitungssystem 400 in einem laufenden Lied, das von einem Benutzer ausgeführt wird, den nächsten zu spielenden Gitarrenakkord vorhersagt. In 11 zeigt beispielsweise die GUI 429 Bild-/Videodaten 485 eines Benutzers, der einen offenen A-Akkord spielt, der zu einem Lied gehört, das der Benutzer ausführt, in Echtzeit an. Für die Fortsetzung des Liedes erkennt das Al-Benutzeraktivitäts-Anleitungssystem 400, dass der nächste Akkord in dem Lied ein offener C-Akkord ist. Entsprechend erzeugt das Al-Benutzeraktivitäts-Anleitungssystem 400 aktiv ein augmentiertes Bild 500, wie in 12 dargestellt. Das augmentierte Bild 500 wird über die Bild-/Videodaten 485 gelegt, um den Benutzer zu informieren oder anzuleiten, wie er von der aktuellen Handlung (z.B. dem offen gespielten A-Akkord) zu der nächsten Handlung der Aufgabe (z.B. dem offenen C-Akkord) überzugehen hat. Auf diese Weise kann der Benutzer das Lied akkurat weiterspielen, ohne seine Aufmerksamkeit von der laufenden Aufgabe abzuwenden.
Nun übergehend zu 13, ist dort ein Verfahren zum Empfehlen von Anleitungsanweisungen für einen Benutzer durch ein Al-Benutzeraktivitäts-Anleitungssystem 400 gemäß einer oder mehreren Ausführungsformen der vorliegenden Erfindung dargestellt. Das Verfahren beginnt bei der Operation 800 und bei der Operation 802 bestimmt das Al-Benutzeraktivitäts-Anleitungssystem 400 eine Aufgabe, die von einem Benutzer auszuführen ist. Die Aufgabe kann eine Mehrzahl von Benutzerhandlungen umfassen, die von dem Benutzer auszuführen sind und kann in Reaktion auf den Empfang einer Eingabe (z.B. einer Berührungseingabe, einer Spracheingabe usw.) durch den Benutzer bestimmt werden, welche die Aufgabe anzeigt. Bei der Operation 804 erhält das Al-Benutzeraktivitäts-Anleitungssystem 400 eine oder mehrere gelernte Modellhandlungen, die von der Aufgabe umfasst sind. Die gelernten Modellhandlungen können aus einem Domänenwissen 412 erhalten werden. In einer oder mehreren nicht-beschränkenden Ausführungsformen umfassen die gelernten Modellhandlungen Bilder, welche beispielhafte oder richtige Ausführungen der Handlung anzeigen. Bei der Operation 806 erzeugt das Al-Benutzeraktivitäts-Anleitungssystem 400 Bilddaten der von dem Benutzer ausgeführten laufenden Aufgabe in Echtzeit. Die Bilddaten können zum Beispiel einen Video-Stream umfassen, der von einer Kamera erzeugt wird, welche die laufende Aufgabe überwacht.
Nun übergehend zur Operation 808, analysiert das Al-Benutzeraktivitäts-Anleitungssystem 400 die Bilddaten der laufenden Aufgabe und bestimmt bei der Operation 810, ob eine aktuelle Handlung, die von der laufenden Aufgabe umfasst ist, richtig ausgeführt wird. Wenn die Handlung richtig ausgeführt wird, bestimmt das Al-Benutzeraktivitäts-Anleitungssystem 400, ob die Aufgabe abgeschlossen ist, d.h. ob alle Handlungen, die von den Aufgaben umfasst sind, ausgeführt worden sind. Wenn die Aufgabe abgeschlossen ist, endet das Verfahren. Anderenfalls geht das Al-Benutzeraktivitäts-Anleitungssystem 400 zur Operation 824 über, um die nächste Handlung zu bestimmen, die von der Aufgabe umfasst ist, was nachstehend detaillierter beschrieben wird.
Wenn jedoch die Handlung unrichtig ausgeführt wird, erzeugt das Al-Benutzeraktivitäts-Anleitungssystem 400 bei der Operation 812 eine haptische Warnung, welche anzeigt, dass die aktuelle Handlung unrichtig ausgeführt wird. Bei der Operation 814 greift das Al-Benutzeraktivitäts-Anleitungssystem 400 auf das Domänenwissen 412 zu, um das gelernte modellierte Bild der richtigen Handlung zu erhalten, welches verwendet wird, um die Bilddaten zu augmentieren. Bei der Operation 816 augmentiert das Al-Benutzeraktivitäts-Anleitungssystem 400 die Bilddaten, indem es das gelernte modellierte Bild über die Bilddaten legt. Entsprechend kann der Benutzer, der die GUI 429 betrachtet, erkennen, wie die aktuell unrichtig ausgeführte Handlung zu korrigieren ist. Bei der Operation 818 analysiert das Al-Benutzeraktivitäts-Anleitungssystem 400 die Bilddaten, um zu bestimmen, ob der Benutzer seine Ausführung angepasst hat, um seine Handlung auf Grundlage des augmentierten Bildes zu korrigieren. Wenn die unrichtige Handlung nicht korrigiert worden ist, kehrt das Verfahren zur Operation 816 zurück und wird damit fortgesetzt, dass das gelernte modellierte Bild über die Bilddaten gelegt wird, bis der Benutzer die unrichtige Handlung korrigiert. Wenn die unrichtige Handlung korrigiert ist, geht das Verfahren zur Operation 820 über, um zu bestimmen, ob die Aufgabe abgeschlossen ist. Wenn die Aufgabe abgeschlossen ist, endet das Verfahren bei der Operation 822.
Wenn die Aufgabe nicht abgeschlossen ist, bestimmt das Al-Benutzeraktivitäts-Anleitungssystem 400 bei der Operation 824 die nächste Handlung, die von der Aufgabe umfasst ist. Bei der Operation 826 erzeugt das Al-Benutzeraktivitäts-Anleitungssystem 400 eine haptische Warnung, welche den Benutzer informiert, dass die nächste Handlung in der Aufgabe auszuführen ist. Bei der Operation 828 greift das Al-Benutzeraktivitäts-Anleitungssystem 400 auf das Domänenwissen 412 zu, um das gelernte modellierte Bild der nächsten Handlung zu erhalten, die von der Aufgabe umfasst ist, welches verwendet wird, um die Bilddaten zu augmentieren. Bei der Operation 830 augmentiert das Al-Benutzeraktivitäts-Anleitungssystem 400 die Bilddaten, indem es das gelernte modellierte Bild der nächsten Handlung über die Bilddaten legt. Entsprechend kann der Benutzer, der die GUI 429 betrachtet, schnell zur nächsten Handlung übergehen, die von der Aufgabe umfasst ist, ohne seine Aufmerksamkeit von der laufenden Aufgabe abzuwenden. Das Verfahren kehrt zur Operation 810 zurück, wo das Al-Benutzeraktivitäts-Anleitungssystem 400 analysiert, ob die nächste Handlung richtig ausgeführt wird, und das Verfahren wird fortgesetzt, wie oben beschrieben.
Im Folgenden werden weitere Einzelheiten von Maschinenlerntechniken bereitgestellt, die angewendet werden können, um Teile des Computersystems/Servers 12 zu realisieren. Die verschiedenen Arten von Computersteuerungsfunktionalitäten (z.B. Abschätzungen, Bestimmungen, Entscheidungen, Empfehlungen und dergleichen des Computersystems/Servers 12), die hierin beschrieben werden, können durch Maschinenlernen und/oder Verarbeitungstechniken natürlicher Sprache realisiert werden. Im Allgemeinen laufen Maschinenlerntechniken auf sogenannten „neuronalen Netzen“ ab, welche als programmierbare Computer realisiert werden können, die dafür konfiguriert sind, einen Satz von Maschinenlernalgorithmen ablaufen zu lassen. Neuronale Netze binden Wissen aus einer Vielfalt von Disziplinen ein, z.B. Neurophysiologie, kognitiver Wissenschaft/Psychologie, Physik (statistische Mechanik), Kontrolltheorie, Computerwissenschaften, künstlicher Intelligenz, Statistik/Mathematik, Mustererkennung, Computer Vision, Parallelverarbeitung und Hardware (z.B. digitale/analoge/VLSI/optische).
Die Grundfunktion von neuronalen Netzen und deren Maschinenlernalgorithmen ist es, durch Interpretieren von unstrukturierten Sensordaten durch eine Art von Maschinenwahrnehmung Muster zu erkennen. Unstrukturierte Daten der realen Welt in ihrer nativen Form (z.B. Bilder, Geräusche, Text oder Zeitreihendaten) werden in eine numerische Form (z.B. einen Vektor, der eine Größe und eine Richtung aufweist) umgewandelt, die von einem Computer verstanden und manipuliert werden kann. Der Maschinenlernalgorithmus führt mehrere Iterationen einer auf Lernen basierenden Analyse an den Vektoren der Daten der realen Welt durch, bis Muster (oder Beziehungen), die in den Vektoren der Daten der realen Welt enthalten sind, aufgedeckt und gelernt werden. Die gelernten Muster/Beziehungen fungieren als Vorhersagemodelle, die verwendet werden können, um eine Vielfalt von Aufgaben auszuführen, zum Beispiel eine Klassifikation (oder ein Markieren) von Daten der realen Welt und ein Clustering von Daten der realen Welt. Klassifikationsaufgaben hängen oft von der Verwendung von markierten Datensätzen ab, um das neuronale Netz (d.h. das Modell) zu trainieren, die Korrelation zwischen Markierungen und Daten zu erkennen. Dies ist als überwachtes Lernen bekannt. Beispiele für Klassifikationsaufgaben umfassen ein Erkennen von Personen/Gesichtern in Bildern, ein Erkennen von Gesichtsausdrücken (z.B. wütend, fröhlich usw.) in einem Bild, ein Identifizieren von Objekten in Bildern (z.B. Stoppschilder, Fußgänger, Fahrbahnmarkierungen usw.), ein Erkennen von Gesten in einem Video, ein Erkennen von Musikinstrumenten und einer Instrumentenbetätigung, ein Erkennen einer handwerklichen Aktivität (z.B. Kochen, Kreuzsticken, Nähen usw.), ein Erkennen von Stimmen, ein Erkennen von Stimmen in einem Audio, ein Identifizieren bestimmter Sprecher, ein Übertragen von Sprache in Text und Ähnliches. Bei Clustering-Aufgaben werden Ähnlichkeiten zwischen Objekten identifiziert, welche gemäß jenen gemeinsamen Eigenschaften gruppiert werden und von anderen Gruppen von Objekten unterschieden werden. Diese Gruppen sind als „Cluster“ bekannt.
Ein Beispiel für Maschinenlerntechniken, die angewendet werden können, um Aspekte der Erfindung zu realisieren, wird in Bezug auf 14 und 15 beschrieben. Maschinenlernmodelle, die gemäß Ausführungsformen der Erfindung konfiguriert und eingerichtet sind, werden in Bezug auf 14 beschrieben. Detaillierte Beschreibungen eines beispielhaften Datenverarbeitungssystems und einer beispielhaften Netzwerkarchitektur, mit welchen eine oder mehrere der Ausführungsformen der hierin beschriebenen Erfindung realisiert werden können, werden in Bezug auf 16 gegeben.
14 zeigt ein Blockschaubild, welches ein Klassifikatorsystem 1200 zeigt, das in der Lage ist, verschiedene Aspekte der hierin beschriebenen Erfindung zu realisieren. Insbesondere wird in Ausführungsformen der Erfindung die Funktionalität des Systems 1200 genutzt, um verschiedene Modelle und Untermodelle zu erzeugen, welche in Ausführungsformen der Erfindung genutzt werden können, um eine Computerfunktionalität zu realisieren. Das System 1200 umfasst mehrere Datenquellen 1202, die durch ein Netzwerk 1204 mit einem Klassifikator 1210 im Datenaustausch stehen. In einigen Aspekten der Erfindung können die Datenquellen 1202 das Netzwerk 1204 umgehen und direkt in den Klassifikator 1210 einspeisen. Die Datenquellen 1202 stellen Daten-/Informationseingaben bereit, welche gemäß den Ausführungsformen der Erfindung von dem Klassifikator 1210 ausgewertet werden. Die Datenquellen 1202 stellen außerdem Daten-/Informationseingaben bereit, welche von dem Klassifikator 1210 verwendet werden können, um ein Modell (Modelle) 1216 zu trainieren und/oder zu aktualisieren, die von dem Klassifikator 1210 erzeugt werden. Die Datenquellen 1202 können als eine breite Vielfalt von Datenquellen realisiert werden, umfassend, ohne darauf beschränkt zu sein, Sensoren, die dafür konfiguriert sind, Echtzeitdaten zu sammeln, Datenspeicher (umfassend Trainingsdatenspeicher), Kameras und Ausgaben von anderen Klassifikatoren. Das Netzwerk 1204 kann eine beliebige Art eines Datenaustauschnetzwerks sein, umfassend, ohne darauf beschränkt zu sein, lokale Netzwerke, Weitverkehrs-Netzwerke, private Netzwerke, das Internet und Ähnliches.
Der Klassifikator 1210 kann als Algorithmen realisiert werden, die von einem programmierbaren Computer, z.B. einem Verarbeitungssystem 1400 (dargestellt in 16), ausgeführt werden. Wie in 14 dargestellt, umfasst der Klassifikator 1210 eine Zusammenstellung von Maschinenlernalgorithmen (ML-Algorithmen) 1212; Verarbeitungsalgorithmen für natürliche Sprache (Natural Language Processing Algorithms, NLP-Algorithmen) 1214 und ein Modell (Modelle) 1216, welche Beziehungsalgorithmen (oder Vorhersagealgorithmen) sind, die von den ML-Algorithmen erzeugt (oder gelernt) werden. Die Algorithmen 1212, 1214, 1216 des Klassifikators 1210 sind zur Vereinfachung der Darstellung und der Erläuterung separat abgebildet. In Ausführungsformen der Erfindung können die Funktionen, die von den verschiedenen Algorithmen 1212, 1214, 1216 des Klassifikators 1210 ausgeführt werden, anders als dargestellt verteilt sein. Wenn beispielsweise der Klassifikator 1210 so konfiguriert ist, dass er eine Gesamtaufgabe ausführt, die Unteraufgaben aufweist, kann die Zusammenstellung von ML-Algorithmen 1212 so segmentiert sein, dass ein Teil der ML-Algorithmen 1212 eine jeweilige Unteraufgabe ausführt und ein Teil der ML-Algorithmen die Gesamtaufgabe ausführt. Außerdem können in einigen Ausführungsformen der Erfindung die NLP-Algorithmen 1214 in die ML-Algorithmen 1212 integriert sein.
Die NLP-Algorithmen 1214 umfassen eine Spracherkennungsfunktionalität, welche ermöglicht, dass der Klassifikator 1210 und insbesondere die ML-Algorithmen 1212 Daten natürlicher Sprache (Text und Audio) empfangen und Elemente der Sprachverarbeitung, des Informationsabrufs und des Maschinenlernens anwenden, um aus den natürlichen Spracheingaben eine Bedeutung abzuleiten und auf Grundlage der abgeleiteten Bedeutung möglicherweise eine Handlung vorzunehmen. Die NLP-Algorithmen 1214, die gemäß Aspekten der Erfindung verwendet werden, können auch eine Sprachsynthesefunktionalität umfassen, welche ermöglicht, dass der Klassifikator 1210 das Ergebnis (die Ergebnisse) 1220 in natürliche Sprache (Text und Audio) übersetzt, um Aspekte des Ergebnisses (der Ergebnisse) 1220 als Kommunikation in natürlicher Sprache zu übermitteln.
Die NLP- und die ML-Algorithmen 1214, 1212 empfangen eingegebene Daten (d.h. Trainingsdaten und zu analysierende Daten) von den Datenquellen 1202 und werten diese aus. Die ML-Algorithmen 1212 umfassen Funktionalität, die notwendig ist, um das Format der eingegebenen Daten zu interpretieren und zu verwenden. Wo beispielsweise die Datenquellen 1202 Bilddaten umfassen, können die ML-Algorithmen 1212 eine visuelle Erkennungs-Software umfassen, die dafür konfiguriert ist, Bilddaten zu interpretieren. Die ML-Algorithmen 1212 wenden Maschinenlerntechniken auf empfangene Trainingsdaten (z.B. Daten, die von einer oder mehreren der Datenquellen 1202 empfangen werden, Bilder und/oder Geräusche, die aus einem Video-Stream extrahiert werden, usw.) an, um mit der Zeit ein oder mehrere Modelle 1216 zu erzeugen/trainieren/aktualisieren, welche die Gesamtaufgabe und die Unteraufgaben modellieren, die der Klassifikator 1210 erfüllen soll.
Nun zusammen auf 14 und 15 Bezug nehmend, zeigt 15 ein Beispiel für eine Lernphase 1300, die von den ML-Algorithmen 1212 durchgeführt wird, um die oben beschriebenen Modelle 1216 zu erzeugen. In der Lernphase 1300 extrahiert der Klassifikator 1210 Merkmale aus den Trainingsdaten und wandelt die Merkmale in Vektorrepräsentationen um, welche von den ML-Algorithmen 1212 erkannt und analysiert werden können. Die Merkmalsvektoren werden von dem ML-Algorithmus 1212 analysiert, um die Trainingsdaten gegen das Zielmodell zu „klassifizieren“ (z.B. richtige „Modelle einer Handlung, die von einer Aufgabe umfasst ist, oder die Aufgabe des Modells) und Beziehungen zwischen und unter den klassifizierten Trainingsdaten aufzudecken. Beispiele für geeignete Realisierungen der ML-Algorithmen 1212 umfassen, ohne darauf beschränkt zu sein, neuronale Netze, Support Vector Machines (SVMs), logistische Regression, Entscheidungsbäume, verborgene Markov-Modelle (HMMs) usw. Das Lernen oder das Training, das von den ML-Algorithmen 1212 durchgeführt wird, kann ein überwachtes, ein unüberwachtes oder ein hybrides sein, welches Aspekte von überwachtem und unüberwachtem Lernen umfasst. Überwachtes Lernen ist es, wenn Trainingsdaten bereits verfügbar und klassifiziert/markiert sind. Unüberwachtes Lernen ist es, wenn Trainingsdaten nicht klassifiziert/markiert sind, so dass sie durch Iterationen des Klassifikators 1210 und der ML-Algorithmen 1212 entwickelt werden müssen. Beim unüberwachten Lernen können zusätzliche Lern-/Trainingsverfahren angewendet werden, zum Beispiel Clustering, Anomalieerkennung, neuronale Netze, Deep Learning und Ähnliches.
Wenn die Modelle 1216 ausreichend von den ML-Algorithmen 1212 trainiert sind, wird auf die Datenquellen 1202 zugegriffen, welche Daten der „realen Welt“ erzeugen, und die Daten der „realen Welt“ werden auf die Modelle 1216 angewendet, um nutzbare Versionen der Ergebnisse 1220 zu erzeugen. In einigen Ausführungsformen der Erfindung können die Ergebnisse 1220 zu dem Klassifikator 1210 zurückgeführt werden und von den ML-Algorithmen 1212 als zusätzliche Trainingsdaten zum Aktualisieren und/oder Verfeinern der Modelle 1216 verwendet werden.
In Aspekten der Erfindung können die ML-Algorithmen 1212 und die Modelle 1216 so konfiguriert sein, dass sie auf verschiedene ihrer Ergebnisse/Bestimmungen (einschließlich der Ergebnisse 1220) Konfidenzniveaus (Confidence Levels, CLs) anwenden, um die Gesamtgenauigkeit des speziellen Ergebnisses/der speziellen Bestimmung zu verbessern. Wenn die ML-Algorithmen 1212 und/oder die Modelle 1216 eine Bestimmung vornehmen oder ein Ergebnis erzeugen, für welche/welches der Wert von CL unter einem vorgegebenen Schwellenwert (TH) liegt (d.h. CL < TH), kann das Ergebnis/die Bestimmung als eine ausreichend niedrige „Konfidenz“ aufweisend klassifiziert werden, um einen Rückschluss zu begründen, dass die Bestimmung/das Ergebnis ungültig ist, und dieser Rückschluss kann verwendet werden, um zu bestimmen, wann, wie und/oder ob die Bestimmungen/Ergebnisse bei der weiteren Verarbeitung zu handhaben sind. Wenn CL > TH, kann die Bestimmung/das Ergebnis als gültig angesehen werden, und dieser Rückschluss kann verwendet werden, um zu bestimmen, wann, wie und/oder ob die Bestimmungen/Ergebnisse bei der weiteren Verarbeitung zu handhaben sind. Es können viele verschiedene vorgegebene TH-Niveaus bereitgestellt werden. Die Bestimmungen/Ergebnisse mit CL > TH können in eine Rangordnung vom höchsten CL > TH bis zum niedrigsten CL > TH gebracht werden, um zu priorisieren, wann, wie und/oder ob die Bestimmungen/Ergebnisse bei der weiteren Verarbeitung zu handhaben sind.
In Aspekten der Erfindung kann der Klassifikator 1210 so konfiguriert sein, dass er Konfidenzniveaus (CLs) auf die Ergebnisse 1220 anwendet. Wenn der Klassifikator 1210 bestimmt, dass ein CL in den Ergebnissen 1220 unter einem vorgegebenen Schwellenwert (TH) liegt (d.h. CL < TH), können die Ergebnisse 1220 als ausreichend niedrig klassifiziert werden, um eine Klassifizierung „keine Konfidenz“ in den Ergebnissen 1220 zu begründen. Wenn CL > TH, können die Ergebnisse 1220 als ausreichend hoch klassifiziert werden, um eine Bestimmung zu begründen, dass die Ergebnisse 1220 gültig sind. Es können viele verschiedene vorgegebene TH-Niveaus bereitgestellt werden, so dass die Ergebnisse 1220 mit CL > TH in eine Rangordnung vom höchsten CL > TH bis zum niedrigsten CL > TH gebracht werden können.
Die von dem Klassifikator 1210 und insbesondere von dem ML-Algorithmus 1212 ausgeführten Funktionen können als ein gewichteter gerichteter Graph organisiert sein, wobei die Knoten künstliche Neuronen sind (z.B. nach Neuronen des menschlichen Gehirns modelliert sind) und wobei gewichtete gerichtete Kanten die Knoten verbinden. Der gerichtete Graph des Klassifikators 1210 kann so organisiert sein, dass bestimmte Knoten Eingangsschichtknoten bilden, bestimmte Knoten Knoten einer verborgenen Schicht bilden und bestimmte Knoten Ausgangsschichtknoten bilden. Die Eingangsschichtknoten sind mit den Knoten der verborgenen Schicht verbunden, welche mit den Ausgangsschichtknoten verbunden sind. Jeder Knoten ist mit jedem Knoten in der benachbarten Schicht durch Verbindungswege verbunden, welche als Richtungspfeile dargestellt sein können, die jeweils eine Verbindungsstärke aufweisen. Es können mehrere Eingangsschichten, mehrere verborgene Schichten und mehrere Ausgangsschichten vorgesehen sein. Wenn mehrere verborgene Schichten vorgesehen sind, kann der Klassifikator 1210 unüberwachtes Deep Learning ausführen, um die zugewiesene(n) Aufgabe(n) des Klassifikators 1210 auszuführen.
Ähnlich der Funktionalität eines menschlichen Gehirns empfängt jeder Eingangsschichtknoten Eingaben ohne Verbindungsstärkenanpassungen und ohne Knotenadditionen. Jeder Knoten der verborgenen Schicht empfängt seine Eingaben von allen Eingangsschichtknoten gemäß den Verbindungsstärken, die zu den entsprechenden Verbindungswegen gehören. Eine ähnliche Verbindungsstärkemultiplikation und Knotenaddition wird für die Knoten der verborgenen Schicht und die Ausgangsschichtknoten durchgeführt.
Der gewichtete gerichtete Graph des Klassifikators 1210 verarbeitet Datenaufzeichnungen (z.B. Ausgaben aus den Datenquellen 1202) eine nach der anderen und er „lernt“ durch Vergleichen einer anfänglichen beliebigen Klassifikation der Aufzeichnung mit der bekannten aktuellen Klassifikation der Aufzeichnung. Unter Anwendung einer Trainingsmethode, die als „Backpropagation“ (d.h. Rückwärts-Propagation von Fehlern) bekannt ist, werden die Fehler aus der Anfangsklassifikation der ersten Aufzeichnung in die gewichteten gerichteten Graphen des Klassifikators 1210 zurückgeführt und verwendet, um die gewichteten Verbindungen des gewichteten gerichteten Graphen zum zweiten Mal zu modifizieren, und dieses Rückführungsverfahren wird für viele Iterationen fortgesetzt. In der Trainingsphase eines gewichteten gerichteten Graphen des Klassifikators 1210 ist die richtige Klassifikation für jede Aufzeichnung bekannt und den Ausgabeknoten können daher „richtige“ Werte zugeordnet werden. Beispielsweise ein Knotenwert „1“ (oder 0,9) für den Knoten, der der richtigen Klasse entspricht, und ein Knotenwert „0“ (oder 0,1) für die anderen. Es ist somit möglich, die berechneten Werte des gewichteten gerichteten Graphen für die Ausgabeknoten mit diesen „richtigen“ Werten zu vergleichen und für jeden Knoten einen Fehlerterm zu berechnen (d.h. die „Delta“-Regel). Diese Fehlerterme werden dann verwendet, um die Gewichtungen in den verborgenen Schichten derart anzupassen, dass bei der nächsten Iteration die Ausgabewerte näher an den „richtigen“ Werten liegen.
16 zeigt ein übergeordnetes Blockschaubild des Computersystems 1400, welches verwendet werden kann, um eine oder mehrere Computerverarbeitungsoperationen gemäß Aspekten der vorliegenden Erfindung zu realisieren. Wenngleich ein beispielhaftes Computersystem 1400 dargestellt ist, umfasst das Computersystem 1400 einen Datenaustauschpfad 1425, welcher das Computersystem 1400 mit zusätzlichen Systemen (nicht dargestellt) verbindet und ein oder mehrere Weitverkehrsnetzwerke (WANs) und/oder lokale Netzwerke (LANs) umfassen kann, wie das Internet, ein Intranet (Intranets) und/oder ein drahtloses Datenaustausch-Netzwerk (drahtlose Datenaustausch-Netzwerke). Das Computersystem 1400 und die zusätzlichen Systeme stehen über den Datenaustauschpfad 1425 im Datenaustausch, z.B. um zwischen sich Daten zu übermitteln. In einigen Ausführungsformen der Erfindung können die zusätzlichen Systeme als ein oder mehrere Cloud-Computing-Systeme 50 realisiert werden. Das Cloud-Computing-System 50 kann einen Teil der Funktionalität oder die gesamte Funktionalität (in beliebiger Kombination) des Computersystems 1400 ergänzen, unterstützen oder ersetzen, umfassend beliebige und alle in der vorliegenden detaillierten Beschreibung beschriebenen Computersysteme, die mit dem Computersystem 1400 realisiert werden können. Außerdem kann ein Teil der Funktionalität oder die gesamte Funktionalität der verschiedenen Computersysteme, die in der vorliegenden detaillierten Beschreibung beschrieben werden, als ein Knoten des Cloud-Computing-Systems 50 realisiert werden.
Das Computersystem 1400 umfasst einen oder mehrere Prozessoren, z.B. den Prozessor 1402. Der Prozessor 1402 ist mit einer Datenaustauschinfrastruktur 1404 (z.B. einem Datenaustauschbus, einer Cross-over Bar oder einem Netzwerk) verbunden. Das Computersystem 1400 kann eine Anzeigeschnittstelle 1406 umfassen, welche Graphik, Text und andere Daten aus der Datenaustausch-Infrastruktur 1404 (oder aus einem nicht dargestellten Rahmenspeicher) zur Anzeige auf einer Anzeigeeinheit 1408 weiterleitet. Das Computersystem 1400 umfasst ferner einen Hauptspeicher 1410, vorzugsweise einen Direktzugriffsspeicher (RAM), und kann außerdem einen Sekundärspeicher 1412 umfassen. Der Sekundärspeicher 1412 kann zum Beispiel ein Festplattenlaufwerk 1414 und/oder ein Wechselspeicherlaufwerk 1416 umfassen, welches zum Beispiel ein Diskettenlaufwerk, ein Magnetbandlaufwerk oder ein optisches Plattenlaufwerk repräsentiert. Das Wechselspeicherlaufwerk 1416 liest aus einer austauschbaren Speichereinheit 1418 aus oder beschreibt diese auf eine Weise, wie sie dem Fachmann bekannt ist. Die austauschbare Speichereinheit 1418 repräsentiert zum Beispiel eine Diskette, eine Compact Disk, ein Magnetband oder eine optische Platte, einen Flash-Speicher, einen Solid-State-Speicher usw., welche/welches/welcher von einem Wechselspeicherlaufwerk 316 ausgelesen oder beschrieben wird. Wie zu erkennen ist, umfasst die austauschbare Speichereinheit 318 ein computerlesbares Medium, auf welchem Computer-Software und/oder Daten gespeichert sind.
In alternativen Ausführungsformen der Erfindung kann der Sekundärspeicher 1412 andere ähnliche Mittel umfassen, um zu ermöglichen, dass Computerprogramme oder andere Anweisungen in das Computersystem geladen werden. Solche Mittel können zum Beispiel eine austauschbare Speichereinheit 1420 und eine Schnittstelle 1422 umfassen. Beispiele für solche Mittel können ein Programmpaket und eine Paketschnittstelle (wie man sie bei Videospieleinheiten findet), einen austauschbaren Speicherchip (z.B. einen EPROM oder einen PROM) und einen zugehörigen Steckplatz und andere austauschbare Speichereinheiten 1420 und Schnittstellen 1422 umfassen, welche ermöglichen, dass Software und Daten von der austauschbaren Speichereinheit 1420 auf das Computersystem 1400 übertragen werden.
Das Computersystem 1400 kann außerdem eine Datenaustausch-Schnittstelle 1424 umfassen. Die Datenaustausch-Schnittstelle 1424 ermöglicht, dass Software und Daten zwischen dem Computersystem und externen Einheiten übertragen werden. Beispiele für die Datenaustausch-Schnittstelle 1424 können ein Modem, eine Netzwerk-Schnittstelle (z.B. eine Ethernet-Karte), einen Datenaustauschanschluss oder einen PCM-CIA-Slot und eine PCM-CIA-Karte usw. umfassen. Software und Daten, die über die Datenaustausch-Schnittstelle 1424 übertragen werden, liegen in der Form von Signalen vor, welche zum Beispiel elektronische, elektromagnetische, optische oder andere Signale sein können, die von der Datenaustausch-Schnittstelle 1424 empfangen werden können. Diese Signale werden der Datenaustausch-Schnittstelle 1424 über den Datenaustauschpfad (d.h. über den Kanal) 1425 bereitgestellt. Der Datenaustauschpfad 1425 überträgt Signale und kann durch Drähte oder Kabel, Lichtwellenleiter, eine Telefonleitung, eine Mobiltelefonverbindung, eine HF-Verbindung und/oder andere Datenaustauschkanäle realisiert werden.
Technische Vorteile umfassen eine verbesserte Funktionalität des AI-Datenverarbeitungssystems, welches in der Lage ist, mehrere verschiedene Benutzerhandlungen zu lernen, die notwendig sind, um eine gegebene Aufgabe auszuführen, durchgeführte Handlungen eines Benutzers in Echtzeit zu überwachen, um ein gewünschte Aufgabe zu erfüllen, und dem Benutzer Anleitungen dazu zu empfehlen, wie eine oder mehrere der Handlungen richtig ausgeführt werden, um die Aufgabe zu erfüllen. In einer oder mehreren nicht-beschränkenden Ausführungsformen nimmt das Al-Benutzeraktivitäts-Anleitungssystem Abbildungen von Handlungen eines Benutzers in Echtzeit vor, während dieser die Aufgabe ausführt, und erkennt eine unrichtig ausgeführte Handlung. Es ist eine Anzeigevorrichtung vorgesehen, welche Bilder des Benutzers, der die Handlungen der Aufgabe ausführt, in Echtzeit anzeigt. In Reaktion auf das Erkennen der unrichtig ausgeführten Handlung erzeugt das Al-Benutzeraktivitäts-Anleitungssystem eine haptische Warnung, welche den Benutzer warnt, dass eine aktuelle Handlung unrichtig ausgeführt wird, und es erzeugt eine Empfehlungsausgabe, welche eine Korrektur der unrichtig ausgeführten Handlung anzeigt. Die Empfehlungsausgabe umfasst gesprochene Anweisungen, welche den Benutzer anleiten, wie die unrichtig ausgeführte Handlung zu korrigieren ist, und/oder ein augmentiertes Bild, welches über die auf der Anzeigevorrichtung dargestellten Bilder gelegt wird und die richtige Handlung anzeigt. Auf diese Weise kann der Benutzer seine Handlung einfach korrigieren, ohne innezuhalten und/oder seine Aufmerksamkeit von der laufenden Aufgabe abzuwenden. Entsprechend ermöglicht das hierin beschriebene Al-Benutzeraktivitäts-Anleitungssystem die Fähigkeit für Benutzer, Aufgaben schneller abzuschließen und dabei Fehler in den abgeschlossenen Aufgaben zu vermeiden.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann ein computerlesbares Speichermedium (oder -medien) mit computerlesbaren Programmanweisungen darauf umfassen, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem computerlesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch eine Einheit zur Ausführung von Anweisungen halten und speichern kann. Bei dem computerlesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiter-Speichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste speziellerer Beispiele des computerlesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM oder Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Compact-Disc-Nur-Lese-Speicher (CD-ROM), eine Digital Versatile Disc (DVD), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein computerlesbares Speichermedium soll in der Verwendung hierin nicht so aufgefasst werden, dass es sich um flüchtige Signale als solche handelt, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. Lichtimpulse, die ein Lichtwellenleiterkabel durchlaufen), oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene computerlesbare Programmanweisungen können von einem computerlesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Router, Firewalls, Switches, Gateway-Computer und/oder Edge-Server umfassen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt computerlesbare Programmanweisungen aus dem Netzwerk und leitet die computerlesbaren Programmanweisungen zur Speicherung in einem computerlesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei den computerlesbaren Programmanweisungen zum Ausführen von Operationen der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction Set Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ oder ähnliche sowie herkömmliche prozedurorientierte Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die computerlesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art von Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gate-Arrays (FPGA, Field Programmable Gate Arrays) oder programmierbare Logik-Arrays (PLA, Programmable Logic Arrays) die computerlesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der computerlesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen individuell einzurichten, um Aspekte der vorliegenden Erfindung auszuführen.
Aspekte der vorliegenden Erfindung werden hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es versteht sich, dass jeder Block der Ablaufpläne und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaubildern mittels computerlesbarer Programmanweisungen realisiert werden können.
Diese computerlesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen Mittel zum Realisieren der in dem Block oder den Blöcken der Ablaufpläne und/oder der Blockschaubilder festgelegten Funktionen/Handlungen erzeugen. Diese computerlesbaren Programmanweisungen können auch auf einem computerlesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das computerlesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt umfasst, umfassend Anweisungen, welche Aspekte der in dem Block oder den Blöcken des Ablaufplans und/oder der Blockschaubilder angegebenen Funktion/Handlung realisieren.
Die computerlesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Betriebsschritten auf dem Computer, der anderen programmierbaren Vorrichtung oder der anderen Einheit zu bewirken, um ein durch einen Computer realisiertes Verfahren zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block oder den Blöcken der Ablaufpläne und/oder der Blockschaubilder festgelegten Funktionen/Handlungen realisieren.
Der Ablaufplan und die Blockschaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Realisierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in dem Ablaufplan oder den Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die einen oder mehrere ausführbare Anweisungen zum Realisieren der festgelegten logischen Funktion(en) umfassen. In einigen alternativen Realisierungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren dargestellt stattfinden. Zwei nacheinander dargestellte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden oder die Blöcke können manchmal in umgekehrter Reihenfolge ausgeführt werden, je nach entsprechender Funktionalität. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder des Ablaufplans sowie Kombinationen aus Blöcken in den Blockschaubildern und/oder dem Ablaufplan durch spezielle auf Hardware beruhende Systeme realisiert werden können, welche die festgelegten Funktionen oder Handlungen durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden zu Zwecken der Veranschaulichung gegeben, sollen aber nicht erschöpfend oder auf die offenbarten Ausführungsformen beschränkt sein. Dem Fachmann werden viele Modifikationen und Variationen ersichtlich sein, die vorgenommen werden können, ohne vom Umfang und von der Idee der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Terminologie wurde so gewählt, dass die Prinzipien der Ausführungsformen, die praktische Anwendung oder die technische Verbesserung gegenüber marktüblichen Technologien bestmöglich erläutert werden oder anderen Fachleuten ermöglicht wird, die hierin offenbarten Ausführungsformen zu verstehen.

Claims

System, aufweisend: einen Speicher, welcher computerlesbare Anweisungen aufweist; und einen oder mehrere Prozessoren zum Ausführen der computerlesbaren Anweisungen, wobei die computerlesbaren Anweisungen den einen oder die mehreren Prozessoren steuern, Operationen auszuführen, umfassend: Überwachen einer laufenden Aufgabe, umfassend mindestens eine Handlung, die von einem Benutzer ausgeführt wird; Erzeugen von Bilddaten, welche die laufende Aufgabe darstellen; Anzeigen der laufenden Aufgabe auf Grundlage der Bilddaten; Analysieren der laufenden Aufgabe; Erzeugen eines augmentierten Bildes; und Legen des augmentierten Bildes über die Bilddaten, so dass das augmentierte Bild gleichzeitig mit der laufenden Aufgabe angezeigt wird, um den Benutzer dazu zu führen, mit der laufenden Aufgabe fortzufahren.
System nach Anspruch 1, wobei das augmentierte Bild in Reaktion auf ein Erkennen erzeugt wird, dass die mindestens eine Handlung unrichtig ausgeführt wird.
System nach Anspruch 2, wobei das augmentierte Bild ein korrigiertes Bild ist, welches eine Korrektur der mindestens einen Handlung zeigt.
System nach Anspruch 3, ferner umfassend Erzeugen einer haptischen Warnung in Reaktion auf das Erkennen, dass die mindestens eine Handlung unrichtig ausgeführt wird.
System nach Anspruch 1, wobei das augmentierte Bild in Reaktion auf ein Bestimmen einer nächsten Handlung aus der von der Aufgabe umfassten mindestens einen Handlung erzeugt wird.
System nach Anspruch 5, wobei das augmentierte Bild ein Bild ist, welches die nächste Handlung zeigt.
System nach Anspruch 6, ferner umfassend Erzeugen einer haptischen Warnung in Reaktion auf das Bestimmen der nächsten Handlung.
Verfahren zum Empfehlen von Anleitungsanweisungen an einen Benutzer, wobei das Verfahren umfasst: Überwachen einer laufenden Aufgabe, welche mindestens eine Handlung aufweist, die von einem Benutzer ausgeführt wird; Erzeugen von Bilddaten, welche die laufende Aufgabe darstellen; Anzeigen der laufenden Aufgabe auf Grundlage der Bilddaten; Analysieren der laufenden Aufgabe; Erzeugen eines augmentierten Bildes; und Legen des augmentierten Bildes derart über die Bilddaten, dass das augmentierte Bild gleichzeitig mit der laufenden Aufgabe angezeigt wird, um den Benutzer dazu zu führen, die laufende Aufgabe fortzusetzen.
Verfahren nach Anspruch 8, ferner umfassend: Erkennen, dass die mindestens eine Handlung unrichtig ausgeführt wird; und Erzeugen des augmentierten Bildes in Reaktion auf das Erkennen, dass die mindestens eine Handlung unrichtig ausgeführt wird.
Verfahren nach Anspruch 9, wobei das augmentierte Bild ein korrigiertes Bild ist, welches eine Korrektur der mindestens einen Handlung zeigt.
Verfahren nach Anspruch 10, ferner umfassend Erzeugen einer haptischen Warnung in Reaktion auf das Erkennen, dass die mindestens eine Handlung unrichtig ausgeführt wird.
Verfahren nach Anspruch 8, ferner umfassend: Bestimmen einer nächsten Handlung aus der von der Aufgabe umfassten mindestens einen Handlung; und Erzeugen des augmentierten Bildes in Reaktion auf das Bestimmen der nächsten Handlung aus der von der Aufgabe umfassten mindestens einen Handlung.
Verfahren nach Anspruch 12, wobei das augmentierte Bild ein Bild ist, welches die nächste Handlung zeigt.
Verfahren nach Anspruch 13, ferner umfassend Erzeugen einer haptischen Warnung in Reaktion auf das Bestimmen der nächsten Handlung.
Computerprogrammprodukt zum Empfehlen von Anleitungsanweisungen an einen Benutzer, wobei das Computerprogrammprodukt aufweist: ein computerlesbares Speichermedium, mit welchem Programmanweisungen verkörpert sind, wobei die Programmanweisungen von einer Verarbeitungsschaltung lesbar sind, um zu bewirken, dass die Verarbeitungsschaltung Operationen ausführt, umfassend: Überwachen einer laufenden Aufgabe, welche mindestens eine Handlung aufweist, die von einem Benutzer ausgeführt wird; Erzeugen von Bilddaten, welche die laufende Aufgabe darstellen; Anzeigen der laufenden Aufgabe auf Grundlage der Bilddaten; Analysieren der laufenden Aufgabe; Erzeugen eines augmentierten Bildes; und Legen des augmentierten Bildes derart über die Bilddaten, dass das augmentierte Bild gleichzeitig mit der laufenden Aufgabe angezeigt wird, um den Benutzer dazu zu führen, mit der laufenden Aufgabe fortzufahren.