DE102021212276A1

DE102021212276A1 - Wissensgetriebenes und selbstüberwachtes system zur fragenbeantwortung

Info

Publication number: DE102021212276A1
Application number: DE102021212276.0A
Authority: DE
Inventors: Jonathan Francis; Filip Ilievski; Alessandro Oltramari; Kaixin Ma
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-11-06
Filing date: 2021-10-29
Publication date: 2022-05-12
Also published as: CN114443807A; US20220147861A1

Abstract

Ein computerimplementiertes System und ein computerimplementiertes Verfahren beziehen sich auf die natürliche Sprachverarbeitung. Das computerimplementierte System und das computerimplementierte Verfahren sind dafür ausgelegt, eine aktuelle Datenstruktur anhand eines globalen Wissensgraphen, der verschiedene Wissensgraphen umfasst, zu erhalten. Die aktuelle Datenstruktur weist ein aktuelles Kopfelement, ein aktuelles Beziehungselement und ein aktuelles Endelement auf. Ein Satz wird auf der Grundlage der aktuellen Datenstruktur erhalten. Eine Frage wird durch Entfernen des aktuellen Endelements aus dem Satz erzeugt. Eine korrekte Antwort wird für die Frage erzeugt. Die korrekte Antwort weist das aktuelle Endelement auf. Ein Pool von Datenstrukturen wird auf der Grundlage eines Satzes von Distraktorkriterien aus dem globalen Wissensgraphen extrahiert. Der Satz von Distraktorkriterien gewährleistet, dass jede extrahierte Datenstruktur das aktuelle Beziehungselement aufweist. Endelemente aus dem Pool von Datenstrukturen werden extrahiert, um einen Pool von Distraktorkandidaten zu erzeugen. Ein Satz von Distraktoren wird aus dem Pool von Distraktorkandidaten ausgewählt. Es wird eine Abfrageaufgabe erzeugt, welche die Frage und einen Satz von Antwortoptionen aufweist. Der Satz von Antwortoptionen weist die korrekte Antwort und den Satz von Distraktoren auf. Die Abfrageaufgabe ist in einem Trainingssatz enthalten. Ein Maschinenlernsystem wird mit dem Trainingssatz trainiert. Das Maschinenlernsystem ist dafür ausgelegt, die Abfrageaufgabe zu empfangen und mit einer vorhergesagten Antwort, die aus dem Satz von Antwortoptionen ausgewählt wird, auf die Frage zu antworten.

Description

Gebiet
Diese Offenbarung betrifft allgemein Maschinenlernsysteme und insbesondere Maschinenlernsysteme, die für natürliche Sprachverarbeitung ausgelegt sind.
Hintergrund
Es gibt generell einige Maschinenlernsysteme, die neuronale Sprachmodelle aufweisen, die für Fragenbeantwortungsaufgaben ausgelegt sind. Es gibt jedoch Bedenken, dass diese neuronalen Sprachmodelle in Bezug auf die spezifischen Fragenbeantwortungsaufgaben, in denen sie trainiert wurden, overfitten, ohne die Verwendung externen Wissens zu lernen und/oder ohne allgemeine semantische Schlussfolgerungen auszuführen. Insbesondere neigen diese neuronalen Sprachmodelle bei einem spezifischen Fragenbeantwortungsformat der Trainingsdaten und/oder einem spezifischen Wissenstyp der Trainingsdaten zum Overfitten. Dabei kann es diesen neuronalen Sprachmodellen nicht gelingen, zuverlässige Vorhersagen für andere Fragenbeantwortungsaufgaben, die sich in Bezug auf Format, Wissenstyp oder Format und Wissenstyp unterscheiden, zu machen.
Kurzfassung
Nachfolgend wird eine Kurzfassung bestimmter nachstehend detailliert beschriebener Ausführungsformen angegeben. Die beschriebenen Aspekte werden lediglich vorgestellt, um dem Leser eine Kurzfassung dieser bestimmten Ausführungsformen bereitzustellen, und die Beschreibung dieser Aspekte soll den Schutzumfang dieser Offenbarung nicht einschränken. Tatsächlich kann diese Offenbarung eine Vielzahl von Aspekten, die nachstehend nicht explizit dargelegt werden können, umfassen.
Gemäß wenigstens einem Aspekt betrifft ein computerimplementiertes Verfahren das Vortrainieren (oder Trainieren) eines Maschinenlernsystems. Beim computerimplementierten Verfahren wird eine aktuelle Datenstruktur anhand eines globalen Wissensgraphen erhalten. Der globale Wissensgraph weist eine Kombination verschiedener Wissensgraphen auf. Die aktuelle Datenstruktur weist ein aktuelles Kopfelement, ein aktuelles Beziehungselement und ein aktuelles Endelement auf. Beim computerimplementierten Verfahren wird ein der aktuellen Datenstruktur entsprechender Satz erhalten. Beim computerimplementierten Verfahren wird eine Frage durch Entfernen des aktuellen Endelements aus dem Satz erzeugt. Beim computerimplementierten Verfahren wird eine korrekte Antwort auf die Frage erzeugt. Die korrekte Antwort weist das aktuelle Endelement auf. Beim computerimplementierten Verfahren wird ein Pool von Datenstrukturen auf der Grundlage eines Satzes von Distraktorkriterien aus dem globalen Wissensgraphen extrahiert. Jede extrahierte Datenstruktur weist das aktuelle Beziehungselement auf. Beim computerimplementierten Verfahren werden Endelemente aus dem Pool von Datenstrukturen extrahiert, um einen Pool von Distraktorkandidaten zu erzeugen. Beim computerimplementierten Verfahren wird ein Satz von Distraktoren aus dem Pool von Distraktorkandidaten ausgewählt. Beim computerimplementierten Verfahren wird eine Abfrageaufgabe erzeugt, welche die Frage und einen Satz von Antwortoptionen aufweist. Der Satz von Antwortoptionen weist die korrekte Antwort und den Satz von Distraktoren auf. Beim computerimplementierten Verfahren wird ein Trainingssatz erzeugt, der wenigstens die Abfrageaufgabe aufweist. Beim computerimplementierten Verfahren wird das Maschinenlernsystem mit dem Trainingssatz trainiert, wobei das Maschinenlernsystem dafür ausgelegt ist, die Abfrageaufgabe zu empfangen und mit einer vorhergesagten Antwort, die aus dem Satz von Antwortoptionen ausgewählt wird, auf die Frage zu antworten.
Gemäß wenigstens einem Aspekt weist ein Datenverarbeitungssystem wenigstens ein nichtflüchtiges computerlesbares Medium und ein Verarbeitungssystem auf. Das nichtflüchtige computerlesbare Medium weist wenigstens ein neurosymbolisches Framework auf. Das neurosymbolische Framework weist computerlesbare Daten auf. Das Verarbeitungssystem weist wenigstens einen Prozessor auf, der operativ mit dem nichtflüchtigen computerlesbaren Medium verbunden ist. Der Prozessor ist dafür ausgelegt, die computerlesbaren Daten zur Implementation eines Verfahrens auszuführen. Beim Verfahren wird eine aktuelle Datenstruktur anhand eines globalen Wissensgraphen erhalten. Der globale Wissensgraph weist eine Kombination verschiedener Wissensgraphen auf. Die aktuelle Datenstruktur weist ein aktuelles Kopfelement, ein aktuelles Beziehungselement und ein aktuelles Endelement auf. Beim Verfahren wird ein der aktuellen Datenstruktur entsprechender Satz erhalten. Beim Verfahren wird eine Frage durch Entfernen des aktuellen Endelements aus dem Satz erzeugt. Beim Verfahren wird eine korrekte Antwort auf die Frage erzeugt. Die korrekte Antwort weist das aktuelle Endelement auf. Beim Verfahren wird ein Pool von Datenstrukturen auf der Grundlage eines Satzes von Distraktorkriterien aus dem globalen Wissensgraphen extrahiert. Jede extrahierte Datenstruktur weist das aktuelle Beziehungselement auf. Beim Verfahren werden Endelemente aus dem Pool von Datenstrukturen extrahiert, um einen Pool von Distraktorkandidaten zu erzeugen. Beim Verfahren wird ein Satz von Distraktoren aus dem Pool von Distraktorkandidaten ausgewählt. Beim Verfahren wird eine Abfrageaufgabe erzeugt, welche die Frage und einen Satz von Antwortoptionen aufweist. Der Satz von Antwortoptionen weist die korrekte Antwort und den Satz von Distraktoren auf. Beim Verfahren wird ein Trainingssatz erzeugt, der wenigstens die Abfrageaufgabe aufweist. Beim Verfahren wird ein Maschinenlernsystem mit dem Trainingssatz trainiert, wobei das Maschinenlernsystem dafür ausgelegt ist, die Abfrageaufgabe zu empfangen und mit einer vorhergesagten Antwort, die aus dem Satz von Antwortoptionen ausgewählt wird, auf die Frage zu antworten.
Gemäß wenigstens einem Aspekt weist ein Computerprodukt wenigstens eine nichtflüchtige computerlesbare Speichervorrichtung auf, die computerlesbare Daten aufweist, welche, wenn sie durch einen oder mehrere Prozessoren ausgeführt werden, in der Lage sind, den einen oder die mehreren Prozessoren zu veranlassen, ein Verfahren zu implementieren. Beim Verfahren wird eine aktuelle Datenstruktur anhand eines globalen Wissensgraphen erhalten. Der globale Wissensgraph weist eine Kombination verschiedener Wissensgraphen auf. Die aktuelle Datenstruktur weist ein aktuelles Kopfelement, ein aktuelles Beziehungselement und ein aktuelles Endelement auf. Beim Verfahren wird ein der aktuellen Datenstruktur entsprechender Satz erhalten. Beim Verfahren wird eine Frage durch Entfernen des aktuellen Endelements aus dem Satz erzeugt. Beim Verfahren wird eine korrekte Antwort auf die Frage erzeugt. Die korrekte Antwort weist das aktuelle Endelement auf. Beim Verfahren wird ein Pool von Datenstrukturen auf der Grundlage eines Satzes von Distraktorkriterien aus dem globalen Wissensgraphen extrahiert. Jede extrahierte Datenstruktur weist das aktuelle Beziehungselement auf. Beim Verfahren werden Endelemente aus dem Pool von Datenstrukturen extrahiert, um einen Pool von Distraktorkandidaten zu erzeugen. Beim Verfahren wird ein Satz von Distraktoren aus dem Pool von Distraktorkandidaten ausgewählt. Beim Verfahren wird eine Abfrageaufgabe erzeugt. Die Abfrageaufgabe weist die Frage und einen Satz von Antwortoptionen auf. Der Satz von Antwortoptionen weist die korrekte Antwort und den Satz von Distraktoren auf. Beim Verfahren wird ein Trainingssatz erzeugt, der wenigstens die Abfrageaufgabe aufweist. Beim Verfahren wird das Maschinenlernsystem mit dem Trainingssatz trainiert. Das Maschinenlernsystem ist dafür ausgelegt, die Abfrageaufgabe zu empfangen und mit einer vorhergesagten Antwort, die aus dem Satz von Antwortoptionen ausgewählt wird, auf die Frage zu antworten.
Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Erfindung werden in der folgenden detaillierten Beschreibung anhand der anliegenden Zeichnungen, in denen gleiche Zeichen ähnliche oder gleiche Teile repräsentieren, erörtert.
Figurenliste
Es zeigen:

1 ein Diagramm eines Beispiels eines Systems mit einem neurosymbolischen Framework für Abfrageaufgaben gemäß einer beispielhaften Ausführungsform dieser Offenbarung,
2 ein Konzeptdiagramm eines Beispiels des neurosymbolischen Frameworks für Abfrageaufgaben in Bezug auf das Maschinenlernsystem gemäß einer beispielhaften Ausführungsform dieser Offenbarung,
die 3A und 3B ein Flussdiagramm eines Beispiels eines Verfahrens zum Erzeugen einer Abfrageaufgabe gemäß einer beispielhaften Ausführungsform dieser Offenbarung,
4 ein Flussdiagramm eines Beispiels einer Implementation des Abfrageaufgabengenerators gemäß einer beispielhaften Ausführungsform dieser Offenbarung,
5 ein Diagramm eines Beispiels eines Steuersystems, welches das trainierte Maschinenlernsystem aus 1 gemäß einer beispielhaften Ausführungsform dieser Offenbarung verwendet,
6 ein Diagramm eines Beispiels des Steuersystems aus 5 in Bezug auf Roboter- und/oder Automatisierter-persönlicher-Assistent-Technologie gemäß einer beispielhaften Ausführungsform dieser Offenbarung und
7 ein Diagramm eines Beispiels des Steuersystems aus 5 in Bezug auf Mobilmaschinentechnologie gemäß einer beispielhaften Ausführungsform dieser Offenbarung.

Detaillierte Beschreibung
Die hier beschriebenen Ausführungsformen, die beispielhaft dargestellt und beschrieben wurden, und viele ihrer Vorteile werden anhand der vorstehenden Beschreibung verständlich geworden sein, wobei offensichtlich ist, dass verschiedene Änderungen an der Form, am Aufbau und an der Anordnung der Komponenten vorgenommen werden können, ohne vom offenbarten Gegenstand abzuweichen oder ohne einen oder mehrere seiner Vorteile zu opfern. Tatsächlich dienen die beschriebenen Formen dieser Ausführungsformen lediglich der Erklärung. Diese Ausführungsformen sind für verschiedene Modifikationen und alternative Formen geeignet, und die folgenden Ansprüche sollen diese Änderungen umfassen und einschließen und sollen nicht auf die bestimmten offenbarten Formen beschränkt sein, sondern sie sollen vielmehr alle Modifikationen, gleichwertigen Ausgestaltungen und Alternativen, die in den Gedanken und den Schutzumfang dieser Offenbarung fallen, abdecken.
1 ist ein Diagramm eines Beispiels eines Systems 100 mit einem neurosymbolischen Framework 200 für Abfrageaufgaben gemäß einer beispielhaften Ausführungsform. Das System 100 ist dafür ausgelegt, das Maschinenlernsystem 210 über das neurosymbolische Framework 200 vorzutrainieren (oder zu trainieren). Zusätzlich ist das System 100 dafür ausgelegt, ein Zero-Shot-Testen am Maschinenlernsystem 210 über das neurosymbolische Framework 200 auszuführen. Das System 100 ist dafür ausgelegt, nach dem Durchlaufen eines Vortrainings (oder sowohl eines Vortrainings als auch eines Zero-Shot-Testens) das Maschinenlernsystem 210 zu verwenden. Alternativ ist das System 100 dafür ausgelegt, die Verwendung und/oder Installation des vortrainierten (oder vortrainierten und Zero-Shotgetesteten) Maschinenlernsystems 210 in einem anderen zu verwendenden System (beispielsweise dem System 500 aus 5) zu ermöglichen.
Das System 100 weist wenigstens ein Verarbeitungssystem 140 auf. Das Verarbeitungssystem 140 weist wenigstens einen elektronischen Prozessor, eine Zentralverarbeitungseinheit (CPU), eine Grafikverarbeitungseinheit (GPU), einen Mikroprozessor, ein feldprogrammierbares Gate-Array (FPGA), eine anwendungsspezifische integrierte Schaltung (ASIC), eine geeignete Verarbeitungstechnologie oder eine Anzahl und Kombination davon auf. Das Verarbeitungssystem 140 ist in der Lage, die Funktionalität des neurosymbolischen Frameworks 200 und des Maschinenlernsystems 210, wie hier beschrieben, bereitzustellen.
Das System 100 weist wenigstens ein Speichersystem 120 auf, das operativ mit dem Verarbeitungssystem 140 verbunden ist. Gemäß einer beispielhaften Ausführungsform weist das Speichersystem 120 wenigstens ein nichtflüchtiges computerlesbares Medium auf, das dafür ausgelegt ist, verschiedene Daten zu speichern und Zugriff darauf bereitzustellen, um es zumindest dem Verarbeitungssystem 140 zu ermöglichen, die Operationen und Funktionalitäten in Bezug auf das neurosymbolische Framework 200 und das entsprechende Maschinenlernsystem 210, wie hier offenbart, auszuführen. Gemäß einer beispielhaften Ausführungsform umfasst das Speichersystem 120 eine einzige computerlesbare Speichervorrichtung oder mehrere computerlesbare Speichervorrichtungen. Das Speichersystem 120 kann eine elektrische, elektronische, magnetische, optische, Halbleiter-, elektromagnetische oder jegliche geeignete Speichertechnologie, die mit dem System 100 arbeiten kann, aufweisen. Beispielsweise kann das Speichersystem 120 gemäß einer beispielhaften Ausführungsform einen Direktzugriffsspeicher (RAM), Nurlesespeicher (ROM), Flash-Speicher, ein Plattenlaufwerk, eine Speicherkarte, eine optische Speichervorrichtung, eine magnetische Speichervorrichtung, ein Speichermodul, einen geeigneten Typ einer Speichervorrichtung oder eine Anzahl und Kombination davon aufweisen. In Bezug auf das Verarbeitungssystem 140 und/oder andere Komponenten des Systems 100 ist das Speichersystem 120 lokal, fern oder eine Kombination davon (beispielsweise teilweise lokal und teilweise fern). Das Speichersystem 120 kann beispielsweise wenigstens ein cloudbasiertes Speichersystem (beispielsweise ein cloudbasiertes Datenbanksystem) aufweisen, das sich fern vom Verarbeitungssystem 140 und/oder anderen Komponenten des Systems 100 befindet.
Das Speichersystem 120 weist wenigstens das neurosymbolische Framework 200, das Maschinenlernsystem 210, Maschinenlerndaten 220 und andere relevante Daten 230, die darauf gespeichert sind und auf die von diesem zugegriffen werden kann, auf. Das neurosymbolische Framework 200 weist computerlesbare Daten auf, die, wenn sie durch das Verarbeitungssystem 140 ausgeführt werden, dafür ausgelegt sind, wenigstens einen Trainingssatz mit einer geeigneten Anzahl von Abfrageaufgaben für das Maschinenlernsystem 210 zu erzeugen. Zusätzlich weist das neurosymbolische Framework 200 computerlesbare Daten auf, die, wenn sie vom Verarbeitungssystem 140 ausgeführt werden, dafür ausgelegt sind, einen Zero-Shot-Testprozess (oder einen Zero-Shot-Beurteilungsprozess) zur Beurteilung des vortrainierten (oder trainierten) Maschinenlernsystems 210 in Bezug auf verschiedene Commonsense-Aufgaben zu implementieren. Die computerlesbaren Daten können Befehle, Code, Routinen, verschiedene verwandte Daten, eine Softwaretechnologie oder eine Anzahl und Kombination davon aufweisen.
Gemäß einer beispielhaften Ausführungsform weist das Maschinenlernsystem 210 wenigstens ein Maschinenlernmodell auf. Insbesondere weist das Maschinenlernsystem 210 wenigstens ein Sprachmodell auf. Beispielsweise weist das Maschinenlernsystem 210 ein autoregressives Sprachmodell, ein maskiertes Sprachmodell (MLM), ein geeignetes neuronales Sprachmodell oder eine Anzahl und Kombination davon auf.
Gemäß einer beispielhaften Ausführungsform weisen die Maschinenlerndaten 220 verschiedene Daten auf, welche das neurosymbolische Framework 200 verwendet, um das Maschinenlernsystem 210 zu trainieren, zu testen und zu entwickeln. Beispielsweise weisen die Maschinenlerndaten 220 einen globalen Wissensgraphen 220A auf. Der globale Wissensgraph 220A wird durch Kombinieren verschiedener Wissensgraphen 220B erzeugt. Die Maschinenlerndaten 220 können eine oder mehrere Wissensdatenbanken aufweisen, die einem oder mehreren der Wissensgraphen 220B zugeordnet sind. Die Maschinenlerndaten 220 weisen auch einen Satz von Commonsense-Aufgabendatensätzen 220C auf, welche einen diversen Satz von Aufgaben abdecken. Zusätzlich können die Maschinenlerndaten 220 auch verschiedene Annotationen, verschiedene Verlustdaten, verschiedene Parameterdaten sowie jegliche verwandte Daten, die es dem neurosymbolischen Framework 200 und dem Maschinenlernsystem 210 ermöglichen, die hier beschriebenen Funktionen auszuführen, während bestimmte Leistungskriterien erfüllt werden, aufweisen. Demgegenüber stellen die anderen relevanten Daten 230 verschiedene Daten (beispielsweise Betriebssystem usw.) bereit, die es dem System 100 ermöglichen, die hier erörterten Funktionen auszuführen.
Gemäß einer beispielhaften Ausführungsform, wie in 1 dargestellt, ist das System 100 so ausgelegt, dass es wenigstens ein Mensch-Maschine-Schnittstellen(HMI)-System 110 aufweist. Das HMI-System 110 weist wenigstens eine Benutzerschnittstelle, wenigstens eine HMI-Vorrichtung oder eine Anzahl von Kombinationen davon auf. Beispielsweise kann das HMI-System 110 eine visuelle Benutzerschnittstelle, eine auditive Benutzerschnittstelle, eine taktile Benutzerschnittstelle, eine beliebige geeignete Benutzerschnittstelle oder eine Anzahl und Kombination davon aufweisen. Das HMI-System 110 ist in der Lage, mit dem E/A-System 130 zu kommunizieren. Das HMI-System 110 ist auch in der Lage, mit einer oder mehreren anderen Komponenten (beispielsweise Verarbeitungssystem 140, Speichersystem 120 usw.) des Systems 100 zu kommunizieren. Insbesondere ist das Verarbeitungssystem 140 beispielsweise dafür ausgelegt, eine Abfrage oder eine Abfrageaufgabe direkt oder indirekt vom HMI-System 110, vom Speichersystem 120 und/oder vom E/A-System 130 zu erhalten oder zu extrahieren. Das Verarbeitungssystem 140 ist dafür ausgelegt, nach dem Empfang der Abfrage oder Abfrageaufgabe eine vorhergesagte Antwort auf die Abfrage oder Abfrageaufgabe über das Maschinenlernsystem 210 bereitzustellen.
Zusätzlich weist das System 100 andere Komponenten auf, die zum Training und/oder zur Ausführung des neurosymbolischen Frameworks 200 und des Maschinenlernsystems 210 beitragen. Beispielsweise ist das Speichersystem 120, wie in 1 dargestellt, auch dafür ausgelegt, andere relevante Daten 230 zu speichern, die sich auf den Betrieb des Systems 100 in Bezug auf eine oder mehrere Komponenten (beispielsweise das Sensorsystem 110, das E/A-System 130 und andere Funktionsmodule 150) beziehen. Zusätzlich kann das E/A-System 130 eine E/A-Schnittstelle aufweisen und eine oder mehrere Vorrichtungen (beispielsweise Mikrofon, Tastaturvorrichtung, berührungsempfindliche Anzeigevorrichtung, Mikrofon, Maus, Lautsprechervorrichtung usw.) aufweisen. Auch weist das System 100 andere Funktionsmodule 150 auf, wie eine geeignete Hardwaretechnologie, Softwaretechnologie oder Kombination davon, wodurch die Funktionsweise des Systems 100 unterstützt wird oder welche zu dieser beitragen. Beispielsweise weisen die anderen Funktionsmodule 150 eine Kommunikationstechnologie auf, die es Komponenten des Systems 100 ermöglicht, miteinander zu kommunizieren, wie hier beschrieben. Demgemäß ist das System 100 mit wenigstens den in 1 dargestellten Komponenten dafür ausgelegt, das neurosymbolische Framework 200 zum Vortrainieren (oder Trainieren) des Maschinenlernsystems 210 auszuführen, so dass es über verschiedene Abfrageaufgaben (beispielsweise Fragenbeantwortungsaufgaben) in einer Zero-Shot-Umgebung oder wenn für eine Verwendung in einer Anwendung installiert/verwendet, gut funktioniert.
2 ist ein Konzeptdiagramm des neurosymbolischen Frameworks 200 in Bezug auf das Maschinenlernsystem 210. Gemäß einer beispielhaften Ausführungsform weist das neurosymbolische Framework 200 wenigstens einen Abfrageaufgabengenerator 200A auf. Der Abfrageaufgabengenerator 200A ist dafür ausgelegt, Datenstrukturen (beispielsweise Triples) von einem globalen Wissensgraphen 220A zu erhalten. Wie in 2 dargestellt ist, weist der globale Wissensgraph 220A eine Anzahl eigenständiger Wissensgraphen 220B auf, wobei die Gesamtzahl der Wissensgraphen 220B in 2 durch „N“ repräsentiert ist. In dieser Hinsicht repräsentiert „N“ eine natürliche Zahl, die wenigstens größer als zwei ist. Der Abfrageaufgabengenerator 200A ist dafür ausgelegt, Abfrageaufgaben auf der Grundlage der Datenstrukturen des globalen Wissensgraphen 220A zu erzeugen. Der Abfrageaufgabengenerator 200A ist dafür ausgelegt, einen Trainingssatz zu erzeugen, der eine geeignete Anzahl von Abfrageaufgaben aufweist. Der Abfrageaufgabengenerator 200A ist dafür ausgelegt, das Maschinenlernsystem 210 mit wenigstens einem Trainingssatz vorzutrainieren oder zu trainieren. Der Abfrageaufgabengenerator 200A ist auch dafür ausgelegt, wenigstens eine Bewertung für das Maschinenlernsystem 210 zu berechnen und das Maschinenlernsystem 210 fein abzustimmen, beispielsweise auf der Grundlage der Bewertungsdaten, der Verlustdaten und/oder anderer relevanter Daten. Der Abfrageaufgabengenerator 200A gewährleistet, dass das Maschinenlernsystem 210 vortrainiert oder trainiert wird, um über verschiedene Commonsense-Aufgaben gut zu funktionieren, wenn es in einer Zero-Shot-Umgebung getestet wird und/oder wenn es zur Verwendung in einer Anwendung installiert/verwendet wird.
Zusätzlich ist das neurosymbolische Framework 200 so ausgelegt, dass es einen Zero-Shot-Beurteiler 200B aufweist. Der Zero-Shot-Beurteiler 200B ist dafür ausgelegt, ein Zero-Shot-Testen am Maschinenlernsystem 210 auszuführen. Wie in 2 angegeben ist, ist der Zero-Shot-Beurteiler 200B dafür ausgelegt, das Zero-Shot-Testen während einer Nachtrainingsphase auszuführen. Die Nachtrainingsphase bezieht sich auf eine Phase, die nach dem Vortraining (oder Training) des Maschinenlernsystems 210 mit wenigstens einem Trainingssatz, der durch den Abfrageaufgabengenerator 200A erzeugt wurde, auftritt. Der Zero-Shot-Beurteiler 200B ist dafür ausgelegt, das Maschinenlernsystem 210 in einer Zero-Shot-Weise mit einem Commonsense-Aufgabendatensatz 220C zu testen. In dieser Hinsicht ist das Maschinenlernsystem 210 dafür ausgelegt, jeden Commonsense-Aufgabendatensatz 220C zu verarbeiten, ohne diesen Commonsense-Aufgabendatensatz 220C vorab beobachtet zu haben. Der Zero-Shot-Beurteiler 200B ist dafür ausgelegt, einen Satz von Commonsense-Aufgabendatensätzen 220C zu erhalten und jeden Commonsense-Aufgabendatensatz 220C auf das Maschinenlernsystem 210 anzuwenden. Der Satz von Commonsense-Aufgabendatensätzen 220C weist eine Anzahl von Commonsense-Aufgabendatensätzen 220C auf, wobei die Gesamtzahl der Commonsense-Aufgabendatensätze 220C in 2 durch „M“ repräsentiert ist. In dieser Hinsicht repräsentiert „M“ eine natürliche Zahl, die wenigstens größer als zwei ist. Jeder Commonsense-Aufgabendatensatz 220C unterscheidet sich von anderen Commonsense-Aufgabendatensätzen 220C des Satzes beispielsweise in Bezug auf das Format der Abfrageaufgabe und/oder den Wissenstyp in Zusammenhang mit der Abfrageaufgabe. Mit den verschiedenen Commonsense-Aufgabendatensätzen 220C wird der Zero-Shot-Beurteiler 200B vorteilhaft dafür ausgelegt, die Wirksamkeit des Vortrainings (oder Trainings) des Maschinenlernsystems 210 auf der Grundlage des Trainingssatzes, der durch den Abfrageaufgabengenerator 200A erzeugt wurde, zu demonstrieren. In dieser Hinsicht ist der Zero-Shot-Beurteiler 200B dafür ausgelegt, ein robustes Maß der Urteilsfähigkeiten des Maschinenlernsystems 210 bereitzustellen. Der Zero-Shot-Beurteiler 200B ist auch dafür ausgelegt, das Maschinenlernsystem 210 zusammen mit dem Einfluss des Vortrainings über verschiedene Commonsense-Aufgabendatensätze 220C zu beurteilen.
Wie zuvor erwähnt, weist der Satz von Commonsense-Aufgabendatensätzen 220C verschiedene Commonsense-Aufgabendatensätze 220C auf. Jeder Commonsense-Aufgabendatensatz 220C ist vom durch den Abfrageaufgabengenerator 200A erzeugten Trainingssatz verschieden. Der Satz von Commonsense-Aufgabendatensätzen 220C besteht aus Datensätzen, welche das Maschinenlernsystem 210 während seiner Vortrainingsphase oder Trainingsphase noch gar nicht beobachtet hat. In dieser Hinsicht wird der Satz von Commonsense-Aufgabendatensätzen 220C ausgewählt, um einen diversen Aufgabensatz abzudecken, beispielsweise in Bezug auf wenigstens Format (beispielsweise Fragenbeantwortung, Pronomenauflösung, Inference natürlicher Sprache usw.), Wissenstyp (beispielsweise soziales Wissen, physikalisches Wissen usw.) oder sowohl Format als auch Wissenstyp. Es kann beispielsweise einen Aufgabendatensatz 220C geben, der eine Natürliche-Inference-Aufgabe aufweist, wobei der Anfang und das Ende einer Geschichte gegeben sind und wobei die Aufgabe darin besteht, plausiblere Hypothesen aus einem Satz von Antwortoptionen zu wählen. Zusätzlich kann es einen Aufgabendatensatz 220C geben, der einen breiten Bereich von Commonsense-Aspekten aufweist, wobei die Aufgabe darin besteht, eine Frage durch Auswählen einer von fünf Antwortoptionen zu beantworten. Bei einem anderen Beispiel kann es einen Aufgabendatensatz 220C geben, der sich auf physikalische Beurteilungen konzentriert, wobei die Aufgabe darin besteht, eine plausiblere Antwortoption aus zwei möglichen Fortsetzungen herauszugreifen. Auch kann es einen Aufgabendatensatz 220C geben, der sich auf eine Beurteilung auf der Grundlage sozialer Interaktionen konzentriert, wobei die Aufgabe einen gewissen Kontext, eine Frage und einen Satz von Antwortoptionen aufweist. Bei wieder einem anderen Beispiel kann es einen Aufgabendatensatz 220C geben, der eine Pronomenauflösung betrifft, wobei die Aufgabe einen gewissen Kontext, ein hervorgehobenes Pronomen und Antwortoptionen, die als mögliche Referenzen angeboten werden, aufweist. Ferner sind die Sätze von Commonsense-Aufgabendatensätzen 220C nicht auf die vorstehend erwähnten Commonsense-Aufgabendatensätze 220C beschränkt, sondern können einen beliebigen Aufgabendatensatz 220C einschließen, der für die Ausführung eines Zero-Shot-Testens am Maschinenlernsystem 210 geeignet ist.
Die 3A - 3B und 4 zeigen einen wissensgetriebenen und selbstüberwachten Prozess zur automatischen Erzeugung wenigstens einer Abfrageaufgabe gemäß einer beispielhaften Ausführungsform. Insbesondere zeigen die 3A - 3B ein Flussdiagramm für das Verfahren 300 und zeigt 4 ein Flussdiagramm eines nicht einschränkenden Beispiels einer Implementation des Verfahrens 300. Dieser Prozess wird durch wenigstens einen Prozessor des Verarbeitungssystems 140 ausgeführt. In dieser Hinsicht ist das Verarbeitungssystem 140 dafür ausgelegt, computerlesbare Daten zur Ausführung des Prozesses auszuführen und/oder durchlaufen zu lassen. Die computerlesbaren Daten sind in wenigstens einem nichtflüchtigen computerlesbaren Medium des Speichersystems 120 gespeichert. Die computerlesbaren Daten können verschiedene Befehle, Datenstrukturen, Anwendungen, Routinen, Programme, Module, Prozeduren, andere Softwarekomponenten oder eine Anzahl und Kombination davon aufweisen.
In Schritt 302 ist das Verarbeitungssystem 140 gemäß einem Beispiel dafür ausgelegt, einen globalen Wissensgraphen 220A, der verschiedene Wissensgraphen 220B aufweist, zu erhalten. Wie in 4 dargestellt ist, kann der globale Wissensgraph 220A durch das Verarbeitungssystem 140 durch Kombinieren verschiedener Wissensgraphen 220B erzeugt werden, wobei jeder Wissensgraph 220B eigenständig ist. Abhängig von der Natur der verschiedenen Wissensgraphen 220B kann der globale Wissensgraph 220A wenigstens eine Datenpartition aufweisen. Beispielsweise ist der globale Wissensgraph 220A so ausgelegt, dass er eine erste Datenpartition mit wenigstens einem Wissensgraphen 220B aufweist, wodurch Vor- und Nachzustände für Ereignisse und ihre Teilnehmer mit neun Relationen ausgedrückt werden. Dieser Wissensgraph 220B kann Kopfknoten, die Ereignisse sind, und Endknoten, die entweder Ereignisse oder Attribute sind, aufweisen. Zusätzlich ist der globale Wissensgraph 220A so ausgelegt, dass er eine zweite Datenpartition mit einem oder mehreren anderen Wissensgraphen 220B, die Commonsense-Fakten zwischen Konzepten ausdrücken, aufweist. Der Abfrageaufgabengenerator 220A versieht das Maschinenlernsystem 210 vorteilhafterweise mit einer globalen Wissensressource, so dass das Maschinenlernsystem 210 trainiert wird, konsistente Gewinne über verschiedene Abfrageaufgaben bereitzustellen. Überdies bietet die Kombination der verschiedenen Wissensgraphen 220B dem Maschinenlernsystem 210 verglichen mit einem einzigen Wissensgraphen 220B den Vorteil eines diverseren Wissens. Ein Vortraining (oder Training) des Maschinenlernsystems 210 mit diesem diversen Wissen ermöglicht es dem Maschinenlernsystem 210, über verschiedene Commonsense-Aufgaben in einer Zero-Shot-Umgebung gut zu funktionieren.
In Schritt 304 ist das Verarbeitungssystem 140 gemäß einem Beispiel dafür ausgelegt, eine Datenstruktur vom globalen Wissensgraphen 220A zu erhalten. Bei diesem Beispiel ist das Verarbeitungssystem 140 dafür ausgelegt, eine Datenstruktur abzutasten. Die abgetastete Datenstruktur kann einem der Wissensgraphen 220B, der Teil des globalen Wissensgraphen 220A ist, entsprechen. In diesem Fall ist die Datenstruktur ein Triple, das ein Kopfelement, ein Beziehungselement und ein Endelement aufweist, welches als (h, r, t) bezeichnet werden kann, wobei „h“ das Kopfelement (oder Subjekt) repräsentiert, „r“ das Beziehungselement (oder eine Beziehung) repräsentiert und „t“ das Endelement (oder ein Objekt) repräsentiert. Jedes Element (beispielsweise Kopfelement) der Datenstruktur kann eine geeignete Datenmenge aufweisen. Mit Bezug auf 4 sei bemerkt, dass das Verarbeitungssystem 140 als Beispiel dafür ausgelegt ist, ein Triple (Abnehmen, VerwendetFür, gesünder zu sein) anhand des globalen Wissensgraphen 220A abzutasten. In diesem Fall ist das Kopfelement „Abnehmen“, ist das Beziehungselement „VerwendetFür“ und ist das Endelement „gesünder zu sein“. Das Beziehungselement gibt eine Relation zwischen dem Kopfelement und dem Endelement an.
In Schritt 306 ist das Verarbeitungssystem 140 gemäß einem Beispiel dafür ausgelegt, festzustellen, ob es einen Satz in Zusammenhang mit dem Triple gibt. Falls das Verarbeitungssystem 140 feststellt, dass es einen Satz in Zusammenhang mit dem Triple gibt, wird der Prozess in Schritt 310 fortgesetzt. Falls das Verarbeitungssystem 140 alternativ feststellt, dass es keinen Satz in Zusammenhang mit dem Triple gibt, wird der Prozess in Schritt 308 fortgesetzt. Beispielsweise sei mit Bezug auf 4 als nicht einschränkendes Beispiel bemerkt, dass das Verarbeitungssystem 140 dafür ausgelegt ist, festzustellen, dass es keinen Satz in Zusammenhang mit dem Triple (Abnehmen, VerwendetFür, gesünder zu sein) gibt, und es fährt dann in Schritt 308 damit fort, einen Satz für dieses Triple zu erzeugen.
In Schritt 308 ist das Verarbeitungssystem 140 gemäß einem Beispiel dafür ausgelegt, die in Schritt 304 erhaltene Datenstruktur zu lexikalisieren. In dieser Hinsicht ist das Verarbeitungssystem 140 dafür ausgelegt, einen Satz auf der Grundlage des Triples zu erzeugen. Insbesondere ist das Verarbeitungssystem 140 dafür ausgelegt, einen Satz durch Zusammenfügen des Kopfelements und des Endelements über eine Beziehung des Beziehungselements zu bilden. Mit Bezug auf 4 sei bemerkt, dass das Verarbeitungssystem 140 beispielsweise dafür ausgelegt ist, die Datenstruktur (Abnehmen, VerwendetFür, gesünder zu sein) zum folgenden Satz zu lexikalisieren: Abnehmen dient dazu, gesünder zu sein. Das Verarbeitungssystem 140 ist dafür ausgelegt, nach dem Lexikalisieren der Datenstruktur den Satz in Schritt 306 zu bestätigen, bevor wie dargestellt mit Schritt 310 fortgefahren wird, oder direkt mit Schritt 310 fortgefahren wird, ohne in Schritt 306 eine weitere Bestätigung zu empfangen.
In Schritt 310 ist das Verarbeitungssystem 140 gemäß einem Beispiel dafür ausgelegt, ein Frage-Antwort-Paar auf der Grundlage des Satzes zu erzeugen. Das Frage-Antwort-Paar weist (i) „eine Frage“ und (ii) „eine korrekte Antwort“ auf diese Frage auf. Das Verarbeitungssystem 140 ist dafür ausgelegt, den gleichen Satz zu verwenden, um sowohl die Frage als auch die korrekte Antwort zu bilden. Insbesondere ist das Verarbeitungssystem 140 dafür ausgelegt, nach dem Erhalten des Satzes das Endelement aus dem Satz zu entfernen und die Frage anhand des restlichen Teils des Satzes zu erzeugen. Zusätzlich ist das Verarbeitungssystem 140 dafür ausgelegt, dieses Endelement als korrekte Antwort auf die Frage zu bezeichnen.
Mit Bezug auf 4 sei bemerkt, dass das Verarbeitungssystem 140 als nicht einschränkendes Beispiel die Frage („Abnehmen dient wozu?“) anhand des Satzes („Abnehmen dient dazu, gesünder zu sein.“) durch Entfernen des Endelements („gesünder zu sein“) aus diesem Satz erzeugt. Zusätzlich ist das Verarbeitungssystem 140 dafür ausgelegt, das Endelement („gesünder zu sein“) aus diesem Satz („Abnehmen dient dazu, gesünder zu sein.“) zu extrahieren. Das Verarbeitungssystem 140 ist dafür ausgelegt, anzugeben, dass das extrahierte Endelement („gesünder zu sein“) die korrekte Antwort auf die Frage („Abnehmen dient wozu?“) ist. In diesem Fall weist das Frage-Antwort-Paar die Frage „Abnehmen dient wozu?“ und die korrekte Antwort „gesünder zu sein“ auf.
In Schritt 312 ist das Verarbeitungssystem 140 gemäß einem Beispiel dafür ausgelegt, festzustellen, ob es eigenständige Tokens zwischen dem Kopfelement und der korrekten Antwort gibt oder nicht. In dieser Hinsicht verwendet das Verarbeitungssystem 140 Tokens für Schlüsselwörter (oder Nicht-Stoppwörter). Das Verarbeitungssystem 140 ist dafür ausgelegt, festzustellen, ob es eine Tokenüberlappung (wenigstens ein gemeinsames oder geteiltes Schlüsselwort) zwischen dem Kopfelement und der korrekten Antwort gibt. Falls das Verarbeitungssystem 140 feststellt, dass es wenigstens ein überlappendes Token zwischen diesen beiden Komponenten gibt, wird der Prozess in Schritt 314 fortgesetzt. Falls das Verarbeitungssystem 140 alternativ feststellt, dass es kein überlappendes Token zwischen diesen beiden Komponenten gibt, wird der Prozess fortgesetzt, um Schritt 316 auszuführen. In 4 stellt das Verarbeitungssystem 140 beispielsweise fest, dass es kein überlappendes Token (oder dasselbe Schlüsselwort) zwischen dem Kopfelement („Abnehmen“) und der korrekten Antwort („gesünder zu sein“) gibt, und fährt demgemäß damit fort, Schritt 316 auszuführen.
In Schritt 314 ist das Verarbeitungssystem 140 gemäß einem Beispiel dafür ausgelegt, das Frage-Antwort-Paar nach der Feststellung, dass es wenigstens ein überlappendes Token zwischen dem Kopfelement und der korrekten Antwort gibt, herauszufiltern. Dadurch wird das Verarbeitungssystem 140 dafür ausgelegt, zu gewährleisten, dass die korrekte Antwort der Frage selbst nicht gleicht oder im Wesentlichen ähnelt. In dieser Hinsicht stellt das Verarbeitungssystem 140 fest, dass das Frage-Antwort-Paar nicht geeignet ist, eine Abfrageaufgabe zu erzeugen, die im Trainingssatz zum Vortrainieren des Maschinenlernsystems 210 zu verwenden ist. Nach dem Machen einer solchen Fehlstellung fährt das Verarbeitungssystem 140 mit Schritt 304 fort, falls mehr Abfrageaufgaben angefordert werden, um eine geeignete Anzahl von Abfrageaufgaben für den Trainingssatz bereitzustellen, oder das Verarbeitungssystem 140 unterbricht den Prozess des Erzeugens von Abfrageaufgaben, falls es bereits eine geeignete Anzahl von Abfrageaufgaben für den Trainingssatz gibt.
In Schritt 316 ist das Verarbeitungssystem 140 gemäß einem Beispiel dafür ausgelegt, einen Pool von Datenstrukturen auf der Grundlage eines Satzes von Distraktorkriterien aus dem globalen Wissensgraphen 220A zu extrahieren. Der Pool von Datenstrukturen kann daher verschiedenartige Elemente umfassen, wie Datenstrukturen eines Wissensgraphen 220B, Datenstrukturen eines anderen Wissensgraphen 220B usw., solange jedes den Satz von Distraktorkriterien erfüllt. Bei diesem Beispiel sind die Datenstrukturen Triples. Jedes Triple weist ein Kopfelement, ein Beziehungselement und ein Endelement auf, wie durch (h', r', t') ausgedrückt wird, wobei "h"' das Kopfelement (oder ein Subjekt) repräsentiert, „r'“ das Beziehungselement (oder eine Beziehung) repräsentiert und "t"' das Endelement (oder ein Objekt) repräsentiert. In diesem Fall weist jedes Element des Triples eine Apostrophmarkierung auf, um ferner anzugeben, dass das Triple eine „negative“ Probe ist, die aus dem globalen Wissensgraphen 220A extrahiert wird, um einen Distraktor zu erzeugen. Diese Datenstrukturen werden auf der Grundlage eines Satzes von Distraktorkriterien aus dem globalen Wissensgraphen 220A extrahiert. Im Allgemeinen gewährleistet der Satz von Distraktorkriterien, dass das Triple Distraktordaten aufweist, die als informativ und fair angesehen werden. In Bezug darauf, informativ zu sein, gewährleistet der Satz von Distraktorkriterien beispielsweise, dass das Triple Distraktordaten aufweist, die eine semantische Verwandheit mit einem Kontext der korrekten Antwort aufweisen. Überdies gewährleistet der Satz von Distraktorkriterien in Bezug darauf, fair zu sein, dass das Triple Distraktordaten aufweist, die sich verhältnismäßig einfach von der korrekten Antwort unterscheiden lassen.
Gemäß einer beispielhaften Ausführungsform weist der Satz von Distraktorkriterien wenigstens ein Filter auf, das Triples extrahiert, so dass jedes Triple ein Beziehungselement (r') besitzt, das dem Beziehungselement (r) des abgetasteten Triples, das die Grundlage des Frage-Antwort-Paars bildet, gleicht. Dieses Kriterium ist vorteilhaft bei der Gewährleistung, dass die Distraktordaten die gleiche semantische Rolle wie die korrekte Antwort erfüllen können. Zusätzlich weist der Satz von Distraktorkriterien ein Filter auf, das Triples extrahiert, so dass es keine Schlüsselwortüberlappung (oder Nicht-Stoppwortüberlappung) zwischen dem Kopfelement (h') des extrahierten Triples und dem Kopfelement (h) des abgetasteten Triples, das die Grundlage des Frage-Antwort-Paars bildet, gibt. Auch weist der Satz von Distraktorkriterien ein Filter auf, das Triples extrahiert, so dass jedes extrahierte Triple ein Endelement (t') aufweist, das kein Element eines Wissenssatzes ist, der das Kopfelement (h) und das Beziehungselement (r) des abgetasteten Triples, das die Grundlage des Frage-Antwort-Paars bildet, aufweist. Mit anderen Worten kann das extrahierte Triple (h', r', t') nicht gleich (h, r, t') sein. Dies gewährleistet, dass das extrahierte Triple nicht Teil des korrekten Antwortsatzes oder Teil des gleichen Wissenssatzes ist. Das Verarbeitungssystem 140 ist dafür ausgelegt, wenigstens diese drei Kriterien zu implementieren, um einen Pool von Triples bereitzustellen, der in Schritt 318 verwendet wird, um den Pool von Distraktorkandidaten zu bilden. Wie vorstehend erörtert wurde, ermöglicht es dieser Satz von Distraktorkriterien dem Verarbeitungssystem 140, Abfrageaufgaben mit Distraktoren zu erzeugen, die informativ und fair sind und es ermöglichen, dass das Maschinenlernsystem 210 trainiert wird, um in Zero-Shot-Tests über verschiedene Commonsense-Aufgabendatensätze gut zu funktionieren. Das Verarbeitungssystem 140 ist dafür ausgelegt, diesen Satz von Distraktorkriterien als Grundlage für das Erhalten des Pools von Distraktorkandidaten zu verwenden, ist jedoch nicht auf diese drei Distraktorkriterien beschränkt und kann auch dafür ausgelegt werden, andere geeignete Kriterien zu implementieren.
Mit Bezug auf 4 sei bemerkt, dass das Verarbeitungssystem 140 als nicht einschränkendes Beispiel Triples auf der Grundlage des Satzes von Distraktorkriterien aus dem globalen Wissensgraphen 220A extrahiert. 4 zeigt den Extraktionsprozess in der Art des Herausfilterns von Triples, die den Satz von Distraktorkriterien nicht erfüllen, und des Suchens von Triples, die den Satz von Distraktorkriterien erfüllen. Insbesondere ist das Verarbeitungssystem 140 in Bezug auf das erste Triple (Zunehmen, WunschHervorrufen, Aussehen ändern) dafür ausgelegt, dieses erste Triple herauszufiltern, weil das Beziehungselement (r' = WunschHervorrufen) dieses ersten Triples nicht gleich dem Beziehungselement (r = VerwendetFür) des abgetasteten Triples, das die Grundlage des Frage-Antwort-Paars bildet, ist. Das erste Triple wird daher nicht Teil des Pools von Triples, der bei der Erzeugung des Pools von Distraktorkandidaten verwendet wird. In Bezug auf das zweite Triple (Abnehmen, VerwendetFür, besser Fühlen) stellt das Verarbeitungssystem 140 fest, dass r' = r = VerwendetFür ist, wodurch ein Kriterium aus dem Satz von Distraktorkriterien erfüllt wird. Das Verarbeitungssystem 140 filtert dieses zweite Triple jedoch heraus, weil das Kopfelement (h' = Abnehmen) des zweiten Triples und das Kopfelement (h = Abnehmen) des abgetasteten Triples überlappende Schlüsselwörter „Abnehmen“ aufweisen. Zusätzlich oder alternativ filtert das Verarbeitungssystem 140 dieses zweite Triple heraus, weil das zweite Triple ein Element eines Wissenssatzes ist, der das Kopfelement (h) und das Beziehungselement (r) des abgetasteten Triples, das die Grundlage des Frage-Antwort-Paars bildet, aufweist. In dieser Hinsicht filtert das Verarbeitungssystem 140 das zweite Triple nach der Feststellung heraus, dass dieses zweite Triple (h', r', t') ein Endelement (t' = besser Fühlen) aufweist, das Teil eines korrekten Antwortsatzes für das abgetastete Triple ist, so dass (h, r, t') gilt. Auch ist das Verarbeitungssystem 140 dafür ausgelegt, in Bezug auf das dritte Triple (entspannend, VerwendetFür, besser Fühlen) dieses dritte Triple herauszufiltern, weil das dritte Triple ein Element des Wissenssatzes ist, der das Kopfelement (h) und das Beziehungselement (r) des abgetasteten Triples, das die Grundlage des Frage-Antwort-Paars bildet, aufweist. In dieser Hinsicht filtert das Verarbeitungssystem 140 das dritte Triple nach der Feststellung aus, dass dieses dritte Triple (h', r', t') ein Endelement (t' = besser Fühlen) aufweist, das Teil eines korrekten Antwortsatzes für das abgetastete Triple ist, so dass (h, r, t') gilt.
Ferner ist das Prozessorsystem 140 beim nicht einschränkenden Beispiel aus 4 dafür ausgelegt, festzustellen, dass das vierte Triple (Zahlstelle, VerwendetFür, Kaufen von Dingen im Laden) den Satz von Distraktorkriterien erfüllt. Das Verarbeitungssystem 140 weist daher das vierte Triple (Zahlstelle, VerwendetFür, Kaufen von Dingen im Laden) als Teil des Pools von Triples auf, die aus dem globalen Wissensgraphen 220A extrahiert werden und den Satz von Distraktorkriterien erfüllen. Auch ist das Verarbeitungssystem 140 dafür ausgelegt, festzustellen, dass das fünfte Triple (eingebettetes System, VerwendetFür, eingebettete Software) den Satz von Distraktorkriterien erfüllt. Das Verarbeitungssystem 140 weist daher das fünfte Triple (eingebettetes System, VerwendetFür, eingebettete Software) als Teil des Pools von Triples auf, die aus dem globalen Wissensgraphen 220A extrahiert werden und den Satz von Distraktorkriterien erfüllen. Nach dem Extrahieren von Triples, welche den Satz von Distraktorkriterien erfüllen, aus dem globalen Wissensgraphen 220A fährt das Verarbeitungssystem 140 mit Schritt 318 fort.
In Schritt 318 ist das Verarbeitungssystem 140 gemäß einem Beispiel dafür ausgelegt, einen Pool von Distraktorkandidaten zu erzeugen. Der Pool von Distraktorkandidaten kann als D = (D1, D2,....Dn) repräsentiert werden, wobei „D“ den Pool (oder den Satz) repräsentiert, „Di“ einen jeweiligen Distraktorkandidaten des Pools repräsentiert und „n“ die Gesamtzahl der Distraktorkandidaten repräsentiert. Insbesondere ist das Verarbeitungssystem 140 dafür ausgelegt, die Endelemente aus dem Pool von Datenstrukturen, die in Schritt 316 erhalten werden, zu extrahieren. Der Pool von Distraktorkandidaten weist die extrahierten Endteile auf.
Mit Bezug auf 4 sei bemerkt, dass das Verarbeitungssystem 140 als nicht einschränkendes Beispiel das Endelement (Kaufen von Dingen im Laden) aus dem vierten Triple (Zahlstelle, VerwendetFür, Kaufen von Dingen im Laden) extrahiert. Das Verarbeitungssystem 140 nimmt das extrahierte Endelement (Kaufen von Dingen im Laden) des vierten Triples als Distraktorkandidat in den Pool von Distraktorkandidaten auf. Zusätzlich extrahiert das Verarbeitungssystem 140 das Endelement (eingebettete Software) aus dem fünften Triple (eingebettetes System, VerwendetFür, eingebettete Software). Das Verarbeitungssystem 140 nimmt das extrahierte Endelement (eingebettete Software) des fünften Triples als Distraktorkandidat in den Pool von Distraktorkandidaten auf. Dementsprechend weist der Pool von Distraktorkandidaten bei diesem nicht einschränkenden Beispiel eine ausreichende Anzahl von Distraktorkandidaten in der Art des Distraktorkandidaten „Kaufen von Dingen im Laden“ und des Distraktorkandidaten „eingebettete Software“ auf. Nach der Erzeugung des Pools von Distraktorkandidaten fährt das Verarbeitungssystem 140 mit der Ausführung von Schritt 320 fort.
In Schritt 320 ist das Verarbeitungssystem 140 gemäß einem Beispiel dafür ausgelegt, einen Satz von Distraktoren aus dem Pool von Distraktorkandidaten auszuwählen. Dort eine Anzahl verschiedener Auswahlprozesse, die das Verarbeitungssystem 140 verwenden kann, um eine vorgegebene Anzahl von Distraktorkandidaten auszuwählen, die als Distraktoren für den Satz von Distraktoren dienen sollen. Das Verarbeitungssystem 140 ist beispielsweise dafür ausgelegt, einen zufälligen Auswahlprozess auszuführen, um einen Satz von Distraktoren aus dem Pool von Distraktorkandidaten auszuwählen. Als nicht einschränkendes Beispiel wählt das Verarbeitungssystem 140 in 4 den Distraktorkandidaten „Kaufen von Dingen im Laden“ zufällig aus dem Pool von Distraktorkandidaten aus. Zusätzlich wählt das Verarbeitungssystem 140 zufällig den Distraktorkandidaten „eingebettete Software“ aus dem Pool von Distraktorkandidaten aus. In diesem Fall ist der Satz von Distraktoren so ausgelegt, dass er zwei Distraktorelemente aufweist. Nach dem Erhalten eines vollständigen Satzes von Distraktoren fährt das Verarbeitungssystem 140 mit der Ausführung von Schritt 322 fort.
Alternativ zum zufälligen Auswahlprozess ist das Verarbeitungssystem 140 dafür ausgelegt, einen anderen Typ von Auswahlprozess zur Auswahl eines Distraktorkandidaten, der als Distraktor für den Satz von Distraktoren dienen soll, zu verwenden. Beispielsweise ist das Verarbeitungssystem 140 dafür ausgelegt, einen „Adversarielle-Antwort“-Auswahlprozess zu verwenden. Das Verarbeitungssystem 140 ist dafür ausgelegt, bei der Verwendung des Adversarielle-Antwort-Auswahlprozesses Distraktorkandidaten auszuwählen, die der korrekten Antwort möglichst ähnlich sind, während sie unter einer bestimmten Schwelle liegen. Bei einem anderen Beispiel ist das Verarbeitungssystem 140 dafür ausgelegt, einen „Adversarielle-Frage“-Auswahlprozess zu verwenden. Das Verarbeitungssystem 140 ist dafür ausgelegt, bei der Verwendung des Adversarielle-Frage-Auswahlprozesses Distraktorkandidaten auszuwählen, die der Frage möglichst ähnlich sind, während sie unter einer bestimmten Schwelle liegen.
Das Verarbeitungssystem 140 ist dafür ausgelegt, für jeden adversariellen Typ eines Auswahlprozesses Embeddings für alle anwendbaren Wissensgraphenknoten zu berechnen. In dieser Hinsicht ist das Verarbeitungssystem 140 durch den Abfrageaufgabengenerator 200A dafür ausgelegt, eine Ähnlichkeit von zwei Knoten als ihre durch Kosinusähnlichkeit gemessene Nähe im Embedding-Raum zu definieren. Das Verarbeitungssystem 140 ist beispielsweise in Bezug auf den Adversarielle-Antwort-Auswahlprozess dafür ausgelegt, Distraktorkandidaten auszuwählen, welche in Bezug auf die korrekte Antwort den höchsten Kosinusähnlichkeitswert aufweisen, während sie wenigstens eine Schwelle erfüllen, die gewährleistet, dass die Distraktorkandidaten der korrekten Antwort nicht zu ähnlich sind. Überdies ist das Verarbeitungssystem 140 in Bezug auf den Adversarielle-Frage-Auswahlprozess dafür ausgelegt, Distraktorkandidaten auszuwählen, welche in Bezug auf die Frage den höchsten Kosinusähnlichkeitswert aufweisen, während sie wenigstens eine Schwelle erfüllen, die gewährleistet, dass die Distraktorkandidaten der Frage nicht zu ähnlich sind. Insbesondere ist das Verarbeitungssystem 140 dafür ausgelegt, für jeden adversariellen Typ eines Auswahlprozesses eine Obergrenze für den Kosinusähnlichkeitswert festzulegen, um unfaire Distraktorkandidaten zu vermeiden (beispielsweise einen Distraktorkandidaten, der die korrekte Antwort umschreibt, und/oder einen Distraktorkandidaten, der die Frage umschreibt). Dementsprechend ist das Verarbeitungssystem 140 dafür ausgelegt, durch Erzeugen anspruchsvollerer Distraktoren für die Abfrageaufgaben das Maschinenlernsystem 210 vorzutrainieren oder zu trainieren, um eine bessere Verallgemeinerung über Aufgaben zu erreichen.
In Schritt 322 ist das Verarbeitungssystem 140 gemäß einem Beispiel dafür ausgelegt, eine Abfrageaufgabe zu erzeugen. Bei diesem Beispiel weist die Abfrageaufgabe eine Abfrage zusammen mit Antwortoptionen auf. In diesem Fall weist die Abfrage die Frage auf. Demgegenüber weisen die Antwortoptionen die korrekte Antwort und den Satz von Antwortoptionen auf. Die Antwortoptionen können in einer beliebigen Reihenfolge präsentiert werden. Beispielsweise kann die korrekte Antwort als erste Antwortoption, letzte Antwortoption oder Zwischenantwortoption präsentiert werden. Das Verarbeitungssystem 140 kann einen zufälligen Prozess oder einen strategischen Prozess ausführen, um die Reihenfolge auszuwählen, in der die Antwortoptionen für die Abfrageaufgabe präsentiert werden.
Mit Bezug auf 4 sei bemerkt, dass das Verarbeitungssystem 140 als nicht einschränkendes Beispiel dafür ausgelegt ist, eine Abfrageaufgabe zu erzeugen, die eine Abfrage und einen Satz von Antwortoptionen aufweist. In diesem Fall ist die Abfrage die Frage: „Wozu dient Abnehmen?“. Demgegenüber weist der Satz von Antwortoptionen „eingebettete Software“, „gesünder zu sein“ und „Kaufen von Dingen im Laden“ auf. In diesem Fall weist der Satz von Antwortoptionen einen Distraktor, die korrekte Antwort und einen anderen Distraktor auf. Insbesondere kann das Verarbeitungssystem 140 in 4 die folgende Abfrageaufgabe präsentieren:

ABFRAGE: Wozu dient Abnehmen
ANTWORTOPTIONEN: (A) eingebettete Software (B) gesünder zu sein (C) Kaufen von Dingen im Laden

Ferner ist das Verarbeitungssystem 140 nicht darauf beschränkt, diesen Typ von Abfrageaufgabe zu erzeugen. Beispielsweise kann die Abfrageaufgabe auf der Grundlage der vom globalen Wissensgraphen 220A erhaltenen Datenstruktur abweichen. Bei einem anderen nicht einschränkenden Beispiel ist das Verarbeitungssystem 140 dafür ausgelegt, eine andere Abfrageaufgabe zu erzeugen, bei der (i) die Abfrage auch einige Kontextdaten mit der Frage aufweist und (ii) die Antwortoptionen die korrekte Antwort und die Distraktoren aufweisen. Beispielsweise kann das Verarbeitungssystem 140 die folgende Abfrageaufgabe präsentieren, bei der die Kontextdaten „Robin nimmt die fünfte“ ist, die Frage „Daher wünschte Robin“ ist, der erste Distraktor „ins Kino zu gehen“ ist, der zweite Distraktor „zu hören, was sie denken“ ist und die korrekte Antwort „Informationen zurückzuhalten“ ist.
ABFRAGE: Robin nimmt die fünfte. Daher wünschte Robin
ANTWORTOPTIONEN: (A) ins Kino zu gehen (B) zu hören, was sie denken (C) Informationen zurückzuhalten
In Schritt 324 ist das Verarbeitungssystem 140 gemäß einem Beispiel dafür ausgelegt, (i) einen Trainingssatz zu erzeugen, der wenigstens die Abfrageaufgabe aufweist, oder (ii) die Abfrageaufgabe als Teil eines existierenden Trainingssatzes aufzunehmen. In dieser Hinsicht ist das Verarbeitungssystem 140 dafür ausgelegt, einen Trainingssatz verhältnismäßig anspruchsvoller Abfrageaufgaben, die informativ und fair sind, bereitzustellen. Das Verarbeitungssystem 140 ist dafür ausgelegt, sobald der Trainingssatz eine geeignete Anzahl von Abfrageaufgaben aufweist, das Maschinenlernsystem 210 mit dem Trainingssatz vorzutrainieren oder zu trainieren.
Zusätzlich ist das Verarbeitungssystem 140, falls der zufällige Auswahlprozess in Schritt 320 ausgewählt wurde, ferner dafür ausgelegt, ein adversarielles Filter zum Erkennen und Halten der Abfrageaufgaben, die zur Vortrainings(oder Trainings)-Zeit als ausreichend anspruchsvoll bestimmt wurden, zu verwenden und die nicht anspruchsvollen Abfrageaufgaben herauszufiltern. Das Verarbeitungssystem 140 kann mit dem zufälligen Auswahlprozess einige nicht anspruchsvolle Abfrageaufgaben erzeugen, die für das Maschinenlernsystem 210 zu einfach sein können. Dementsprechend ist das Verarbeitungssystem 140 dafür ausgelegt, mit dem adversariellen Filter nur jene Abfrageaufgaben zu halten, die einen anspruchsvollen Teilsatz zum Trainieren des Maschinenlernsystems 210 umfassen. Beispielsweise ist das Verarbeitungssystem 140 dafür ausgelegt, einfache Beispiele iterativ unter Verwendung eines Ensembles linearer Klassifikatoren herauszufiltern.
5 ist ein Diagramm eines Systems 500, das so ausgelegt ist, dass es wenigstens das vortrainierte (oder trainierte) Maschinenlernsystem 210 aufweist. In dieser Hinsicht weist das System 500 wenigstens ein HMI-System 510, ein Steuersystem 520 und ein Aktuatorsystem 530 auf. Das System 500 ist so ausgelegt, dass das Steuersystem 520 das Aktuatorsystem 530 auf der Grundlage der vom HMI-System 510 empfangenen Eingabe steuert. Insbesondere weist das HMI-System 510 eine oder mehrere Benutzerschnittstellen und/oder Vorrichtungen auf, die mit einer oder mehreren E/A-Vorrichtungen des E/A-Systems 570 kommunizieren. Das HMI-System 510 ist in der Lage, nach dem Erhalten der Eingabe über das Ein-/Ausgabe(E/A)-System 570 und/oder andere Funktionsmodule 550 unter Einschluss von Kommunikationstechnologie mit dem Steuersystem 520 zu kommunizieren.
Das Steuersystem 520 ist dafür ausgelegt, eine Eingabe vom HMI-System 510 zu erhalten. Das Steuersystem 520 ist in der Lage, nach dem Empfang der Eingabe die Eingabe durch ein Verarbeitungssystem 540 zu verarbeiten. In dieser Hinsicht weist das Verarbeitungssystem 540 wenigstens einen Prozessor auf. Das Verarbeitungssystem 540 weist beispielsweise einen elektronischen Prozessor, eine Zentralverarbeitungseinheit (CPU), eine Grafikverarbeitungseinheit (GPU), einen Mikroprozessor, ein feldprogrammierbares Gate-Array (FPGA), eine anwendungsspezifische integrierte Schaltung (ASIC), Verarbeitungsschaltungen, eine geeignete Verarbeitungstechnologie oder eine Kombination davon auf. Das Verarbeitungssystem 540 ist in der Lage, nach der Verarbeitung wenigstens der vom HMI-System 510 empfangenen Eingabe dem Maschinenlernsystem 210 eine Abfrage oder Abfrageaufgabe auf der Grundlage der Eingabe bereitzustellen. Das Verarbeitungssystem 540 ist auch dafür ausgelegt, eine vorhergesagte Antwort durch das Maschinenlernsystem 210 zu erzeugen. Das Verarbeitungssystem 540 ist dafür ausgelegt, Ausgangsdaten auf der Grundlage der vorhergesagten Antwort zu erzeugen. Das Verarbeitungssystem 540 ist dafür ausgelegt, die Ausgangsdaten und/oder die vorhergesagte Antwort dem Benutzer über das E/A-System 570 und/oder das HMI-System 510 bereitzustellen. Zusätzlich ist das Verarbeitungssystem 540 in der Lage, Aktuatorsteuerdaten auf der Grundlage der Ausgangsdaten und/oder der vorhergesagten Antwort zu erzeugen. Das Steuersystem 520 ist dafür ausgelegt, das Aktuatorsystem 530 entsprechend den Aktuatorsteuerdaten zu steuern.
Das Speichersystem 560 ist ein Computer- oder elektronisches Speichersystem, das dafür ausgelegt ist, verschiedene Daten zu speichern und Zugriff auf diese bereitzustellen, um wenigstens die hier offenbarten Operationen und die hier offenbarte Funktionalität zu ermöglichen. Das Speichersystem 560 umfasst eine einzige oder eine Mehrzahl von Vorrichtungen. Das Speichersystem 560 weist eine elektrische, elektronische, magnetische, optische, Halbleiter-, elektromagnetische, eine beliebige geeignete Speichertechnologie oder eine Kombination davon auf. Beispielsweise kann das Speichersystem 560 einen Direktzugriffsspeicher (RAM), einen Nurlesespeicher (ROM), einen Flash-Speicher, ein Plattenlaufwerk, eine Speicherkarte, eine optische Speichervorrichtung, eine magnetische Speichervorrichtung, ein Speichermodul, einen beliebigen geeigneten Typ einer Speichervorrichtung oder eine Anzahl und Kombination davon aufweisen. Gemäß einer beispielhaften Ausführungsform befindet sich das Speichersystem 560 lokal, fern oder eine Kombination davon (beispielsweise teilweise lokal und teilweise fern) in Bezug auf das Steuersystem 520 und/oder das Verarbeitungssystem 540. Beispielsweise ist das Speichersystem 560 so auslegbar, dass es wenigstens ein cloudbasiertes Speichersystem (beispielsweise cloudbasiertes Datenbanksystem) aufweist, das fern vom Verarbeitungssystem 540 und/oder anderen Komponenten des Steuersystems 520 liegt.
Das Speichersystem 560 weist das Maschinenlernsystem 210 auf, das durch das neurosymbolische Framework 200 (1 - 2) vortrainiert (oder trainiert) wurde. Dieses vortrainierte oder trainierte Maschinenlernsystem 210 ist dafür ausgelegt, durch das Verarbeitungssystem 540 implementiert, ausgeführt und/oder verwendet zu werden. In dieser Hinsicht ist das Maschinenlernsystem 210 dafür ausgelegt, eine Abfrage oder Abfrageaufgabe als Eingangsdaten zu empfangen und zu verarbeiten. Das Maschinenlernsystem 210 ist dafür ausgelegt, eine vorhergesagte Antwort ansprechend auf die Abfrage oder Abfrageaufgabe bereitzustellen. In dieser Hinsicht ist das Maschinenlernsystem 210 dafür ausgelegt, eine Fragenbeantwortung auszuführen.
Zusätzlich weist das Speichersystem 560 ein Abfrage-Antwort-Anwendungssystem 580 auf. Das Abfrage-Antwort-Anwendungssystem 580 ist ausgelegt, um zu gewährleisten, dass das Maschinenlernsystem 210 mit einer Abfrage oder Abfrageaufgabe als Eingangsdaten versehen wird. In dieser Hinsicht ist das Verarbeitungssystem 540 dafür ausgelegt, durch das Abfrage-Antwort-Anwendungssystem 580 die Eingabe vom HMI-System 510 zu verarbeiten. Das Abfrage-Antwort-Anwendungssystem 580 ist dafür ausgelegt, eine Abfrage oder Abfrageaufgabe nach der Verarbeitung der Eingabe vom HMI-System 510 zu erzeugen, falls dies als notwendig angesehen wird. Zusätzlich ist das Abfrage-Antwort-Anwendungssystem 580 in einigen Fällen dafür ausgelegt, Ausgangsdaten auf der Grundlage der vom Maschinenlernsystem 210 erhaltenen vorhergesagten Antwort zu erzeugen. Das Abfrage-Antwort-Anwendungssystem 580 ermöglicht es dem Maschinenlernsystem 210 im Allgemeinen, nahtlos als Teil des Steuersystems 520 für die gewünschte Anwendung zu arbeiten.
Ferner weist das System 500, wie in 5 dargestellt, andere Komponenten auf, die zum Betrieb des Steuersystems 520 in Bezug auf das HMI-System 510 und das Aktuatorsystem 530 beitragen. Beispielsweise ist das Speichersystemen 560, wie in 5 dargestellt, auch dafür ausgelegt, andere relevante Daten 590 zu speichern, die sich auf den Betrieb des Systems 500 beziehen. Wie in 5 auch dargestellt ist, weist das Steuersystem 520 das E/A-System 570 auf, das eine oder mehrere sich auf das System 100 beziehende E/A-Vorrichtungen aufweist. Das Steuersystem 520 ist auch dafür ausgelegt, andere Funktionsmodule 550, wie eine geeignete Hardwaretechnologie, Softwaretechnologie oder eine Kombination davon, welche die Funktionsweise des Systems 500 unterstützen und/oder dazu beitragen, bereitzustellen. Beispielsweise weisen die anderen Funktionsmodule 550 ein Betriebssystem und Kommunikationstechnologie, die es Komponenten des Systems 500 ermöglicht, miteinander zu kommunizieren, wie hier beschrieben, auf. Die Komponenten des Systems 500 sind auch nicht auf diese Konfiguration beschränkt, sondern können eine beliebige geeignete Konfiguration aufweisen, solange das System 500 die hier beschriebenen Funktionalitäten ausführt. Das HMI-System 510 kann beispielsweise ein integralerer Teil des E/A-Systems 570 und/oder des Steuersystems 520 sein. Dementsprechend ist das System 500 bei verschiedenen Anwendungen nützlich.
Beispielsweise kann das System 500 als nicht einschränkendes Beispiel ein Dialogsystem sein, das verwendet wird, um einen Kundendienst und/oder eine Fehlersuchunterstützung bereitzustellen. In diesem Fall weist das System 500 ferner nicht das Aktuatorsystem 530 auf. In dieser Hinsicht kann das HMI-System 510 beispielsweise eine Benutzerschnittstelle in der Art einer Touchscreenvorrichtung aufweisen, die mit dem E/A-System 570 arbeitet, um eine Eingabe von einem Benutzer zu empfangen. Das Verarbeitungssystem 540 ist dafür ausgelegt, nach dem Eingeben von Eingangsdaten in die Touchscreenvorrichtung dem vortrainierten oder trainierten Maschinenlernsystem 210 eine Abfrage oder Abfrageaufgabe bereitzustellen. Das Verarbeitungssystem 540 ist dafür ausgelegt, ansprechend auf die Abfrage oder Abfrageaufgabe eine vorhergesagte Antwort über das Maschinenlernsystem 210 bereitzustellen. Das Verarbeitungssystem 540 ist dafür ausgelegt, die vorhergesagte Antwort direkt oder indirekt als Ausgangsdaten bereitzustellen, die vom Benutzer über die Touchscreenvorrichtung empfangen werden.
6 ist ein Diagramm eines Beispiels einer Anwendung des Systems 500 in Bezug auf eine Automatischer-persönlicher-Assistent-Technologie 600 gemäß einer beispielhaften Ausführungsform. Die Automatischer-persönlicher-Assistent-Technologie 600 ist als nicht einschränkendes Beispiel ein Roboter 610, der dafür ausgelegt ist, eine Eingabe zu empfangen, die direkt oder indirekt eine Abfrage oder Abfrageaufgabe enthalten kann. Die Automatischer-persönlicher-Assistent-Technologie 600 ist dafür ausgelegt, die Eingabe zu verarbeiten und eine Abfrage oder Abfrageaufgabe dem Maschinenlernsystem 210 bereitzustellen. Die Automatischer-persönlicher-Assistent-Technologie 600 ist dafür ausgelegt, ansprechend auf die Abfrage oder Abfrageaufgabe eine vorhergesagte Antwort über das vortrainierte oder trainierte Maschinenlernsystem 210 bereitzustellen. Zusätzlich ist die Automatischer-persönlicher-Assistent-Technologie 600 dafür ausgelegt, ein Gerät in der Art einer Waschmaschine, eines Kochers, eines Staubsaugers, eines Ofens, einer Mikrowelle, eines Geschirrspülers, eines anderen Typs eines Haushaltsgeräts, eine geeignete Vorrichtung oder eine Anzahl und Kombination davon zu steuern. Das HMI-System 510 weist wenigstens eine Benutzerschnittstelle auf, die mit dem E/A-System 570 (beispielsweise Mikrofon, Touchscreen, Tastatur, Anzeigetechnologie, Gestentechnologie, Kamera, Sensor oder einer beliebigen geeigneten Technologie) zusammenarbeitet, um eine Eingabe zu erhalten.
Das Steuersystem 520 ist dafür ausgelegt, die Eingabe (beispielsweise Audiobefehle, Touchscreenbefehle usw.) vom Benutzer 620 über das HMI-System 510 und/oder das E/A-System 570 zu erhalten. Das Steuersystem 520 ist dafür ausgelegt, die Eingabe zu verarbeiten. Das Steuersystem 520 ist dafür ausgelegt, eine Abfrage oder Abfrageaufgabe auf der Grundlage der Eingabe bereitzustellen. Zusätzlich ist das Steuersystem 520 dafür ausgelegt, eine vorhergesagte Antwort ansprechend auf die Abfrage oder Abfrageaufgabe über das vortrainierte oder trainierte Maschinenlernsystem 210 bereitzustellen. Das Steuersystem 520 ist dafür ausgelegt, Ausgangsdaten auf der Grundlage der vorhergesagten Antwort zu erzeugen. Das Steuersystem 520 ist dafür ausgelegt, die vorhergesagte Antwort und/oder die Ausgangsdaten dem E/A-System 570 und/oder dem HMI-System 510 bereitzustellen. Das Steuersystem 520 ist dafür ausgelegt, Aktuatorsteuerdaten auf der Grundlage der vorhergesagten Antwort und/oder der Ausgangsdaten zu erzeugen. Das Steuersystem 520 ist als nicht einschränkendes Beispiel auch dafür ausgelegt, ansprechend auf die Aktuatorsteuerdaten das Aktuatorsystem 530 zu steuern.
7 ist ein Diagramm eines Beispiels einer Anwendung des Systems 500 in Bezug auf Mobilmaschinentechnologie gemäß einer beispielhaften Ausführungsform. Die Mobilmaschinentechnologie ist als nicht einschränkendes Beispiel an einem Fahrzeug 700, das wenigstens teilweise autonom oder vollständig autonom ist, eingerichtet. In 7 weist das Fahrzeug 700 ein HMI-System 510 auf, das dafür ausgelegt ist, eine Eingabe zu empfangen. Das Steuersystem 520 ist dafür ausgelegt, auf der Grundlage der Eingabe dem Maschinenlernsystem 210 wenigstens eine Abfrage oder Abfrageaufgabe bereitzustellen. Das Maschinenlernsystem 210 ist dafür ausgelegt, eine vorhergesagte Antwort ansprechend auf eine Abfrage oder Abfrageaufgabe bereitzustellen. Das Steuersystem 520 ist dafür ausgelegt, Aktuatorsteuerdaten zu erzeugen, die wenigstens auf der vorhergesagten Antwort beruhen. Das Aktuatorsystem 530 ist als nicht einschränkendes Beispiel dafür ausgelegt, wenigstens das Bremssystem zu betätigen, um das Fahrzeug 700 anzuhalten, nachdem die Aktuatorsteuerdaten empfangen wurden. In dieser Hinsicht ist das Aktuatorsystem 530 so ausgelegt, dass es ein Bremssystem, ein Antriebssystem, einen Motor, einen Antriebszug, ein Lenksystem oder eine Anzahl und Kombination von Aktuatoren des Fahrzeugs 700 aufweist. Das Aktuatorsystem 530 ist dafür ausgelegt, das Fahrzeug 700 auf der Grundlage wenigstens der vom vortrainierten (oder trainierten) Maschinenlernsystem 210 bereitgestellten vorhergesagten Antwort so zu steuern, dass es Regeln der Straße folgt und Kollisionen vermeidet.
Wie hier beschrieben, stellen die Ausführungsformen eine Anzahl von Vorteilen und Nutzen bereit. Die Ausführungsformen sind beispielsweise wissensgetrieben und selbstüberwacht. Die Ausführungsformen sind dafür ausgelegt, Abfrageaufgaben zu erzeugen, die auf einem globalen Wissensgraphen 220A beruhen. Der globale Wissensgraph 220A ist bei der Kombination verschiedener Wissensgraphen auf der Grundlage verschiedener Wissensdatenbanken vorteilhaft. Gemäß diesen Ausführungsformen ist das Verarbeitungssystem 140 in der Lage, eine Abfrageaufgabe zu erzeugen, die auf verschiedenen Wissensgraphen beruht. Die Abfrageaufgabe kann daher Daten von einem oder mehreren eigenständigen Wissensgraphen 220B, die Teil des globalen Wissensgraphen 220A sind, enthalten. Die Abfrageaufgabe kann beispielsweise eine Frage und eine korrekte Antwort aufweisen, die von einem Wissensgraphen abgeleitet werden, während einige der Distraktoren von einem oder mehreren anderen Wissensgraphen abgeleitet werden. Zusätzlich können die Ausführungsformen demonstrieren, dass eine globale Ressource (beispielsweise der globale Wissensgraph 220A) in der Lage ist, selbst in einer Zero-Shot-Umgebung konsistente Gewinne über verschiedene Commonsense-Aufgabendatensätze 220C zu bringen. Die Ausführungsformen nutzen daher diverses Wissen über die verschiedenen Wissensgraphen aus, um die Qualität des Trainingssatzes zu verbessern. Die Ausführungsformen stellen eine Wissensausrichtung bereit, wodurch eine bessere Leistung erreicht wird. Die Ausführungsformen sind dafür ausgelegt, Abfrageaufgaben bereitzustellen, deren Lösung für das Maschinenlernsystem 210 verhältnismäßig anspruchsvoll ist, während sie auch für Personen verhältnismäßig leicht zu lösen sind. Zusätzlich sind die Ausführungsformen beim Bereitstellen nicht trivialer Abfrageaufgaben durch selektives Erzeugen von Distraktoren auf der Grundlage des Satzes von Distraktorkriterien vorteilhaft. Überdies erzeugen die Ausführungsformen automatisch einen Trainingssatz mit Abfrageaufgaben, die als informativ und fair angesehen werden. Die Ausführungsformen sind dafür ausgelegt, wenigstens eine adversarielle Strategie bei der Entwicklung der Abfrageaufgaben zu implementieren. Die Ausführungsformen sind insgesamt dafür ausgelegt, automatisch Abfrageaufgaben zum Vortrainieren oder Trainieren der Maschinenlernsysteme in einer Art zu erzeugen, die wirksam ist, um das technische Problem in Bezug auf Overfitting zu überwinden.
Das heißt, dass die vorstehende Beschreibung als erläuternd und nicht als einschränkend anzusehen ist und in Zusammenhang mit einer bestimmten Anwendung und ihren Anforderungen bereitgestellt ist. Fachleute können anhand der vorstehenden Beschreibung verstehen, dass die vorliegende Erfindung in einer Vielzahl von Formen implementiert werden kann und dass die verschiedenen Ausführungsformen allein oder in Kombination implementiert werden können. Wenngleich die Ausführungsformen der vorliegenden Erfindung in Zusammenhang mit bestimmten Beispielen von ihnen beschrieben wurden, können die hier definierten allgemeinen Prinzipien daher auf andere Ausführungsformen und Anwendungen angewendet werden, ohne vom Gedanken und vom Schutzumfang der beschriebenen Ausführungsformen abzuweichen, und der wahre Schutzumfang der Ausführungsformen und/oder der Verfahren der vorliegenden Erfindung ist nicht auf die dargestellten und beschriebenen Ausführungsformen beschränkt, weil Fachleuten bei einer Betrachtung der Zeichnungen, der Beschreibung und der folgenden Ansprüche verschiedene Modifikationen einfallen werden. Komponenten und Funktionalitäten können beispielsweise anders als in der Art der verschiedenen beschriebenen Ausführungsformen getrennt oder kombiniert werden und unter Verwendung einer anderen Technologie beschrieben werden. Diese und andere Variationen, Modifikationen, Hinzufügungen und Verbesserungen können in den in den folgenden Ansprüchen definierten Schutzumfang der Offenbarung fallen.

Claims

Computerimplementiertes Verfahren zum Trainieren eines Maschinenlernsystems, wobei das computerimplementierte Verfahren Folgendes umfasst: Erhalten einer aktuellen Datenstruktur anhand eines globalen Wissensgraphen, der eine Kombination verschiedener Wissensgraphen aufweist, wobei die aktuelle Datenstruktur ein aktuelles Kopfelement, ein aktuelles Beziehungselement und ein aktuelles Endelement aufweist, Erhalten eines der aktuellen Datenstruktur entsprechenden Satzes, Erzeugen einer Frage durch Entfernen des aktuellen Endelements aus dem Satz, Erzeugen einer korrekten Antwort auf die Frage, wobei die korrekte Antwort das aktuelle Endelement aufweist, Extrahieren eines Pools von Datenstrukturen aus dem globalen Wissensgraphen auf der Grundlage eines Satzes von Distraktorkriterien, wobei jede extrahierte Datenstruktur ein Beziehungselement aufweist, welches das aktuelle Beziehungselement ist, Extrahieren von Endelementen aus dem Pool von Datenstrukturen, um einen Pool von Distraktorkandidaten zu erzeugen, Auswählen eines Satzes von Distraktoren aus dem Pool von Distraktorkandidaten, Erzeugen einer Abfrageaufgabe, welche die Frage und einen Satz von Antwortoptionen aufweist, wobei der Satz von Antwortoptionen die korrekte Antwort und den Satz von Distraktoren aufweist, Erzeugen eines Trainingssatzes, der wenigstens die Abfrageaufgabe aufweist, und Trainieren des Maschinenlernsystems mit dem Trainingssatz, wobei das Maschinenlernsystem dafür ausgelegt ist, die Abfrageaufgabe zu empfangen und mit einer vorhergesagten Antwort, die aus dem Satz von Antwortoptionen ausgewählt wird, auf die Frage zu antworten.
Computerimplementiertes Verfahren nach Anspruch 1, wobei jede extrahierte Datenstruktur ein Kopfelement ohne gemeinsame Schlüsselwörter mit dem aktuellen Kopfelement aufweist.
Computerimplementiertes Verfahren nach Anspruch 1, wobei jede extrahierte Datenstruktur ein Endelement aufweist, das in keiner anderen Datenstruktur des globalen Wissensgraphen vorgefunden wird, wobei die andere Datenstruktur das aktuelle Kopfelement und das aktuelle Beziehungselement aufweist.
Computerimplementiertes Verfahren nach Anspruch 1, wobei der Schritt des Auswählens des Satzes von Distraktoren aus dem Pool von Distraktorkandidaten Folgendes umfasst: Wählen von Distraktorkandidaten durch einen zufälligen Auswahlprozess und Erzeugen des Satzes von Distraktoren, um eine Teilmenge der gewählten Distraktorkandidaten aufzunehmen.
Computerimplementiertes Verfahren nach Anspruch 1, wobei der Schritt des Auswählens des Satzes von Distraktoren aus dem Pool von Distraktorkandidaten Folgendes umfasst: Wählen von Distraktorkandidaten, die den größten Kosinusähnlichkeitswert in Bezug auf die korrekte Antwort aufweisen, während wenigstens eine Schwelle erfüllt wird, und Erzeugen des Satzes von Distraktoren, um eine Teilmenge der gewählten Distraktorkandidaten aufzunehmen.
Computerimplementiertes Verfahren nach Anspruch 1, wobei der Schritt des Auswählens des Satzes von Distraktoren aus dem Pool von Distraktorkandidaten Folgendes umfasst: Wählen von Distraktorkandidaten, die den größten Kosinusähnlichkeitswert in Bezug auf die Frage aufweisen, während wenigstens eine Schwelle erfüllt wird, und Erzeugen des Satzes von Distraktoren, um eine Teilmenge der gewählten Distraktorkandidaten aufzunehmen.
Computerimplementiertes Verfahren nach Anspruch 1, welches ferner Folgendes umfasst: Erhalten eines Aufgabendatensatzes mit anderen Aufgaben, die von der Abfrageaufgabe verschieden sind, und Ausführen einer Zero-Shot-Beurteilung des Maschinenlernsystems auf der Grundlage des Aufgabendatensatzes, wobei das Maschinenlernsystem während einer Vortrainingsphase des Maschinenlernsystems mit dem Trainingssatz trainiert wird.
Datenverarbeitungssystem, welches Folgendes umfasst: wenigstens ein nichtflüchtiges computerlesbares Medium, das wenigstens ein neurosymbolisches Framework aufweist, wobei das neurosymbolische Framework computerlesbare Daten aufweist, ein Verarbeitungssystem, das wenigstens einen Prozessor aufweist, der operativ mit dem wenigstens einen nichtflüchtigen computerlesbaren Medium verbunden ist, wobei der Prozessor dafür ausgelegt ist, die computerlesbaren Daten zur Implementation eines Verfahrens auszuführen, das Folgendes aufweist: Erhalten einer aktuellen Datenstruktur anhand eines globalen Wissensgraphen, der eine Kombination verschiedener Wissensgraphen aufweist, wobei die aktuelle Datenstruktur ein aktuelles Kopfelement, ein aktuelles Beziehungselement und ein aktuelles Endelement aufweist, Erhalten eines der aktuellen Datenstruktur entsprechenden Satzes, Erzeugen einer Frage durch Entfernen des aktuellen Endelements aus dem Satz, Erzeugen einer korrekten Antwort auf die Frage, wobei die korrekte Antwort das aktuelle Endelement aufweist, Extrahieren eines Pools von Datenstrukturen aus dem globalen Wissensgraphen auf der Grundlage eines Satzes von Distraktorkriterien, wobei jede extrahierte Datenstruktur ein Beziehungselement aufweist, welches das aktuelle Beziehungselement ist, Extrahieren von Endelementen aus dem Pool von Datenstrukturen, um einen Pool von Distraktorkandidaten zu erzeugen, Auswählen eines Satzes von Distraktoren aus dem Pool von Distraktorkandidaten, Erzeugen einer Abfrageaufgabe, welche die Frage und einen Satz von Antwortoptionen aufweist, wobei der Satz von Antwortoptionen die korrekte Antwort und den Satz von Distraktoren aufweist, Erzeugen eines Trainingssatzes, der wenigstens die Abfrageaufgabe aufweist, und Trainieren eines Maschinenlernsystems mit dem Trainingssatz, wobei das Maschinenlernsystem dafür ausgelegt ist, die Abfrageaufgabe zu empfangen und mit einer vorhergesagten Antwort, die aus dem Satz von Antwortoptionen ausgewählt wird, auf die Frage zu antworten.
Datenverarbeitungssystem nach Anspruch 8, wobei jede extrahierte Datenstruktur ein Kopfelement ohne gemeinsame Schlüsselwörter mit dem aktuellen Kopfelement aufweist.
Datenverarbeitungssystem nach Anspruch 8, wobei jede extrahierte Datenstruktur ein Endelement aufweist, das in keiner anderen Datenstruktur des globalen Wissensgraphen vorgefunden wird, wobei die andere Datenstruktur das aktuelle Kopfelement und das aktuelle Beziehungselement aufweist.
Datenverarbeitungssystem nach Anspruch 8, wobei der Schritt des Auswählens des Satzes von Distraktoren aus dem Pool von Distraktorkandidaten Folgendes umfasst: Wählen von Distraktorkandidaten durch einen zufälligen Auswahlprozess und Erzeugen des Satzes von Distraktoren, um eine Teilmenge der gewählten Distraktorkandidaten aufzunehmen.
Datenverarbeitungssystem nach Anspruch 8, wobei der Schritt des Auswählens des Satzes von Distraktoren aus dem Pool von Distraktorkandidaten Folgendes umfasst: Wählen von Distraktorkandidaten, die den größten Kosinusähnlichkeitswert in Bezug auf die korrekte Antwort aufweisen, während wenigstens eine Schwelle erfüllt wird, und Erzeugen des Satzes von Distraktoren, um eine Teilmenge der gewählten Distraktorkandidaten aufzunehmen.
Datenverarbeitungssystem nach Anspruch 8, wobei der Schritt des Auswählens des Satzes von Distraktoren aus dem Pool von Distraktorkandidaten Folgendes umfasst: Wählen von Distraktorkandidaten, die den größten Kosinusähnlichkeitswert in Bezug auf die Frage aufweisen, während wenigstens eine Schwelle erfüllt wird, und Erzeugen des Satzes von Distraktoren, um eine Teilmenge der gewählten Distraktorkandidaten aufzunehmen.
Datenverarbeitungssystem nach Anspruch 8, wobei das Verfahren ferner Folgendes umfasst: Erhalten eines Aufgabendatensatzes mit anderen Aufgaben, die von der Abfrageaufgabe verschieden sind, und Ausführen einer Zero-Shot-Beurteilung des Maschinenlernsystems auf der Grundlage des Aufgabendatensatzes, wobei das Maschinenlernsystem während einer Vortrainingsphase des Maschinenlernsystems mit dem Trainingssatz trainiert wird.
Computerprodukt, das wenigstens eine nichtflüchtige computerlesbare Speichervorrichtung umfasst, die computerlesbare Daten aufweist, welche, wenn sie durch einen oder mehrere Prozessoren ausgeführt werden, in der Lage sind, den einen oder die mehreren Prozessoren zu veranlassen, ein Verfahren zu implementieren, welches Folgendes umfasst: Erhalten einer aktuellen Datenstruktur anhand eines globalen Wissensgraphen, der eine Kombination verschiedener Wissensgraphen aufweist, wobei die aktuelle Datenstruktur ein aktuelles Kopfelement, ein aktuelles Beziehungselement und ein aktuelles Endelement aufweist, Erhalten eines der aktuellen Datenstruktur entsprechenden Satzes, Erzeugen einer Frage durch Entfernen des aktuellen Endelements aus dem Satz, Erzeugen einer korrekten Antwort auf die Frage, wobei die korrekte Antwort das aktuelle Endelement aufweist, Extrahieren eines Pools von Datenstrukturen aus dem globalen Wissensgraphen auf der Grundlage eines Satzes von Distraktorkriterien, wobei jede extrahierte Datenstruktur ein Beziehungselement aufweist, welches das aktuelle Beziehungselement ist, Extrahieren von Endelementen aus dem Pool von Datenstrukturen, um einen Pool von Distraktorkandidaten zu erzeugen, Auswählen eines Satzes von Distraktoren aus dem Pool von Distraktorkandidaten, Erzeugen einer Abfrageaufgabe, welche die Frage und einen Satz von Antwortoptionen aufweist, wobei der Satz von Antwortoptionen die korrekte Antwort und den Satz von Distraktoren aufweist, Erzeugen eines Trainingssatzes, der wenigstens die Abfrageaufgabe aufweist, und Trainieren eines Maschinenlernsystems mit dem Trainingssatz, wobei das Maschinenlernsystem dafür ausgelegt ist, die Abfrageaufgabe zu empfangen und mit einer vorhergesagten Antwort, die aus dem Satz von Antwortoptionen ausgewählt wird, auf die Frage zu antworten.
Computerprodukt nach Anspruch 15, wobei jede extrahierte Datenstruktur ein Kopfelement ohne gemeinsame Schlüsselwörter mit dem aktuellen Kopfelement aufweist.
Computerprodukt nach Anspruch 15, wobei jede extrahierte Datenstruktur ein Endelement aufweist, das in keiner anderen Datenstruktur des globalen Wissensgraphen vorgefunden wird, wobei die andere Datenstruktur das aktuelle Kopfelement und das aktuelle Beziehungselement aufweist.
Computerprodukt nach Anspruch 15, wobei der Schritt des Auswählens des Satzes von Distraktoren aus dem Pool von Distraktorkandidaten Folgendes umfasst: Wählen von Distraktorkandidaten durch einen zufälligen Auswahlprozess und Erzeugen des Satzes von Distraktoren, um eine Teilmenge der gewählten Distraktorkandidaten aufzunehmen.
Computerprodukt nach Anspruch 15, wobei der Schritt des Auswählens des Satzes von Distraktoren aus dem Pool von Distraktorkandidaten Folgendes umfasst: Wählen von Distraktorkandidaten, die den größten Kosinusähnlichkeitswert in Bezug auf die korrekte Antwort aufweisen, während wenigstens eine Schwelle erfüllt wird, und Erzeugen des Satzes von Distraktoren, um eine Teilmenge der gewählten Distraktorkandidaten aufzunehmen.
Computerprodukt nach Anspruch 15, wobei der Schritt des Auswählens des Satzes von Distraktoren aus dem Pool von Distraktorkandidaten Folgendes umfasst: Wählen von Distraktorkandidaten, die den größten Kosinusähnlichkeitswert in Bezug auf die Frage aufweisen, während wenigstens eine Schwelle erfüllt wird, und Erzeugen des Satzes von Distraktoren, um eine Teilmenge der gewählten Distraktorkandidaten aufzunehmen.