DE202023102984U1

DE202023102984U1 - Aufforderung von maschinengelernten Modellen mit Hilfe von Gedankenketten

Info

Publication number: DE202023102984U1
Application number: DE202023102984.1U
Authority: DE
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2022-06-03
Filing date: 2023-05-31
Publication date: 2023-07-21
Anticipated expiration: 2033-06-01
Also published as: US20230394328A1

Abstract

Ein Computersystem zur verbesserten Aufforderung eines maschinengelernten Modells, wobei das System Folgendes umfasst:
einen oder mehrere Prozessoren; und
eine oder mehrere Speichervorrichtungen, die nichttransitorische, computerlesbare Befehle speichern, die ausführbar sind, um den einen oder die mehreren Prozessor(en) zu veranlassen, Operationen durchzuführen, wobei die Operationen Folgendes umfassen:
Erhalten einer instruktiven Sequenz, die eine instruktive Abfrage, eine instruktive Antwort und eine instruktive Spur von Zwischenzuständen von der instruktiven Abfrage bis zur instruktiven Antwort beschreibt;
Eingeben der instruktiven Sequenz und einer operativen Abfrage in ein maschinengelerntes Modell, wobei das maschinengelernte Modell so konfiguriert ist, dass es die operative Abfrage mit Aufmerksamkeit über die instruktive Sequenz verarbeitet; und
Erzeugen einer operativen Antwort unter Verwendung des maschinengelernten Modells und als Antwort auf die operative Abfrage.

Description

Nach den Bestimmungen des Gebrauchsmustergesetzes sind nur Vorrichtungen im Sinne der beigefügten Schutzansprüche schutzfähig und Gegenstand des Gebrauchsmusters, nicht aber Verfahren. Soweit in der nachstehenden Beschreibung gegebenenfalls auf Verfahren Bezug genommen wird, dienen diese Bezugnahmen nur zur beispielhaften Erläuterung der in den beigefügten Schutzansprüchen geschützten Vorrichtung(en)
VERWANDTE ANWENDUNGEN
Diese Anmeldung beansprucht den Nutzen und die Priorität der US-PatentanmeldungNr. 17/881,746 , eingereicht am 5. August2022, die wiederum die Priorität der vorläufigen US-Patentanmeldung Nr. 63/348,637 , eingereicht am 3. Juni 2022, beansprucht. Der Anmelder beansprucht die Priorität und den Nutzen jeder dieser Anmeldungen und bezieht alle diese Anmeldungen hierin durch Bezugnahme in ihrer Gesamtheit ein.
GEBIET
Die vorliegende Offenbarung bezieht sich allgemein auf die Steuerung von maschinengelernten Modellen. Insbesondere bezieht sich die vorliegende Offenbarung auf die Erstellung von Aufforderungen für maschinengelernte Modelle.
HINTERGRUND
Maschinengelernte Modelle können verschiedene Funktionen bieten. Solche Modelle können für die Durchführung verschiedener Aufgaben trainiert werden. Bereits trainierte Modelle können weiter angewiesen werden, bestimmte Aufgaben auszuführen, indem man dem Modell Eingaben mit reichhaltigem Kontext zur Verfügung stellt, der das Modell zu einem bestimmten Verhalten anregt.
ZUSAMMENFASSUNG
Aspekte und Vorteile von Ausführungsformen der vorliegenden Offenbarung werden zum Teil in der folgenden Beschreibung dargelegt oder können aus der Beschreibung entnommen werden oder können durch die Praxis der Ausführungsformen erlernt werden.
In einem Beispielaspekt sehen Ausführungsbeispiele der vorliegenden Offenbarung ein beispielhaftes computerimplementiertes Verfahren zur verbesserten Aufforderung eines maschinengelernten Modells vor. Das Beispielverfahren umfasst das Erhalten einer instruktiven Sequenz, die eine instruktive Abfrage, eine instruktive Antwort und eine instruktive Spur von Zwischenzuständen von der instruktiven Abfrage bis zur instruktiven Antwort beschreibt, durch ein Computersystem mit einem oder mehreren Prozessoren. Das Beispielverfahren umfasst das Eingeben der instruktiven Sequenz und einer operativen Abfrage durch das Computersystem und in ein maschinengelerntes Modell, wobei das maschinengelernte Modell so konfiguriert ist, dass es die operative Abfrage mit Aufmerksamkeit über die instruktive Sequenz verarbeitet. Das Beispielverfahren umfasst das Erzeugen einer operativen Antwort durch das Computersystem unter Verwendung des maschinengelernten Modells und als Antwort auf die operative Abfrage.
In einem Beispielaspekt sehen Ausführungsbeispiele der vorliegenden Offenbarung eine oder mehrere Beispielspeichervorrichtungen vor, die computerlesbare Befehle zur verbesserten Aufforderung eines maschinengelernten Modells speichern, wobei die Befehle ausführbar sind, um einen oder mehrere Prozessoren zu veranlassen, Beispieloperationen durchzuführen. Die Beispieloperationen umfassen das Erhalten einer instruktiven Sequenz, die eine instruktive Abfrage, eine instruktive Antwort und eine instruktive Spur von Zwischenzuständen von der instruktiven Abfrage bis zur instruktiven Antwort beschreibt. Die Beispieloperationen umfassen das Eingeben der instruktiven Sequenz und einer operativen Abfrage in ein maschinengelerntes Modell, wobei das maschinengelernte Modell so konfiguriert ist, dass es die operative Abfrage mit Aufmerksamkeit über die instruktive Sequenz verarbeitet. Die Beispieloperationen umfassen das Erzeugen einer Vielzahl von operativen Antworten unter Verwendung des maschinengelernten Modells. Die Beispielsoperationen umfassen das Bestimmen einer Konsistenzmetrik auf der Grundlage einer Stichprobe aus der Vielzahl der operativen Antworten. Die Beispieloperationen umfassen das Bestimmen einer operativen Antwort auf der Grundlage der Konsistenzmetrik.
In einem Beispielaspekt sehen Ausführungsbeispiele der vorliegenden Offenbarung ein Beispiel-Computersystem für eine verbesserte Aufforderung für ein maschinengelerntes Modell vor. Das Beispielsystem umfasst einen oder mehrere Prozessoren und eine oder mehrere Speichervorrichtungen, die computerlesbare Befehle speichern, die ausgeführt werden können, um den einen oder die mehreren Prozessoren zu veranlassen, Beispieloperationen durchzuführen. In dem Beispielsystem umfassen die Beispieloperationen das Erhalten einer instruktiven Sequenz, die eine instruktive Abfrage, eine instruktive Antwort und eine instruktive Spur von Zwischenzuständen von der instruktiven Abfrage bis zur instruktiven Antwort beschreibt. In dem Beispielsystem umfassen die Beispieloperationen das Eingeben der instruktiven Sequenz und einer operativen Abfrage in ein maschinengelerntes Modell, wobei das maschinengelernte Modell so konfiguriert ist, dass es die operative Abfrage mit Aufmerksamkeit über die instruktive Sequenz verarbeitet. In dem Beispielsystem umfassen die Beispieloperationen das Erzeugen einer Vielzahl von operativen Antworten unter Verwendung des maschinengelernten Modells. In dem Beispielsystem umfassen die Beispieloperationen das Bestimmen einer Konsistenzmetrik auf der Grundlage einer Stichprobe aus der Vielzahl der operativen Antworten. In dem Beispielsystem umfassen die Beispieloperationen das Bestimmen einer operativen Antwort auf der Grundlage der Konsistenzmetrik.
Andere Aspekte der vorliegenden Offenbarung beziehen sich auf verschiedene Systeme, Vorrichtungen, nicht-übertragbare computerlesbare Medien, Benutzerschnittstellen und elektronische Geräte.
Diese und andere Merkmale, Aspekte und Vorteile verschiedener Ausführungsformen der vorliegenden Offenbarung werden durch Bezugnahme auf die folgende Beschreibung und die beigefügten Ansprüche besser verständlich. Die beigefügten Zeichnungen, die Bestandteil dieser Beschreibung sind, zeigen beispielhafte Ausführungsformen der vorliegenden Offenbarung und dienen zusammen mit der Beschreibung zur Erläuterung der zugehörigen Prinzipien.
Figurenliste
Eine ausführliche Erörterung von Ausführungsformen, die für einen Fachmann geeignet sind, wird in der Beschreibung dargelegt, die auf die beigefügten Figuren verweist, in denen:

1 zeigt ein Blockdiagramm einer beispielhaften Eingabedatenstruktur und ein entsprechendes Beispiel für eine Gedankenkettenaufforderung gemäß beispielhaften Aspekten einiger Ausführungsformen der vorliegenden Offenbarung;
2 zeigt ein Blockdiagramm einer beispielhaften Eingabedatenstruktur und ein entsprechendes Beispiel für eine Gedankenkettenaufforderung gemäß beispielhaften Aspekten einiger Ausführungsformen der vorliegenden Offenbarung;
3 zeigt ein Blockdiagramm einer beispielhaften Eingabedatenstruktur und ein entsprechendes Beispiel für eine Gedankenkettenaufforderung gemäß beispielhaften Aspekten einiger Ausführungsformen der vorliegenden Offenbarung;
4 zeigt ein Blockdiagramm einer beispielhaften Eingabedatenstruktur und ein entsprechendes Beispiel für eine Gedankenkettenaufforderung gemäß beispielhaften Aspekten einiger Ausführungsformen der vorliegenden Offenbarung;
5 zeigt ein Blockdiagramm einer beispielhaften Eingabedatenstruktur und ein entsprechendes Beispiel für eine rekursive Aufforderung gemäß den Beispielaspekten einiger Ausführungsformen der vorliegenden Offenbarung;
6 zeigt Beispielergebnisse für Benchmark-Vergleiche für die Gedankenkettenaufforderung gemäß Beispielaspekten einiger Ausführungsformen der vorliegenden Offenbarung;
7 zeigt Beispielergebnisse für Benchmark-Vergleiche für die Gedankenkettenaufforderung gemäß Beispielaspekten einiger Ausführungsformen der vorliegenden Offenbarung;
8 zeigt Beispielergebnisse für Benchmark-Vergleiche für die Gedankenkettenaufforderung gemäß Beispielaspekten einiger Ausführungsformen der vorliegenden Offenbarung;
9 zeigt Beispielergebnisse für Benchmark-Vergleiche für die Gedankenkettenaufforderung gemäß Beispielaspekten einiger Ausführungsformen der vorliegenden Offenbarung;
10A zeigt ein Blockdiagramm eines Beispiel-Computersystems, das eine Gedankenkettenaufforderung gemäß Beispielaspekten einiger Ausführungsformen der vorliegenden Offenbarung durchführt;
10B zeigt ein Blockdiagramm eines Beispiel-Computergeräts, das eine Gedankenkettenaufforderung gemäß Beispielaspekten einiger Ausführungsformen der vorliegenden Offenbarung durchführt;
10C zeigt ein Blockdiagramm eines Beispiel-Computergeräts, das eine Gedankenkettenaufforderung gemäß Beispielaspekten einiger Ausführungsformen der vorliegenden Offenbarung durchführt; und
11 zeigt ein Flussdiagramm eines Beispielverfahrens zur Durchführung einer Gedankenkettenaufforderung gemäß Beispielaspekten einiger Ausführungsformen der vorliegenden Offenbarung.

Bezugszeichen, die sich in mehreren Figuren wiederholen, sollen die gleichen Merkmale in verschiedenen Ausführungen kennzeichnen.
AUSFÜHRLICHE BESCHREIBUNG
Übersicht
Im Allgemeinen bezieht sich die vorliegende Offenlegung auf verbesserte Techniken zur Aufforderung von maschinengelernten Modellen zur Durchführung verschiedener Aufgaben. Beispielhafte Ausführungsformen der vorliegenden Offenbarung beziehen sich auf die Aufforderung eines maschinengelernten Modells unter Verwendung einer „Gedankenkette“, welche die Überlegungen nachvollzieht, die zur Erzeugung einer Ausgabe als Antwort auf eine gegebene Eingabe verwendet werden. Beispielsweise kann ein maschinengelerntes Modell trainiert werden (z. B. im Rahmen von Vortraining, Feinabstimmung usw.), um Beziehungen zwischen Eingaben zu lernen. Beispielsweise kann ein maschinengelerntes Modell so trainiert werden, dass es Beziehungen zwischen Begriffen in einer Eingabeabfrage lernt. Die Aufforderung an ein maschinengelerntes Modell kann das Bereitstellen einer instruktiven Eingabeabfrage und einer instruktiven Ausgabeantwort vor einer operativen Abfrage von Interesse beinhalten. Durch das Bereitstellen einer instruktiven Spur, welche die Abfolge von Argumentationsschritten oder logischen Zuständen zwischen der instruktiven Eingabeabfrage und der instruktiven Ausgabeantwort erklärt, können Beispielaufforderungen gemäß den Aspekten der vorliegenden Offenlegung das Netzwerk der gelernten Assoziationen besser nutzen, um mit einer gegebenen Aufforderung einen instruktiveren Kontext zu vermitteln.
So können beispielsweise traditionelle Modelleingabestrukturen für einige Aufgaben geeignet sein. So hat die Skalierung der Größe von Sprachmodellen zu Verbesserungen bei der Leistung und der Stichprobeneffizienz geführt. So haben Sprachmodelle mit 100B oder mehr Parametern eine starke Leistung bei der Verarbeitung natürlicher Sprache wie der Analyse von Gefühlen und der Klassifizierung von Themen erzielt, selbst bei Einstellungen mit wenigen oder gar keinen Treffern.
Bei anderen Aufgaben können jedoch selbst große Modelle mit herkömmlichen Eingabe- und Steuerungstechniken Schwierigkeiten haben. So können selbst große Sprachmodelle bei der Verwendung herkömmlicher Eingabe- und Steuerungstechniken mit Aufgaben zu kämpfen haben, die langsames und überlegtes Denken erfordern (z. B. „System-2-Aufgaben“, Aufgaben mit mehreren Schritten usw.) und zu denen unter anderem logische, mathematische und logische Denk-Aufgaben gehören. Diese Schwierigkeit kann selbst dann auftreten, wenn Modelle mit Hunderten von Milliarden von Parametern skaliert werden. So kann beispielsweise ein vortrainiertes GPT-3-Modell Schwierigkeiten haben, die Addition von Zahlen mit mehr als drei Ziffern in wenigen Schritten durchzuführen. In ähnlicher Weise haben bestehende groß angelegte Sprachmodellimplementierungen Schwierigkeiten, das Ergebnis der Ausführung von Python-Code vorherzusagen, selb st wenn es sich dabei um die Lösung einer Programmieraufgabe handelt, die das Modell im Allgemeinen lösen kann. Und Standardimplementierungen rekurrenter und graphischer neuronaler Netze können bei der Vorhersage der Ausgabe einfacher Programme mit Schleifen nicht systematisch verallgemeinern.
Vorteilhafterweise können die Beispieltechniken der vorliegenden Offenbarung maschinengelernte Modelle in die Lage versetzen, eine gestellte Abfrage oder ein Problem in Zwischenschritte zu zerlegen, die einzeln gelöst werden. In einigen Beispielen ermöglicht diese Technik dem Modell, die Zwischenschritte zu lösen, anstatt ein gesamtes Multi-Hop-Problem in einem einzigen Vorwärtsdurchlauf zu lösen, was die Kapazität beweist, die Verarbeitungsleistung des Modells auf anspruchsvollere Zwischenschritte zu konzentrieren, anstatt die Rechenressourcen über alle Schritte auf einmal zu verteilen. Beispiele für diese Technik ermöglichen es dem Modell, die Zwischenschritte gemeinsam mit der Lösung des gewünschten Ausgabewerts zu lösen, wobei der reichhaltigere Kontext der Argumentationsspur genutzt wird, um den gewünschten Ausgabewert anzuleiten und zu verfeinern.
In einigen Ausführungsformen können maschinengelernte Modelle beispielsweise angewiesen werden, solche Gedankenketten als Zwischenspuren zu erzeugen. So kann zum Beispiel eine ein- oder mehrmalige Aufforderung unter Verwendung einer Reihe von instruktiven Beispielen ein Muster liefern, das das Modell verstehen und befolgen kann. In einigen Beispielen ermöglicht die Einbeziehung einer instruktiven Spur mit den instruktiven Beispielen dem Modell, seine eigene Spur zu erzeugen, wenn es eine Abfrage bearbeitet.
In einigen Ausführungsformen kann ein maschinengelerntes Modell eine einzelne Abfrageantwort und deren Spur ausgeben. In einigen Ausführungsformen kann ein maschinengelerntes Modell eine Vielzahl von Antworten (und entsprechende Spuren) ausgeben. Die Vielzahl der Antworten kann zum Bestimmen einer Konsistenzmetrik verwendet werden. Zum Beispiel kann eine Konsistenzmetrik über eine Stichprobe von verschiedenen Spuren (die z.B. verschiedenen Ansätze zur Lösung der Abfrage repräsentieren) und entsprechenden Antworten bewertet werden. Zum Beispiel kann eine Reihe von Ausgaben mit verschiedenen Argumentationsstrategien abgefragt werden, um eine Mehrheits- oder Mehrheitsabstimmung über die endgültige Antwort zu erhalten. Auf diese Weise kann die Modellausgabe ihre „Begründung“ selbst bestätigen, um die Robustheit der Modellausgabe und die Genauigkeit der endgültigen Antworten zu verbessern. Im Vergleich zu einigen früheren Dekodierungsverfahren kann eine selbstkonsistente Technik gemäß der vorliegenden Offenlegung die Wiederholbarkeit vermeiden, die eine gierige Probenahme beeinträchtigen kann, und gleichzeitig die Stochastizität einer einzigen Zufallsgenerierung abmildern. Im Vergleich zu früheren Generierungs- und dann Re-Ranking-Ansätzen kann die Selbstkonsistenz die Verwendung eines speziell ausgebildeten Re-Rankers vermeiden und eine schnellere Laufzeit haben (z. B. bei gleicher Anzahl von Dekodierungen).
In einigen Ausführungsformen kann sich eine Gedankenkette über mehrere Abfragen erstrecken, die von dem maschinengelernten Modell verarbeitet werden. Eine Zielabfrage kann zum Beispiel eine komplexe oder mehrteilige Frage enthalten. Die Zielabfrage kann in eine oder mehrere Abfragekomponenten zerlegt oder reduziert werden (z. B. mit Hilfe von Aufforderungen oder anderen Verfahren, mit demselben oder einem anderen Modell usw.). Die Abfragekomponenten können dann rekursiv durch das Modell verarbeitet werden. Beispielsweise kann eine erste Abfragekomponente im Hinblick auf eine anfängliche instruktive Sequenz verarbeitet werden (z. B. eine Gedankenketten-Aufforderung, wie hierin beschrieben, usw.). In einigen Ausführungsformen kann jede nachfolgende Abfragekomponente im Hinblick auf vorherige Abfragekomponenten und deren Antworten verarbeitet werden. Auf diese Weise kann das maschinengelernte Modell beispielsweise bei jeder Rekursion eine aktualisierte instruktive Sequenz selbst konstruieren, um seine eigene vorherige Arbeit zu nutzen und auf eine endgültige Antwort auf die Zielabfrage hinzuarbeiten.
Beispielhafte Ausführungsformen von Eingabedatenstrukturen gemäß den Aspekten der vorliegenden Offenbarung können eine Reihe von technischen Effekten und Vorteilen bieten. In einigen Ausführungsformen kann ein maschinengelerntes Modell dazu veranlasst werden, eine Gedankenkette gemäß den Aspekten der vorliegenden Offenbarung zu generieren, was einen interpretierbaren Einblick in das Verhalten des Modells ermöglicht und Hinweise darauf gibt, wie es zu einer bestimmten Antwort gelangt sein könnte, und Möglichkeiten zur Fehlersuche bietet, wo der Argumentationspfad falsch gelaufen ist. Eingabedatenstrukturen, die gemäß Ausführungsbeispielen der vorliegenden Offenlegung konfiguriert sind, können bisher nicht realisierte Fähigkeiten zum Verstehen, Prüfen, Debuggen und Verbessern der Funktionalität von Computergeräten, die maschinengelernte Modelle ausführen, freisetzen.
In einigen Ausführungsformen können Eingabedatenstrukturen, die gemäß den Beispielen der vorliegenden Offenlegung konfiguriert sind, die Verwendung von maschinengelernten Modellen für bereichsübergreifende Aufgaben ermöglichen. Zum Beispiel kann ein maschinengelerntes Modell, das auf einem Textkorpus trainiert wurde, Gewichte enthalten, die eine Reihe von semantischen Assoziationen zwischen Konzepten kodieren. Unter Verwendung einer Eingabedatenstruktur, die gemäß der vorliegenden Offenbarung konfiguriert ist, kann ein solches Modell bei der Lösung von Abfragen für jedes Problem, das in einem textuellen Ausdruck formuliert werden kann, von Nutzen sein, selbst wenn das Modell nicht für die Lösung eines solchen Problemtyps (z. B. mathematische Probleme, symbolische Manipulationen im Allgemeinen usw.) trainiert wurde. Auf diese Weise erschließen die hier vorgestellten Eingabedatenstrukturen die volle Rechenleistung von maschinengelernten Modellen zur Lösung neuer Probleme außerhalb eines Trainingsbereichs.
In einigen Ausführungsformen können Eingabedatenstrukturen, die gemäß den Beispielausführungen der vorliegenden Offenlegung konfiguriert sind, eine verbesserte Mensch-Maschine-Schnittstelle für die Eingabe und Verarbeitung von Abfragen bieten. Im Zusammenhang mit maschinengelernten Sprachmodellen ermöglichen es die Eingabedatenstrukturen gemäß der vorliegenden Offenbarung einem Benutzer, das Modell so zu steuern, dass es komplexe Berechnungen oder andere schlussfolgernde Aufgaben ausführt, indem es nur einfache instruktive Zeichenfolgen eingibt. Auf diese Weise kann die technologische Leistung komplexer maschinengelernter Sprachmodelle für nichttechnische Benutzer zugänglicher gemacht werden, die möglicherweise nicht über die erforderliche Ausbildung oder andere Ressourcen verfügen, um beispielsweise ein Modell mit mehreren Milliarden Parametern für die Ausführung einer bestimmten Aufgabe feinabzustimmen. Durch die Verbesserung der Schnittstelle für solche Modelle verbessern beispielhafte Ausführungsformen der vorliegenden Offenlegung die Fähigkeiten von Computergeräten, die die Modelle in solchen Implementierungen ausführen, indem sie neue Wege der Interaktion mit den Modellen bieten.
In einigen Ausführungsformen können Eingabedatenstrukturen, die gemäß den Beispielausführungen der vorliegenden Offenlegung konfiguriert sind, eine geringere Nutzung von Computerressourcen zur Anpassung eines Modells an eine bestimmte Aufgabe ermöglichen. Traditionelle Ansätze, um ein maschinengelerntes Modell anzuweisen, eine bestimmte Aufgabe auszuführen, umfassen beispielsweise die Aktualisierung von Modellparametern auf der Grundlage eines Ziels, das über einige Trainingsdaten bewertet wird. Ein solches Aktualisierungsverfahren kann extrem ressourcenintensiv (z. B. Rechenressourcen, elektrische Ressourcen usw.) und kostenintensiv (z. B. Energiekosten, Zeitkosten usw.) sein. Im Gegensatz dazu können Eingabedatenstrukturen gemäß der vorliegenden Offenlegung die Anpassung großer Modelle (z. B. Milliarden von Parametern, Billionen von Parametern usw.) ermöglichen, ohne dass notwendigerweise zusätzliches Training erforderlich ist. Beispielsweise können die Eingabedatenstrukturen gemäß der vorliegenden Offenlegung Verbesserungen der Modellleistung mit nur einem oder mehreren instruktiven Beispielen und instruktiven Spuren ermöglichen.
Mit Bezug auf die Figuren werden nun beispielhafte Ausführungsformen der vorliegenden Offenbarung näher erläutert.
1 zeigt eine Beispielkonfiguration für die Aufforderung eines maschinengelernten Modells 100 gemäß den Aspekten der vorliegenden Offenbarung. Eine Eingabedatenstruktur 102 kann eine instruktive Sequenz 104 enthalten, die eine instruktive Abfrage 106, eine instruktive Spur 108 und eine instruktive Antwort 110 enthält. In der Eingabedatenstruktur 102 können mehrere unterschiedliche instruktive Sequenzen 104 bereitgestellt werden. Die Eingabedatenstruktur 102 kann auch eine operative Abfrage 112 enthalten. Die instruktive Abfrage 106, die instruktive Spur 108, die instruktive Antwort 110 und die operative Abfrage 112 können eingebettete Werte enthalten. Ein eingebetteter Wert kann beispielsweise einetokenisierte Darstellung einer Eingabezeichenfolge (z. B. eine Textzeichenfolge, eine symbolische Zeichenfolge usw.) enthalten. In einigen Ausführungsformen kann ein eingebetteter Wert eine mit Token versehene Darstellung anderer Daten (z. B. Bilddaten usw.) enthalten.
In einigen Ausführungsformen umfasst das maschinengelernte Modell 100 ein neuronales Netz, das darauf trainiert ist, Eingaben zu verstehen und zu interpretieren, um eine Ausgabe zu erzeugen. In einigen Ausführungsformen umfasst das maschinengelernte Modell 100 beispielsweise ein neuronales Netz, das darauf trainiert ist, Text oder andere symbolische Eingaben zu verstehen und zu interpretieren, um daraus eine semantische Bedeutung zu extrahieren, einschließlich der Antwort auf Befehle, die in solchen Eingaben enthalten sind. In einigen Ausführungsformen umfasst das maschinengelernte Modell 100 ein neuronales Netz, das darauf trainiert ist, Bilder oder andere Dateneingaben zu verstehen und zu interpretieren, um daraus eine Bedeutung zu extrahieren und auf Befehle zu reagieren, die in solchen Eingaben enthalten sind.
Im Allgemeinen können die Techniken und Eingabedatenstrukturen der vorliegenden Offenbarung unter Verwendung einer Vielzahl von Modellarchitekturen implementiert und an diese angepasst werden. In einigen Ausführungsformen ist das maschinengelernte Modell 100 so konfiguriert, dass es bei der Verarbeitung der operativen Abfrage 112 die instruktive Sequenz 204 berücksichtigt. In einigen Ausführungsformen kann das maschinengelernte Modell 100 beispielsweise eine oder mehrere Transformatorarchitekturen umfassen (z. B. nur Encoder, nur Decoder, Encoder und Decoder usw.).
In einigen Ausführungsformen kann die instruktive Abfrage 104 im Wesentlichen jede Art von Problem, Frage oder Aufgabe darstellen, die durchgeführt werden soll. Zum Beispiel kann die instruktive Abfrage 104 im Wesentlichen jedes Problem enthalten, das erklärt, begründet oder anderweitig mit Symbolen, Bildern, Sprache usw. ausgedrückt werden kann. Die instruktive Abfrage 104 kann zum Beispiel mathematische Abfragen, logische Abfragen, Wissensabfragen, generative Abfragen, zusammenfassende Abfragen, analytische Abfragen, Abrufabfragen, Bildverarbeitungsabfragen usw. umfassen.
In einigen Ausführungsformen kann die instruktive Spur 108 einen oder mehrere Zwischenzustände von der instruktive Abfrage 106 bis zur instruktive Antwort 110 enthalten. Zu den Zwischenzuständen können beispielsweise Zwischenwerte gehören, die mit Teilaufgaben verbunden sind, Wissenserklärungen, die (explizit oder implizit) aus der instruktiven Abfrage ermittelt wurden, logische Schritte, um von einem Problem zu einer Lösung zu gelangen, ein Protokoll der Teilaufgaben, die zur Erzeugung der instruktiven Antwort 110 durchgeführt wurden, usw.
Die instruktive Antwort 110 kann die Erfüllung der instruktive Abfrage 106 beinhalten. In einigen Ausführungsformen einer mathematischen instruktiven Abfrage 106 kann die instruktive Antwort 110 zum Beispiel eine numerische Lösung, eine analytische oder symbolische Lösung usw. enthalten. In einigen Ausführungsformen kann die instruktive Antwort 110 bei einer instruktiven Wissensabfrage 106 die Rückgabe des angeforderten Wissens usw. beinhalten.
In einigen Ausführungsformen kann die operative Abfrage 112 eine ähnliche Art von Abfrage wie die instruktive Abfrage 106 sein. In einigen Ausführungsformen kann die operative Abfrage 112 von einem anderen Abfragetyp sein als die instruktive Abfrage 106 (wenn z. B. mehrere instruktive Sequenzen 104 bereitgestellt werden).
In einigen Ausführungsformen können die instruktive Abfrage 106 und die operative Abfrage 112 Eingabeflagge(n) und Ausgabeflagge(n) enthalten. Beispielsweise kann die instruktive Abfrage 106 ein Eingabeflag enthalten, das eine Abfragestartposition angibt, und ein Ausgabeflag, das einen vom Modell 100 zu erzeugenden Abschnitt angibt (z. B. einen nachfolgenden Abschnitt der instruktiven Sequenz 104).
Auf der Grundlage der Eingabedatenstruktur 102 kann das maschinengelernte Modell 100 eine Ausgabe 120 erzeugen. In einigen Ausführungsformen kann die Ausgabe 120 eine operative Spur 122 und eine operative Antwort 124 enthalten. Im Allgemeinen kann die operative Antwort 124 eine Erfüllung der operativen Abfrage 112 enthalten (z. B. einschließlich eines Ausdrucks einer Unfähigkeit, die Abfrage zu erfüllen, usw.). In einigen Ausführungsformen kann die operative Spur 112 auf der Grundlage eines Musters erzeugt werden, das von einer oder mehreren instruktiven Spuren in der Eingabedatenstruktur 102 vorgegeben wird. In einigen Ausführungsformen kann die operative Antwort 124 so generiert werden, dass sie sich auf die operative Spur 122 und die operative Abfrage 112 bezieht, und zwar auf der Grundlage eines Musters, das durch die instruktive Sequenz(en) 104 festgelegt wurde.
2 illustriert eine Beispielimplementierung einer Eingabedatenstruktur 202 gemäß den Aspekten der vorliegenden Offenbarung. Die instruktive Sequenz 204 kann eine instruktive Abfrage 206 enthalten, die eine Abfrage einbettet, darstellt oder anderweitig beschreibt, die der Zeichenfolge „F: Roger hat 5 Tennisbälle. Er kauft 2 weitere Dosen mit Tennisbällen. Jede Dose enthält 3 Tennisbälle. Wie viele Tennisbälle hat er jetzt? A:“ In dem Beispiel der instruktiven Abfrage 206 kann „F:“ einem Eingabeflag entsprechen, das den Beginn einer Eingabeabfrage anzeigt. In dem Beispiel für eine instruktive Abfrage 206 kann „A:“ einem Ausgabeflag entsprechen, das den Beginn eines Teils angibt, der als Antwort auf die instruktive Abfrage 206 bereitgestellt werden soll.
Die instruktive Sequenz 204 kann eine instruktive Spur 208 enthalten, die Zwischenzustände von der instruktiven Abfrage 206 bis zur instruktive Antwort 210 dokumentiert. Obwohl beispielsweise die direkte Antwort auf die gestellte Frage durch die instruktive Antwort 210, „Die Antwort ist 11“, erfasst wird, kann die instruktive Spur 208 eine Reihe von Zwischenstufen (oder die „Gedankenkette“) erfassen, die zur endgültigen Antwort führen. Ein erster Zwischenzustand kann zum Beispiel die Erklärung eines Bekannten sein: „Roger hat mit 5 Kugeln angefangen.“ Ein zweiter Zwischenzustand kann eine Aussage zur Multiplikation auf der Grundlage der Abfragewerte enthalten: „2 Dosen mit je 3 Tennisbällen sind 6 Tennisbälle.“ Ein dritter Zwischenzustand kann einen Summationsschritt beinhalten (z.B. optional numerisch, in natürlicher Sprache, etc.): „5 + 6 = 11.“
Die operative Abfrage 212 kann eine Abfrage desselben Typs wie mindestens eine instruktive Abfrage 206 enthalten. Zum Beispiel kann die operative Abfrage 212 ein mathematisches Wortproblem eines ähnlichen Typs wie die instruktive Abfrage 206 enthalten: „F: John kümmert sich um 10 Hunde. Jeder Hund braucht 0,5 Stunden pro Tag, um spazieren zu gehen und sein Geschäft zu erledigen. Wie viele Stunden pro Woche verbringt er damit, sich um die Hunde zu kümmern? A:“
Das maschinengelernte Modell 100 kann die Eingabedatenstruktur 202 verarbeiten, um eine Ausgabe 220 zu erzeugen. Die Ausgabe 220 kann eine operative Spur 222 und eine operative Antwort 224 enthalten. Zum Beispiel kann die operative Spur 222 so generiert werden, dass sie einen oder mehrere Zwischenzustände der Argumentation/Lösung von der operativen Abfrage 212 bis zur operativen Antwort 224 enthält. Zum Beispiel kann ein erster Zwischenzustand eine deklarative Aussage eines explizit bekannten „John kümmert sich um 10 Hunde“ enthalten. Ein zweiter Zwischenzustand kann zum Beispiel eine weitere deklarative Aussage eines explizit Bekannten enthalten: „Jeder Hund braucht 0,5 Stunden pro Tag, um spazieren zu gehen und sein Geschäft zu erledigen.“ Ein dritter Zwischenzustand kann z. B. eine Aussage zur Multiplikation auf der Grundlage der explizit bekannten Daten enthalten: „Das sind also 10 x 0,5 = 5 Stunden pro Tag.“ Ein vierter Zwischenzustand kann z. B. eine Multiplikationsaussage auf der Grundlage einer impliziten Kenntnis über die Anzahl der Tage in der Woche enthalten: „5 Stunden pro Tag x 7 Tage pro Woche = 3 5 Stunden pro Woche.“ Auf diese Weise kann die operative Spur 222 beispielsweise einen oder mehrere Zwischenzustände von der operativen Abfrage 212 bis zur operativen Antwort 224 verfolgen.
In einigen Ausführungsformen können die jeweiligen Antworten (z. B. eine instruktive Antwort, eine operative Antwort) die jeweiligen Spuren enthalten. In einigen Beispielen ist die gewünschte Antwort die Spur. Beispielhafte Ausführungsformen können zum Beispiel implementiert werden, um Spuren von computerausführbaren Skriptoperationen zu erhalten.
3 zeigt eine Beispielimplementierung einer Eingabedatenstruktur 302, in der eine instruktive Sequenz 304 eine instruktive Abfrage 306 enthält, die ein Python-Programm beschreibt (z. B. eine tokenisierte Darstellung davon usw.). In einigen Beispielen kann die instruktive Abfrage 306 ein Eingabeflag oder ein Ausgabeflag enthalten. 3 zeigt zum Beispiel ein Eingabeflag „Betrachten Sie die folgende Python-Funktion:“ und ein Ausgabeflag „Wie lautet die Ausführungssequenz? [BEGIN]“. Die instruktive Spur 308 kann beispielsweise Teil der instruktiven Antwort 310 sein, da die Erfüllung der instruktiven Abfrage 304 der Erzeugung der Spur selb st entspricht. Die operative Abfrage 312 enthält das Eingabeflag und das Ausgabeflag zusammen mit einem neuen Python-Programm für die Ablaufverfolgung. Dementsprechend kann die von dem maschinengelernten Modell 100 erzeugte Ausgabe 320 eine operativen Spur 322 enthalten, der Teil der operativen Antwort 324 ist.
In einigen Ausführungsformen kann das maschinengelernte Modell 100 direkt eine Ausgabe zur Erfüllung der operativen Abfrage erzeugen. In einigen Ausführungsformen kann das Erfüllen der operativen Abfrage das Abtasten einer Vielzahl von Ausgaben beinhalten, um eine Antwort zu bestimmen, die eine Konsistenzmetrik erfüllt.
4 zeigt eine beispielhafte Darstellung einer Eingabedatenstruktur 402, die eine instruktive Sequenz 404 (einschließlich instruktiver Abfrage 406, instruktiver Spur 408 und instruktiver Antwort 410) und eine operative Abfrage 412 enthält. Ein maschinengelerntes Modell 400 kann so konfiguriert werden, dass es eine Vielzahl von Ausgaben ausgibt, einschließlich einer Vielzahl von operativen Spuren, die einer Vielzahl von operativen Antworten entsprechen. Eine Teilmenge kann beispielsweise als abgetastete Ausgaben 420 abgetastet werden, die eine erste abgetastete Ausgabe (operative Spur 422-1, operative Antwort 424-1), eine zweite abgetastete Ausgabe (operative Spur 422-2, operative Antwort 424-2) und eine dritte abgetastete Ausgabe (operative Spur 422-3, operative Antwort 424-3) enthalten.
In einigen Ausführungsformen können die abgetasteten Ausgaben 420 eine Anzahl von Ausgaben umfassen, die von einer Ausgabeschicht eines maschinengelernten Modells 400 abgetastet werden. In einigen Ausführungsformen können die abgetasteten Ausgaben 420 aus einer Wahrscheinlichkeitsverteilung der Ausgaben abgetastet werden (z. B. aus einer Wahrscheinlichkeitsverteilung über Paare von Spuren und Antworten). In einigen Ausführungsformen werden die Stichproben nach einem beliebigen geeigneten Stichprobenplan ausgewählt. In einigen Ausführungsformen werden die Ausgaben nach dem Zufallsprinzip entnommen. In einigen Ausführungsformen können die Ausgänge auf der Grundlage einer Rangwahrscheinlichkeit (z. B. Top-K-Ausgänge) ausgewählt werden. In einigen Ausführungsformen können die Ausgänge für verschiedene Spuren abgetastet werden.
In einigen Ausführungsformen kann eine Mehrzahl oder Mehrheit von verschiedenen Spuren, die zur gleichen endgültigen Auflösung führen, auf eine Antwort hinweisen, die mit einem höheren Vertrauen verbunden ist. Dementsprechend wird in einigen Ausführungsformen eine Abstimmung über die abgetasteten Ausgaben durchgeführt (z. B. ein Pluralitätsvotum, eine Mehrheitsabstimmung). Zum Beispiel kann ein Antwortselektor 430 feststellen, dass die endgültige Antwort $18 in zwei der drei abgetasteten Ausgaben 420 angegeben wird. Auf diese Weise kann z. B. eine ausgewählte Antwort 432 von $18 erhalten werden.
In einigen Ausführungsformen kann die Bewertung der Konsistenzmetrik als Anwendung einer Marginalisierung über die Spuren in der bedingten Wahrscheinlichkeit P(Antwort, Spur | Abfrage) jeder Ausgabe bei einer Abfrage ausgedrückt werden.
5 zeigt ein Blockdiagramm eines beispielhaften Verarbeitungsablaufs zur Durchführung einer rekursiven Aufforderung gemäß beispielhaften Aspekten der vorliegenden Offenbarung. Beispielsweise kann eine Pipeline mit maschinengelernten Modellen ein oder mehrere Modelle 502, 504 enthalten. Die Modelle 502 und 504 können identisch oder unterschiedlich sein. Beispielsweise kann eines oder beide der Modelle 502, 504 die Modelle 100, 400 usw. sein oder enthalten.
In einer Abfragezerlegungsphase 510 kann ein maschinengelerntes Modell 502 beispielsweise ein komplexes Problem in ein oder mehrere Teilprobleme reduzieren. In einigen Ausführungsformen kann das Modell 502 zum Beispiel aufgefordert werden, die Reduktion mit einer oder mehreren instruktiven Sequenz(en) 512 durchzuführen (die z. B. optional instruktive Spuren enthalten können). In einigen Ausführungsformen wird die Zielabfrage 514 in das Modell 502 eingegeben. Die Zielabfrage 514 kann zum Beispiel ein Szenario enthalten, das den Kontext für eine zu beantwortende Frage liefert (z. B. die in 5 fett hervorgehobene Beispielfrage). Das Modell 502 kann eine oder mehrere Abfragekomponenten 516 erzeugen. In einigen Ausführungsformen kann eine Abfragekomponente eine Frage enthalten, die nach einem Teil einer Gesamtlösung fragt. In einigen Ausführungsformen kann eine Abfragekomponente eine Frage enthalten, die nach einer vorläufigen Informationskomponente fragt, die verwendet werden kann, um eine Gesamtlösung zu erhalten. In einigen Ausführungsformen kann eine Abfragekomponente eine Frage enthalten, die nach einem logischen Komplement, einer Folgerung oder einer anderen verwandten Komponente fragt, die vorteilhafterweise leichter zu lösen ist.
In einer Abfrage-Rekursionsphase 520 kann ein maschinengelerntes Modell 504 die Abfragekomponenten 516 und optional die anfängliche Zielabfrage 514 rekursiv verarbeiten. In einigen Ausführungsformen kann das maschinengelernte Modell 504 beispielsweise mit anfänglichen instruktive Sequenzen 522 aufgefordert werden, die erste Abfragekomponente zu beantworten. Die Abfragekomponente(n) 524 kann/können zum Beispiel die erste Abfragekomponente aus den Abfragekomponenten 516 enthalten, optional in Kombination mit dem Szenario aus der Zielabfrage 514. In einigen Ausführungsformen kann die anfängliche(n) instruktive(n) Sequenz(en) 522 eine oder mehrere instruktive Abfragen, instruktive Spuren und instruktive Antworten gemäß den Beispielausführungen der vorliegenden Offenbarung enthalten. In einigen Ausführungsformen kann die Abfragekomponente(n) einer operativen Abfrage entsprechen (z. B. wie in den 1 bis 4 beschrieben).
Bei einem Durchlauf der Abfrage-Rekursion 520 kann das Modell 504 Antwortkomponente(n) 526 auf der Grundlage der eingegebenen Abfragekomponente(n) und der anfänglichen instruktive Sequenz(en) 522 erzeugen. Die Antwortkomponente(n) 526 kann/können zum Beispiel eine operative Sequenz und eine operative Antwort enthalten.
Um einen weiteren Durchgang der Abfrage-Rekursion 520 durchzuführen, kann eine neue instruktive Sequenz aus dem Bestand an Vorwissen über das vorliegende Problem zusammengestellt werden, die neue, vom Modell 504 generierte Informationen enthalten kann. Beispielsweise können die Abfragekomponente(n) 528 sowohl die Abfragekomponente(n) 524 als auch die Antwortkomponente(n) 526 enthalten. Auf diese Weise kann die vorherige Arbeit des Modells 504 effektiv zu einer instruktiven Sequenz werden, die instruktive Abfragen, instruktive Spuren und instruktive Antworten enthält. Optional können die anfänglichen instruktiven Sequenzen 522 für die Eingabe zusammen mit der/den Abfragekomponente(n) 528 beibehalten werden. Auf diese Weise kann das Modell 504 beispielsweise zusätzliche Abfragekomponenten (z. B. die ursprüngliche Zielabfrage, fett gedruckt) verarbeiten, indem es seine früheren Ausgaben nutzt, um Antwortkomponenten 530 zu erzeugen.
Die Abfrage-Rekursion 520 kann in einigen Ausführungsformen eine Vielzahl von Iterationen umfassen. In einigen Ausführungsformen kann die iterative Rekursion für selbst konstruierte instruktive Sequenzen sorgen. In einigen Ausführungsformen kann dies dazu beitragen, dass das maschinengelernte Modell seine volle Leistung über einzelne Komponentenabfragen ausschöpft, während es gleichzeitig die Fähigkeit behält, auf seiner eigenen früheren Arbeit aufzubauen. In einigen Ausführungsformen kann dies die Verallgemeinerung von einfachen auf schwierige Probleme verbessern (z. B. einfache Probleme, die durch Befehle erklärt werden, wobei die Inferenz über schwierigere Probleme durchgeführt wird).
In einigen Ausführungsformen kann die Abfragezerlegung 510 beispielsweise einen geordneten Satz von Abfragekomponenten 516 vorsehen. In einigen Ausführungsformen können die Abfragekomponente(n) 516 beispielsweise eine Reihenfolge von Basis- (oder grundlegenden) Abfragen zu komplexen (oder Folge-) Abfragen enthalten. In einigen Ausführungsformen wird die Menge der Abfragekomponenten auf natürliche Weise geordnet, indem die Aufgabe der ursprünglichen Zielabfrage an die Menge der vom Modell erzeugten Abfragekomponente(n) 516 angehängt wird. Auf diese Weise können die Abfragekomponente(n) 516 beispielsweise nachvollziehbare Komponentenabfragen enthalten, die gelöst werden können, bevor die Aufgabe aus der Zielabfrage 514 selbst in Angriff genommen wird. 5 veranschaulicht diesen beispielhaften Ablauf.
Beispielergebnisse: Arithmetisches Denken
Beispielergebnisse werden hier nur zur Veranschaulichung dargestellt. Die verschiedenen in den Beispielen dargestellten Konfigurationen wurden zur Veranschaulichung und zum Vergleich ausgewählt und sind nicht als Einschränkung des Umfangs der Offenlegung zu verstehen.
Zunächst werden Beispielergebnisse in Bezug auf die in 2 dargestellte Abfrage des Typs mathematisches Wortproblem erörtert. Mit solchen Abfragen wird die Fähigkeit von Sprachmodellen zum arithmetischen Denken untersucht, wobei der Schwerpunkt auf Problemen liegt, die von Grundschulkindern (im Alter von 6-10 Jahren) gelöst werden können. Obwohl solche Probleme für Menschen einfach sein können, ist das arithmetische Denken eine Aufgabe, bei der Sprachmodelle eine flache Skalierungskurve aufweisen können (z. B. kann die Modellleistung mit zunehmender Modellgröße abnehmen). Vorteilhafterweise kann das Bereitstellen einer Aufforderung mit einigen instruktiven Spuren gemäß der vorliegenden Offenbarung die Leistung bei schwierigen mathematischen Wortproblemen für große Sprachmodelle drastisch verbessern. Bei einer Skalierung auf 540B-Parameter kann eine Gedankenkettenaufforderung bei einer Vielzahl von Aufgaben eine vergleichbare Leistung wie aufgabenspezifische, fein abgestimmte Modelle erbringen und sogar den GSM8K-Benchmark übertreffen, der von Cobbe et al. eingeführt wurde, Training Verifiers to Solve Math Word Problems, ARXIV.ORG (27. Oktober 2021). Für die hier besprochenen Beispiele für arithmetisches Denken werden die folgenden Datensätze verwendet:

(1) SingleOp (Roy et al., Reasoning about Quantities in Natural Language, Transactions of the Association for Computational Linguistics, 2015. doi: 10.1162/tacl_a_00118);
(2) SingleEq (Koncel-Kedziorski et al., MAWPS: A math wordproblem repository, In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016. doi: 10.18653/vl/N16-1136);
(3) AddSub, (Hosseini et al., Learning to solve arithmetic wordproblemswith verb categorization, In Proceedings of the 2014 Conference on Empirical Methods in Natural LanguageProcessing(EMNLP), 2014. doi: 10.3115/v1/D14-1058);
(4) ASDiv (Miao et al., A diverse corpusfor evaluating anddeveloping English math word problem solvers, In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020. doi: 10.18653/vl/2020.acl-main.92);
(5) MultiArith, (Roy et al., Solving generalarithmetic wordproblems, In Proceedings of the 2015 Conference on EmpiricalMethods in Natural Language Processing, 2015 doi: 10.18653/vl/D15-1202); und
(6) GSM8K (Cobbe et al., Training Verifiers to Solve Math Word Problems, ARXIV.ORG(Oct. 27, 2021)).

Als Basisansatz werden standardmäßige wenige-Treffer-Aufforderungsergebnisse bereitgestellt, bei denen einem Sprachmodell kontextbezogene Beispiele von Eingabe-Ausgabe-Paaren gegeben werden, bevor es eine Vorhersage für ein Testzeitbeispiel ausgibt. Die Beispiele werden als Fragen und Antworten formatiert, bevor sie in das Modell eingespeist werden, und das Modell gibt die Antwort direkt aus.
Für die Beispielergebnisse der Gedankenkettenaufforderung werden acht instruktive Sequenzen verwendet. Dieser Satz ist in Tabelle 1 aufgeführt.
Die Ergebnisse werden durch die Verwendung von zwei Sammlungen von dichten Links-nach-Rechts-Sprachmodellen, die nur Decoder enthalten, erzielt. Die erste Sammlung basiert auf LaMDA (Thoppilan et al., Lamda: Language modelsfor dialog applications, arXiv preprint arXiv:2201.08239), was Modelle mit 422M, 2B, 8B, 68B und 137B Parametern enthält. Die zweite Sammlung von Modellen ist PaLM (Chowdhery et al., PaLM: Scaling language modelingwith Pathways, arXiv preprint arXiv:2204.02311, 2022), was Größen von 8B, 62B und 535B Parametern hat. In den vorliegenden Beispielen werden die Ausgaben des Modells mit Hilfe von Greedy-Dekodierung abgetastet. Für LaMDA werden die Ergebnisse als Durchschnitt über fünf zufällige Seeds angegeben, wob ei jeder Seed eine andere zufällig gemischte Reihenfolge der Exemplare aufwies. Die LaMDA-Experimente zeigten keine große Varianz zwischen den verschiedenen Seeds, so dass die PaLM-Ergebnisse unter Verwendung eines einzigen zufälligen Seeds angegeben werden.

Beispielhafte Ergebnisse sind in den 6 und 7 dargestellt. Tabelle 1. Instruktive Sequenzen für Beispiele von arithmetischen Denken

F: Es gibt 15 Bäume in dem Hain. Die Arbeiter werden heute Bäume im Hain pflanzen. Wenn sie fertig sind, werden es 21 Bäume sein. Wie viele Bäume haben die Baumpfleger heute gepflanzt?

A: Ursprünglich sind es 15 Bäume. Dann sind es 21 Bäume, nachdem einige weitere gepflanzt wurden. Es müssen also 21 - 15 = 6 gewesen sein. Die Antwort ist 6.

F: Wenn sich 3 Autos auf dem Parkplatz befinden und 2 weitere Autos ankommen, wie viele Autos befinden sich dann auf dem Parkplatz?

A: Ursprünglich gibt es 3 Autos. 2 weitere Autos kommen an. 3 + 2 = 5. Die Antwort ist 5.

F: Lea hatte 32 Pralinen und ihre Schwester hatte 42. Wenn sie 3 5 Stück gegessen haben, wie viele Stücke haben sie dann insgesamt übrig?

A: Ursprünglich hatte Leah 32 Pralinen. Ihre Schwester hatte 42. Insgesamt hatten sie also 32 + 42 = 74. Nachdem sie 35 gegessen hatten, hatten sie 74 - 3 5 = 3 9. Die Antwort ist 3 9.

F: Jason hatte 20 Lutscher. Er gab Denny einige Lutscher. Jetzt hat Jason 12 Lutscher. Wie viele Lutscher hat Jason Denny geschenkt?

A: Jason begann mit 20 Lutschern. Dann hatte er noch 12, nachdem er einige an Denny gegeben hatte. Also gab er Denny 20 - 12 = 8. Die Antwort ist 8

F: Shawn hat fünf Spielzeuge. Zu Weihnachten hat er von seiner Mutter und seinem Vater je zwei Spielzeuge bekommen. Wie viele Spielsachen hat er jetzt?

A: Shawn hat mit 5 Spielzeugen angefangen. Wenn er von seiner Mutter und seinem Vater je 2 Spielzeuge bekommen hat, sind das 4 weitere Spielzeuge. 5 + 4 = 9. Die Antwort ist 9.

F: Im Serverraum befanden sich neun Computer. Von Montag bis Donnerstag wurden jeden Tag fünf weitere Computer installiert. Wie viele Computer befinden sich jetzt im Serverraum?

A: Ursprünglich waren es 9 Computer. Für jeden der 4 Tage wurden 5 weitere Computer hinzugefügt. Es wurden also 5 * 4 = 20 Computer hinzugefügt. 9 + 20 ist 29. Die Antwort ist 29.

F: Michael hatte 58 Golfbälle. Am Dienstag hat er 23 Golfbälle verloren. Am Mittwoch hat er 2 weitere verloren. Wie viele Golfbälle hatte er am Ende des Mittwochs noch?

A: Michael begann mit 58 Golfbällen. Nachdem er am Dienstag 23 verloren hatte, hatte er 58 - 23 = 35. Nachdem er 2 weitere verloren hatte, hatte er 35 - 2 = 33 Golfbälle. Die Antwort ist 33.

F: Olivia hat 23 $. Sie hat fünf Bagels für je 3 $ gekauft. Wie viel Geld hat sie noch übrig?

A: Olivia hatte 23 Dollar. 5 Bagels für je 3 Dollar ergeben 5 x 3 = 15 Dollar. Sie hat also 23 - 15 Dollar übrig. 23 - 15 ist 8. Die Antwort ist 8.

Beispielergebnisse: Symbolisches Denken
Zweitens werden Beispielergebnisse für die Durchführung von Aufgaben des symbolischen Denkens vorgestellt. Obwohl die hier besprochenen Aufgaben des symbolischen Denkens für Menschen im Allgemeinen einfach sind, können maschinengelernte Modelle typischerweise eine flache Skalierungskurve für solche Aufgaben aufweisen. In einigen hier gezeigten Beispielen ermöglicht die Lösung von Zwischenschritten einer symbolischen Schlussfolgerungsaufgabe gemäß den Aspekten der vorliegenden Offenbarung unter Verwendung von Gedankenkettenaufforderung den Modellen die Durchführung von Aufgaben, die mit einer Standardaufforderung allein nicht lösbar sind.
Zur Veranschaulichung der symbolischen Manipulationsfunktionen werden hier drei Aufgaben vorgestellt: Verkettung des letzten Buchstabens (Verkettung der letzten Buchstaben von Wörtern in zufällig zusammengestellten Namen aus den obersten eintausend Vor-und Nachnamen aus Namenserhebungsdaten); Umkehrung der Liste (Umkehrung der Reihenfolge einer Liste zufällig ausgewählter Namen von Alltagsgegenständen); und Münzwurf (Beantwortung der Frage, ob eine Münze immer noch Kopf steht, nachdem jemand die Münze geworfen oder nicht geworfen hat).
Für jede Aufgabe wird ein Testsatz aufgeteilt in einen In-Domain-Testsatz, bei dem die Beispiele dieselbe Anzahl von Schritten hatten wie die Trainings- und Wenigschreiber-Beispiele, sowie in zwei Out-of-Domain (OOD)-Testsätze, bei denen die Bewertungsbeispiele mehr Schritte hatten als die Beispiele. Für die Verkettung des letzten Buchstabens sieht das Modell nur Beispiele von Namen mit zwei Wörtern und führt dann die Verkettung des letzten Buchstabens bei Namen mit drei und vier Wörtern durch. Das Gleiche gilt für die Anzahl der Elemente in der umgekehrten Listenaufgabe (In-Domain = 5, OOD = {6, 7}) und die Anzahl der möglichen Würfe in der Münzwurfaufgabe (In-Domain = 2, OOD = {3, 4}).

Beispielhafte Ergebnisse sind in 8 dargestellt. Tabelle 2. Wenig-Treffer-Beispiele für die vollständigen Gedankenkettenaufforderung bei der Aufgabe zur Verkettung der letzten Buchstaben.

F: Nimm die letzten Buchstaben der Wörter in „Elon Musk“ und füge sie zusammen.

A: Der letzte Buchstabe von „Elon“ ist „n“. Der letzte Buchstabe von „Musk“ ist „k“. Die Verkettung der beiden Buchstaben ergibt „nk“. Die Antwort ist nk.

F: Nimm die letzten Buchstaben der Wörter in „Larry Page“ und füge sie zusammen.

A: Der letzte Buchstabe von „Larry“ ist „y“. Der letzte Buchstabe von „Page“ ist „e“. Die Verkettung dieser Buchstaben ergibt „ye“. Die Antwort ist „ye“.

F: Nimm die letzten Buchstaben der Wörter in „Sergey Brin“ und füge sie zusammen.

A: Der letzte Buchstabe von „Sergey“ ist „y“. Der letzte Buchstabe von „Brin“ ist „n“. Die Verkettung dieser Buchstaben ergibt „yn“. Die Antwort ist „yn“.

F: Nimm die letzten Buchstaben der Wörter in „Bill Gates“ und füge sie zusammen.

A: Der letzte Buchstabe von „Bill“ ist „1“. Der letzte Buchstabe von „Gates“ ist „s“. Die Verkettung dieser Buchstaben ist „ls“. Die Antwort ist „ls“.

Tabelle 3. Wenig-Treffer-Beispiele für die Gedankenkettenaufforderung bei der Aufgabe „Umgekehrte Liste“.

F: Drehen Sie die Reihenfolge „Zigarre, Regenschirm, Schlüssel, Kaugummi, Alarm“ um.

A: Erstens: Zigarre. Zweitens: Regenschirm. Dritter ist der Schlüssel. Vierter ist Kaugummi. Fünfter ist Alarm. Um die Reihenfolge umzukehren, ändere sie in: Fünfter ist Alarm. Vierter ist Kaugummi. Dritter ist der Schlüssel. Zweiter ist Regenschirm. Der erste ist die Zigarre. Die Antwort lautet also „Alarm, Kaugummi, Schlüssel, Regenschirm, Zigarre“.

F: Drehen Sie die Reihenfolge „Spieler, Reisepass, Regenschirm, Flasche, Uhr“ um.

A: Der erste ist der Spieler. Zweiter ist der Reisepass. Dritter ist der Regenschirm. Vierter ist die Flasche. Fünfter ist die Uhr. Um die Reihenfolge umzukehren, ändere sie in: Fünfter ist die Uhr. Vierter ist die Flasche. Dritter ist der Regenschirm. Zweiter ist Reisepass. Erster ist der Spieler. Die Antwort lautet also „Uhr, Flasche, Regenschirm, Reisepass, Spieler“.

F: Drehen Sie die Reihenfolge „Münze, Postkarte, Etui, Stift, Brieftasche“ um.

A: Die erste ist eine Münze. Zweite ist die Postkarte. Drittens: Etui. Vierter ist ein Stift. Fünfter ist die Brieftasche. Um die Reihenfolge umzukehren, ändere sie in: Fünfter ist die Brieftasche. Vierter ist der Stift. Dritter ist das Etui. Zweite ist die Postkarte. Erster ist die Münze. Die Antwort lautet also „Brieftasche, Stift, Etui, Postkarte, Münze“.

F: Drehen Sie die Reihenfolge „Laptop, Lippenstift, Stift, Mülleimer, Uhr“ um.

A: Erstens: Laptop. Zweitens: Lippenstift. Drittens: Stift. Vierter ist der Mülleimer. Fünfte ist die Uhr. Um die Reihenfolge umzukehren, ändere sie in: Fünfte ist Uhr. Der vierte ist der Mülleimer. Dritter ist der Stift. Zweiter ist Lippenstift. Erster ist Laptop. Die Antwort lautet also „Uhr, Mülleimer, Stift, Lippenstift, Laptop“.

F: Kehren Sie die Reihenfolge „Schlüssel, Stift, Bildschirm, Datei, Zigarre“ um.

A: Der erste ist der Schlüssel. Der zweite ist der Stift. Drittens: Bildschirm. Viertens: Feile. Fünfte ist Zigarre. Um die Reihenfolge umzukehren, ändere sie in: Fünfte ist Zigarre. Vierte ist Datei. Dritter ist Bildschirm. Zweite ist Stift. Erster ist Schlüssel. Also lautet die Antwort „Zigarre, Feile, Bildschirm, Stift, Schlüssel“.

F: Drehen Sie die Reihenfolge „Karte, Briefmarke, Buch, Wasser, Brille“ um.

A: Erstens die Karte. Zweite ist die Briefmarke. Drittens: Buch. Viertens ist Wasser. Fünfte ist eine Brille. Um die Reihenfolge umzukehren, ändere sie in: Fünfte ist die Brille. Vierte ist Wasser. Dritter ist das Buch. Zweite ist die Briefmarke. Erste ist Karte. Die Antwort ist 29.

F: Drehen Sie die Reihenfolge „Uhr, Münze, Flasche, Kopf, Postkarte“ um.

A: Die erste ist die Uhr. Zweite ist die Münze. Dritte ist die Flasche. Vierter ist ein Kopf. Fünfte ist die Postkarte. Um die Reihenfolge umzukehren, ändere sie in: Fünfte ist Postkarte. Der vierte ist der Kopf. Dritter ist die Flasche. Zweite ist eine Münze. Erste ist die Uhr. Die Antwort lautet also „Postkarte, Kopf, Flasche, Münze, Uhr“.

F: Drehen Sie die Reihenfolge „Batterie, Brille, Feuerzeug, Wasser, Schere“ um.

A: Erstens die Batterie. Zweite ist die Brille. Drittens: Feuerzeug. Viertens: Wasser. Fünfte ist die Schere. Um die Reihenfolge umzukehren, ändere sie in: Fünfte ist die Schere. Vierte ist Wasser. Dritter ist das Feuerzeug. Zweite ist die Brille. Erste ist die Batterie. Die Antwort lautet also „Schere, Wasser, Feuerzeug, Brille, Batterie“.

Tabelle 4. Wenig-Treffer-Beispiele für die vollständige Gedankenkettenaufforderung bei der Münzwurf Aufgabe.

F: Eine Münze zeigt Kopf an. Ka wirft die Münze. Sherrie wirft die Münze. Steht die Münze immer noch auf dem Kopf?

A: Die Münze wurde von Ka und Sherrie geworfen. Die Münze wurde also 2 Mal geworfen, was eine gerade Zahl ist. Die Münze begann mit Kopf, also wird sie nach einer geraden Anzahl von Würfen immer noch Kopf stehen. Die Antwort lautet also ja.

F: Eine Münze zeigt Kopf an. Jamey wirft die Münze. Teressa wirft die Münze. Steht die Münze immer noch auf dem Kopf?

A: Die Münze wurde von Jamey und Teressa geworfen. Die Münze wurde also 2 Mal geworfen, was eine gerade Zahl ist. Die Münze begann mit Kopf, also wird sie nach einer geraden Anzahl von Würfen immer noch Kopf stehen. Die Antwort lautet also ja.

F: Eine Münze zeigt Kopf an. Maybelle wirft die Münze. Shalonda wirft die Münze nicht. Steht die Münze immer noch auf dem Kopf?

A: Die Münze wurde von Maybelle geworfen. Die Münze wurde also 1 Mal geworfen, was eine ungerade Zahl ist. Die Münze begann mit Kopf, also wird sie nach einer ungeraden Anzahl von Würfen mit dem Schwanz nach oben liegen. Die Antwort ist also nein.

F: Eine Münze zeigt Kopf an. Millicent wirft die Münze nicht. Conception wirft die Münze. Steht die Münze immer noch auf dem Kopf?

A: Die Münze wurde von Conception geworfen. Also wurde die Münze 1 Mal geworfen, was eine ungerade Zahl ist. Die Münze begann mit Kopf, also wird sie nach einer ungeraden Anzahl von Würfen mit dem Schwanz nach oben liegen. Die Antwort ist also nein.

F: Eine Münze zeigt Kopf an. Sal wirft die Münze. Raymond wirft die Münze nicht. Steht die Münze immer noch auf Kopf?

A: Die Münze wurde von Sal geworfen. Die Münze wurde also 1 Mal geworfen, was eine ungerade Zahl ist. Die Münze begann mit Kopf, also wird sie nach einer ungeraden Anzahl von Würfen mit dem Schwanz nach oben liegen. Die Antwort ist also nein.

F: Eine Münze zeigt Kopf an. Conception wirft die Münze. Kristian wirft die Münze nicht. Steht die Münze immer noch auf dem Kopf?

A: Die Münze wurde von Conception geworfen. Also wurde die Münze 1 Mal geworfen, was eine ungerade Zahl ist. Die Münze begann mit Kopf, also wird sie nach einer ungeraden Anzahl von Würfen mit dem Schwanz nach oben liegen. Die Antwort lautet also ist nein.

F: Eine Münze zeigt Kopf an. Inga wirft die Münze nicht. Elanor wirft die Münze nicht. Steht die Münze immer noch auf dem Kopf?

A: Die Münze wurde von niemandem geworfen. Also wurde die Münze 0 Mal geworfen. Die Münze begann mit Kopf und wurde nicht geworfen, also ist sie immer noch Kopf. Die Antwort ist also ja.

F: Eine Münze zeigt Kopf an. Ryan wirft die Münze. Shaunda wirft die Münze. Steht die Münze immer noch auf dem Kopf?

A: Die Münze wurde von Ryan und Shaunda geworfen. Die Münze wurde also 2 Mal geworfen, was eine gerade Zahl ist. Die Münze begann mit Kopf, also wird sie nach einer geraden Anzahl von Würfen immer noch Kopf stehen. Die Antwort lautet also ja.

Beispielergebnisse: „Gesunder Menschenverstand“-Denken
Drittens werden Beispielergebnisse für Aufgaben präsentiert, bei denen Schlussfolgerungen über physikalische und menschliche Interaktionen unter der Annahme von allgemeinem Hintergrundwissen gezogen werden. Für die Beispielergebnisse werden vier Benchmark-Datensätze ausgewählt:

(1) CommonsenseQA (Talmor et al., CommonsenseQA: A question answering challenge targetingcommonsense knowledge, In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Chain of Thought Prompting Elicits Reasoning in Large Language Models Language Technologies, Volume 1 (Long and ShortPapers), 2019. doi: 10.18653/vl/N19-1421) beinhaltet „Gesunder Menschenverstand“-Denken Fragen über die Welt, die eine komplexe Semantik beinhalten und oft ein Vorwissen voraussetzen;
(2) StrategyQA (Geva et al., Did aristotle use α laptop? A question answering benchmark with implicit reasoning strategies, Transactions ofthe Association for Computational Linguistics, 2021. doi: 10.1162/tacl_a_ 00370) beinhaltet die Inferenz einer multi-hop Strategie zur Beantwortung von Fragen;
(3) Datumsverständnis, bei dem es darum geht, ein Datum aus einem gegebenen Kontext abzuleiten; und
(4) Sportverstehen, bei dem es darum geht, ob ein Satz, der sich auf Sport bezieht, plausibel oder unplausibel ist; mit (3) und (4) aus (BIG-bench collaboration, Beyondthe imitation game: Measuring and extrapolating the capabilities of language models, In Vorbereitung, 2021, https://github.com/google/BIG-bench).

Beispielhafte Ergebnisse sind in 9 dargestellt. Tabelle 5. Wenig-Treffer-Beispiele für die vollständige Gedankenkettenaufforderung für CommonsenseQA.

F: Womit saugt man überschüssige Tinte aus einem Füllfederhalter auf? Antwortmöglichkeiten: (a) Hemdta sche (b) Hand des Kalligraphen (c) Tintenfass (d) Schreibtischschublade (e) Löschblatt

A: Die Antwort muss ein Gegenstand sein, der Tinte absorbieren kann. Von den oben genannten Möglichkeiten werden nur Löschblätter zur Aufnahme von Tinte verwendet. Die Antwort lautet also (e).

F: Für welche Unterhaltungselektronik wird ein Kabel benötigt? Antwortmöglichkeiten: (a) Radio Shack (b) Umspannwerk (c) Fernseher (d) Schrank

A: Für die Antwort muss ein Kabelanschluss erforderlich sein. Von den oben genannten Möglichkeiten erfordert nur das Fernsehen ein Kabel. Die Antwort lautet also (c).

F: Der Fuchs ging von der Stadt in den Wald, was suchte er dort? Antwortmöglichkeiten: (a) schöne Blumen (b) einen Hühnerstall (c) einen natürlichen Lebensraum (d) ein Märchenbuch

A: Die Antwort muss etwas im Wald sein. Von den oben genannten Möglichkeiten befindet sich nur der natürliche Lebensraum im Wald. Die Antwort lautet also (b).

F: Sammy wollte dorthin gehen, wo die Menschen waren. Wo könnte er hingehen? Antwortmöglichkeiten: (a) bewohnte Gebiete (b) Rennstrecke (c) Wüste (d) Wohnung (e) Straßensperre

A: Die Antwort muss ein Ort mit vielen Menschen sein. Von den oben genannten Möglichkeiten haben nur bewohnte Gebiete viele Menschen. Die Antwort lautet also (a).

F: Wohin legen Sie Ihre Weintrauben kurz vor dem Auschecken? Antwortmöglichkeiten: (a) Mund (b) Einkaufswagen (c) Supermarkt (d) Obstkorb (e) Obstmarkt

A: Die Antwort sollte der Ort sein, an dem die Lebensmittel vor dem Auschecken abgelegt werden. Von den oben genannten Möglichkeiten ist der Einkaufswagen am sinnvollsten für die Aufbewahrung von Lebensmitteln. Die Antwort lautet also (b).

F: Was haben Google Maps und andere GPS-Dienste für Autobahnen und Straßen ersetzt? Antwortmöglichkeiten: (a) Vereinigte Staaten (b) Mexiko (c) Landschaften (d) Atlas

A: Die Antwort muss etwas sein, das früher das getan hat, was Google Maps und GPS-Dienste tun, nämlich Wegbeschreibungen geben. Von den oben genannten Möglichkeiten werden nur Atlanten verwendet, um Wegbeschreibungen zu geben. Daher ist die Antwort (d).

F: Was fühlte die Frau, die die ganze Arbeit machte, bevor sie sich scheiden ließ? Antwortmöglichkeiten: (a) härter (b) Angst (c) Bitterkeit (d) Tränen (e) Traurigkeit

A: Die Antwort sollte das Gefühl sein, dass sich jemand scheiden lässt, der die ganze Arbeit gemacht hat. Von den oben genannten Möglichkeiten kommt das Gefühl der Bitterkeit am nächsten. Die Antwort lautet also (c).

Tabelle 6. Wenig-Treffer-Beispiele für die vollständige Gedankenkettenaufforderung für StrategyQA.

F: Bieten Hamster Futter für andere Tiere?

A: Hamster sind Beutetiere. Beutetiere sind Nahrung für Raubtiere. Hamster bieten also Nahrung für einige Tiere. Die Antwort lautet also ja.

F: Könnte Brooke Shields an der University of Pennsylvania Erfolg haben?

A: Brooke Shields ging auf die Princeton University. Die Princeton University ist akademisch etwa so anspruchsvoll wie die University of Pennsylvania. Brooke Shields könnte also auch an der University of Pennsylvania erfolgreich sein. Die Antwort lautet also j a.

F: Ja oder nein: Das Quadrat der Ordnungszahl von Wasserstoff ist größer als die Anzahl der Spice Girls?

A: Wasserstoff hat eine Ordnungszahl von 1. 1 zum Quadrat ist 1. Es gibt 5 Spice Girls. Die Ordnungszahl von Wasserstoff zum Quadrat ist also kleiner als 5. Die Antwort ist also nein.

F: Ja oder nein: Ist es üblich, dass man bei den Einführungsfeiern einiger Hochschulen Frost sieht?

A: Die Feierlichkeiten zur Aufnahme ins College können im Dezember, Mai und Juni stattfinden. Da der Dezember im Winter liegt, kann es Frost geben. Daher könnte es bei einigen Einführungsfeiern Frost geben. Die Antwort lautet also ja.

F: Ja oder nein: Konnte ein Lama während des Vietnamkriegs (1945-46) zweimal gebären?

A: Der Krieg in Vietnam dauerte 6 Monate. Die Trächtigkeitsdauer eines Lamas beträgt 11 Monate, also mehr als 6 Monate. Daher konnte ein Lama während des Vietnamkriegs nicht zweimal gebären. Also lautet die Antwort nein.

F: Ja oder nein: Kann eine Birne im Wasser untergehen?

A: Die Dichte einer Birne beträgt etwa 0,6g=cm3 und ist damit geringer als die von Wasser. Gegenstände, die eine geringere Dichte als Wasser haben, schwimmen. Eine Birne würde also schwimmen. Die Antwort lautet also nein.

Tabelle 7. Wenig-Treffer-Beispiele für die vollständige Gedankenkettenaufforderung für „Datum-Verständnis“.

F: Das Jahr 2015 beginnt in 36 Stunden. Wie lautet das Datum in einer Woche von heute in MM/TD/JJJJ?

A: Wenn das Jahr 2015 in 36 Stunden kommt, dann kommt es in 2 Tagen. 2 Tage vor dem 01.01.2015 ist der 30.12.2014, also ist heute der 30.12.2014. Eine Woche nach heute ist also der 0 1/05/2015. Die Antwort lautet also 01/05/2015.

F: Der erste Tag des Jahres 2019 ist ein Dienstag, und heute ist der erste Montag des Jahres 2019. Wie lautet das heutige Datum in MM/TT/JJJJ?

A: Wenn der erste Tag des Jahres 2019 ein Dienstag war, dann war der 01.01.2019 ein Dienstag. Heute ist der erste Montag, wäre also sechs Tage später. Heute ist also der 07.01.2019. Die Antwort lautet also 01/07/2019.

F: Das Konzert war für den 01.06.1943 geplant, wurde aber um einen Tag auf heute verschoben. Wie lautet das Datum vor 10 Tagen in MM/TD/JJJJ?

A: Ein Tag nach dem 01.06.1943 ist der 02.06.1943, also ist heute der 02.06.1943. 10 Tage vor heute ist der 23 .05.1943. Die Antwort lautet also 23.05.1943.

F: Heute ist der 19.4.1969. Wie lautet das Datum 24 Stunden später in MM/TD/JJJJ?

A: Heute ist der 19.04.1969. 24 Stunden später ist ein Tag nach heute, das wäre der 20.04.1969. Die Antwort lautet also 04/20/1969.

F: Jane dachte, heute sei der 11.3.2002, aber in Wirklichkeit ist heute der 12. März, also 1 Tag später. Wie lautet das Datum 24 Stunden später in MM/TT/JJJJ?

A: Heute ist der 12.03.2002. Also ist das Datum 24 Stunden später der 13.03.2002. Die Antwort lautet also 13 .03 .2002.

F: Jane wurde am letzten Februartag des Jahres 2001 geboren. Heute ist ihr 16. Geburtstag. Wie lautet das gestrige Datum in MM/TT/JJJJ?

A: Der letzte Tag im Februar ist der 28. Februar, Jane wurde also am 28.02.2001 geboren. Heute ist ihr 16-jähriger Geburtstag, also ist heute der 2 8 .02.2017. Gestern war also der 27.02.2017. Die Antwort lautet also 02/27/2017.

Tabelle 8. Wenig-Treffer-Beispiele für die vollständige Gedankenkettenaufforderung für „Sport-Verständnis“.

F: Ist der folgende Satz plausibel? „Kyle Palmieri wurde wegen Schlägerei angezeigt.“

A: Kyle Palmieri ist ein Eishockeyspieler. Eine Strafe wegen Schlägerei gehört zum Eishockey dazu. Die Antwort lautet also ja.

F: Ist der folgende Satz plausibel? „Joao Moutinho fing den Screen Pass in der NFC-Meisterschaft.

A: Joao Moutinho ist ein Fußballspieler. Die NFC-Meisterschaft ist Teil des American Football, nicht des Fußballs. Die Antwort lautet also nein.

F: Ist der folgende Satz plausibel? „Carson Wentz hat das Pick and Roll vorbereitet.

A: Carson Wentz ist ein amerikanischer Footballspieler. Pick and Roll ist Teil des Basketballs, nicht des Fußballs. Die Antwort ist also nein.

F: Ist der folgende Satz plausibel? „Jonas Valanciunas hat den Buzzer geschlagen.“

A: Jonas Valanciunas ist ein Basketballspieler. Das Schlagen des Buzzers ist Teil des Basketballs. Die Antwort ist also ja.

F: Ist der folgende Satz plausibel? „Jamel Murray war von der Linie aus perfekt.“

A: Jamal Murray ist ein Basketballspieler. Perfekt von der Linie zu sein ist Teil des Basketballs. Die Antwort ist also ja.

F: Ist der folgende Satz plausibel? „Sam Darnold hat den Puck weitergegeben.“

A: Sam Darnold ist ein American-Football-Spieler. Das Passen des Pucks ist Teil des Eishockeys, nicht des American Football. Die Antwort ist also nein.

F: Ist der folgende Satz plausibel? „Draymond Green hat einen Touchdown geworfen.“

A: Draymond Green ist ein Basketballspieler. Das Werfen eines Touchdowns gehört zum Fußball, nicht zum Basketball. Die Antwort ist also nein.

F: Ist der folgende Satz plausibel? „Malcolm Brogdon versenkte den Ball im Tor.

A: Malcolm Brogdon ist ein Basketballspieler. Das Einlochen ist Teil des Basketballspiels. Die Antwort lautet also ja.

Beispielergebnisse: Selbstkonsistenz
Beispielhafte Ergebnisse für ein Beispiel einer selbstkonsistenten Technik im Sinne der vorliegenden Offenbarung werden anhand der folgenden Argumentationsbenchmarks dargestellt:

(1) Arithmetisches Denken: GSM8K, AddSub, MultiArith, und ASDiv von oben, sowie AQUA-RAT (Ling et al., Program induction by rationale generation: Learning to solve and explain algebraic word problems, In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2017. doi:10.18653/v1/P17-1015) und SVAMP (Patel et al., Are NLP models really able to solve simple math wordproblems?, In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, S. 2080-2094).
(2) Vernünftiges Denken: CommonsenseQA und StrategyQA (Geva et al., 2021) für die Beantwortung von Fragen in offenen Bereichen mit implizitem Multi-Hop-Reasoning und die AI2 Reasoning Challenge (ARC) (Clark et al., Think you have solved question answering? Try arc, the AI2 reasoningchallenge, ArXiv, abs/1803.05457, 2018.).

Beispielhafte Selbstkonsistenztechniken wurden verwendet, um Ergebnisse über die folgenden dichten Links-nach-Rechts-Decoder-Sprachmodelle mit unterschiedlichen Skalen zu erhalten:

(1) LaMDA-PT von oben mit 137 Milliarden Parametern, vortrainiert auf einer Mischung aus Webdokumenten, Dialogdaten und Wikipedia; und
(2) PaLM von oben mit 540 Milliarden Parametern, vortrainiert auf einem hochwertigen Korpus von 780 Milliarden Token mit gefilterten Webseiten, Büchern, Wikipedia, Nachrichtenartikeln, Quellcode und Konversationen in sozialen Medien.

Für die folgenden Beispielergebnisse werden die gleichen Aufforderungen wie oben beschrieben verwendet. Stichprobenplan.
Um verschiedene Argumentationspfade zu erfassen, wurde für LaMDA-137B das Temperatursampling mit T = 0,5 verwendet und bei den Top-k (k =40) Token mit der höchsten Wahrscheinlichkeit abgeschnitten, und für PaLM-540B T = 0,7, k = 40. Die Beispieltechniken der Selb stkonsistenz gemäß der vorliegenden Offenlegung können im Allgemeinen robust gegenüber Stichprobenstrategien und Parametern sein. Bei Stichprobenergebnissen werden die Ergebnisse über 10 Durchläufe gemittelt, wobei in jedem Durchlauf 40 Ausgänge unabhängig vom Decoder abgetastet werden. Zum Vergleich wird die Dekodierung einer einzigen Gedankenkette (z. B. wie in den vorherigen Beispielen) angegeben.

Ergebnisse auf dem neuesten Stand der Technik können bei fast allen Aufgaben erzielt werden: trotz der Tatsache, dass die Selbstkonsistenz unüberwacht und aufgabenunabhängig ist, sind diese Ergebnisse im Vergleich zu kostspieligeren bestehenden Ansätzen, die aufgabenspezifisches Training oder eine Feinab stimmung mit Tausenden von Beispielen (z. B. bei GSM8K) erfordern, günstig. Beispielhafte Ergebnisse für arithmetisches Denken sind in Tabelle 9 aufgeführt. Beispielergebnisse zu Aufgaben des vernünftigen Denkens sind in Tabelle 10A aufgeführt. Tabelle 9. Ergebnisse des arithmetischen Denkens.

	\| Verfahren	\| AddSub \|	\| MultiAritb	\| ASDiv \|	\| AQuA	\| SVAMP	\| GSM8K
	\| Vorherige SoTA	\| 94.9° \|	\| 60.5^a	\| 75.3^b \|	\| 37.9^c \|	\| 57.4^d	\| 35^e / 57^g
LaMDA (137B)	Greedy-Dekod. (Einzelpfad) Selbstkonsistenz (Mehrpfad)	52.9 63.5 (+10.6)	51.8 75.7 (+23.9)	49.0 58.2 (+9.2)	17.7 26.8 (+9.1)	38.9 53.3 (+14.4)	17.1 27.7 (+10.6)
PaLM (540B)	Greedy-Dekod. (Einzelpfad) Selbstkonsistenz (Mehrpfad)	91.9 93.7 (+1.8)	94.7 99.3 (+4.6)	74.0 81.9 (+7.9)	35.8 48.3 1+12.5)	79.0 86.6 (+7,6)	56.5 74.4 1+17.9)

Tabelle 10A. Ergebnisse des vernünftigen Denkens.

	Verfahren	\| CommonsenseQA	\| StrategyQA I \|	,ARC (einfach)	\| ARC (Herausforderung)
\| \|	Vorherige SoTA	\| 91.2^a	\| 73.9^b \| \|	86.4^c	\| 75.0^c
LaMDA (137B)	Greedy-Dekod. (Einzelpfad) Selbstkonsistenz (Mehrpfad) \|	57.9 63.1 (+5.2)	65.4 67.8 (+2.4)	75.3 79.3 (+4.0)	55.1 59.8 (+4.7)
PaLM (540B)	Greedy-Dekod. (Einzelpfad) Selbstkonsistenz (Mehrpfad)	79.0 80.7 (+1.7)	75.3 81.6 (+6.3)	95.3 96.4 (+1.1)	85.2 88.7 (+3.5)

Beispielergebnisse: Abfrage-Rekursion
Es werden Beispielergebnisse für die Aufgabe „Verkettung der letzten Buchstaben“ bereitgestellt. Bei dieser Beispielaufgabe enthält die Abfrage eine Liste von Wörtern, und die Antwort ist die Verkettung der letzten Buchstaben der Wörter in der Liste. Zum Beispiel: „Denken, Maschine“ ergibt „ne“, da der letzte Buchstabe von „Denken“ „n“ ist und der letzte Buchstabe von „Maschine“ „e“ ist. Das Experiment ist wie folgt aufgebaut: (1) es werden nur zwei Demonstrationsbeispiele gegeben; und (2) die Listen für das Training enthalten höchstens drei Wörter, während die Listen für die Tests beliebig lang sein können. Obwohl diese Aufgabe für Menschen einfach ist, stellt sie für statistische maschinelle Lernverfahren eine große Herausforderung dar. Erstens ist nicht zu erwarten, dass Modelle des maschinellen Lernens, die mit nur zwei Beispielen trainiert wurden, gut verallgemeinern. Zweitens erfordert die auf der Länge basierende Aufteilung in Training und Test eine Verallgemeinerung außerhalb der Verteilung, was für statistisches Lernen höchst untrivial ist.

Die ersten instruktiven Sequenzen, die für das Beispiel der Gedankenkette und das Beispiel der Abfrage-Rekursion verwendet werden, sind in Tabelle 10 aufgeführt. Aus Wiktionary wurden Testlisten mit einer Länge von 4 bis 12 Wörtern entnommen. Für jede Länge wurden 500 Listen erstellt. Die Beispielergebnisse sind in Tabelle 11 aufgeführt. Tabelle 10B: Gedankenketten- und Abfrage-Rekursions-Aufforderungen für die Beispielaufgabe zur Verkettung des letzten Buchstabens. Die Aufforderungen für die naive Baseline sind einfach Eingabe-/Ausgabepaare.

Gedankenkette	Abfrage Rekursion
F: „Denken, Maschine“	F: „Denken, Maschine“
A: Der letzte Buchstabe von „Denken“ ist „n“. Der letzte Buchstabe von „Maschine“ ist „e“. Die Verkettung von „n“, „e“ führt zu „ne“. Also gibt „Denken, Macshine“ „ne“ aus.	A: Der letzte Buchstabe von „Denken“ ist „n“. Der letzte Buchstabe von „Maschine“ ist „e“. Die Verkettung von „n“, „e“ führt zu „ne“. Also gibt „Denken, Maschine“ „ne“ aus.
F: „Lernen, logisches Denken, Verallgemeinerung“	F: „Denken, Maschinen, Lernen“
A: Der letzte Buchstabe von „Lernen“ ist „n“. Der letzte Buchstabe von „Denken“ ist „n“. Der letzte Buchstabe von „Verallgemeinerung“ ist „g“. Die Verkettung von „n“, „n“, „g“ führt zu „nng“. Also: „Lernen, logisches Denken, Verallgemeinerung“ ergibt „nng“.	A: „Denken, Maschine“ ergibt „ne“. Der letzte Buchstabe von „Lernen“ ist „n“. Die Verkettung von „ne“, „n“ ergibt „nen“. Also: „Denken, Maschinen, Lernen” ergibt „nen“.

Tabelle 11: Genauigkeit verschiedener Aufforderungs-Verfahren mit code-davinci-002 bei der Aufgabe zur Verkettung des letzten Buchstabens mit zunehmender Länge der Listen von 4 bis 12.

Verfahren	L=4	L=6	L=8	L=10	L=12
Naives Auffordern	0.0	0.0	0.0	0.0	0.0
Gedankenkette	89.4	75.0	51.8	39.8	33.6
Abfrage Rekursion	94.0	88.4	83.0	76.4	74.0

Es werden auch Beispielergebnisse für den SCAN-Benchmark (Lake & Baroni, 2018) bereitgestellt. Bei diesem Benchmark geht es darum, natürlichsprachliche Befehle auf Handlungssequenzen abzubilden. Für dieses Beispiel verwenden alle Aufforderungs-Verfahren dieselben Befehle, aber naives Auffordern ordnet Befehle direkt Handlungssequenzen ohne Erklärungen zu, und Gedankenkette verwendet dieselben Aufforderungen für die Befehlszuordnung wie Abfrage-Rekursion, nur ohne Befehlsreduktion. Beispielergebnisse sind in Tabelle 12 aufgeführt. Tabelle 12: Genauigkeit (%) der verschiedenen Aufforderungs-Verfahren auf der Testmenge von SCAN bei längenbasierter Aufteilung. Die Ergebnisse von text-davinci-002 basieren auf einer zufälligen Teilmenge von 100 Befehlen.

Verfahren code-davinci-002 code-davinci-001 text-davinci-002

Naives Auffordern 16.7 0.4 6.0

Gedankenkette 16.2 0.0 0.0

Abfrage Rekursion 99.7 60.7 76.0

Beispielergebnisse werden auch für den DROP-Benchmark geliefert. Dieser Benchmark bezieht sich auf das Leseverständnis und das Zahlenverständnis. Alle Aufforderungs-Verfahren für diese Beispielresultate benötigen 3 Aufnahme-Aufforderungen. Ein Beispielsatz von Aufforderungen für Abfrage-Rekursions-Aufforderungen ist in Tabelle 13 dargestellt, wobei die Aufforderung in der linken Spalte zeigt, wie ein Problem auf Teilprobleme reduziert wird, und die Aufforderung in der rechten Spalte zeigt, wie die Teilprobleme sequentiell gelöst werden. Die Aufforderungen für eine Gedankenkette wurden hier durch Zusammenführen von Abfrage-Rekursions-Aufforderungen für Teilprobleme generiert, und die Aufforderungen für naive Aufforderungen wurden aus den Gedankenkettenaufforderungen durch Entfernen von Argumentationsketten generiert. Beispielergebnisse sind in Tabelle 14 aufgeführt. Tabelle 13: Beispielaufforderungen für ein Abfrage-Rekursions-Beispiel.

Beispiel für die Aufschlüsselung einer Abfrage	Beispiel Abfrage Rekursion Aufforderung
F: Die Geschlechterverteilung der Bevölkerung beträgt 50,2 % Männer und 49,8 % Frauen. Von der erwachsenen Bevölkerung sind 29 Personen oder 14,6 % der Bevölkerung zwischen 20 und 29 Jahre alt. 28 Personen oder 14,1 % sind 30 bis 39 Jahre alt, 36 Personen oder 18,2 % sind 40 bis 49 Jahre alt, und 31 Personen oder 15,7 % sind 50 bis 59 Jahre alt. Wie viel Prozent der Menschen sind nicht 40 bis 49 Jahre alt?	Die Geschlechterverteilung der Bevölkerung war 50,2% männlich und 49,8% weiblich. Von der erwachsenen Bevölkerung sind 29 Personen oder 14,6 % der Bevölkerung zwischen 20 und 29 Jahre alt. 28 Personen oder 14,1 % sind 30 bis 39 Jahre alt, 36 Personen oder 18,2 % sind 40 bis 49 Jahre alt, und 31 Personen oder 15,7 % sind 50 bis 59 Jahre alt.
A: Um die Frage „Wie viele Prozent der Menschen sind nicht 40 bis 49?“ zu beantworten, müssen wir wissen „Wie viele Prozent der Menschen sind 40 bis 49?“	F: Wie viel Prozent der Menschen sind zwischen 40 und 49?
	A: „36 Personen oder 18,2 % sind 40 bis 49 Jahre alt“. Die Antwort lautet also 18,2 %.
	F: Wie viel Prozent der Menschen sind nicht zwischen 40 und 49?
	A: Wir wissen, dass 18,2 % zwischen 40 und 49 sind. Also sind 100% - 18,2% = 81,8% nicht 40 bis 49. Die Antwort lautet also 81,8 %.

Tabelle 14: Genauigkeit (%) der verschiedenen Aufforderungs-Verfahren auf der Testmenge von SCAN bei längenbasierter Aufteilung. Die Ergebnisse von text-davinci-002 basieren auf einer zufälligen Teilmenge von 100 Befehlen.

	Nicht-Fußball (3988 Fälle)		Fußball (1862 Fälle)
Verfahren	code-davinci-002	PaLM	code-davinci-002	PaLM
Null-Schuss	43.86	48.42	51.77	44.95
Naives Auffordern	58.78	56.54	62.73	60.47
Gedankenkette	74.77	63.84	59.56	67.35
Abfrage Rekursion	82.45	79.24	73.42	69.98

Beispielgeräte und -systeme
10A zeigt ein Blockdiagramm eines beispielhaften Computersystems 1, das Eingabedatenstrukturen und selbstkonsistente Ausgangsabtastungen gemäß beispielhaften Ausführungsformen der vorliegenden Offenbarung erzeugen oder implementieren kann. Das System 1 umfasst ein Computergerät 2, ein Server-Computersystem 30 und ein Trainings-Computersystem 50, die über ein Netzwerk 70 kommunikativ gekoppelt sind.
Das Computergerät 2 kann jede Art von Computergerät sein, wie z. B. ein persönliches Computergerät (z. B. Laptop oder Desktop), ein mobiles Computergerät (z. B. Smartphone oder Tablet), eine Spielkonsole oder ein Controller, ein tragbares Computergerät, ein eingebettetes Computergerät oder jede andere Art von Computergerät. In einigen Ausführungsformen kann das Computergerät 2 ein Client-Computergerät sein. Das Computergerät 2 kann einen oder mehrere Prozessoren 12 und einen Speicher 14 enthalten. Bei dem einen oder den mehreren Prozessoren 12 kann es sich um eine beliebige geeignete Verarbeitungsvorrichtung handeln (z. B. einen Prozessorkern, einen Mikroprozessor, einen ASIC, einen FPGA, einen Controller, einen Mikrocontroller usw.) und es kann sich um einen Prozessor oder eine Vielzahl von Prozessoren handeln, die operativ miteinander verbunden sind. Der Speicher 14 kann ein oder mehrere nicht transitorische, computerlesbare Speichermedien wie RAM, ROM, EEPROM, EPROM, Flash-Speichervorrichtungen, Magnetplatten usw. und Kombinationen davon umfassen. Der Speicher 14 kann Daten 16 und Befehle 18 speichern, die vom Prozessor 12 ausgeführt werden, um das Benutzer-Computergerät 2 zu veranlassen, Operationen durchzuführen (z. B. Operationen zur Implementierung von Eingabedatenstrukturen und selbstkonsistenter Ausgabeabtastung gemäß Ausführungsbeispielen der vorliegenden Offenbarung usw.).
In einigen Implementierungen kann das Benutzer-Computergerät 2 ein oder mehrere maschinengelernte Modelle 20 speichern oder enthalten. Beispielsweise können die maschinengelernten Modelle 20 verschiedene maschinengelernte Modelle wie neuronale Netze (z. B. tiefe neuronale Netze) oder andere Arten von maschinengelernten Modellen, einschließlich nichtlinearer Modelle oder linearer Modelle, sein oder anderweitig umfassen. Neuronale Netze können neuronale Feed-Forward-Netze, rekurrente neuronale Netze (z. B. rekurrente neuronale Netze mit langem Kurzzeitgedächtnis), neuronale Faltungsnetze oder andere Formen von neuronalen Netzen umfassen. Einige maschinengelernte Modelle können sich einen Aufmerksamkeitsmechanismus wie die Selbstaufmerksamkeit zunutze machen. Einige maschinengelernte Modelle können zum Beispiel mehrköpfige Selbstaufmerksamkeitsmodelle (z. B. Transformatormodelle) umfassen.
In einigen Implementierungen können ein oder mehrere maschinengelernte Modelle 20 vom Server-Computersystem 30 über das Netzwerk 70 empfangen, im Speicher 14 des Computergeräts gespeichert und von dem einen oder den mehreren Prozessoren 12 verwendet oder anderweitig implementiert werden. In einigen Implementierungen kann das Computergerät 2 mehrere parallele Instanzen eines maschinengelernten Modells 20 implementieren.
Zusätzlich oder alternativ können ein oder mehrere maschinengelernte Modelle 40 in dem Server-Computersystem 30, das mit dem Computergerät 2 in einer Client-Server-Beziehung kommuniziert, enthalten oder anderweitig gespeichert und implementiert sein.
Die in dieser Spezifikation beschriebenen maschinengelernten Modelle können in einer Vielzahl von Aufgaben, Anwendungen und/oder Anwendungsfällen eingesetzt werden.
In einigen Implementierungen kann die Eingabe für das/die maschinengelernte(n) Modell(e) der vorliegenden Offenlegung aus Bilddaten bestehen. Das (die) maschinengelernte(n) Modell(e) kann (können) die Bilddaten verarbeiten, um eine Ausgabe zu erzeugen. Beispielsweise können das/die maschinengelernte(n) Modell(e) die Bilddaten verarbeiten, um eine Bilderkennungsausgabe zu erzeugen (z. B. eine Erkennung der Bilddaten, eine latente Einbettung der Bilddaten, eine kodierte Darstellung der Bilddaten, ein Hash der Bilddaten usw.). Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die Bilddaten verarbeiten können, um eine Bildsegmentierungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die Bilddaten verarbeiten kann/können, um eine Bildklassifizierungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die Bilddaten verarbeiten kann/können, um eine Ausgabe zur Modifikation von Bilddaten zu erzeugen (z. B. eine Veränderung der Bilddaten usw.). Ein weiteres Beispiel ist, dass das (die) maschinengelernte(n) Modell(e) die Bilddaten verarbeiten kann (können), um eine kodierte Bilddatenausgabe zu erzeugen (z. B. eine kodierte und/oder komprimierte Darstellung der Bilddaten usw.). Ein weiteres Beispiel:dDas (die) maschinengelernte(n) Modell(e) kann (können) die Bilddaten verarbeiten, um eine hochskalierte Bilddatenausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die Bilddaten verarbeiten kann/können, um eine Vorhersageausgabe zu erzeugen.
In einigen Implementierungen kann die Eingabe für das/die maschinengelernte(n) Modell(e) der vorliegenden Offenlegung aus Text oder natürlichsprachliche Daten bestehen. Das (die) maschinengelernte(n) Modell(e) kann (können) den Text oder die natürlichsprachlichen Daten verarbeiten, um eine Ausgabe zu erzeugen. Beispielsweise können die maschinengelernten Modelle die Daten der natürlichen Sprache verarbeiten, um eine Sprachkodierungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) den Text oder die Daten der natürlichen Sprache verarbeiten kann/können, um eine Ausgabe zur latenten Texteinbettung zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) den Text oder die Daten der natürlichen Sprache verarbeiten kann/können, um eine Übersetzungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) den Text oder die natürlich sprachlichen Daten verarbeiten kann/können, um eine Klassifizierungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) den Text oder die natürlichsprachlichen Daten verarbeiten kann/können, um eine Ausgabe zur Textsegmentierung zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) den Text oder die natürlich sprachlichen Daten verarbeiten kann/können, um eine semantische Ausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) den Text oder die natürlichsprachlichen Daten verarbeiten kann/können, um eine hochskalierte Text- oder natürlichsprachliche Ausgabe zu erzeugen (z. B. Text- oder natürlichsprachliche Daten, die von höherer Qualität sind als der Eingangstext oder die natürliche Sprache usw.). Als weiteres Beispiel können die maschinengelernten Modelle den Text oder die natürlichsprachlichen Daten verarbeiten, um eine Vorhersageausgabe zu erzeugen.
In einigen Implementierungen kann die Eingabe für das/die maschinengelernte(n) Modell(e) der vorliegenden Offenbarung aus Sprachdaten bestehen. Das (die) maschinengelernte(n) Modell(e) kann (können) die Sprachdaten verarbeiten, um eine Ausgabe zu erzeugen. Zum Beispiel können die maschinengelernten Modelle die Sprachdaten verarbeiten, um eine Spracherkennungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das (die) maschinengelernte(n) Modell(e) die Sprachdaten verarbeiten kann (können), um eine Sprachübersetzungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die Sprachdaten verarbeiten können, um eine latente Einbettungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die Sprachdaten verarbeiten kann/können, um eine kodierte Sprachausgabe zu erzeugen (z. B. eine kodierte und/oder komprimierte Darstellung der Sprachdaten, usw.). Ein weiteres Beispiel ist, dass das (die) maschinengelernte(n) Modell(e) die Sprachdaten verarbeiten kann (können), um eine hochskalierte Sprachausgabe zu erzeugen (z. B. Sprachdaten, die von höherer Qualität sind als die eingegebenen Sprachdaten, usw.). Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die Sprachdaten verarbeiten kann/können, um eine Textausgabe zu erzeugen (z. B. eine Textdarstellung der eingegebenen Sprachdaten usw.). Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die Sprachdaten verarbeiten kann/können, um eine Vorhersageausgabe zu erzeugen.
In einigen Implementierungen kann die Eingabe für das/die maschinengelernte(n) Modell(e) der vorliegenden Offenbarung aus latenten Kodierungsdaten bestehen (z. B. eine latente Raumdarstellung einer Eingabe usw.). Das (die) maschinengelernte(n) Modell(e) kann (können) die latenten Kodierungsdaten verarbeiten, um eine Ausgabe zu erzeugen. Beispielsweise können das/die maschinengelernte(n) Modell(e) die latenten Kodierungsdaten verarbeiten, um eine Erkennungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das (die) maschinengelernte(n) Modell(e) die latenten Kodierungsdaten verarbeiten kann (können), um eine Rekonstruktionsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die latenten Kodierungsdaten verarbeiten kann/können, um eine Suchausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die latenten Kodierungsdaten verarbeiten kann/können, um eine Reclustering-Ausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die latenten Kodierungsdaten verarbeiten kann/können, um eine Vorhersageausgabe zu erzeugen.
In einigen Implementierungen kann die Eingabe für das/die maschinengelernte(n) Modell(e) der vorliegenden Offenbarung aus statistischen Daten bestehen. Statistische Daten können Daten sein, repräsentieren oder anderweitig Daten enthalten, die aus einer anderen Datenquelle berechnet wurden und/oder werden. Das (die) maschinengelernte(n) Modell(e) kann (können) die statistischen Daten verarbeiten, um eine Ausgabe zu erzeugen. Beispielsweise können das/die maschinengelernte(n) Modell(e) die statistischen Daten verarbeiten, um eine Erkennungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das (die) maschinengelernte(n) Modell(e) die statistischen Daten verarbeiten kann (können), um eine Vorhersageausgabe zu erzeugen. Ein weiteres Beispiel: Das/die maschinengelernte(n) Modell(e) kann/können die statistischen Daten verarbeiten, um eine Klassifizierungsausgabe zu erzeugen. Ein weiteres Beispiel: das/die maschinengelernte(n) Modell(e) kann/können die statistischen Daten verarbeiten, um eine Segmentierungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die statistischen Daten verarbeiten können, um eine Visualisierungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die statistischen Daten verarbeiten kann/können, um eine Diagnoseausgabe zu erzeugen.
In einigen Implementierungen kann die Eingabe für das/die maschinengelernte(n) Modell(e) der vorliegenden Offenlegung aus Sensordaten bestehen. Das (die) maschinengelernte(n) Modell(e) kann (können) die Sensordaten verarbeiten, um eine Ausgabe zu erzeugen. Beispielsweise können die maschinengelernten Modelle die Sensordaten verarbeiten, um eine Erkennungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das (die) maschinengelernte(n) Modell(e) die Sensordaten verarbeiten kann (können), um eine Vorhersageausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die Sensordaten verarbeiten kann/können, um eine Klassifizierungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die Sensordaten verarbeiten kann/können, um eine Segmentierungsausgabe zu erzeugen. Ein weiteres Beispiel ist die Verarbeitung der Sensordaten durch das/die maschinengelernte(n) Modell(e), um eine Visualisierungsausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die Sensordaten verarbeiten kann/können, um eine Diagnoseausgabe zu erzeugen. Ein weiteres Beispiel ist, dass das/die maschinengelernte(n) Modell(e) die Sensordaten verarbeiten kann/können, um eine Erkennungsausgabe zu erzeugen.
In einigen Fällen können die maschinengelernten Modelle so konfiguriert werden, dass sie eine Aufgabe ausführen, die die Kodierung von Eingabedaten für eine zuverlässige und/oder effiziente Übertragung oder Speicherung (und/oder die entsprechende Dekodierung) umfasst. Die Aufgabe kann zum Beispiel eine Audiokomprimierungsaufgabe sein. Die Eingabe kann Audiodaten enthalten und die Ausgabe kann komprimierte Audiodaten umfassen. In einem anderen Beispiel umfasst die Eingabe visuelle Daten (z. B. ein oder mehrere Bilder oder Videos), die Ausgabe umfasst komprimierte visuelle Daten, und die Aufgabe ist eine Aufgabe zur Kompression visueller Daten. In einem anderen Beispiel kann die Aufgabe darin bestehen, eine Einbettung für Eingabedaten (z. B. Eingabe-Audio- oder visuelle Daten) zu erzeugen.
In einigen Fällen umfasst die Eingabe visuelle Daten und die Aufgabe ist eine Computer-Vision-Aufgabe. In einigen Fällen umfasst die Eingabe Pixeldaten für ein oder mehrere Bilder und die Aufgabe ist eine Bildverarbeitungsaufgabe. Die Bildverarbeitungsaufgabe kann zum Beispiel eine Bildklassifizierung sein, bei der die Ausgabe ein Satz von Bewertungen ist, wobei jede Bewertung einer anderen Objektklasse entspricht und die Wahrscheinlichkeit darstellt, dass das eine oder die mehreren Bilder ein Objekt zeigen, das zu der Objektklasse gehört. Die Bildverarbeitungsaufgabe kann die Objekterkennung sein, wobei die Bildverarbeitungsausgabe eine oder mehrere Regionen in dem einen oder den mehreren Bildern identifiziert und für jede Region die Wahrscheinlichkeit angibt, dass die Region ein Objekt von Interesse darstellt. Ein weiteres Beispiel: die Bildverarbeitungsaufgabe kann die Bildsegmentierung sein, wobei die Bildverarbeitungsausgabe für jedes Pixel in dem einen oder den mehreren Bildern eine entsprechende Wahrscheinlichkeit für jede Kategorie in einem vorgegebenen Satz von Kategorien definiert. Der Satz von Kategorien kann zum Beispiel aus Vordergrund und Hintergrund bestehen. Ein anderes Beispiel ist der Satz von Kategorien, der Objektklassen sein kann. Ein weiteres Beispiel: Die Bildverarbeitungsaufgabe kann eine Tiefenschätzung sein, wobei die Bildverarbeitungsausgabe für jedes Pixel in einem oder mehreren Bildern einen entsprechenden Tiefenwert definiert. Ein weiteres Beispiel: die Bildverarbeitungsaufgabe kann eine Bewegungsschätzung sein, wobei die Netzwerkeingabe mehrere Bilder enthält und die Bildverarbeitungsausgabe für jedes Pixel eines der Eingabebilder eine Bewegung der Szene definiert, die an dem Pixel zwischen den Bildern in der Netzwerkeingabe dargestellt ist.
In einigen Fällen umfasst die Eingabe Audiodaten, die eine gesprochene Äußerung darstellen, und die Aufgabe ist eine Spracherkennungsaufgabe. Die Ausgabe kann eine Textausgabe umfassen, die auf die gesprochene Äußerung abgebildet wird. In einigen Fällen umfasst die Aufgabe das Verschlüsseln oder Entschlüsseln von Eingabedaten. In einigen Fällen umfasst die Aufgabe eine Mikroprozessor-Leistungsaufgabe, wie z. B. Verzweigungsvorhersage oder Speicheradressübersetzung.
In einigen Ausführungsformen können die maschinengelernten Modelle 40 durch das Server-Computersystem 40 als Teil eines Webdienstes implementiert werden (z. B. als Remote-Hosting-Dienst für maschinengelernte Modelle, wie z. B. eine Online-Schnittstelle zur Durchführung von Operationen mit maschinengelernten Modellen über ein Netzwerk auf entfernten Servern 30). Beispielsweise kann das Server-Computersystem 30 über ein lokales Intranet oder eine Internetverbindung mit dem Computergerät 2 kommunizieren. Das Computergerät 2 kann beispielsweise eine Workstation oder ein Endpunkt sein, der mit dem Server-Computersystem 30 kommuniziert, wobei die Implementierung des Modells 40 auf dem Server-Computersystem 30 aus der Ferne durchgeführt wird und eine Ausgabe an das Computergerät 2 geliefert wird (z. B. als Cast, Streaming usw.). So können ein oder mehrere Modelle 20 auf dem Benutzer-Computergerät 2 gespeichert und implementiert werden, oder ein oder mehrere Modelle 40 können auf dem Server-Computersystem 30 gespeichert und implementiert werden.
Das Computergerät 2 kann auch eine oder mehrere Eingabekomponenten enthalten, die Benutzereingaben empfangen. Eine Benutzereingabekomponente kann beispielsweise eine berührungsempfindliche Komponente sein (z. B. ein berührungsempfindlicher Bildschirm oder ein Touchpad), die auf die Berührung eines Benutzereingabeobjekts (z. B. eines Fingers oder eines Stiftes) reagiert. Die berührungsempfindliche Komponente kann zur Implementierung einer virtuellen Tastatur dienen. Andere Beispiele für Benutzereingabekomponenten sind ein Mikrofon, eine herkömmliche Tastatur oder andere Mittel, mit denen ein Benutzer Benutzereingaben machen kann.
Das Server-Computersystem 30 kann einen oder mehrere Prozessoren 32 und einen Speicher 34 umfassen. Bei dem einen oder den mehreren Prozessoren 32 kann es sich um eine beliebige geeignete Verarbeitungsvorrichtung handeln (z. B. einen Prozessorkern, einen Mikroprozessor, einen ASIC, einen FPGA, einen Controller, einen Mikrocontroller usw.), und es kann sich um einen Prozessor oder eine Vielzahl von Prozessoren handeln, die operativ miteinander verbunden sind. Der Speicher 34 kann ein oder mehrere nicht transitorische, computerlesbare Speichermedien wie RAM, ROM, EEPROM, EPROM, Flash-Speichervorrichtungen, Magnetplatten usw. und Kombinationen davon umfassen. Der Speicher 34 kann Daten 36 und Befehle 38 speichern, die vom Prozessor 32 ausgeführt werden, um das Server-Computersystem 30 zu veranlassen, Operationen durchzuführen (z. B. Operationen zur Implementierung von Eingabedatenstrukturen und selbstkonsistenter Ausgangsabtastung gemäß Beispielausführungen der vorliegenden Offenbarung usw.).
In einigen Implementierungen umfasst das Server-Computersystem 30 ein oder mehrere Server-Computergeräte oder wird anderweitig durch diese implementiert. In Fällen, in denen das Server-Computersystem 130 mehrere Server-Computergeräte umfasst, können solche Server-Computergeräte gemäß sequenziellen Computerarchitekturen, parallelen Computerarchitekturen oder einer Kombination davon arbeiten.
Wie oben beschrieben, kann das Server-Computersystem 30 ein oder mehrere maschinengelernte Modelle 40 speichern oder anderweitig enthalten. Zum Beispiel können die Modelle 40 verschiedene maschinengelernte Modelle sein oder anderweitig enthalten. Beispiele für maschinengelernte Modelle sind neuronale Netze oder andere mehrschichtige nichtlineare Modelle. Beispiele für neuronale Netze sind neuronale Feed-Forward-Netze, tiefe neuronale Netze, rekurrente neuronale Netze und neuronale Faltungsnetze. Einige Beispiele für maschinengelernte Modelle können einen Aufmerksamkeitsmechanismus wie die Selb staufmerksamkeit nutzen. Einige maschinengelernte Modelle können zum Beispiel mehrköpfige Selbstaufmerksamkeitsmodelle (z. B. Transformatormodelle) umfassen.
Das Computergerät 2 oder das Server-Computersystem 30 kann Beispielausführungen eines maschinengelernten Modells (z. B. einschließlich der Modelle 20 oder 40) unter Verwendung einer Vor-Trainings-Pipeline (z. B. einer unbeaufsichtigten Pipeline, einer halb-überwachten Pipeline usw.) trainieren. In einigen Ausführungsformen kann das Computergerät 2 oder das Server-Computersystem 30 Beispielausführungen eines maschinengelernten Modells (z. B. einschließlich der Modelle 20 oder 40) unter Verwendung einer Vortrainings-Pipeline durch Interaktion mit dem Trainings-Computersystem 50 trainieren. In einigen Ausführungsformen kann das Trainingscomputersystem 50 über das Netzwerk 70 kommunikativ gekoppelt sein. Das Trainingscomputersystem 50 kann von dem Server-Computersystem 30 getrennt sein oder ein Teil des Server-Computersystems 30 sein.
Das Trainingscomputersystem 50 kann einen oder mehrere Prozessoren 52 und einen Speicher 54 umfassen. Bei dem einen oder den mehreren Prozessoren 52 kann es sich um eine beliebige geeignete Verarbeitungsvorrichtung handeln (z. B. einen Prozessorkern, einen Mikroprozessor, einen ASIC, einen FPGA, einen Controller, einen Mikrocontroller usw.) und es kann sich um einen Prozessor oder eine Vielzahl von Prozessoren handeln, die operativ miteinander verbunden sind. Der Speicher 54 kann ein oder mehrere nicht transitorische, computerlesbare Speichermedien wie RAM, ROM, EEPROM, EPROM, Flash-Speichervorrichtungen, Magnetplatten usw. und Kombinationen davon umfassen. Der Speicher 54 kann Daten 56 und Befehle 58 speichern, die vom Prozessor 52 ausgeführt werden, um das Trainingscomputersystem 50 zu veranlassen, Operationen durchzuführen (z. B. Operationen zur Implementierung von Eingabedatenstrukturen und selbstkonsistenter Ausgabeabtastung gemäß den Beispielausführungen der vorliegenden Offenbarung usw.). In einigen Ausführungsformen umfasst das Trainingscomputersystem 50 ein oder mehrere Server-Computergeräte oder wird anderweitig durch diese implementiert.
Der Modell-Trainer 60 kann eine Vortrainings-Pipeline zum Trainieren von maschinengelernten Modellen unter Verwendung verschiedener Zielvorgaben enthalten. Die Parameter des Bildverarbeitungsmodells bzw. der Bildverarbeitungsmodelle können in einigen Ausführungsformen mit verschiedenen Trainings- oder Lerntechniken trainiert werden, wie z. B. der Rückwärtsfortpflanzung von Fehlern. Zum Beispiel kann ein Ziel oder ein Verlust durch die Vortraining-Pipeline(s) rückwärts propagiert werden, um einen oder mehrere Parameter des/der Modells/Modelle zu aktualisieren (z. B. auf der Grundlage eines Gradienten der Verlustfunktion). Es können verschiedene Verlustfunktionen verwendet werden, z. B. mittlerer quadratischer Fehler, Wahrscheinlichkeits-Verlust, Kreuzentropieverlust, Scharnierverlust oder verschiedene andere Verlustfunktionen. Gradientenab stiegsverfahren können zur iterativen Aktualisierung der Parameter über eine Reihe von Trainingsiterationen verwendet werden. In einigen Implementierungen kann die Rückwärtsfortpflanzung von Fehlern eine abgeschnittene B ackpropagation durch die Zeit beinhalten. Die Vortraining-Pipeline kann eine Reihe von Verallgemeinerungstechniken durchführen (z. B. Gewichtsabfälle, Dropouts usw.), um die Verallgemeinerungsfähigkeit der trainierten Modelle zu verbessern.
Der Modelltrainer 60 kann eine Computerlogik enthalten, die zur Bereitstellung der gewünschten Funktionalität verwendet wird. Der Modelltrainer 60 kann in Hardware, Firmware oder Software implementiert sein, die einen Mehrzweckprozessor steuert. In einigen Implementierungen umfasst der Modelltrainer 60 beispielsweise Programmdateien, die auf einem Speichergerät gespeichert, in einen Speicher geladen und von einem oder mehreren Prozessoren ausgeführt werden. In anderen Ausführungsformen umfasst der Modelltrainer 60 einen oder mehrere Sätze von computerausführbaren Befehlen, die in einem greifbaren, computerlesbaren Speichermedium wie RAM, Festplatte oder optischen oder magnetischen Medien gespeichert sind.
Das Netzwerk 70 kann jede Art von Kommunikationsnetzwerk sein, wie z. B. ein lokales Netzwerk (z. B. Intranet), ein Weitverkehrsnetzwerk (z. B. Internet) oder eine Kombination davon, und kann eine beliebige Anzahl von drahtgebundenen oder drahtlosen Verbindungen umfassen. Im Allgemeinen kann die Kommunikation über das Netz 70 über jede Art von drahtgebundener oder drahtloser Verbindung erfolgen, wobei eine Vielzahl von Kommunikationsprotokollen (z. B. TCP/IP, HTTP, SMTP, FTP), Kodierungen oder Formaten (z. B. HTML, XML) oder Schutzverfahren (z. B. VPN, sicheres HTTP, SSL) verwendet werden können.
10A zeigt ein Beispiel für ein Computersystem, das für die Umsetzung der vorliegenden Offenbarung verwendet werden kann. Es können auch andere Computersysteme verwendet werden. In einigen Implementierungen kann das Computergerät 2 beispielsweise den Modelltrainer 60 enthalten. In einigen Implementierungen kann das Computergerät 2 den Modelltrainer 60 implementieren, um das/die Modell(e) basierend auf gerätespezifischen Daten zu personalisieren.
10B zeigt ein Blockdiagramm eines Beispiel-Computergeräts 80, das gemäß Ausführungsbeispielen der vorliegenden Offenbarung arbeitet. Das Computergerät 80 kann ein Benutzer-Computergerät oder ein Server- Computergerät sein. Das Computergerät 80 kann eine Anzahl von Anwendungen (z. B. Anwendungen 1 bis N) enthalten. Jede Anwendung kann ihre eigene maschinelle Lernbibliothek und (ein) maschinengelernte(s) Modell(e) enthalten. Zum Beispiel kann jede Anwendung ein maschinengelerntes Modell enthalten. Beispielanwendungen sind eine Textnachrichtenanwendung, eine E-Mail-Anwendung, eine Diktieranwendung, eine virtuelle Tastaturanwendung, eine Browseranwendung usw. Wie in 10B dargestellt, kann jede Anwendung mit einer Reihe anderer Komponenten des Computergeräts kommunizieren, wie z. B. mit einem oder mehreren Sensoren, einem Kontextmanager, einer Gerätezustandskomponente oder zusätzlichen Komponenten. In einigen Implementierungen kann jede Anwendung mit jeder Gerätekomponente über eine API (z. B. eine öffentliche API) kommunizieren. In einigen Implementierungen ist die von jeder Anwendung verwendete API spezifisch für diese Anwendung.
10C zeigt ein Blockdiagramm eines Beispiel-Computergeräts 80, das gemäß Ausführungsbeispielen der vorliegenden Offenbarung arbeitet. Das Computergerät 80 kann ein Benutzer- Computergerät oder ein Server- Computergerät sein. Das Computergerät 80 kann eine Anzahl von Anwendungen (z. B. die Anwendungen 1 bis N) enthalten. Jede Anwendung steht in Kommunikation mit einer zentralen Intelligenzschicht. Beispielanwendungen sind eine Textnachrichtenanwendung, eine E-Mail-Anwendung, eine Diktieranwendung, eine virtuelle Tastaturanwendung, eine Browseranwendung usw. In einigen Implementierungen kann jede Anwendung mit der zentralen Intelligenzschicht (und dem/den darin gespeicherten Modell(en)) über eine API kommunizieren (z. B. eine gemeinsame API für alle Anwendungen).
Die zentrale Intelligenzschicht kann eine Reihe von maschinengelernten Modellen enthalten. Wie in 10C dargestellt, kann zum Beispiel für jede Anwendung ein eigenes maschinengelerntes Modell bereitgestellt und von der zentralen Intelligenzschicht verwaltet werden. In anderen Implementierungen können sich zwei oder mehr Anwendungen ein einziges maschinengelerntes Modell teilen. In einigen Implementierungen kann die zentrale Intelligenzschicht beispielsweise ein einziges Modell für alle Anwendungen bereitstellen. In einigen Implementierungen ist die zentrale Intelligenzschicht in einem Betriebssystem des Computergeräts 80 enthalten oder wird anderweitig von diesem implementiert.
Die zentrale Intelligenzschicht kann mit einer zentralen Gerätedatenschicht kommunizieren. Die zentrale Gerätedatenschicht kann ein zentraler Datenspeicher für das Computergerät 80 sein. Wie in 10C dargestellt, kann die zentrale Gerätedatenschicht mit einer Reihe anderer Komponenten des Computergeräts kommunizieren, wie z. B. einem oder mehreren Sensoren, einem Kontextmanager, einer Gerätezustandskomponente oder zusätzlichen Komponenten. In einigen Implementierungen kann die zentrale Gerätedatenschicht mit jeder Gerätekomponente über eine API (z. B. eine private API) kommunizieren.
Beispielhafte Verfahren
In 11 ist ein Flussdiagramm eines Beispielverfahrens 1000 dargestellt, das gemäß Beispielausführungen der vorliegenden Offenbarung durchzuführen ist. Obwohl in 11 die Schritte in einer bestimmten Reihenfolge zur Veranschaulichung und Diskussion dargestellt sind, sind die Verfahren der vorliegenden Offenbarung nicht auf die dargestellte Reihenfolge oder Anordnung beschränkt. Die verschiedenen Schritte des Verfahrens 1000 können weggelassen, neu angeordnet, kombiniert und/oder auf verschiedene Weise angepasst werden, ohne dass dies den Rahmen der vorliegenden Offenbarung sprengen würde.
Bei 1002 kann ein Computersystem eine instruktive Sequenz erhalten, die eine instruktive Abfrage, eine instruktive Antwort und eine instruktive Spur von Zwischenzuständen zwischen der instruktiven Abfrage und der instruktiven Antwort beschreibt. Beispielhafte instruktive Abfragen, Antworten und Spuren werden in Bezug auf die 1 bis 4 diskutiert. In einigen Ausführungsformen kann die instruktiven Spur beispielsweise eine Kette von Zwischenzuständen oder Antworten enthalten. In einigen Ausführungsformen kann die instruktive Spur beispielsweise eine Kette von Zwischenantworten auf Zwischenabfragen enthalten (z. B. wie in den 2 bis 4 dargestellt).
In einigen Ausführungsformen kann die instruktive Sequenz ein Eingabeflag enthalten. Eine instruktive Abfrage kann zum Beispiel ein Eingabeflag enthalten, das den Beginn einer Abfrage anzeigt (z. B. „F:“). In einigen Ausführungsformen kann die instruktive Abfrage auch ein Ausgabeflag enthalten. Ein Ausgabeflag kann zum Beispiel das Ende einer Abfrage oder den Beginn eines Teils der Sequenz anzeigen, der einer zu erzeugenden Antwort entspricht. Beispielflags sind in den 2 bis 4 dargestellt (z. B. „F:“, „A:“, „Betrachten Sie die folgende Python-Funktion“, „[BEGIN]“ usw.).
In einigen Ausführungsformen kann die instruktive Sequenz eine tokenisierte Darstellung der natürlichen Sprache enthalten (z. B. 2, 4 usw.). Die instruktive Sequenz kann beispielsweise durch den Empfang einer natürlichsprachlichen Sequenz von Wörtern, Befehle, Fragen, Erklärungen usw. und die Einbettung der Sequenz in ein oder mehrere Token (z. B. Wort-Token, Unter-Wort-Token, Zeichen-Token usw.) erhalten werden. In einigen Ausführungsformen kann die instruktive Sequenz eine tokenisierte Darstellung einer computerausführbaren Kodierungssprache enthalten (z. B. 3). Beispielsweise kann eine instruktive Sequenz bereitgestellt werden, um das maschinengelernte Modell aufzufordern, die Ausführung eines computerausführbaren Skripts oder Programms zu simulieren (z. B. um eine Endausgabe zu bewerten, einen oder mehrere Zwischenzustände von Variablen oder Parametern zu bewerten usw.).
Bei 1004 kann das Computersystem die instruktive Sequenz und eine operative Abfrage in ein maschinengelerntes Modell eingeben. In einigen Ausführungsformen ist das maschinengelernte Modell so konfiguriert, dass es die operative Abfrage unter Berücksichtigung der instruktiven Sequenz verarbeitet. In einigen Ausführungsformen kann die instruktive Sequenz der operativen Abfrage vorangestellt werden. In einigen Ausführungsformen umfasst das maschinengelernte Modell beispielsweise eine Transformatorarchitektur (z. B. Encoder, Decoder usw.), in die die Eingabedatenstruktur gemäß der vorliegenden Offenbarung eingegeben werden kann.
Bei 1006 kann das Computersystem unter Verwendung des maschinengelernten Modells und als Antwort auf die operative Abfrage eine operative Antwort erzeugen. In einigen Ausführungsformen kann das Erzeugen der operativen Antwort das Erzeugen einer Vielzahl von operativen Antworten unter Verwendung des maschinengelernten Modells umfassen. In einigen Ausführungsformen kann das Erzeugen der operativen Antwort das Bestimmen der operativen Antwort auf der Grundlage einer Stichprobe aus der Vielzahl der operativen Antworten umfassen. In einigen Ausführungsformen ist die Stichprobe zufällig. In einigen Ausführungsformen basiert die Stichprobe auf entsprechenden Wahrscheinlichkeiten, die mit der Vielzahl von operativen Antworten verbunden sind.
In einigen Ausführungsformen beinhaltet das Bestimmen der operativen Antwort das Bestimmen einer Konsistenzmetrik auf der Grundlage der Stichprobe aus der Vielzahl der operativen Antworten. Eine Konsistenzmetrik kann zum Beispiel eine Selbstkonsistenzmetrik umfassen, die so konfiguriert ist, dass sie intern konsistente Ausgaben bestimmt. In einigen Ausführungsformen umfasst die Konsistenzmetrik eine Mehrfachabstimmung (z. B. eine Abstimmung der Ausgabewerte von einer oder mehreren operativen Antworten). In einigen Ausführungsformen umfasst die Konsistenzmetrik eine Mehrheitsabstimmung (z. B. eine Abstimmung der Ausgabewerte einer oder mehrerer operativer Antworten).
In einigen Ausführungsformen kann das Verfahren 1000 unter Verwendung des maschinengelernten Modells und als Antwort auf die operative Abfrage eine operative Sequenz von Zwischenzuständen von der operativen Abfrage bis zur operativen Antwort erzeugen. In einigen Ausführungsformen kann die Abstimmung (z.B. Pluralitätsabstimmung, Mehrheitsabstimmungusw.) auf einer Vielzahl von operativen Antworten basieren, die jeweils mit einer Vielzahl von verschiedenen operativen Sequenzen verbunden sind.
In einigen Ausführungsformen kann die operative Abfrage eine erste Abfragekomponente und die operative Antwort eine erste Antwortkomponente sein, und das Verfahren 1000 kann die Eingabe der instruktiven Sequenz, der ersten Abfragekomponente, der ersten Antwortkomponente und einer zweiten Abfragekomponente in das maschinengelernte Modell umfassen. Zum Beispiel kann das Verfahren 1000 einen Abfrage-Rekursions-Prozessablauf beinhalten (z.B. wie oben in Bezug auf 5 beschrieben).
In einigen Ausführungsformen kann das Verfahren 1000 beispielsweise das Erzeugen einer zweiten Antwortkomponente unter Verwendung des maschinengelernten Modells und als Antwort auf die zweite Abfragekomponente umfassen.
In einigen Ausführungsformen kann das Verfahren 1000 zum Beispiel das Erzeugen einer oder mehrerer Abfragekomponenten durch das Computersystem als Antwort auf eine Zielabfrage umfassen.
In einigen Ausführungsformen kann das Verfahren 1000 b eispielsweise die Eingabe einer vorläufigen instruktive Sequenz, die eine vorläufige instruktive Abfrage und eine vorläufige instruktive Antwort enthält, in das maschinengelernte Modell umfassen. In einigen Ausführungsformen umfasst die vorläufige instruktive Antwort eine Vielzahl von vorläufigen instruktiven Abfragekomponenten.
In einigen Ausführungsformen kann das Verfahren 1000 beispielsweise eine erste Abfragekomponente und eine zweite Abfragekomponente umfassen, die mit einem anderen maschinengelernten Modell als dem maschinengelernten Modell erzeugt werden, das zur Ermittlung der ersten Antwortkomponente und der zweiten Antwortkomponente verwendet wird.
In einigen Ausführungsformen kann das Verfahren 1000 zum Beispiel eine zweite Abfragekomponente enthalten, die der Zielabfrage entspricht.
In einigen Ausführungsformen kann das Verfahren 1000 beispielsweise für eine Vielzahl von Iterationen eine oder mehrere Erzeugungs- und Eingabeoperationen umfassen, die aufeinander aufbauen. In einigen Ausführungsformen kann das Verfahren 1000 beispielsweise für eine Vielzahl von Iterationen das Erzeugen einer aktualisierten instruktiven Sequenz auf der Grundlage des Kombinierens einer oder mehrerer früherer Eingabesequenzen mit einer oder mehreren jeweils damit korrespondierenden Ausgabesequenzen, das Eingeben der aktualisierten instruktiven Sequenz und einer zusätzlichen Abfragekomponente in das maschinengelernte Modell und das Erzeugen einer zusätzlichen Antwortkomponente unter Verwendung des maschinengelernten Modells und als Antwort auf die zusätzliche Abfragekomponente umfassen.
Zusätzliche Offenlegung
Die hier erörterte Technologie bezieht sich auf Server, Datenbanken, Softwareanwendungen und andere computergestützte Systeme sowie auf Aktionen und Informationen, die an und von solchen Systemen gesendet werden. Die inhärente Flexibilität computergestützter Systeme ermöglicht eine große Vielfalt möglicher Konfigurationen, Kombinationen und Aufteilungen von Aufgaben und Funktionen zwischen und unter den Komponenten. Zum Beispiel können die hier beschriebenen Prozesse mit einem einzigen Gerät oder einer einzigen Komponente oder mit mehreren Geräten oder Komponenten in Kombination durchgeführt werden. Datenbanken und Anwendungen können auf einem einzigen System implementiert oder über mehrere Systeme verteilt werden. Verteilte Komponenten können sequentiell oder parallel arbeiten.
Obwohl der vorliegende Gegenstand im Hinblick auf verschiedene spezifische Ausführungsbeispiele detailliert beschrieben wurde, dient jedes Beispiel der Erläuterung und nicht der Einschränkung der Offenbarung. Fachleute, die das Vorstehende verstanden haben, können ohne Weiteres Änderungen, Variationen und Äquivalente zu diesen Ausführungsformen entwickeln. Dementsprechend schließt die vorliegende Offenbarung die Aufnahme solcher Modifikationen, Variationen oder Ergänzungen des vorliegenden Gegenstands nicht aus, die für einen Fachmann ohne weiteres erkennbar sind. So können beispielsweise Merkmale, die als Teil einer Ausführungsform dargestellt oder beschrieben sind, mit einer anderen Ausführungsform verwendet werden, um eine noch weitere Ausführungsform zu erhalten. Es ist daher beabsichtigt, dass die vorliegende Offenbarung solche Änderungen, Variationen und Äquivalente abdeckt.
Die Aspekte der Offenbarung wurden anhand illustrativer Ausführungsformen beschrieben. Alle Merkmale in den folgenden Ansprüchen können auf jede mögliche Weise kombiniert oder neu angeordnet werden, einschließlich Kombinationen von Ansprüchen, die nicht ausdrücklich in Kombination miteinander aufgezählt sind, da die hier aufgeführten Beispielsanspruchsabhängigkeiten nicht als Einschränkung des Umfangs möglicher Kombinationen von hier offengelegten Merkmalen verstanden werden sollten. Dementsprechend ist der Umfang der vorliegenden Offenbarung eher beispielhaft als einschränkend zu verstehen, und die vorliegende Offenbarung schließt die Einbeziehung solcher Modifikationen, Variationen oder Ergänzungen des vorliegenden Gegenstands nicht aus, die für einen Fachmann ohne weiteres erkennbar sind. Darüber hinaus werden hier Begriffe durch Aufzählungen von Beispielelementen beschrieben, die durch Konjunktionen wie „und“, „oder“, „aber“ usw. verbunden sind. Solche Konjunktionen dienen lediglich der Erläuterung. Sätze und andere Abfolgen von Elementen, die durch eine bestimmte Konjunktion wie „oder“ verbunden sind, können sich auf „und/oder“, „mindestens eines von“, „eine beliebige Kombination von“ der darin aufgeführten Beispielelemente usw. beziehen. Auch Begriffe wie „basierend auf“ sollten als „zumindest teilweise basierend auf“ verstanden werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 17/881746 [0002]
US 63/348637 [0002]

Zitierte Nicht-Patentliteratur

Roy et al., Reasoning about Quantities in Natural Language, Transactions of the Association for Computational Linguistics, 2015. doi: 10.1162 [0053]
Koncel-Kedziorski et al., MAWPS: A math wordproblem repository, In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2016. doi: 10.18653/vl/N16-1136 [0053]
Hosseini et al., Learning to solve arithmetic wordproblemswith verb categorization, In Proceedings of the 2014 Conference on Empirical Methods in Natural LanguageProcessing(EMNLP), 2014. doi: 10.3115/v1/D14-1058 [0053]
Miao et al., A diverse corpusfor evaluating anddeveloping English math word problem solvers, In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020. doi: 10.18653/vl/2020.acl-main.92 [0053]
Roy et al., Solving generalarithmetic wordproblems, In Proceedings of the 2015 Conference on EmpiricalMethods in Natural Language Processing, 2015 doi: 10.18653/vl/D15-1202 [0053]

Claims

Ein Computersystem zur verbesserten Aufforderung eines maschinengelernten Modells, wobei das System Folgendes umfasst: einen oder mehrere Prozessoren; und eine oder mehrere Speichervorrichtungen, die nichttransitorische, computerlesbare Befehle speichern, die ausführbar sind, um den einen oder die mehreren Prozessor(en) zu veranlassen, Operationen durchzuführen, wobei die Operationen Folgendes umfassen: Erhalten einer instruktiven Sequenz, die eine instruktive Abfrage, eine instruktive Antwort und eine instruktive Spur von Zwischenzuständen von der instruktiven Abfrage bis zur instruktiven Antwort beschreibt; Eingeben der instruktiven Sequenz und einer operativen Abfrage in ein maschinengelerntes Modell, wobei das maschinengelernte Modell so konfiguriert ist, dass es die operative Abfrage mit Aufmerksamkeit über die instruktive Sequenz verarbeitet; und Erzeugen einer operativen Antwort unter Verwendung des maschinengelernten Modells und als Antwort auf die operative Abfrage.
Das Computersystem nach Anspruch 1, wobei die Operationen Folgendes umfassen: Erzeugen, unter Verwendung des maschinengelernten Modells und als Antwort auf die operative Abfrage, von einer operativen Spur von Zwischenzuständen von der operativen Abfrage bis zur operativen Antwort.
Das Computersystem nach Anspruch 1, wobei die instruktive Sequenz der operativen Abfrage vorangestellt wird.
Das Computersystem nach Anspruch 2, wobei die instruktive Spur eine Kette von Zwischenantworten auf Zwischenabfragen umfasst.
Das Computersystem nach Anspruch 1, wobei die instruktive Sequenz ein Eingangsflag und ein Ausgangsflag umfasst.
Das Computersystem nach Anspruch 1, wobei das maschinengelernte Modell eine Transformatorarchitektur umfasst.
Das Computersystem nach Anspruch 6, wobei die instruktive Sequenz eine tokenisierte Darstellung natürlicher Sprache umfasst.
Das Computersystem nach Anspruch 6, wobei die instruktive Sequenz eine tokenisierte Darstellung einer computerausführbaren Kodierungssprache umfasst.
Das Computersystem nach Anspruch 8, wobei die instruktive Spur einen oder mehrere Zwischenzustände einer oder mehrerer Variablen umfasst, die durch die computerausführbare Kodierungssprache deklariert sind.
Das Computersystem nach Anspruch 1, wobei das Erzeugen der operativen Antwort Folgendes umfasst: Erzeugen, unter Verwendung des maschinengelernten Modells, einer Vielzahl von operativen Antworten; und Bestimmen der operativen Antwort auf der Grundlage einer Stichprobe aus der Vielzahl der operativen Antworten.
Das Computersystem nach Anspruch 10, wobei das Bestimmen der operativen Antwort Folgendes umfasst: Bestimmen einer Konsistenzmetrik auf der Grundlage der Stichprobe aus der Vielzahl der operativen Antworten.
Das Computersystem nach Anspruch 10, wobei die Stichprobe auf jeweiligen Wahrscheinlichkeiten basiert, die mit der Vielzahl der operativen Antworten verbunden sind.
Das Computersystem nach Anspruch 11, wobei die Konsistenzmetrik eine Pluralitätsab stimmung umfasst.
Das Computersystem nach Anspruch 11, wobei die Konsistenzmetrik eine Mehrheitsab stimmung umfasst.
Das Computersystem nach Anspruch 14, wobei die Mehrheitsabstimmung auf operativen Antworten basiert, die jeweils mit verschiedenen operativen Spuren verbunden sind.
Das Computersystem nach einem der vorhergehenden Ansprüche, wobei die operative Abfrage eine erste Abfragekomponente und die operative Antwort eine erste Antwortkomponente ist, und wobei die Operationen Folgendes umfassen: Eingeben der instruktiven Sequenz, der ersten Abfragekomponente, der ersten Antwortkomponente und einer zweiten Abfragekomponente in das maschinengelernte Modell; und Erzeugen einer zweiten Antwortkomponente unter Verwendung des maschinengelernten Modells und als Antwort auf die zweite Abfragekomponente.
Das Computersystem nach Anspruch 16, wobei die Operationen umfassen: Erzeugen, als Antwort auf eine Zielabfrage, von einer oder mehreren Abfragekomponenten.
Das Computersystem nach Anspruch 16 oder 17, wobei die Operationen Folgendes umfassen: Eingeben einer vorläufigen instruktiven Sequenz, die eine vorläufige instruktive Abfrage und eine vorläufige instruktive Antwort umfasst, durch das Computersystem und in das maschinengelernte Modell, wobei die vorläufige instruktive Antwort eine Vielzahl von vorläufigen instruktiven Abfragekomponenten umfasst.
Das Computersystem nach einem der Ansprüche 16 bis 18, wobei die erste Abfragekomponente und die zweite Abfragekomponente mit einem anderen maschinengelernten Modell erzeugt werden als das maschinengelernte Modell, das zum Erhalten der ersten Antwortkomponente und der zweiten Antwortkomponente verwendet wird.
Das Computersystem nach einem der Ansprüche 16 bis 19, wobei die zweite Abfragekomponente der Zielabfrage entspricht.
Das Computersystem nach einem der vorhergehenden Ansprüche, wobei die Operationen Folgendes umfassen: für eine Vielzahl von Iterationen: Erzeugen einer aktualisierten instruktiven Sequenz auf der Grundlage der Kombination einer oder mehrerer früherer Eingabesequenzen mit einer oder mehreren ihnen entsprechenden Ausgabesequenzen; Eingeben der aktualisierten instruktiven Sequenz und einer zusätzlichen Abfragekomponente in das maschinengelernte Modell; und Erzeugen einer zusätzlichen Antwortkomponente unter Verwendung des maschinengelernten Modells und als Antwort auf die zusätzliche Abfragekomponente.
Eine oder mehrere Speichervorrichtungen, die nichttransitorische, computerlesbare Befehle zur verbesserten Aufforderung eines maschinengelernten Modells speichern, wobei die Befehle ausführbar sind, um einen oder mehrere Prozessor(en) zu veranlassen, Operationen durchzuführen, wobei die Operationen umfassen: Erhalten einer instruktiven Sequenz, die eine instruktive Abfrage, eine instruktive Antwort und eine instruktive Spur von Zwischenzuständen von der instruktiven Abfrage bis zur instruktiven Antwort beschreibt; Eingeben der instruktiven Sequenz und einer operativen Abfrage in ein maschinengelerntes Modell, wobei das maschinengelernte Modell so konfiguriert ist, dass es die operative Abfrage mit Aufmerksamkeit über die instruktive Sequenz verarbeitet; und Erzeugen einer Vielzahl von operativen Antworten unter Verwendung des maschinengelernten Modells; Bestimmen einer Konsistenzmetrik auf der Grundlage einer Stichprobe aus der Vielzahl der operativen Antworten; und Bestimmen einer operativen Antwort auf der Grundlage der Konsistenzmetrik.
Die eine oder mehreren Speichervorrichtung(en) nach Anspruch 22, wobei die Konsistenzmetrik eine Vielzahl von Stimmen umfasst.
Die eine oder mehrere Speichervorrichtung(en) nach Anspruch 22, wobei die Konsistenzmetrik eine Mehrheitsabstimmung umfasst.
Die eine oder mehreren Speichervorrichtung(en) nach Anspruch 24, wobei die Mehrheitsabstimmung auf operativen Antworten basiert, die jeweils mit verschiedenen operativen Spuren verbunden sind.
Ein Computersystem zur verbesserten Aufforderung eines maschinengelernten Modells, wobei das System Folgendes umfasst: einen oder mehrere Prozessoren; und eine oder mehrere Speichervorrichtungen, die nichttransitorische, computerlesbare Befehle speichern, die ausführbar sind, um den einen oder die mehreren Prozessor(en) zu veranlassen, Operationen durchzuführen, wobei die Operationen Folgendes umfassen: Erhalten einer instruktiven Sequenz, die eine instruktive Abfrage, eine instruktive Antwort und eine instruktive Spur von Zwischenzuständen von der instruktiven Abfrage bis zur instruktiven Antwort beschreibt; Eingeben der instruktiven Sequenz und einer operativen Abfrage in ein maschinengelerntes Modell, wobei das maschinengelernte Modell so konfiguriert ist, dass es die operative Abfrage mit Aufmerksamkeit über die instruktive Sequenz verarbeitet; und Erzeugen einer Vielzahl von operativen Antworten unter Verwendung des maschinengelernten Modells; Bestimmen einer Konsistenzmetrik auf der Grundlage einer Stichprobe aus der Vielzahl der operativen Antworten; und Bestimmen einer operativen Antwort auf der Grundlage der Konsistenzmetrik.