DE212020000731U1

DE212020000731U1 - Kontrastives Vortraining für Sprachaufgaben

Info

Publication number: DE212020000731U1
Application number: DE212020000731.4U
Authority: DE
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-09-25
Filing date: 2020-09-21
Publication date: 2022-09-28
Anticipated expiration: 2030-09-22
Also published as: JP7419508B2; US20240160857A1; WO2021061555A1; JP2024036354A; CN114514540A; US11449684B2; US11914969B2; US20230015737A1; US20210089724A1; JP2022550326A

Abstract

Ein Rechnersystem, das Folgendes umfasst:
einen oder mehrere Prozessoren; und
ein oder mehrere nicht-übertragbare computerlesbare Medien, die Anweisungen zur Durchführung eines Verfahrens das umfasst:
für jede einzelne oder mehrere Trainingsiterationen:
Erhalten einer ursprünglichen Spracheingabe, die eine Vielzahl von ursprünglichen Eingabe-Token umfasst, durch ein Computersystem, das ein oder mehrere Computergeräte umfasst;
Auswahl eines oder mehrerer ursprünglicher Eingabezeichen durch das Computersystem, um als ein oder mehrere maskierte Zeichen zu dienen;
Generierung eines oder mehrerer Ersatzmünzen durch das Computersystem;
jeweiliges Ersetzen des einen oder der mehreren maskierten Token in der ursprünglichen Spracheingabe durch das Rechensystem mit dem einen oder den mehreren Ersatz-Token, um eine verrauschte Spracheingabe zu bilden, die eine Vielzahl von aktualisierten Eingabe-Token umfasst;
Verarbeiten der verrauschten Spracheingabe mit dem maschinengelernten Sprachcodierermodell durch das Computersystem, um eine Vielzahl von Vorhersagen jeweils für die Vielzahl von aktualisierten Eingabetoken zu erzeugen, wobei die von dem maschinengelernten Sprachcodierermodell erzeugte Vorhersage für jedes aktualisierte Eingabetoken vorhersagt, ob ein solches aktualisiertes Eingabetoken eines der ursprünglichen Eingabetoken oder eines der Ersatzeingabetoken ist; und
Trainieren des maschinengelernten Sprachkodierermodells durch das Computersystem, zumindest teilweise auf der Grundlage einer Verlustfunktion, die die Vielzahl der von dem maschinengelernten Sprachkodierermodell erzeugten Vorhersagen bewertet.

Description

VERWANDTE ANWENDUNGEN
Diese Anmeldung beansprucht Priorität und Nutzen der vorläufigen US-Patentanmeldung Nr. 62/905,602 , eingereicht am 25. September 2019, die hiermit in ihrer Gesamtheit durch Bezugnahme aufgenommen wird.
FELD
Die vorliegende Offenbarung bezieht sich allgemein auf die Verarbeitung natürlicher Sprache (NLP). Insbesondere bezieht sich die vorliegende Offenbarung auf Techniken zum Vortraining maschinell erlernter Sprachkodierungsmodelle.
HINTERGRUND
Frühe Arbeiten zur Vorschulung von Text-Encodern verwendeten Sprachmodellierungsziele. Ein Nachteil dieser Methoden ist, dass das resultierende Modell unidirektional ist - das Modell sieht zukünftige Token nicht, wenn es eine Repräsentation für das aktuelle Token erstellt. Daher stützen sich die derzeitigen modernen Pre-Training-Methoden hauptsächlich auf die maskierte Sprachmodellierung (MLM). Bei diesen Ansätzen wird eine kleine Teilmenge der Eingabe (in der Regel etwa 15 %) ausgewählt, die Identität der Token oder die Aufmerksamkeit für diese Token maskiert und das Modell dann so trainiert, dass es die ursprüngliche Eingabe wiederherstellt. Diese Ziele führen zwar zu bidirektionalen Modellen, sind aber mit einem erheblichen Rechenaufwand verbunden. Ein Beispiel: Die beträchtlichen Rechenkosten lassen sich zum Teil darauf zurückführen, dass das Modell nur aus 15 % der Token pro Beispiel lernt.
Während selbstüberwachtes Pre-Training für viele NLP-Aufgaben gute Ergebnisse liefert, benötigen diese Methoden auch große Mengen an Rechenleistung, um effektiv zu sein, was Bedenken hinsichtlich ihrer Kosten und Zugänglichkeit aufwirft. Da Pre-Training mit mehr Rechenaufwand fast immer zu einer besseren Genauigkeit führt, wird in der vorliegenden Offenlegung anerkannt, dass ein wichtiger Gesichtspunkt für Pre-Training-Methoden eher die Recheneffizienz als die absolute Downstream-Genauigkeit sein sollte. Unter diesem Gesichtspunkt wäre es wünschenswert, dass die Pre-Training-Algorithmen wesentlich rechen- und parametereffizienter sind.
ZUSAMMENFASSUNG
Aspekte und Vorteile von Ausführungsformen der vorliegenden Offenbarung werden zum Teil in der folgenden Beschreibung dargelegt oder können aus der Beschreibung entnommen werden oder können durch die Praxis der Ausführungsformen erlernt werden.
Ein Beispielaspekt der vorliegenden Offenbarung betrifft ein ein Rechnersystem, das Folgendes einen oder mehrere Prozessoren und ein oder mehrere nicht-übertragbare computerlesbare Medien, die Anweisungen zur Durchführung eines computerimplementierten Verfahrens umfasst. Das Verfahren kann für jede von einer oder mehreren Trainingsiterationen durchgeführt werden. Das computerimplementierte Verfahren umfasst das Erhalten einer ursprünglichen Spracheingabe, die eine Vielzahl von ursprünglichen Eingabetoken enthält, durch ein Computersystem, das ein oder mehrere Computergeräte umfasst. Das computerimplementierte Verfahren umfasst auch das Auswählen eines oder mehrerer aus der Vielzahl von Originaleingabezeichen durch das Rechensystem, um als ein oder mehrere maskierte Zeichen zu dienen. Das computerimplementierte Verfahren umfasst auch das Erzeugen eines oder mehrerer Ersatzzeichen durch das Computersystem. Das computerimplementierte Verfahren umfasst auch das jeweilige Ersetzen des einen oder der mehreren maskierten Token in der ursprünglichen Spracheingabe durch das Computersystem mit dem einen oder den mehreren Ersatz-Token, um eine verrauschte Spracheingabe zu bilden, die eine Vielzahl von aktualisierten Eingabe-Token enthält. Beispielsweise kann die Vielzahl der aktualisierten Eingabewörter eine Mischung aus dem einen oder den mehreren Ersatzwörtern und der Vielzahl der ursprünglichen Eingabewörter, die nicht als maskierte Wörter ausgewählt wurden, enthalten. Das computerimplementierte Verfahren umfasst auch das Verarbeiten der verrauschten Spracheingabe mit dem maschinengelernten Sprachcodiermodell durch das Computersystem, um eine Vielzahl von Vorhersagen für die Vielzahl von aktualisierten Eingabe-Token zu erzeugen, wobei die von dem maschinengelernten Sprachcodiermodell für jedes aktualisierte Eingabe-Token erzeugte Vorhersage vorhersagt, ob ein solches aktualisiertes Eingabe-Token eines der ursprünglichen Eingabe-Token oder eines der Ersatz-Eingabe-Token ist. Das computerimplementierte Verfahren umfasst auch das Trainieren des maschinengelernten Sprachkodierermodells durch das Computersystem, das zumindest teilweise auf einer Verlustfunktion basiert, die die Vielzahl der von dem maschinengelernten Sprachkodierermodell erzeugten Vorhersagen bewertet. Andere Ausführungsformen dieses Aspekts umfassen entsprechende Computersysteme, -vorrichtungen und -programme, die auf einem oder mehreren Computerspeichergeräten aufgezeichnet sind, die jeweils so konfiguriert sind, dass sie die Aktionen der Verfahren ausführen.
Beispielhafte Implementierungen können eines oder mehrere der folgenden Merkmale umfassen.
In einigen Implementierungen beinhaltet das Erzeugen des einen oder der mehreren Ersatz-Token durch das Computersystem das Erzeugen des einen oder der mehreren Ersatz-Token durch das Computersystem unter Verwendung eines maschinengelernten Sprachgeneratormodells.
In einigen Implementierungen enthält das maschinell erlernte Sprachgeneratormodell ein maskiertes Sprachmodell, das trainiert wurde, um die ein oder mehreren maskierten Token vorherzusagen.
In einigen Implementierungen umfasst das computerimplementierte Verfahren ferner: Trainieren des maschinell erlernten Sprachgeneratormodells durch das Computersystem, zumindest teilweise auf der Grundlage einer zweiten Verlustfunktion, die eine Differenz zwischen dem einen oder den mehreren Ersatzzeichen und dem einen oder den mehreren maskierten Zeichen bewertet.
In einigen Implementierungen beinhaltet die zweite Verlustfunktion eine Maximum-Likelihood-Schätzfunktion.
In einigen Implementierungen umfasst das Verfahren ferner: Trainieren des maschinengelernten Sprachgeneratormodells durch das Computersystem in einem Verstärkungslernschema auf der Grundlage einer zweiten Zielfunktion, die die vom maschinengelernten Sprachcodierermodell erzeugten Vorhersagen für die vom maschinengelernten Sprachgeneratormodell erzeugten Ersatz-Token bewertet.
In einigen Implementierungen umfasst das Verfahren das gemeinsame Trainieren des maschinengelernten Sprachgeneratormodells und des maschinengelernten Sprachcodierermodells durch das Computersystem auf der Grundlage einer kombinierten Verlustfunktion, die eine Kombination aus der Verlustfunktion und der zweiten Verlustfunktion enthält.
In einigen Implementierungen werden eine oder mehrere Gewichte zwischen dem maschinell erlernten Sprachgeneratormodell und dem maschinell erlernten Sprachcodiermodell geteilt. In einigen Implementierungen umfasst das maschinell erlernte Sprachkodierermodell einen Transformatornetzwerk-Textkodierer.
Wenn eines der Ersatz-Token gleich dem ursprünglichen Token ist, das es ersetzt, wertet die Verlustfunktion dieses Ersatz-Token so aus, als ob es in den ursprünglichen Eingabe-Token enthalten wäre.
In einigen Implementierungen umfassen die eine oder die mehreren Trainingsiterationen eine oder mehrere Vor-Trainingsiterationen; und das Verfahren umfasst nach der einen oder den mehreren Vor-Trainingsiterationen außerdem: die Durchführung einer oder mehrerer Feinabstimmungs-Trainingsiterationen, in denen das maschinell erlernte Sprachcodiermodell trainiert wird, um eine Sprachaufgabe auszuführen.
In einigen Implementierungen umfasst die Vielzahl der ursprünglichen Eingabe-Token eine Vielzahl von ursprünglichen Wörtern.
In einigen Implementierungen umfasst das Verfahren außerdem vor der einen oder mehreren Trainingsiterationen: individuelles Trainieren des maschinengelernten Sprachgeneratormodells auf der zweiten Verlustfunktion durch das Computersystem; und nach dem individuellen Trainieren des maschinengelernten Sprachgeneratormodells durch das Computersystem: Initialisieren des maschinengelernten Sprachcodierermodells mit Gewichtswerten, die auf dem maschinengelernten Sprachgeneratormodell basieren, durch das Computersystem.
In einigen Implementierungen beinhaltet das Erzeugen des einen oder der mehreren Ersatz-Token durch das Computersystem das Abtasten des einen oder der mehreren Ersatz-Token aus einer Rauschverteilung.
Ein weiterer allgemeiner Aspekt umfasst ein Computersystem, das einen oder mehrere Prozessoren enthält. Das Computersystem umfasst auch ein oder mehrere nicht-transitorische computerlesbare Medien, die ein maschinengelemtes Sprachcodierungsmodell speichern, das durch die Durchführung des Verfahrens erzeugt wurde. Andere Ausführungsformen dieses Aspekts umfassen entsprechende Computersysteme, - vorrichtungen und -programme, die auf einem oder mehreren Computerspeichergeräten aufgezeichnet sind, die jeweils so konfiguriert sind, dass sie die Aktionen der Verfahren durchführen und/oder die durch die Aktionen der Verfahren erzeugten Modelle speichern. Andere Aspekte der vorliegenden Offenbarung beziehen sich auf verschiedene Systeme, Vorrichtungen, nicht-übertragbare computerlesbare Medien, Benutzerschnittstellen und elektronische Geräte.
Diese und andere Merkmale, Aspekte und Vorteile verschiedener Ausführungsformen der vorliegenden Offenbarung werden durch Bezugnahme auf die folgende Beschreibung und die beigefügten Ansprüche besser verständlich. Die beigefügten Zeichnungen, die Bestandteil dieser Beschreibung sind, zeigen beispielhafte Ausführungsformen der vorliegenden Offenbarung und dienen zusammen mit der Beschreibung zur Erläuterung der zugehörigen Prinzipien.
Figurenliste
Eine ausführliche Erörterung von Ausführungsformen, die für einen Fachmann geeignet sind, wird in der Beschreibung dargelegt, die auf die beigefügten Figuren verweist, in denen:

In ist der Datenfluss in einem beispielhaften Pre-Trainingsprozess gemäß Ausführungsbeispielen der vorliegenden Offenbarung dargestellt.
zeigt ein Blockdiagramm eines beispielhaften Computersystems gemäß beispielhaften Ausführungsformen der vorliegenden Offenbarung.
zeigt ein Blockdiagramm eines beispielhaften Computergeräts gemäß Ausführungsbeispielen der vorliegenden Offenbarung.
zeigt ein Blockdiagramm einer beispielhaften Rechnereinrichtung gemäß Ausführungsbeispielen der vorliegenden Offenbarung.

Referenznummern, die sich in mehreren Figuren wiederholen, sollen die gleichen Merkmale in verschiedenen Ausführungen kennzeichnen.
AUSFÜHRLICHE BESCHREIBUNG Übersicht
Im Allgemeinen bezieht sich die vorliegende Offenlegung auf Systeme und Verfahren, die ein maschinell erlerntes Sprachkodierungsmodell durch die Verwendung einer kontrastiven Lernaufgabe trainieren. Insbesondere beschreibt die vorliegende Offenlegung eine kontrastive Lernaufgabe, bei der der Kodierer lernt, Eingabezeichen von plausiblen Alternativen zu unterscheiden. In einigen Implementierungen maskiert das vorgeschlagene Verfahren bei jedem Trainingsbeispiel eine Teilmenge (z. B. 15 %) der ursprünglichen Eingabetoken, ersetzt die maskierten Token durch Proben von einem „Generator“ (der z. B. ein kleines maskiertes Sprachmodell sein kann) und trainiert dann den Kodierer, um vorherzusagen, ob jedes Token aus den ursprünglichen Daten stammt oder ein vom Generator erzeugter Ersatz ist. Beispielexperimente in der vorläufigen US-Patentanmeldung Nr. 62/905,602 zeigen, dass diese Aufgabe effizienter ist als eine maskierte Sprachmodellierung, da der Verlust von allen eingegebenen Token stammt und nicht nur von der Teilmenge, die maskiert wurde. Der vorgeschlagene Ansatz ist auch parametereffizienter und liefert bessere Ergebnisse, wenn er bis zur Konvergenz trainiert wird.
Wie aus den experimentellen Beispieldaten in der vorläufigen US-Patentanmeldung Nr. 62/905,602 hervorgeht, übertreffen Beispielmodelle, die durch Beispielimplementierungen des vorgeschlagenen Ansatzes trainiert wurden, Methoden wie BERT und XLNet bei gleicher Modellgröße, gleichen Daten und gleicher Rechenleistung erheblich. Während der Ansatz besonders vorteilhaft für kleine Modelle ist, funktioniert er auch in großem Maßstab, wie die experimentellen Beispielergebnisse in der vorläufigen US-Patentanmeldung Nr. 62/905,602 zeigen, die zeigen, dass ein Beispielmodell gemäß der vorliegenden Offenbarung die Leistung von RoBERTa, dem aktuellen Stand der Technik vortrainierten Transformator, erreicht, während es weniger als ein Viertel der Rechenleistung benötigt.
Die Systeme und Verfahren der vorliegenden Offenbarung bieten eine Reihe von technischen Effekten und Vorteilen. Ein Beispiel für einen technischen Effekt und Vorteil ist, dass die Systeme und Verfahren der vorliegenden Offenbarung ein effizienteres Training eines Sprachkodierermodells ermöglichen. Insbesondere wird im Vergleich zu bestehenden maskierten Sprachmodellierungstechniken die Hauptaufgabe des Repräsentationslernens über alle Token und nicht nur über die maskierte Teilmenge gestellt, was sie recheneffizienter macht. So kann das Kodiermodell für jedes Trainingsbeispiel von 100 % der eingegebenen Token lernen und nicht nur von einem kleineren maskierten Prozentsatz (z. B. ~15 %). Dadurch kann das Modell schneller und über weniger Trainingsiterationen lernen (z. B. konvergieren). Durch die Verwendung von weniger Trainingsiterationen zum Trainieren des Modells werden Computerressourcen wie Prozessnutzung, Speichernutzung, Netzwerkbandbreite usw. geschont.
Ein weiteres Beispiel für einen technischen Effekt und Nutzen ist die verbesserte Modellleistung der vorgeschlagenen Techniken. Insbesondere beheben die vorgeschlagenen Techniken eine Fehlanpassung, die bei bestehenden maskierten Sprachmodellierungstechniken auftritt, bei denen das Modell künstliche [MASK]-Token während des Vortrainings, aber nicht während der Feinabstimmung/Tests sieht. Die Beseitigung dieser Diskrepanz führt zu einer verbesserten Modellleistung (z. B. Genauigkeit).
Mit Bezug auf die Abbildungen werden nun beispielhafte Ausführungsformen der vorliegenden Offenbarung näher erläutert.
Beispiel Schulungsprozess
zeigt den Datenfluss in einem beispielhaften Vortrainingsprozess für ein maschinell erlerntes Sprachcodierungsmodell 12 gemäß Ausführungsbeispielen der vorliegenden Offenbarung.
Der Prozess kann beinhalten, dass ein Computersystem, das ein oder mehrere Computergeräte umfasst, eine ursprüngliche Spracheingabe erhält, die eine Vielzahl von ursprünglichen Eingabetokens 18 („der“, „Künstler“, „verkauft“, „das“, „Gemälde“) enthält.
Der Prozess umfasst auch die Auswahl eines oder mehrerer der ursprünglichen Eingabezeichen 18 durch das Computersystem, um als ein oder mehrere maskierte Zeichen zu dienen. Im gezeigten Beispiel wurden die ursprünglichen Zeichen „das“ und „Bild“ ausgewählt, um als maskierte Zeichen zu dienen, wie in 20a und 20b gezeigt.
Das Verfahren umfasst auch die Erzeugung eines oder mehrerer Ersatz-Token 23a und 23b durch das Computersystem. Das Verfahren umfasst auch das Ersetzen des einen oder der mehreren maskierten Token 20a und 20b in der ursprünglichen Spracheingabe durch das Computersystem durch das eine oder die mehreren Ersatz-Token 23a und 23b, um eine verrauschte Spracheingabe zu bilden, die eine Vielzahl von aktualisierten Eingabe-Token 22 enthält, wobei die Vielzahl der aktualisierten Eingabe-Token 22 das eine oder die mehreren Ersatz-Token 23a und 23b und die Vielzahl der ursprünglichen Eingabe-Token 18 enthält, die nicht ausgewählt wurden, um als maskierte Token zu dienen.
Das Verfahren umfasst auch die Verarbeitung der verrauschten Spracheingabe durch das Computersystem mit dem maschinengelernten Sprachcodiermodell 12, um eine Vielzahl von Vorhersagen 24 für die Vielzahl aktualisierter Eingabetoken 22 zu erzeugen, wobei die von dem maschinengelernten Sprachcodiermodell erzeugte Vorhersage 24 für jedes aktualisierte Eingabetoken 22 vorhersagt, ob ein solches aktualisiertes Eingabetoken eines der ursprünglichen Eingabetoken 18 oder eines der Ersatzeingabetoken 23a und 23b ist.
Der Prozess umfasst auch das Trainieren des maschinell erlernten Sprachkodierermodells 12 durch das Computersystem, das zumindest teilweise auf einer Verlustfunktion 26 basiert, die die Vielzahl von Vorhersagen 24 bewertet, die von dem maschinell erlernten Sprachkodierermodell 12 erzeugt wurden.
In einigen Implementierungen enthält das maschinell erlernte Sprachgeneratormodell 14 ein maskiertes Sprachmodell, das trainiert wurde, um die ein oder mehreren maskierten Token 20a und 20b vorherzusagen.
In einigen Implementierungen umfasst der Prozess außerdem: Trainieren des maschinell erlernten Sprachgeneratormodells 14 durch das Computersystem, zumindest teilweise auf der Grundlage einer zweiten Verlustfunktion 28, die eine Differenz zwischen dem einen oder den mehreren Ersatz-Token 23a und 23b und dem einen oder den mehreren Token, die als maskierte Token ausgewählt wurden (z. B. „das“ und „Bild“), bewertet.
In einigen Implementierungen umfasst die zweite Verlustfunktion 28 eine Maximum-Likelihood-Schätzfunktion.
In einigen anderen Implementierungen (nicht abgebildet) umfasst der Prozess außerdem: Trainieren des maschinell erlernten Sprachgeneratormodells 14 durch das Computersystem in einem Verstärkungslernschema, das auf einer zweiten Zielfunktion 28 basiert, die die vom maschinell erlernten Sprachcodierermodell 12 erzeugten Vorhersagen 24 für die vom maschinell erlernten Sprachgeneratormodell 14 erzeugten Ersatz-Token 23a und 23b bewertet. Beispielsweise kann das Generatormodell 14 dafür belohnt werden, dass es das Kodiermodell 12 „überlistet“.
In einigen Implementierungen umfasst der Prozess das gemeinsame Trainieren des maschinengelernten Sprachgeneratormodells 14 und des maschinengelernten Sprachcodierermodells 12 durch das Computersystem auf der Grundlage einer kombinierten Verlustfunktion, die eine Kombination aus der Verlustfunktion 26 und der zweiten Verlustfunktion 28 enthält.
In einigen Implementierungen werden eine oder mehrere Gewichte zwischen dem maschinell erlernten Sprachgeneratormodell 14 und dem maschinell erlernten Sprachcodierermodell 12 geteilt. In einigen Implementierungen umfasst das maschinell erlernte Sprachcodierermodell 12 einen Transformator-Netzwerk-Textcodierer, wie in Vaswani et al. 2017 beschrieben.
In einigen Implementierungen, wenn eines der Ersatz-Token (z.B. 23a „das“) gleich dem ursprünglichen Token ist, das es ersetzt (z.B. „das“ aus 18), bewertet die Verlustfunktion 26 dieses Ersatz-Token 23a so, als ob es in den ursprünglichen Eingabe-Token 18 enthalten wäre. So wird beispielsweise die Vorhersage 24 von „real“ für „der“ 23a als korrekt angesehen.
In einigen Implementierungen kann das maschinell erlernte Sprachcodierungsmodell 12 nach dem in dargestellten Trainingsprozess feinabgestimmt werden, um eine Sprachverarbeitungsaufgabe durchzuführen. Zu den Sprachverarbeitungsaufgaben gehören beispielsweise die Beantwortung von Fragen, die Vervollständigung oder Vorhersage des nächsten Worts oder Satzes, die Übersetzung, die Erkennung von Entitäten, die Sprachklassifizierung und andere Sprachaufgaben.
Daher beziehen sich beispielhafte Aspekte der vorliegenden Offenlegung auf Systeme und Verfahren für kontrastives Vortraining. Wie in dargestellt, trainiert ein Beispielansatz zwei Modelle (z. B. neuronale Netze), einen Generator G 14 und einen Diskriminator D 12. Jedes dieser Modelle kann z. B. ein Kodierer sein oder umfassen, der eine Sequenz von Eingangstoken x = [x₁; x₂; ...; x_n] in eine Folge von kontextualisierten Vektordarstellungen umwandelt h(x) = [h₁] h2;...; h_n]. Ein Beispiel: Jeder Kodierer kann ein Transformer-Netzwerk oder ein anderes Netzwerk sein oder beinhalten, das Selbstaufmerksamkeit beinhaltet.
In einigen Implementierungen wird für eine bestimmte Position t (z. B. eine Position, bei der x_t=[MASK]) gibt der Generator 14 (z. B. unter Verwendung einer Softmax-Schicht) eine Wahrscheinlichkeit für die Erzeugung eines bestimmten Tokens x_t: $p_{G} (x_{t} | x) = exp (e {(x_{t})}^{T} h_{G} {(x)}_{t}) / \sum_{x'} exp (e {(x')}^{T} h_{G} {(x)}_{t})$
wobei e die Einbettung von Token bezeichnet. Für eine gegebene Position tsagt der Diskriminator 12 voraus, ob das Token x_t „echt“ ist, d. h., dass es aus der Datenverteilung und nicht aus der Generatorverteilung (z. B. einer Rauschverteilung) stammt. Ein Beispiel für einen Diskriminator lautet wie folgt: $D (x, t) = s i g m o i d (w^{T} h_{D} {(x)}_{t})$
wobei w den gelernten Gewichten des Diskriminators entspricht.
Der Generator 14 kann so trainiert werden, dass er eine maskierte Sprachmodellierung durchführt. Angesichts einer Eingabe x = [x₁; x₂; ... ; x_n] wählt die maskierte Sprachmodellierung zunächst einen zufälligen Satz von Positionen (ganze Zahlen zwischen 1 und n) zum Ausblenden von m = [m₁]...; m_k]. Die Token an den ausgewählten Positionen werden durch ein [MASK]-Token ersetzt, das wie folgt bezeichnet werden kann x^masked = REPLACE (x; m; [MASK]). Der Generator 14 kann dann lernen, die Wahrscheinlichkeit der ausmaskierten Zeichen zu maximieren. Der Diskriminator 12 kann so trainiert werden, dass er Token in den Daten von Token unterscheidet, die vom Generator 14 abgetastet wurden. Genauer gesagt, kann ein „verrauschtes“ Beispiel x^noised 22 erstellt werden, indem die ausmaskierten Zeichen 20a und 20b durch Generatorproben ersetzt werden. Der Diskriminator 12 kann dann trainiert werden, um vorherzusagen, welche Token in x^noised 22 nicht mit der ursprünglichen Eingabe x 18. Beispielhafte Ausdrücke für die Eingaben (die ersten drei Gleichungen) und die Generator- und Diskriminatorverluste (die letzten beiden Gleichungen) lauten formal wie folgt: $m_{i} ~ unif {1, n} for i = 1 to k$
$x^{m a s k e d} = REPLACE (x, m, [MASK])$
${\hat{x}}_{i} ~ p_{G} (x_{i} | x^{masked}) for i \in m$
$x^{noised} = REPLACE (x, m, \hat{x})$
$L_{MLM} (x, θ_{G}) = E (\sum_{i \in m} log p_{G} (x_{i} | x^{masked}))$
Obwohl es dem Trainingsziel eines GAN ähnlich ist, gibt es einige wichtige Unterschiede. Erstens: Wenn der Generator 14 zufällig das richtige Token erzeugt, wird dieses Token als „echt“ und nicht als „gefälscht“ betrachtet. Es hat sich gezeigt, dass diese Formulierung die Ergebnisse bei nachgelagerten Aufgaben verbessert. Noch wichtiger ist, dass in einigen Implementierungen der Generator 14 mit maximaler Wahrscheinlichkeit trainiert wird und nicht nachteilig trainiert wird, um den Diskriminator 12 zu täuschen. Das adversarische Training des Generators 12 ist eine Herausforderung, da es unmöglich ist, sich durch Stichproben aus dem Generator 14 rückwärts zu verbreiten. Schließlich nimmt der Generator 14 nur Kontext als Eingaben entgegen, während GANs dem GAN-Generator normalerweise auch einen Rauschvektor liefern.
Ein Lernziel ist zum Beispiel die Minimierung des kombinierten Verlustes: $\underset{θ_{G}, θ_{D}}{m|in} \sum_{x \in X} L_{MLM} (x, θ_{G}) + λ L_{DIsc} (x, θ_{D})$
über einen großen Textkorpus X von Rohtext. Bei einigen Implementierungen können die Erwartungen in Bezug auf die Verluste mit einer einzigen Stichprobe angenähert werden.
Weitere Beispielimplementierungen sind wie folgt.
Gewichtsteilung: Einige Beispielimplementierungen können die Effizienz des Pre-Trainings verbessern, indem die Gewichte zwischen Generator und Diskriminator geteilt werden. Wenn der Generator und der Diskriminator gleich groß sind, können alle oder ein Teil der Kodierergewichte gebunden werden. Es hat sich jedoch gezeigt, dass es besonders effizient ist, einen kleinen Generator zu haben, in dem z. B. nur die Token-Einbettungen des Generators und des Diskriminators gemeinsam genutzt werden. In diesem Fall können Token-Einbettungen verwendet werden, die der Größe der versteckten Zustände des Diskriminators entsprechen, und dann können lineare Projektionsschichten hinzugefügt werden, um sie auf die Größe der versteckten Zustände des Generators zu reduzieren. Die „Eingabe“- und „Ausgabe“-Einbettungen des Generators können wie bei BERT gebunden werden. Gebundene Token-Einbettungen können vorteilhaft sein, weil die maskierte Sprachmodellierung beim Lernen von Token-Repräsentationen besonders effektiv ist: Während der Diskriminator nur Token aktualisiert, die in der Eingabe vorhanden sind oder vom Generator abgetastet werden, aktualisiert die Softmax des Generators über das Vokabular dicht alle Token-Einbettungen.
Kleinere Generatoren: Wenn Generator und Diskriminator gleich groß sind, erfordert das Training der Modelle in der Regel etwa doppelt so viel Rechenaufwand pro Schritt wie das Training nur mit maskierter Sprachmodellierung. Daher verwenden einige Beispielimplementierungen einen kleineren Generator, um die Rechenkosten für das Training des Generators zu reduzieren. Die Modelle können verkleinert werden, indem die Größe der versteckten Schichten/Einbettungen verringert wird, während alle anderen Hyperparameter konstant bleiben. Interessanterweise kann die Verwendung eines kleineren Generators besser funktionieren als ein größerer, selbst wenn man den Unterschied im Rechenaufwand ignoriert. Ein möglicher Grund für dieses Verhalten ist, dass ein zu starker Generator eine zu große Herausforderung für den Diskriminator darstellen kann, was ihn daran hindert, so effektiv zu lernen.
Trainingsalgorithmen: Einige Beispiel-Trainingsziele trainieren den Generator und den Diskriminator gemeinsam. Andere Beispiel-Trainingsalgorithmen haben den folgenden zweistufigen Trainingsprozess: 1. Trainieren Sie nur den Generator mit L_MLM für n Schritten. 2. Initialisieren Sie die Gewichte des Diskriminators mit den Gewichten des Generators. Dann trainieren Sie den Diskriminator mit L_Disc für n Schritten, wobei die Gewichte des Generators eingefroren bleiben.
Beachten Sie, dass die Gewichtsinitialisierung bei diesem Verfahren die gleiche Größe für den Generator und den Diskriminator erfordert. Es hat sich gezeigt, dass der Diskriminator ohne die Gewichtsinitialisierung manchmal überhaupt nicht über die Mehrheitsklasse hinaus lernt, vielleicht weil der Generator so überzeugende Fälschungen produziert. Gemeinsames Training hingegen bietet natürlich einen Lehrplan für den Diskriminator, bei dem der Generator anfangs schwach ist, aber im Laufe des Trainings besser wird. Ein weiterer möglicher Ansatz besteht darin, den Generator adversarisch zu trainieren, wie in einem GAN, und dabei Verstärkungslemen zu verwenden, um die diskreten Vorgänge der Probenahme aus dem Generator zu berücksichtigen.
Nach dem Training können die vorgeschlagenen Modelle für eine Reihe verschiedener Aufgaben verwendet werden. So können beispielsweise Klassifizierungsaufgaben wie die Stimmungsanalyse durchgeführt werden (z. B. durch Hinzufügen einer Klassifizierungsschicht auf der Ausgabe des Modells). Eine weitere Beispielaufgabe ist die Beantwortung von Fragen, bei der ein System, das das Modell enthält, eine Frage zu einer Textsequenz erhält und die Antwort in der Sequenz markieren soll. In einem Beispiel kann ein Q&A-Modell trainiert werden, indem zwei zusätzliche Vektoren gelernt werden, die den Anfang und das Ende der Antwort markieren. Bei der Erkennung benannter Entitäten (Named Entity Recognition, NER) kann ein System einschließlich des Modells eine Textsequenz empfangen und die verschiedenen Arten von Entitäten (Person, Organisation, Datum usw.) markieren, die in dem Text vorkommen. In einem Beispiel kann ein NER-Modell trainiert werden, indem der Ausgabevektor jedes Tokens in eine Klassifizierungsschicht eingespeist wird, die das NER-Label vorhersagt. Die Generierung natürlicher Sprache ist eine weitere Beispielaufgabe, die durchgeführt werden kann (z. B. zur Förderung der Generierung vorgeschlagener Suchanfragen oder der Vorhersage des nächsten Worts).
Dementsprechend kann die Ausgabe des trainierten Sprachcodiermodells in eine oder mehrere Schichten des neuronalen Netzes eingegeben werden, um eine natürliche Sprachverarbeitungsaufgabe durchzuführen, wie z. B. Klassifizierung, Beantwortung von Fragen oder Erzeugung natürlicher Sprache. Die eine oder mehreren neuronalen Netzschichten können dann das Ergebnis der natürlichsprachlichen Aufgabe (z. B. eine Klassifizierung) ausgeben. Ein natürliches Sprachmodell für die spezifische natürlichsprachliche Aufgabe kann durch Feinabstimmung des vortrainierten Sprachkodierermodells trainiert werden. Die Parameter des vortrainierten Sprachkodierungsmodells können bei der Initialisierung in das untrainierte natürliche Sprachmodell (z. B. ein Klassifikationsmodell) eingegeben werden. Das natürliche Sprachmodell kann dann (z. B. mit überwachtem oder unüberwachtem Lernen) für seine spezifische (nachgelagerte) Aufgabe der natürlichen Sprachverarbeitung trainiert werden. Das vortrainierte Sprachcodierungsmodell kann daher genutzt werden, um das natürlichsprachliche Modell einfacher und effizienter zu trainieren (z. B. durch Verringerung des Trainingsaufwands und der erforderlichen Menge an Trainingsdaten und Erhöhung der Genauigkeit). Beim Training des natürlichen Sprachmodells können alle oder einige der Parameter des natürlichen Sprachmodells trainiert werden. Beispielsweise können beim Training alle Parameter aktualisiert werden, einschließlich derjenigen des trainierten Sprachcodiermodells, oder es können nur zusätzliche Parameter trainiert werden, die dem trainierten Sprachcodiermodell hinzugefügt werden.
Beispielgeräte und -systeme
zeigt ein Blockdiagramm eines Beispiel-Computersystems 100 gemäß Ausführungsbeispielen der vorliegenden Offenbarung. Das System 100 umfasst ein Benutzer-Computergerät 102, ein Server-Computersystem 130 und ein Schulungs-Computersystem 150, die über ein Netzwerk 180 kommunikativ gekoppelt sind.
Das Benutzer-Computergerät 102 kann jede Art von Computergerät sein, wie z.B. ein persönliches Computergerät (z.B. Laptop oder Desktop), ein mobiles Computergerät (z.B. Smartphone oder Tablet), eine Spielkonsole oder ein Controller, ein tragbares Computergerät, ein eingebettetes Computergerät oder jede andere Art von Computergerät.
Das Benutzer-Computergerät 102 umfasst einen oder mehrere Prozessoren 112 und einen Speicher 114. Bei dem einen oder den mehreren Prozessoren 112 kann es sich um ein beliebiges geeignetes Verarbeitungsgerät handeln (z. B. einen Prozessorkern, einen Mikroprozessor, einen ASIC, einen FPGA, einen Controller, einen Mikrocontroller usw.), und es kann sich um einen Prozessor oder eine Vielzahl von Prozessoren handeln, die operativ miteinander verbunden sind. Der Speicher 114 kann ein oder mehrere nicht transitorische, computerlesbare Speichermedien umfassen, wie RAM, ROM, EEPROM, EPROM, Flash-Speicher, Magnetplatten usw. und Kombinationen davon. Der Speicher 114 kann Daten 116 und Anweisungen 118 speichern, die vom Prozessor 112 ausgeführt werden, um das Benutzerrechengerät 102 zu veranlassen, Operationen durchzuführen.
In einigen Implementierungen kann das Benutzer-Computergerät 102 ein oder mehrere maschinengelernte Modelle 120 speichern oder enthalten. Beispielsweise können die maschinell erlernten Modelle 120 verschiedene maschinell erlernte Modelle wie neuronale Netze (z. B. tiefe neuronale Netze) oder andere Arten von maschinell erlernten Modellen, einschließlich nichtlinearer Modelle und/oder linearer Modelle, sein oder anderweitig umfassen. Neuronale Netze können neuronale Feed-Forward-Netze, rekurrente neuronale Netze (z. B. rekurrente neuronale Netze mit Langzeitgedächtnis), neuronale Faltungsnetze oder andere Formen von neuronalen Netzen umfassen. Beispiele für maschinell erlernte Modelle 120 werden unter Bezugnahme auf erörtert.
In einigen Implementierungen können das eine oder die mehreren maschinell erlernten Modelle 120 vom Server-Computersystem 130 über das Netzwerk 180 empfangen, im Speicher des Benutzer-Computersystems 114 gespeichert und dann von dem einen oder den mehreren Prozessoren 112 verwendet oder anderweitig implementiert werden. In einigen Implementierungen kann das Benutzer-Computergerät 102 mehrere parallele Instanzen eines einzelnen maschinell erlernten Modells 120 implementieren (z. B. um eine parallele Sprachkodierung/-verarbeitung über mehrere Instanzen von Sprachtokens durchzuführen).
Zusätzlich oder alternativ können ein oder mehrere maschinell erlernte Modelle 140 im Server-Computersystem 130, das mit dem Benutzer-Computergerät 102 gemäß einer Client-Server-Beziehung kommuniziert, enthalten oder anderweitig gespeichert und implementiert sein. Beispielsweise können die maschinengelernten Modelle 140 vom Server-Computersystem 140 als Teil eines Webdienstes (z. B. eines Sprachverarbeitungsdienstes) implementiert werden. Somit können ein oder mehrere Modelle 120 auf dem Benutzer-Computergerät 102 gespeichert und implementiert werden und/oder ein oder mehrere Modelle 140 können auf dem Server-Computersystem 130 gespeichert und implementiert werden.
Das Benutzer-Computergerät 102 kann auch eine oder mehrere Benutzereingabekomponenten 122 enthalten, die Benutzereingaben empfangen. Die Benutzereingabekomponente 122 kann beispielsweise eine berührungsempfindliche Komponente sein (z. B. ein berührungsempfindlicher Bildschirm oder ein Touchpad), die auf die Berührung eines Benutzereingabeobjekts (z. B. eines Fingers oder eines Stifts) reagiert. Die berührungsempfindliche Komponente kann zur Implementierung einer virtuellen Tastatur dienen. Andere Beispiele für Benutzereingabekomponenten sind ein Mikrofon, eine herkömmliche Tastatur oder andere Mittel, mit denen ein Benutzer Benutzereingaben machen kann.
Das Server-Computersystem 130 umfasst einen oder mehrere Prozessoren 132 und einen Speicher 134. Bei dem einen oder den mehreren Prozessoren 132 kann es sich um ein beliebiges geeignetes Verarbeitungsgerät handeln (z. B. einen Prozessorkern, einen Mikroprozessor, einen ASIC, ein FPGA, einen Controller, einen Mikrocontroller usw.) und es kann sich um einen Prozessor oder eine Vielzahl von Prozessoren handeln, die operativ miteinander verbunden sind. Der Speicher 134 kann ein oder mehrere nicht transitorische, computerlesbare Speichermedien umfassen, wie RAM, ROM, EEPROM, EPROM, Flash-Speicher, Magnetplatten usw. und Kombinationen davon. Der Speicher 134 kann Daten 136 und Anweisungen 138 speichern, die vom Prozessor 132 ausgeführt werden, um das Server-Computersystem 130 zu veranlassen, Operationen durchzuführen.
In einigen Implementierungen umfasst das Server-Computersystem 130 ein oder mehrere Server-Computergeräte oder wird anderweitig durch diese implementiert. In Fällen, in denen das Server-Computersystem 130 mehrere Server-Computergeräte umfasst, können solche Server-Computergeräte gemäß sequenziellen Computerarchitekturen, parallelen Computerarchitekturen oder einer Kombination davon arbeiten.
Wie oben beschrieben, kann das Server-Computersystem 130 ein oder mehrere maschinell erlernte Modelle 140 speichern oder anderweitig enthalten. Zum Beispiel können die Modelle 140 verschiedene maschinell erlernte Modelle sein oder anderweitig enthalten. Beispiele für maschinell erlernte Modelle sind neuronale Netze oder andere mehrschichtige nichtlineare Modelle. Beispiele für neuronale Netze sind neuronale Vorwärtsnetzwerke, tiefe neuronale Netze, rekurrente neuronale Netze und neuronale Faltungsnetzwerke. Beispielmodelle 140 werden unter Bezugnahme auf erörtert.
Das Benutzer-Computergerät 102 und/oder das Server-Computersystem 130 können die Modelle 120 und/oder 140 durch Interaktion mit dem Trainings-Computersystem 150 trainieren, das über das Netzwerk 180 kommunikativ gekoppelt ist. Das Trainingscomputersystem 150 kann von dem Server-Computersystem 130 getrennt sein oder ein Teil des Server-Computersystems 130 sein.
Das Trainingscomputersystem 150 umfasst einen oder mehrere Prozessoren 152 und einen Speicher 154. Bei dem einen oder den mehreren Prozessoren 152 kann es sich um ein beliebiges geeignetes Verarbeitungsgerät handeln (z. B. einen Prozessorkern, einen Mikroprozessor, einen ASIC, einen FPGA, einen Controller, einen Mikrocontroller usw.), und es kann sich um einen Prozessor oder eine Vielzahl von Prozessoren handeln, die operativ miteinander verbunden sind. Der Speicher 154 kann ein oder mehrere nicht transitorische, computerlesbare Speichermedien umfassen, wie RAM, ROM, EEPROM, EPROM, Flash-Speicher, Magnetplatten usw. und Kombinationen davon. Der Speicher 154 kann Daten 156 und Anweisungen 158 speichern, die vom Prozessor 152 ausgeführt werden, um das Trainingscomputersystem 150 zu veranlassen, Operationen durchzuführen. In einigen Implementierungen umfasst das Trainingscomputersystem 150 ein oder mehrere Server-Computergeräte oder wird anderweitig durch diese implementiert.
Das Trainingscomputersystem 150 kann einen Modelltrainer 160 enthalten, der die maschinell erlernten Modelle 120 und/oder 140, die auf dem Benutzer-Computergerät 102 und/oder dem Server-Computersystem 130 gespeichert sind, unter Verwendung verschiedener Trainings- oder Lerntechniken trainiert, wie z. B. der Rückwärtsfortpflanzung von Fehlern. Zum Beispiel kann eine Verlustfunktion durch das/die Modell(e) rückwärts propagiert werden, um einen oder mehrere Parameter des/der Modells/Modelle zu aktualisieren (z.B. basierend auf einem Gradienten der Verlustfunktion). Es können verschiedene Verlustfunktionen verwendet werden, wie der mittlere quadratische Fehler, der Wahrscheinlichkeitsverlust, der Kreuzentropieverlust, der Scharnierverlust und/oder verschiedene andere Verlustfunktionen. Gradientenabstiegsverfahren können zur iterativen Aktualisierung der Parameter über eine Anzahl von Trainingsiterationen verwendet werden.
In einigen Implementierungen kann die Rückwärtsfortpflanzung von Fehlern eine abgeschnittene Backpropagation durch die Zeit beinhalten. Der Modelltrainer 160 kann eine Reihe von Verallgemeinerungstechniken (z. B. Gewichtsabfälle, Ausfälle usw.) durchführen, um die Verallgemeinerungsfähigkeit der trainierten Modelle zu verbessern.
Insbesondere kann der Modelltrainer 160 die maschinengelernten Modelle 120 und/oder 140 auf der Grundlage eines Satzes von Trainingsdaten 162 trainieren. Die Trainingsdaten 162 können z. B. Sätze von Beispiel-Eingabe-Token enthalten.
In einigen Implementierungen können die Trainingsbeispiele vom Benutzer-Computergerät 102 bereitgestellt werden, wenn der Benutzer seine Zustimmung erteilt hat. In solchen Implementierungen kann das Modell 120, das dem Benutzer-Computergerät 102 zur Verfügung gestellt wird, durch das Trainings-Computersystem 150 anhand von benutzerspezifischen Daten, die vom Benutzer-Computergerät 102 empfangen wurden, trainiert werden. In einigen Fällen kann dieser Prozess als Personalisierung des Modells bezeichnet werden.
Der Modelltrainer 160 enthält Computerlogik, die zur Bereitstellung der gewünschten Funktionalität verwendet wird. Der Modelltrainer 160 kann in Hardware, Firmware und/oder Software implementiert sein, die einen Mehrzweckprozessor steuert. In einigen Implementierungen umfasst der Modelltrainer 160 beispielsweise Programmdateien, die auf einem Speichergerät gespeichert, in einen Speicher geladen und von einem oder mehreren Prozessoren ausgeführt werden. In anderen Implementierungen umfasst der Modelltrainer 160 einen oder mehrere Sätze von computerausführbaren Anweisungen, die in einem greifbaren computerlesbaren Speichermedium wie einer RAM-Festplatte oder einem optischen oder magnetischen Medium gespeichert sind.
Das Netzwerk 180 kann jede Art von Kommunikationsnetzwerk sein, wie z. B. ein lokales Netzwerk (z. B. Intranet), ein Weitverkehrsnetzwerk (z. B. Internet) oder eine Kombination davon und kann eine beliebige Anzahl von drahtgebundenen oder drahtlosen Verbindungen umfassen. Im Allgemeinen kann die Kommunikation über das Netzwerk 180 über jede Art von drahtgebundener und/oder drahtloser Verbindung erfolgen, wobei eine Vielzahl von Kommunikationsprotokollen (z. B. TCP/IP, HTTP, SMTP, FTP), Kodierungen oder Formaten (z. B. HTML, XML) und/oder Schutzverfahren (z. B. VPN, sicheres HTTP, SSL) verwendet werden können.
zeigt ein Beispiel für ein Computersystem, das für die Umsetzung der vorliegenden Offenbarung verwendet werden kann. Andere Rechnersysteme können ebenfalls verwendet werden. Zum Beispiel kann in einigen Implementierungen das Benutzer-Computergerät 102 den Modelltrainer 160 und den Trainingsdatensatz 162 enthalten. In solchen Implementierungen können die Modelle 120 sowohl trainiert als auch lokal auf dem Benutzer-Computergerät 102 verwendet werden. In einigen dieser Implementierungen kann das Benutzer-Computergerät 102 den Modelltrainer 160 implementieren, um die Modelle 120 basierend auf benutzerspezifischen Daten zu personalisieren.
zeigt ein Blockdiagramm eines Beispiel-Computergeräts 10, das gemäß Ausführungsbeispielen der vorliegenden Offenbarung arbeitet. Das Computergerät 10 kann ein Benutzer-Computergerät oder ein Server-Computergerät sein.
Das Computergerät 10 enthält eine Reihe von Anwendungen (z. B. die Anwendungen 1 bis N). Jede Anwendung enthält ihre eigene maschinelle Lernbibliothek und maschinell erlemte(s) Modell(e). Zum Beispiel kann jede Anwendung ein maschinell erlerntes Modell enthalten. Beispielanwendungen sind eine Textnachrichtenanwendung, eine E-Mail-Anwendung, eine Diktieranwendung, eine virtuelle Tastaturanwendung, eine Browseranwendung usw.
Wie in dargestellt, kann jede Anwendung mit einer Reihe anderer Komponenten des Computergeräts kommunizieren, wie z. B. einem oder mehreren Sensoren, einem Kontextmanager, einer Gerätezustandskomponente und/oder zusätzlichen Komponenten. In einigen Implementierungen kann jede Anwendung mit jeder Gerätekomponente über eine API (z. B. eine öffentliche API) kommunizieren. In einigen Implementierungen ist die von jeder Anwendung verwendete API spezifisch für diese Anwendung.
zeigt ein Blockdiagramm eines Beispiel-Computergeräts 50, das gemäß Ausführungsbeispielen der vorliegenden Offenbarung arbeitet. Das Computergerät 50 kann ein Benutzer-Computergerät oder ein Server-Computergerät sein.
Das Computergerät 50 enthält eine Reihe von Anwendungen (z. B. die Anwendungen 1 bis N). Jede Anwendung steht in Kommunikation mit einer zentralen Intelligenzschicht. Beispielanwendungen sind eine Textnachrichtenanwendung, eine E-Mail-Anwendung, eine Diktieranwendung, eine virtuelle Tastaturanwendung, eine Browseranwendung usw. In einigen Implementierungen kann jede Anwendung mit der zentralen Intelligenzschicht (und dem/den darin gespeicherten Modell(en)) über eine API kommunizieren (z. B. eine gemeinsame API für alle Anwendungen).
Die zentrale Intelligenzschicht umfasst eine Reihe von maschinengelernten Modellen. Wie in dargestellt, kann beispielsweise für jede Anwendung ein eigenes maschinengelemtes Modell (z. B. ein Modell) bereitgestellt und von der zentralen Intelligenzschicht verwaltet werden. In anderen Implementierungen können sich zwei oder mehr Anwendungen ein einziges maschinengelemtes Modell teilen. In einigen Implementierungen kann die zentrale Intelligenzschicht zum Beispiel ein einziges Modell (z. B. ein einziges Modell) für alle Anwendungen bereitstellen. In einigen Implementierungen ist die zentrale Intelligenzschicht in einem Betriebssystem des Computergeräts 50 enthalten oder wird anderweitig von diesem implementiert.
Die zentrale Intelligenzschicht kann mit einer zentralen Gerätedatenschicht kommunizieren. Die zentrale Gerätedatenschicht kann ein zentraler Datenspeicher für das Computergerät 50 sein. Wie in dargestellt, kann die zentrale Gerätedatenschicht mit einer Reihe anderer Komponenten des Computergeräts kommunizieren, wie z. B. einem oder mehreren Sensoren, einem Kontextmanager, einer Gerätezustandskomponente und/oder zusätzlichen Komponenten. In einigen Implementierungen kann die zentrale Gerätedatenschicht mit jeder Gerätekomponente über eine API (z. B. eine private API) kommunizieren.
Zusätzliche Offenlegung
Die hier erörterte Technologie bezieht sich auf Server, Datenbanken, Softwareanwendungen und andere computergestützte Systeme sowie auf Aktionen und Informationen, die an und von solchen Systemen gesendet werden. Die inhärente Flexibilität computergestützter Systeme ermöglicht eine große Vielfalt möglicher Konfigurationen, Kombinationen und Aufteilungen von Aufgaben und Funktionen zwischen und unter den Komponenten. Zum Beispiel können die hier beschriebenen Prozesse mit einem einzigen Gerät oder einer einzigen Komponente oder mit mehreren Geräten oder Komponenten in Kombination durchgeführt werden. Datenbanken und Anwendungen können auf einem einzigen System implementiert oder über mehrere Systeme verteilt werden. Verteilte Komponenten können sequentiell oder parallel arbeiten.
Ein System aus einem oder mehreren Computern kann so konfiguriert werden, dass es bestimmte Operationen oder Aktionen durchführt, indem Software, Firmware, Hardware oder eine Kombination davon auf dem System installiert wird, die im Betrieb das System veranlasst oder veranlassen, die Aktionen durchzuführen. Ein oder mehrere Computerprogramme können so konfiguriert werden, dass sie bestimmte Operationen oder Aktionen durchführen, indem sie Anweisungen enthalten, die bei Ausführung durch eine Datenverarbeitungsvorrichtung die Vorrichtung veranlassen, die Aktionen durchzuführen. Implementierungen der beschriebenen Techniken können Hardware, ein Verfahren oder einen Prozess oder Computersoftware auf einem für den Computer zugänglichen Medium umfassen.
Obwohl der vorliegende Gegenstand im Hinblick auf verschiedene spezifische Ausführungsbeispiele detailliert beschrieben wurde, dient jedes Beispiel der Erläuterung und nicht der Einschränkung der Offenbarung. Fachleute, die das Vorstehende verstanden haben, können ohne weiteres Änderungen, Variationen und Äquivalente zu diesen Ausführungsformen entwickeln. Dementsprechend schließt die vorliegende Offenbarung die Aufnahme solcher Modifikationen, Variationen und/oder Ergänzungen des vorliegenden Gegenstands nicht aus, die für einen Fachmann ohne weiteres erkennbar sind. So können beispielsweise Merkmale, die als Teil einer Ausführungsform dargestellt oder beschrieben sind, mit einer anderen Ausführungsform verwendet werden, um eine noch weitere Ausführungsform zu erhalten. Es ist daher beabsichtigt, dass die vorliegende Offenbarung solche Änderungen, Variationen und Äquivalente abdeckt.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 62/905602 [0001]
US 62905602 [0024, 0025]

Claims

Ein Rechnersystem, das Folgendes umfasst: einen oder mehrere Prozessoren; und ein oder mehrere nicht-übertragbare computerlesbare Medien, die Anweisungen zur Durchführung eines Verfahrens das umfasst: für jede einzelne oder mehrere Trainingsiterationen: Erhalten einer ursprünglichen Spracheingabe, die eine Vielzahl von ursprünglichen Eingabe-Token umfasst, durch ein Computersystem, das ein oder mehrere Computergeräte umfasst; Auswahl eines oder mehrerer ursprünglicher Eingabezeichen durch das Computersystem, um als ein oder mehrere maskierte Zeichen zu dienen; Generierung eines oder mehrerer Ersatzmünzen durch das Computersystem; jeweiliges Ersetzen des einen oder der mehreren maskierten Token in der ursprünglichen Spracheingabe durch das Rechensystem mit dem einen oder den mehreren Ersatz-Token, um eine verrauschte Spracheingabe zu bilden, die eine Vielzahl von aktualisierten Eingabe-Token umfasst; Verarbeiten der verrauschten Spracheingabe mit dem maschinengelernten Sprachcodierermodell durch das Computersystem, um eine Vielzahl von Vorhersagen jeweils für die Vielzahl von aktualisierten Eingabetoken zu erzeugen, wobei die von dem maschinengelernten Sprachcodierermodell erzeugte Vorhersage für jedes aktualisierte Eingabetoken vorhersagt, ob ein solches aktualisiertes Eingabetoken eines der ursprünglichen Eingabetoken oder eines der Ersatzeingabetoken ist; und Trainieren des maschinengelernten Sprachkodierermodells durch das Computersystem, zumindest teilweise auf der Grundlage einer Verlustfunktion, die die Vielzahl der von dem maschinengelernten Sprachkodierermodell erzeugten Vorhersagen bewertet.
Das Rechnersystem nach Anspruch 1, wobei Erzeugen des einen oder der mehreren Ersatz-Token durch das Computersystem das Erzeugen des einen oder der mehreren Ersatz-Token durch das Computersystem unter Verwendung eines maschinengelernten Sprachgeneratormodells umfasst.
Das Rechnersystem nach Anspruch 2, wobei das maschinell-gelernte Sprachgeneratormodell ein maskiertes Sprachmodell umfasst, das trainiert wurde, um das eine oder mehrere maskierte Token vorherzusagen.
Das Rechnersystem nach Anspruch 2 oder 3, wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfassen zum: Trainieren des maschinengelernten Sprachgeneratormodells durch das Computersystem zumindest teilweise auf der Grundlage einer zweiten Verlustfunktion, die eine Differenz zwischen dem einen oder den mehreren Ersatzzeichen und dem einen oder den mehreren ursprünglichen Zeichen, die als maskierte Zeichen ausgewählt wurden, bewertet.
Das Rechnersystem nach Anspruch 4, wobei die zweite Verlustfunktion eine Maximum-Likelihood-Schätzfunktion umfasst.
Das Rechnersystem nach einem der Ansprüche 2-5, wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfassen zum: Trainieren des maschinengelernten Sprachgeneratormodells durch das Computersystem in einem Verstärkungslernschema auf der Grundlage einer zweiten Zielfunktion, die die von dem maschinengelernten Sprachcodierermodell erzeugten Vorhersagen für die von dem maschinengelernten Sprachgeneratormodell erzeugten Ersatz-Token bewertet.
Das Rechnersystem nach einem der Ansprüche 4 bis 6, wobei das Verfahren das gemeinsame Trainieren des maschinengelernten Sprachgeneratormodells und des maschinengelernten Sprachcodierermodells durch das Computersystem auf der Grundlage einer kombinierten Verlustfunktion umfasst, die eine Kombination aus der Verlustfunktion und der zweiten Verlustfunktion umfasst.
Das Rechnersystem nach einem der Ansprüche 4-6, , wobei das Verfahren weiterhin vor der einen oder mehreren Trainingsiterationen umfasst: individuelles Trainieren des maschinengelernten Sprachgeneratormodells auf der zweiten Verlustfunktion durch das Rechensystem; und nach individuellem Training des maschinell erlernten Sprachgeneratormodells durch das Rechensystem: Initialisierung des maschinengelernten Sprachcodiermodells mit Gewichtungswerten, die auf dem maschinengelernten Sprachgeneratormodell basieren, durch das Computersystem.
Das Rechnersystem nach einem der Ansprüche 2-8, wobei eine oder mehrere Gewichte zwischen dem maschinengelernten Sprachgeneratormodell und dem maschinengelernten Sprachcodierermodell geteilt werden.
Das Rechnersystem nach Anspruch 1, wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfassen zum, bei dem Erzeugen , durch das Rechensystem des einen oder der mehreren Ersatz-Token, Abtasten des einen oder der mehreren Ersatz-Token aus einer Rauschverteilung durch das Rechensystem.
Das Rechnersystem nach einem der vorhergehenden Ansprüche, wobei das maschinengelernte Sprachcodierermodell einen Transformator-Netzwerktextcodierer umfasst.
Das Rechnersystem nach einem der vorhergehenden Ansprüche, wobei, wenn eines der Ersatz-Token gleich dem ursprünglichen Token ist, das es ersetzt, die Verlustfunktion ein solches Ersatz-Token bewertet, als ob es in den ursprünglichen Eingabe-Token enthalten wäre.
Das Rechnersystem nach einem der vorhergehenden Ansprüche, wobei: die eine oder mehreren Trainingsiterationen eine oder mehrere Vor-Trainingsiterationen umfassen; und wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfasst zur, nach der einen oder mehreren Vor-Trainingsiterationen: Durchführung einer oder mehrerer Feinabstimmungs-Trainingsiterationen, in denen das maschinell erlernte Sprachcodierungsmodell für die Durchführung einer Sprachaufgabe trainiert wird.
Das Rechnersystem nach einem der vorhergehenden Ansprüche, wobei die mehreren ursprünglichen Eingabemarken mehrere ursprüngliche Wörter umfassen.
Das Rechnersystem nach Anspruch 1, wobei das eine oder die mehreren nicht-übertragbaren computerlesbaren Medien weiterhin das maschinengelernte Sprachcodierermodell speichern.
Das Rechnersystem nach Anspruch 1 oder 15, wobei das eine oder die mehreren nicht-übertragbaren computerlesbaren Medien weiterhin das maschinengelernte Sprachgeneratormodell speichern.
Ein oder mehrere nicht-übertragbare computerlesbare Medien, die Anweisungen beinhalten zur Durchführung eines Verfahrens umfassend: für jede einzelne oder mehrere Trainingsiterationen: Erhalten einer ursprünglichen Spracheingabe, die eine Vielzahl von ursprünglichen Eingabe-Token umfasst, durch ein Computersystem, das ein oder mehrere Computergeräte umfasst; Auswahl eines oder mehrerer ursprünglicher Eingabezeichen durch das Computersystem, um als ein oder mehrere maskierte Zeichen zu dienen; Generierung eines oder mehrerer Ersatzmünzen durch das Computersystem; jeweiliges Ersetzen des einen oder der mehreren maskierten Token in der ursprünglichen Spracheingabe durch das Rechensystem mit dem einen oder den mehreren Ersatz-Token, um eine verrauschte Spracheingabe zu bilden, die eine Vielzahl von aktualisierten Eingabe-Token umfasst; Verarbeiten der verrauschten Spracheingabe mit dem maschinengelernten Sprachcodierermodell durch das Computersystem, um eine Vielzahl von Vorhersagen jeweils für die Vielzahl von aktualisierten Eingabetoken zu erzeugen, wobei die von dem maschinengelernten Sprachcodierermodell erzeugte Vorhersage für jedes aktualisierte Eingabetoken vorhersagt, ob ein solches aktualisiertes Eingabetoken eines der ursprünglichen Eingabetoken oder eines der Ersatzeingabetoken ist; und Trainieren des maschinengelernten Sprachkodierermodells durch das Computersystem, zumindest teilweise auf der Grundlage einer Verlustfunktion, die die Vielzahl der von dem maschinengelernten Sprachkodierermodell erzeugten Vorhersagen bewertet.
Computerlesbare Medien nach Anspruch 17, wobei Erzeugen des einen oder der mehreren Ersatz-Token durch das Computersystem das Erzeugen des einen oder der mehreren Ersatz-Token durch das Computersystem unter Verwendung eines maschinengelernten Sprachgeneratormodells umfasst.
Computerlesbare Medien nach Anspruch 18, wobei das maschinell-gelernte Sprachgeneratormodell ein maskiertes Sprachmodell umfasst, das trainiert wurde, um das eine oder mehrere maskierte Token vorherzusagen.
Computerlesbare Medien nach Anspruch 18 oder 19, wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfassen zum: Trainieren des maschinengelernten Sprachgeneratormodells durch das Computersystem zumindest teilweise auf der Grundlage einer zweiten Verlustfunktion, die eine Differenz zwischen dem einen oder den mehreren Ersatzzeichen und dem einen oder den mehreren ursprünglichen Zeichen, die als maskierte Zeichen ausgewählt wurden, bewertet.
Computerlesbare Medien nach Anspruch 20, wobei die zweite Verlustfunktion eine Maximum-Likelihood-Schätzfunktion umfasst.
Computerlesbare Medien nach einem der Ansprüche 18-21, wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfassen zum: Trainieren des maschinengelernten Sprachgeneratormodells durch das Computersystem in einem Verstärkungslernschema auf der Grundlage einer zweiten Zielfunktion, die die von dem maschinengelernten Sprachcodierermodell erzeugten Vorhersagen für die von dem maschinengelernten Sprachgeneratormodell erzeugten Ersatz-Token bewertet.
Computerlesbare Medien nach einem der Ansprüche 20 bis 22, wobei das Verfahren das gemeinsame Trainieren des maschinengelernten Sprachgeneratormodells und des maschinengelernten Sprachcodierermodells durch das Computersystem auf der Grundlage einer kombinierten Verlustfunktion umfasst, die eine Kombination aus der Verlustfunktion und der zweiten Verlustfunktion umfasst.
Computerlesbare Medien nach einem der Ansprüche 20-22, wobei das Verfahren weiterhin vor der einen oder mehreren Trainingsiterationen umfasst: individuelles Trainieren des maschinengelernten Sprachgeneratormodells auf der zweiten Verlustfunktion durch das Rechensystem; und nach individuellem Training des maschinell erlernten Sprachgeneratormodells durch das Rechensystem: Initialisierung des maschinengelernten Sprachcodiermodells mit Gewichtungswerten, die auf dem maschinengelernten Sprachgeneratormodell basieren, durch das Computersystem.
Computerlesbare Medien nach einem der Ansprüche 18-24, wobei eine oder mehrere Gewichte zwischen dem maschinengelernten Sprachgeneratormodell und dem maschinengelernten Sprachcodierermodell geteilt werden.
Computerlesbare Medien nach Anspruch 17, wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfassen zum, bei dem Erzeugen, durch das Rechensystem des einen oder der mehreren Ersatz-Token, Abtasten des einen oder der mehreren Ersatz-Token aus einer Rauschverteilung durch das Rechensystem.
Computerlesbare Medien nach einem der Ansprüche 17 bis 26, wobei das maschinengelernte Sprachcodierermodell einen Transformator-Netzwerktextcodierer umfasst.
Computerlesbare Medien nach einem der Ansprüche 17 bis 27, wobei, wenn eines der Ersatz-Token gleich dem ursprünglichen Token ist, das es ersetzt, die Verlustfunktion ein solches Ersatz-Token bewertet, als ob es in den ursprünglichen Eingabe-Token enthalten wäre.
Computerlesbare Medien nach einem der Ansprüche 17 bis 28, wobei: die eine oder mehreren Trainingsiterationen eine oder mehrere Vor-Trainingsiterationen umfassen; und wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfasst zur, nach der einen oder mehreren Vor-Trainingsiterationen: Durchführung einer oder mehrerer Feinabstimmungs-Trainingsiterationen, in denen das maschinell erlernte Sprachcodierungsmodell für die Durchführung einer Sprachaufgabe trainiert wird.
Computerlesbare Medien nach einem der Ansprüche 17 bis 29, wobei die mehreren ursprünglichen Eingabemarken mehrere ursprüngliche Wörter umfassen.
Ein Rechnersystem, das Folgendes umfasst: einen oder mehrere Prozessoren; und ein oder mehrere nicht-übertragbare computerlesbare Medien, die ein maschinell erlerntes Sprachcodierungsmodell speichern, das erzeugt wurde durch die Durchführung eines Verfahrens umfassend: für jede einzelne oder mehrere Trainingsiterationen: Erhalten einer ursprünglichen Spracheingabe, die eine Vielzahl von ursprünglichen Eingabe-Token umfasst, durch ein Computersystem, das ein oder mehrere Computergeräte umfasst; Auswahl eines oder mehrerer ursprünglicher Eingabezeichen durch das Computersystem, um als ein oder mehrere maskierte Zeichen zu dienen; Generierung eines oder mehrerer Ersatzmünzen durch das Computersystem; jeweiliges Ersetzen des einen oder der mehreren maskierten Token in der ursprünglichen Spracheingabe durch das Rechensystem mit dem einen oder den mehreren Ersatz-Token, um eine verrauschte Spracheingabe zu bilden, die eine Vielzahl von aktualisierten Eingabe-Token umfasst; Verarbeiten der verrauschten Spracheingabe mit dem maschinengelernten Sprachcodierermodell durch das Computersystem, um eine Vielzahl von Vorhersagen jeweils für die Vielzahl von aktualisierten Eingabetoken zu erzeugen, wobei die von dem maschinengelernten Sprachcodierermodell erzeugte Vorhersage für jedes aktualisierte Eingabetoken vorhersagt, ob ein solches aktualisiertes Eingabetoken eines der ursprünglichen Eingabetoken oder eines der Ersatzeingabetoken ist; und Trainieren des maschinengelernten Sprachkodierermodells durch das Computersystem, zumindest teilweise auf der Grundlage einer Verlustfunktion, die die Vielzahl der von dem maschinengelernten Sprachkodierermodell erzeugten Vorhersagen bewertet.
Das Rechnersystem nach Anspruch 31, wobei Erzeugen des einen oder der mehreren Ersatz-Token durch das Computersystem das Erzeugen des einen oder der mehreren Ersatz-Token durch das Computersystem unter Verwendung eines maschinengelernten Sprachgeneratormodells umfasst.
Das Rechnersystem nach Anspruch 32, wobei das maschinell-gelernte Sprachgeneratormodell ein maskiertes Sprachmodell umfasst, das trainiert wurde, um das eine oder mehrere maskierte Token vorherzusagen.
Das Rechnersystem nach Anspruch 31 oder 33, wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfassen zum: Trainieren des maschinengelernten Sprachgeneratormodells durch das Computersystem zumindest teilweise auf der Grundlage einer zweiten Verlustfunktion, die eine Differenz zwischen dem einen oder den mehreren Ersatzzeichen und dem einen oder den mehreren ursprünglichen Zeichen, die als maskierte Zeichen ausgewählt wurden, bewertet.
Das Rechnersystem nach Anspruch 34, wobei die zweite Verlustfunktion eine Maximum-Likelihood-Schätzfunktion umfasst.
Das Rechnersystem nach einem der Ansprüche 32-35, wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfassen zum: Trainieren des maschinengelernten Sprachgeneratormodells durch das Computersystem in einem Verstärkungslernschema auf der Grundlage einer zweiten Zielfunktion, die die von dem maschinengelernten Sprachcodierermodell erzeugten Vorhersagen für die von dem maschinengelernten Sprachgeneratormodell erzeugten Ersatz-Token bewertet.
Das Rechnersystem nach einem der Ansprüche 32 bis 35, wobei das Verfahren das gemeinsame Trainieren des maschinengelernten Sprachgeneratormodells und des maschinengelernten Sprachcodierermodells durch das Computersystem auf der Grundlage einer kombinierten Verlustfunktion umfasst, die eine Kombination aus der Verlustfunktion und der zweiten Verlustfunktion umfasst.
Das Rechnersystem nach einem der Ansprüche 32 bis 35, wobei das Verfahren weiterhin vor der einen oder mehreren Trainingsiterationen umfasst: individuelles Trainieren des maschinengelernten Sprachgeneratormodells auf der zweiten Verlustfunktion durch das Rechensystem; und nach individuellem Training des maschinell erlernten Sprachgeneratormodells durch das Rechensystem: Initialisierung des maschinengelernten Sprachcodiermodells mit Gewichtungswerten, die auf dem maschinengelernten Sprachgeneratormodell basieren, durch das Computersystem.
Das Rechnersystem nach einem der Ansprüche 32 bis 38, wobei eine oder mehrere Gewichte zwischen dem maschinengelernten Sprachgeneratormodell und dem maschinengelernten Sprachcodierermodell geteilt werden.
Das Rechnersystem nach Anspruch 31, wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfassen zum, bei dem Erzeugen, durch das Rechensystem des einen oder der mehreren Ersatz-Token, Abtasten des einen oder der mehreren Ersatz-Token aus einer Rauschverteilung durch das Rechensystem.
Das Rechnersystem nach einem der Ansprüche 31 bis 40, wobei das maschinengelernte Sprachcodierermodell einen Transformator-Netzwerktextcodierer umfasst.
Das Rechnersystem nach einem der Ansprüche 31 bis 41, wobei, wenn eines der Ersatz-Token gleich dem ursprünglichen Token ist, das es ersetzt, die Verlustfunktion ein solches Ersatz-Token bewertet, als ob es in den ursprünglichen Eingabe-Token enthalten wäre.
Das Rechnersystem nach einem der Ansprüche 31 bis 42, wobei: die eine oder mehreren Trainingsiterationen eine oder mehrere Vor-Trainingsiterationen umfassen; und wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfasst zur, nach der einen oder mehreren Vor-Trainingsiterationen: Durchführung einer oder mehrerer Feinabstimmungs-Trainingsiterationen, in denen das maschinell erlernte Sprachcodierungsmodell für die Durchführung einer Sprachaufgabe trainiert wird.
Das Rechnersystem nach einem der Ansprüche 31 bis 43, wobei die mehreren ursprünglichen Eingabemarken mehrere ursprüngliche Wörter umfassen.
Ein oder mehrere nicht-transitorische computerlesbare Medien, die ein maschinengelemtes Sprachkodierermodell speichern, das erzeugt wurde durch die Durchführung eines Verfahrens umfassend: für jede einzelne oder mehrere Trainingsiterationen: Erhalten einer ursprünglichen Spracheingabe, die eine Vielzahl von ursprünglichen Eingabe-Token umfasst, durch ein Computersystem, das ein oder mehrere Computergeräte umfasst; Auswahl eines oder mehrerer ursprünglicher Eingabezeichen durch das Computersystem, um als ein oder mehrere maskierte Zeichen zu dienen; Generierung eines oder mehrerer Ersatzmünzen durch das Computersystem; jeweiliges Ersetzen des einen oder der mehreren maskierten Token in der ursprünglichen Spracheingabe durch das Rechensystem mit dem einen oder den mehreren Ersatz-Token, um eine verrauschte Spracheingabe zu bilden, die eine Vielzahl von aktualisierten Eingabe-Token umfasst; Verarbeiten der verrauschten Spracheingabe mit dem maschinengelernten Sprachcodierermodell durch das Computersystem, um eine Vielzahl von Vorhersagen jeweils für die Vielzahl von aktualisierten Eingabetoken zu erzeugen, wobei die von dem maschinengelernten Sprachcodierermodell erzeugte Vorhersage für jedes aktualisierte Eingabetoken vorhersagt, ob ein solches aktualisiertes Eingabetoken eines der ursprünglichen Eingabetoken oder eines der Ersatzeingabetoken ist; und Trainieren des maschinengelernten Sprachkodierermodells durch das Computersystem, zumindest teilweise auf der Grundlage einer Verlustfunktion, die die Vielzahl der von dem maschinengelernten Sprachkodierermodell erzeugten Vorhersagen bewertet.
Das Rechnersystem nach Anspruch 45, wobei Erzeugen des einen oder der mehreren Ersatz-Token durch das Computersystem das Erzeugen des einen oder der mehreren Ersatz-Token durch das Computersystem unter Verwendung eines maschinengelernten Sprachgeneratormodells umfasst.
Das Rechnersystem nach Anspruch 46, wobei das maschinell-gelernte Sprachgeneratormodell ein maskiertes Sprachmodell umfasst, das trainiert wurde, um das eine oder mehrere maskierte Token vorherzusagen.
Das Rechnersystem nach Anspruch 45 oder 46, wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfassen zum: Trainieren des maschinengelernten Sprachgeneratormodells durch das Computersystem zumindest teilweise auf der Grundlage einer zweiten Verlustfunktion, die eine Differenz zwischen dem einen oder den mehreren Ersatzzeichen und dem einen oder den mehreren ursprünglichen Zeichen, die als maskierte Zeichen ausgewählt wurden, bewertet.
Das Rechnersystem nach Anspruch 48, wobei die zweite Verlustfunktion eine Maximum-Likelihood-Schätzfunktion umfasst.
Das Rechnersystem nach einem der Ansprüche 46-49, wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfassen zum: Trainieren des maschinengelernten Sprachgeneratormodells durch das Computersystem in einem Verstärkungslernschema auf der Grundlage einer zweiten Zielfunktion, die die von dem maschinengelernten Sprachcodierermodell erzeugten Vorhersagen für die von dem maschinengelernten Sprachgeneratormodell erzeugten Ersatz-Token bewertet.
Das Rechnersystem nach einem der Ansprüche 48 bis 50, wobei das Verfahren das gemeinsame Trainieren des maschinengelernten Sprachgeneratormodells und des maschinengelernten Sprachcodierermodells durch das Computersystem auf der Grundlage einer kombinierten Verlustfunktion umfasst, die eine Kombination aus der Verlustfunktion und der zweiten Verlustfunktion umfasst.
Das Rechnersystem nach einem der Ansprüche 48 bis 50, wobei das Verfahren weiterhin vor der einen oder mehreren Trainingsiterationen umfasst: individuelles Trainieren des maschinengelernten Sprachgeneratormodells auf der zweiten Verlustfunktion durch das Rechensystem; und nach individuellem Training des maschinell erlernten Sprachgeneratormodells durch das Rechensystem: Initialisierung des maschinengelernten Sprachcodiermodells mit Gewichtungswerten, die auf dem maschinengelernten Sprachgeneratormodell basieren, durch das Computersystem.
Das Rechnersystem nach einem der Ansprüche 46-52, wobei eine oder mehrere Gewichte zwischen dem maschinengelernten Sprachgeneratormodell und dem maschinengelernten Sprachcodierermodell geteilt werden.
Das Rechnersystem nach Anspruch 45, wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfassen zum, bei dem Erzeugen , durch das Rechensystem des einen oder der mehreren Ersatz-Token, Abtasten des einen oder der mehreren Ersatz-Token aus einer Rauschverteilung durch das Rechensystem.
Das Rechnersystem nach einem der Ansprüche 45 bis 54, wobei das maschinengelernte Sprachcodierermodell einen Transformator-Netzwerktextcodierer umfasst.
Das Rechnersystem nach einem der Ansprüche 45 bis 55, wobei, wenn eines der Ersatz-Token gleich dem ursprünglichen Token ist, das es ersetzt, die Verlustfunktion ein solches Ersatz-Token bewertet, als ob es in den ursprünglichen Eingabe-Token enthalten wäre.
Das Rechnersystem nach einem der Ansprüche 45 bis 56, wobei: die eine oder mehreren Trainingsiterationen eine oder mehrere Vor-Trainingsiterationen umfassen; und wobei die Anweisungen zur Durchführung des Verfahrens ferner Anweisungen umfasst zur, nach der einen oder mehreren Vor-Trainingsiterationen: Durchführung einer oder mehrerer Feinabstimmungs-Trainingsiterationen, in denen das maschinell erlernte Sprachcodierungsmodell für die Durchführung einer Sprachaufgabe trainiert wird.
Das Rechnersystem nach einem der Ansprüche 45 bis 57, wobei die mehreren ursprünglichen Eingabemarken mehrere ursprüngliche Wörter umfassen.