-
VERWANDTE ANMELDUNG
-
Diese Anmeldung beansprucht den Vorteil der vorläufigen
US-Anmeldung Nr. 62/485,876 mit dem Titel „A DEEP REINFORCED MODEL FOR ABSTRACTIVE SUMMARIZATION“ (Anwaltsaktenzeichen Nr. SALE 1191-1/3085PROV), eingereicht am 14. April 2017. Die verwandte Anmeldung wird hiermit durch Verweis für alle Zwecke hierin eingeschlossen.
-
GEBIET DER OFFENBARTEN TECHNOLOGIE
-
Die offenbarte Technologie betrifft im Allgemeinen die Verarbeitung natürlicher Sprache (NLP - Natural Language Processing) unter Verwendung tiefer neuronaler Netzwerke, und betrifft insbesondere auf rekurrenten neuronalen Netzwerken (RNNs - Recurrent Neural Networks) basierte Encoder-Decoder-Modelle, welche die Vorhersage von Zusammenfassungs-Tokens für die abstrahierungsfähige Verdichtung von Text bei der Sequenzmodellierung in neuronalen Netzwerken verbessern.
-
HINTERGRUND
-
Der im Abschnitt des Allgemeinen Standes der Technik diskutierte Gegenstand sollte nicht lediglich aufgrund seiner Erwähnung im Abschnitt des Allgemeinen Standes der Technik als Stand der Technik angenommen werden. Ähnlich sollte ein Problem, das im Abschnitt des Allgemeinen Standes der Technik oder im Zusammenhang mit dem Gegenstand des Abschnitts des Allgemeinen Standes der Technik genannt wird, nicht als zuvor im Stand der Technik anerkannt angenommen werden. Der Gegenstand im Abschnitt des Allgemeinen Standes der Technik stellt lediglich unterschiedliche Ansätze dar, welche an und für sich auch Implementierungen der beanspruchten Erfindungen entsprechen können.
-
In den letzten Jahrzehnten hat eine grundlegende Veränderung in der Herausforderung der Aufnahme neuer Informationen stattgefunden. Die Engstelle ist nicht mehr der Zugang zu Informationen; nun ist es unsere Fähigkeit, Schritt zu halten. Wir alle müssen immer mehr lesen, um in unseren Jobs, bei den Nachrichten und in den sozialen Medien auf dem neuesten Stand zu bleiben. Künstliche Intelligenz (AI - Artificial Intelligence) kann die Arbeit des Menschen verbessern, indem sie uns bei dieser Informationsflut unterstützt. Eine Antwort ist die Verwendung eines tiefen verstärkten Modells für die abstrahierungsfähige Verdichtung zum automatischen Zusammenfassen längerer Texte.
-
Die automatische Textverdichtung ist ein Gebiet der Verarbeitung natürlicher Sprache, das heutzutage in der Industrie zunehmend eingesetzt wird. Das Ziel des Verdichtungsprozesses ist das Erstellen einer Zusammenfassung eines Dokuments oder mehrerer Dokumente, die den Sinn und die wichtigsten Aspekte beibehält, während die Länge erheblich verringert wird, auf eine Größe, die benutzerdefiniert sein kann. Das Anlernen eines Modells, das lange, kohärente und sinnvolle Zusammenfassungen erstellen kann, bleibt ein offenes Forschungsproblem. Das Erstellen jeglicher Art eines längeren Textes ist selbst für die fortschrittlichsten Deep-Learning-Modelle schwierig.
-
Textverdichtung ist der Prozess des automatischen Erstellens von Zusammenfassungen in natürlicher Sprache aus einem Eingabedokument, bei dem die wichtigen Punkte beibehalten werden. Durch das Komprimieren großer Mengen an Informationen in kurze, informative Zusammenfassungen, kann die Verdichtung viele nachgelagerte Anwendungen unterstützen, wie z.B. das Erstellen von Nachrichtenübersichten, Suche und Berichterstellung.
-
Automatische Verdichtungsmodelle können auf eine von zwei Arten arbeiten: durch Extraktion oder durch Abstraktion. Extraktive Modelle bilden Zusammenfassungen durch das Kopieren von Teilen der Eingabe ohne jegliche Modifikation, das Auswählen relevanter Phrasen des Eingabedokuments und deren Verknüpfung zum Bilden einer Zusammenfassung. Sie sind recht robust, da sie vorhandene Phrasen in natürlicher Sprache verwenden, die direkt aus der Eingabe übernommen werden, jedoch fehlt es ihnen an Flexibilität, da sie keine neuen Wörter oder Verbindungselemente verwenden können. Sie können auch nicht paraphrasieren, wie Menschen dies gelegentlich tun. Im Gegensatz dazu erstellen abstrahierungsfähige Modelle (abstractive models) eine Zusammenfassung basierend auf dem tatsächlichen „abstrahierten“ Inhalt. Eine abstraktionsbasierte Zusammenfassung kann Abschnitte des Quelldokuments unter Verwendung von Worten komprimieren, verschmelzen oder paraphrasieren, die in der ursprünglichen Eingabe nicht vorkamen, wodurch neue Phrasen erstellt werden und möglicherweise umformuliert wird. Dies bietet viel mehr Potential zum Erstellen flüssiger und kohärenter Zusammenfassungen, bildet jedoch auch ein viel schwierigeres Problem, da das Modell in der Lage sein muss, kohärente Phrasen und Verbindungselemente zu erstellen.
-
Wenngleich abstrahierungsfähige Modelle in der Theorie leistungsfähiger sind, machen sie in der Praxis häufig Fehler. Zu typischen Fehlern zählen inkohärente, irrelevante oder wiederholte Phrasen in den erstellten Zusammenfassungen, besonders wenn versucht wird, lange Textausgaben zu erstellen. Ihnen fehlte bisher ein Sinn für allgemeine Kohärenz, Flüssigkeit und Lesbarkeit.
-
ROUGE, kurz für Recall-Oriented Understudy for Gisting Evaluation, ist der Name eines Satzes von Metriken und eines Softwarepaketes, die zur Evaluierung der automatischen Verdichtung bei der Verarbeitung natürlicher Sprache zum Einsatz kommen können. ROUGE vergleicht übereinstimmende Teilphrasen in erstellten Zusammenfassungen mit Teilphrasen in Ground-Truth-Referenzzusammenfassungen, selbst wenn das Alignment nicht perfekt ist. D.h., die Metriken vergleichen eine automatisch erstellte Zusammenfassung mit einem Satz von von Menschen erstellten Zusammenfassungen.
-
Jüngere neuronale Netzwerkmodelle, die auf dem Attention-Encoder-Decoder-Modell für die maschinelle Übersetzung basieren (Nallapati, et al., 2016; Zeng, et al., 2016), sind in der Lage, abstraktive Zusammenfassungen mit hohen ROUGE-Werten zu erstellen. Jedoch konzentrieren sich diese Systeme üblicherweise auf das Zusammenfassen kurzer Eingabesequenzen von einem oder zwei Sätzen zum Erstellen noch kürzerer Zusammenfassungen - zum Beispiel mit einer Grenze von 75 Zeichen.
-
Nallapati, et al. (2016) wendeten ihr abstrahierungsfähiges Verdichtungsmodell auf den CNN/Daily Mail-Datensatz an (Hermann, et al., 2015), welcher Eingabesequenzen von bis zu 800 Tokens und Mehrsatzzusammenfassungen von bis zu 100 Tokens enthält. Die Analysen durch Nallapati, et al. (2016) veranschaulichen ein Schlüsselproblem mit Attention-Encoder-Decoder-Modellen: sie erstellen häufig unnatürliche Zusammenfassungen bestehend aus wiederholten Phrasen.
-
Das offenbarte robuste und kohärente abstrahierungsfähige Textverdichtungsmodell nimmt diese Probleme der allgemeinen Kohärenz, Flüssigkeit und Lesbarkeit sowie unnatürlicher Zusammenfassungen mit wiederholten Phrasen in Angriff. Andere Aspekte und Vorteile der offenbarten Technologie ergeben sich aus den Zeichnungen, der detaillierten Beschreibung und den Ansprüchen, welche folgen.
-
KURZDARSTELLUNG DER ERFINDUNG
-
Auf rekurrenten neuronalen Netzwerken (RNNs) basierte Attention-Encoder-Decoder-Modelle zur abstrahierungsfähigen Textverdichtung haben an kurzen Eingabe- und Ausgabesequenzen eine gute Leistung erzielt. Jedoch beinhalten diese Modelle für längere Dokumente und Zusammenfassungen häufig wiederholte und inkohärente Phrasen.
-
Die offenbarte Technologie beinhaltet ein neuronales Netzwerkmodell mit Intra-Attention und einem neuen Anlernverfahren (Training-Verfahren). Dieses Verfahren kombiniert die standardmäßige überwachte Wortvorhersage und Verstärkungslernen (RL - Reinforcement Learning). Modelle, die nur mit der standardmäßigen überwachten Wortvorhersage angelernt werden, weisen häufig eine „Expositionsvoreingenommenheit“ auf - sie nehmen an, dass die Ground Truth bei jedem Schritt während des Anlernens bereitgestellt wird. Wenn die standardmäßige Wortvorhersage jedoch mit dem globalen Sequenzvorhersageanlernen des RL kombiniert wird, werden die resultierenden Zusammenfassungen lesbarer.
-
Das offenbarte, durch ein neuronales Netzwerk implementierte Verfahren der abstrahierungsfähigen Textverdichtung beinhaltet das Verarbeiten von Eingabe-Token-Einbettungen eines Dokuments durch einen rekurrenten Encoder, der verborgene Zustände des Encoders für jede der Einbettungen erzeugt; das Initialisieren eines rekurrenten Attentive Decoders mit einem letzten verborgenen Zustand des Encoders und einem speziellen Zusammenfassungsstart-Token zum Erzeugen von verborgenen Zuständen des Decoders bei aufeinanderfolgenden Decodierungsschritten; und, bei jedem Decodierungsschritt, das Ausgeben, durch den Decoder, eines Zusammenfassungs-Tokens unter Verwendung eines aktuellen intratemporalen Encoder-Attention-Vektors, eines aktuellen Intra-Decoder-Attention-Vektors und eines aktuellen verborgenen Zustands des Decoders. Das Verfahren beinhaltet auch das Anwenden des aktuellen verborgenen Zustands des Decoders auf jeden der verborgenen Zustände des Encoders zum Erzeugen aktueller Encoder-Attention-Werte für jeden der verborgenen Zustände des Encoders; das Erstellen aktueller Encoder-Temporalwerte für jeden der verborgenen Zustände des Encoders durch exponentielles Normalisieren des aktuellen Encoder-Attention-Wertes eines bestimmten verborgenen Zustands des Encoders über seine vorherigen Encoder-Attention-Werte; das Erstellen aktueller normalisierter Encoder-Temporalwerte durch Einheitsnormalisierung (unity normalizing) der aktuellen Encoder-Temporalwerte; das Erzeugen des aktuellen intratemporalen Encoder-Attention-Vektors als eine konvexe Kombination der verborgenen Zustände des Encoders, skaliert durch die entsprechenden aktuellen normalisierten Encoder-Temporalwerte; das Anwenden des aktuellen verborgenen Zustands des Decoders auf jeden von vorherigen verborgenen Zuständen des Decoders zum Erzeugen aktueller Decoder-Attention-Werte für jeden der vorherigen verborgenen Zustände des Decoders; das Erstellen aktueller normalisierter Decoder-Attention-Werte für jeden der vorherigen verborgenen Zustände des Decoders durch exponentielles Normalisieren jedes der aktuellen Decoder-Attention-Werte; und das Erzeugen des aktuellen Intra-Decoder-Attention-Vektors als eine konvexe Kombination der vorherigen verborgenen Zustände des Decoders, skaliert durch die entsprechenden aktuellen normalisierten Decoder-Attention-Werte, und das Verarbeiten des Vektors zum Ausgeben eines Zusammenfassungs-Tokens.
-
Die offenbarte Technologie betrifft ein abstrahierungsfähiges Verdichtungssystem, in welchem ein Intra-Decoder-Attention-Mechanismus zuvor vorhergesagte Ausgabe-Tokens identifiziert und das System daran hindert, bereits vorhergesagte Ausgabe-Tokens vorherzusagen. Das offenbarte abstrahierungsfähige Verdichtungssystem wird durch das Anlernen des Systems unter Verwendung einer Kombination aus Verstärkungslernen und überwachtem Lernen ergänzt, wodurch die Lesbarkeit der Zusammenfassung verbessert wird. Das offenbarte System kann auf die Probleme der Erstellung langer Sequenzen angewandt werden.
-
Bestimmte Aspekte der offenbarten Technologie sind in den Ansprüchen, der Beschreibung und den Zeichnungen beschrieben.
-
Figurenliste
-
Die enthaltenen Zeichnungen dienen veranschaulichenden Zwecken und dienen lediglich der Bereitstellung von Beispielen möglicher Strukturen und Prozessoperationen für eine oder mehrere Implementierungen dieser Offenbarung. Diese Zeichnungen beschränken in keiner Weise jegliche Änderungen an Form und Details, die durch einen Fachmann auf dem Gebiet vorgenommen werden können, ohne sich vom Geist und Umfang dieser Offenbarung zu entfernen. Ein vollständigeres Verständnis des Gegenstands kann durch Bezugnahme auf die detaillierte Beschreibung und die Ansprüche, bei Betrachtung in Verbindung mit den folgenden Figuren, abgeleitet werden, wobei sich in den gesamten Figuren gleiche Referenzziffern auf ähnliche Elemente beziehen.
-
Die Patent- oder Anmeldungsdatei enthält mindestens eine farbig ausgeführte Zeichnung. Kopien dieser Patent- oder Patentanmeldungsveröffentlichung mit (einer) Farbzeichnung(en) werden durch das Amt auf Anfrage und bei Bezahlung der entsprechenden Gebühr bereitgestellt. Die Farbzeichnungen stehen auch in PAIR über den Supplemental Content-Tab zur Verfügung.
- 1 veranschaulicht Aspekte einer abstrahierungsfähigen Textverdichtungsarchitektur zur automatischen Textverdichtung.
- 2 zeigt einen Einbetter, welcher jedes Wort in einem zu verdichtenden Dokument in einem hochdimensionalen Vektorraum abbildet.
- 3 zeigt ein neuronales Encoder-Netzwerk mit einem bidirektionalen LSTM, welches fünf Beispieleingaben aus der Ausgabe des Einbetters von 2 nutzt.
- 4 zeigt ein neuronales Decoder-Netzwerk mit einzelnen LSTM-RNNs zur Berechnung verborgener Zustände aus Einbettungsvektoren.
- 5 und 6 zeigen zusammen ein Beispiel der Berechnung des Encoder-Kontextvektors für einen spezifischen Zeitstempel.
- 7 veranschaulicht ein Beispiel der Berechnung eines Decoder-Kontextvektors bei einem spezifischen Zeitstempel.
- 8 zeigt einen Zusammenfassungswort-Emitter, welcher einen Encoder-Kontextvektor, einen Decoder-Kontextvektor und den Vektor des aktuellen verborgenen Zustands kombiniert.
- 9 zeigt Beispieleingabedokumenttext, der durch die offenbarte RNN-basierte abstrahierungsfähige Textverdichtungsarchitektur unter Verwendung der Kombination von zwei Attention-Funktionen in einem gegebenen Decodierungsschritt verarbeitet wird.
- 10 zeigt quantitative Ergebnisse an dem CNN/Daily Mail-Datensatz, indem Ergebnisse für die offenbarte Architektur mit vorhandenen abstrahierungsfähigen und extraktiven Ansätzen zur Textverdichtung verglichen werden.
- 11 und 12 zeigen Beispieldokumente und Mehrsatzzusammenfassungen, die basierend auf den Beispieldokumenten durch die offenbarte Architektur erstellt werden, im Vergleich zu vom Menschen erzeugten Ground-Truth-Zusammenfassungen.
- 13 ist ein Blockdiagramm eines Beispielcomputersystems zur automatischen abstrahierungsfähigen Textverdichtung.
-
DETAILLIERTE BESCHREIBUNG
-
Die folgende Diskussion ist dargelegt, um es einem Fachmann auf dem Gebiet zu ermöglichen, die offenbarte Technologie herzustellen und einzusetzen, und ist im Kontext einer bestimmten Anwendung und ihrer Anforderungen bereitgestellt. Verschiedene Modifikationen an den offenbarten Implementierungen werden dem Fachmann auf dem Gebiet leicht ersichtlich sein, und die hierin definierten allgemeinen Prinzipien können auch auf andere Implementierungen und Anwendungen angewandt werden, ohne sich vom Geist und Umfang der offenbarten Technologie zu entfernen. Somit soll die offenbarte Technologie nicht auf die gezeigten Implementierungen beschränkt sein, sondern es soll ihr der größte Anwendungsbereich in Übereinstimmung mit den hierin offenbarten Prinzipien und Merkmalen gewährt werden.
-
Eine Hauptschwierigkeit beim automatischen Erstellen von Zusammenfassungen von Dokumenten ist die Erstellung unnatürlicher Zusammenfassungen, die wiederholte Phrasen enthalten und denen es an allgemeiner Kohärenz, Flüssigkeit und Lesbarkeit fehlt. Während ROUGE-Werte im Allgemeinen eine gute Korrelation mit einer menschlichen Beurteilung aufweisen, sind die Zusammenfassungen mit den höchsten ROUGE-Werten nicht notwendigerweise die am besten lesbaren oder natürlichsten.
-
Die offenbarte abstrahierungsfähige Textverdichtungsarchitektur, mit Intra-Attention und einem neuen Anlernverfahren, kombiniert überwachte Wortklassifikation und Verstärkungslernen (RL), um die Dokumentverdichtung erfolgreicher zu machen als Zusammenfassungen, die unter Verwendung früherer Modelle erstellt wurden.
-
Um das Problem der Erstellung unnatürlicher Zusammenfassungen zu behandeln, verwendet die offenbarte abstrahierungsfähige Textverdichtungsarchitektur zwei Schlüsselmechanismen der Intra-Attention: eine intratemporale Attention im Encoder, die vorherige Attention-Gewichte für jedes der Eingabe-Tokens aufzeichnet, und sequentielle Intra-Attention im Decoder, die berücksichtigt, welche Wörter bereits durch den Decoder erstellt wurden. Die offenbarte Architektur verwendet auch eine gemischte Anlernzielfunktion, welche den Maximum Likelihood-Kreuzentropie-Verlust mit Belohnungen aus dem Strategiegradient-Verstärkungslernen zum Verringern der Expositionsvoreingenommenheit mischt. Die offenbarte Architektur erstellt lesbarere Zusammenfassungen im Vergleich zu anderen Techniken, wie durch die menschliche Evaluierung erstellter Ausgaben gezeigt wird, die als nächstes beschrieben wird.
-
Die offenbarte abstrahierungsfähige Textverdichtungsarchitektur wird gleichzeitig mit Teacher-Forcing und Verstärkungslernen angelernt (trainiert), unter Ausnutzung der Überwachung sowohl auf der Wortebene als auch der Ebene der gesamten Zusammenfassung, um Zusammenfassungen kohärenter und lesbarer zu machen. Zur Verringerung einer Evaluierungsvoreingenommenheit bewerteten fünf menschliche Auswerter jede Testbeispiel-Dokumentzusammenfassung - wobei separat sowohl die Lesbarkeit der Zusammenfassung als auch die Relevanz der Zusammenfassung, statt nur die Lesbarkeit bewertet wurden. Diese Ergebnisse bestätigen, dass das offenbarte gemischte Zielanlernverfahren sowohl die Zusammenfassungsqualität als auch die Relevanz im Vergleich zu anderen Anlernverfahren erhöht. Gemischte Ziellernexperimente wurden unter Verwendung der gleichen Verstärkungsbelohnung, die für Verstärkungslernexperimente verwendet werden (ROUGE-L mit Satzaufspaltung), durchgeführt, um den Vergleich zwischen Verstärkungslernen und gemischtem Ziellernen relevanter zu machen.
-
Die offenbarte abstrahierungsfähige Textverdichtungsarchitektur erzielt State of the Art-Ergebnisse am CNN/Daily Mail-Datensatz und ähnlich gute Ergebnisse am New York Times (NYT) -Datensatz. Bei einem Vergleich der offenbarten abstrahierungsfähigen Textverdichtungsarchitektur mit extraktiven Baselines (Einleitungssätze, erste Wörter), extraktiven Modellen (Durrett, et al., 2016, Nallapati, et al., 2017) und anderen abstrahierungsfähigen Modellen (See, et al., 2017) erzielte die offenbarte Architektur eine bessere ROUGE-Leistung als diese Baselines und Modelle, indem sie lesbarere automatisch erstellte Dokumentzusammenfassungen bereitstellte. Siehe 10 unten.
-
Rekurrente neuronale Netzwerke (RNNs) sind aufgrund ihrer Fähigkeit, langfristige Abhängigkeiten zu speichern, von Nutzen für die abstrahierungsfähige Verdichtungsmodellierung. Tiefe RNN-Lernmodelle können Textsequenzen variabler Länge verarbeiten und nützliche Darstellungen, oder einen verborgenen Zustand, für jede Phrase berechnen.
-
Die offenbarte abstrahierungsfähige Textverdichtungsarchitektur liest die Eingabesequenz für ein Dokument mit einem bidirektionalen LSTM-Encoder {RNNe_fwd; RNNe_bwd}, wobei verborgene Zustände aus den Einbettungsvektoren von xi berechnet werden. Die Architektur verwendet einen einzelnen LSTM-Decoder RNNd, wobei verborgene Zustände von den Einbettungsvektoren von yt berechnet werden. Die Sequenz von Eingabe-Tokens für ein Dokument ist als X = x1, x2, ..., xn dargestellt. Die Sequenz von Ausgabezusammenfassungs-Tokens ist als Y = y1, y2,..., yn dargestellt und der Vektorverknüpfungsoperator ist durch || bezeichnet. Sowohl Eingabe- als auch Ausgabeeinbettungen werden aus der gleichen Matrix entnommen, wie unten beschrieben.
-
1 veranschaulicht Aspekte der offenbarten abstrahierungsfähigen Textverdichtungsarchitektur 100, welche zum Lesen und Verstehen von Dokumenten, die im Datenspeicher 118 gespeichert sind, und Erstellen von Zusammenfassungen, welche im Dokumentzusammenfassung-Datenspeicher 188 gespeichert werden können, verwendet werden kann. Die Architektur 100 beinhaltet das abstrakte Textverdichtungssystem 102, welches den Einbetter 112 beinhaltet, der jedes Wort in einem Dokument in einem Vektorraum abbildet; und das neuronale Encoder-Netzwerk 122 - ein rekurrentes neuronales Netzwerk (RNN), das Kontextinformationen in die Darstellung jedes Wortes in einem Dokument einschließt. Das neuronale Encoder-Netzwerk 122 ist ein bidirektionales neuronales LSTM (Long Short-Term Memory - langes Kurzzeitgedächtnis) -Netzwerk, welches für das Einschließen von Informationen für Wörter, die einem Ausgabewort sowohl vorausgehen als auch nachfolgen, von Nutzen ist.
-
Weiter zu 1, beinhaltet die Architektur 100 auch den Komparator zwischen verborgenen Zuständen 132 zum Erstellen von Attention-Werten und den exponentiellen Normalisator der intratemporalen Encoder-Attention 142 zum Normalisieren über vorherige Decodierungsschritte für eine individuelle Token-Position, wodurch Eingabe-Tokens bestraft werden, die in vergangenen Decodierungsschritten hohe Attention-Werte erhalten haben. Außerdem sind in der Architektur 100 der Einheitsnormalisator 152 zum Normalisieren über sämtliche Temporalwerte und der Codierungsmischer 162 zum Erstellen von Encoder-Kontextvektoren enthalten. Enthalten sind auch das auf einem einzelnen LSTM-RNN basierte neuronale Decoder-Netzwerk 182 zum Berechnen verborgener Zustände aus den Einbettungsvektoren der Ausgabe yt; der Komparator innerhalb von verborgenen Zuständen 172 zum Berechnen von Vergleichswerten der verborgenen Zustände des Decoders; der exponentielle Normalisator der intratemporalen Decoder-Attention 184 zum Erzeugen der konvexen Kombination der verborgenen Zustände des Encoders, skaliert durch die entsprechenden aktuellen normalisierten Encoder-Temporalwerte; und der Decodierungsmischer 186 zum Erstellen von Decoder-Kontextvektoren. Die Architektur 100 beinhaltet auch den Zusammenfassungswort-Emitter 192, welcher Hinweisdaten für Ausgabezusammenfassungs-Tokens 194 bereitstellt, und den Dokumentzusammenfassung-Datenspeicher 198 zum Speichern von Ergebnissen für die abstrahierungsfähige Textverdichtungsarchitektur 100.
-
2 zeigt den Einbetter
112, welcher jedes Wort in dem Dokument
118a in einem hochdimensionalen Vektorraum, hierin als der Wort-„Einbettungsraum“ bezeichnet, abbildet. In einer Implementierung erstellt der Einbetter
112 eine Sequenz
202 von l-dimensionalen Wortvektoren x
1,x
2,...x
n, die n Wörtern im Dokument
118a entsprechen, unter Verwendung einer Einbettungsmatrix Wemb ∈
, wobei v die Größe des Vokabulars darstellt. In einer Implementierung wandelt der Einbetter
112 zunächst jedes Wort im Dokument
118a in One-Hot-Darstellungen um, und wandelt sie dann unter Verwendung der Einbettungsmatrix Wemb ∈ in kontinuierliche Darstellungen um. In noch einer weiteren Implementierung initialisiert der Einbetter
112 die Worteinbettungen unter Verwendung vorangelernter Worteinbettungsmodelle, wie z.B. GloVe und word2vec, um eine feste Worteinbettung jedes Wortes im Dokument
118a zu erhalten. In anderen Implementierungen erstellt der Einbetter
112 Zeicheneinbettungen und/oder Phraseneinbettungen.
-
3 zeigt den bidirektionalen LSTM
300 mit dem neuronalen Encoder-Netzwerk
122, mit fünf Beispieleingaben x
1, x
2, x
3, x
4, x
5 aus der Ausgabe des Einbetters
112, zum Verarbeiten von Eingabe-Token-Einbettungen eines Dokuments durch einen rekurrenten Encoder, der verborgene Zustände des Encoders für jede der Einbettungen erzeugt. Der bidirektionale LSTM
300 nutzt sowohl den vorherigen als auch den zukünftigen Kontext durch Verarbeitung der Sequenz in zwei Richtungen und erstellt zwei unabhängige Sequenzen von LSTM-Ausgabevektoren. Einer davon verarbeitet die Eingabesequenz in der Vorwärtsrichtung, während der andere die Eingabe in der Rückwärtsrichtung verarbeitet. Eine Speicherschicht
352,
354,
355,
356,
358 gibt eine Zwischensequenzdarstellung
362,
364,
365,
366,
368 an die nächste Schicht
332,
334,
335,
336,
338 weiter. In dem in
3 gezeigten Beispiel ist bei jedem Zeitschritt der ausgegebene verborgene Zustand
die Verknüpfung der beiden Ausgabevektoren, einer aus jeder Richtung bei diesem Zeitschritt.
-
Die offenbarte abstrahierungsfähige Textverdichtungsarchitektur berechnet den Encoder-Kontextvektor für einen Zeitstempel, den Decoder-Kontextvektor für den gleichen Zeitstempel und die verborgenen Zustände des Decoders. Unter Verwendung dieser beiden Kontexte und des aktuellen verborgenen Zustands des Decoders wird ein neues Wort erstellt und zu der Ausgabesequenz hinzugefügt.
-
4 zeigt das neuronale Decoder-Netzwerk
182 mit dem einzelnen LSTM-RNN
432,
434,
436,
438 zum Berechnen der verborgenen Zustände
aus den Einbettungsvektoren von y
t durch das Initialisieren eines rekurrenten Attentive Decoders mit einem letzten verborgenen Zustand des Encoders
328 und einem speziellen Zusammenfassungsstart-Token zum Erzeugen verborgener Zustände des Decoders bei aufeinanderfolgenden Decodierungsschritten. Bei jedem Decodierungsschritt gibt der Decoder ein Zusammenfassungs-Token unter Verwendung eines aktuellen intratemporalen Encoder-Attention-Vektors, eines aktuellen Intra-Decoder-Attention-Vektors und eines aktuellen verborgenen Zustands des Decoders aus, wobei der aktuelle verborgene Zustand des Decoders auf jeden der verborgenen Zustände des Encoders angewandt wird, um aktuelle Encoder-Attention-Werte für jeden der verborgenen Zustände des Encoders zu erzeugen. Der verborgene Zustand des neuronalen Decoder-Netzwerks
182 wird mit
aus dem neuronalen Encoder-Netzwerk
122 initialisiert. Das neuronale Decoder-Netzwerk
182 berechnet den verborgenen Zustand des Decoders bei jedem Zeitstempel, wobei beim Erstellen eines neuen Wortes unter Verwendung temporaler Attention auf Teile des Eingabedokumentes zurückgeschaut wird, um die Ausgabe des abstrahierungsfähigen Verdichtungsmodells kohärenter zu machen.
-
5 und
6 zeigen zusammen ein Beispiel der Berechnung des Encoder-Kontextvektors
für den Zeitstempel t = 4. Der Komparator zwischen verborgenen Zuständen
132 berechnet skalare Attention-Werte e
ti zwischen dem aktuellen verborgenen Zustand des Decoders
und dem verborgenen Zustand des Encoders
für den Zeitstempel. e
ti ist als eine Funktion
definiert, wobei die Funktion einen Skalar e
ti von dem verborgenen Decoder-Vektor
und dem verborgenen Encoder-Vektor
unter Verwendung einer bilinearen Funktion
zurücksendet. Die Ground Truth, auch bezeichnet als empirischer Nachweis, kann zum Modifizieren des
- Vektors verwendet werden, wodurch das elementweise Produkt beeinflusst wird. In anderen Implementierungen kann ein einfaches Punktprodukt zwischen den beiden Vektoren genutzt werden.
-
Weiterführend veranschaulicht
5 das Erstellen aktueller Encoder-Temporalwerte für jeden der verborgenen Zustände des Encoders durch exponentielles Normalisieren eines aktuellen Encoder-Attention-Wertes eines bestimmten verborgenen Zustands des Encoders über seine vorherigen Encoder-Attention-Werte. Der exponentielle Normalisator der intratemporalen Encoder-Attention
142 berechnet den normalisierten Attention-Wert mit den verborgenen Eingabezuständen
über vorherige Decodierungsschritte für eine individuelle Token-Position, wobei ein aktueller Attention-Wert für eine Eingabe-Token-Position über den vorherigen Encoder-Attention-Wert der Eingabe-Token-Position unter Verwendung der temporalen Attention-Funktion normalisiert wird, wodurch Eingabe-Tokens bestraft werden, die in vergangenen Decodierungsschritten hohe Attention-Werte erhalten haben. Die Temporalwerte
sind wie folgt definiert:
für t=1 und ansonsten
Dann erstellt der Einheitsnormalisator (unity normalizer) 152 aktuelle normalisierte Encoder-Temporalwerte durch Einheitsnormalisierung der aktuellen Encoder-Temporalwerte unter Berechnung der temporalen Attention-Werte
normalisiert über sämtliche Temporalwerte, mit
über die Eingaben für die n Positionen hinweg, und verwendet diese Gewichte zum Erhalten des Eingabekontextvektors
wobei
-
6 veranschaulicht den Mechanismus zum Ausnutzen der normalisierten Temporalwerte
612 zum Berechnen des Encoder-Kontextvektors
618 für den Zeitstempel t = 4.
-
7 veranschaulicht ein Beispiel der Berechnung eines Decoder-Kontextvektors
bei Zeitstempel t = 4. Das neuronale Decoder-Netzwerk
182 berechnet die verborgenen Zustände
aus den Einbettungsvektoren der Ausgabe y
t, wobei Informationen über die zuvor decodierte Sequenz in den Decoder eingeschlossen werden, um die Erstellung wiederholter Phrasen basierend auf seinen eigenen verborgenen Zuständen zu verhindern, insbesondere wenn lange Sequenzen erstellt werden. Der Komparator innerhalb von verborgenen Zuständen
172 vergleicht die berechneten verborgenen Zustände
mit dem verborgenen Zustand bei Decodierungsschritt t unter Anwendung des aktuellen verborgenen Zustands des Decoders auf jeden von vorherigen verborgenen Zuständen des Decoders zum Erzeugen aktueller Decoder-Attention-Werte für jeden der vorherigen verborgenen Zustände des Decoders. Für jeden Decodierungsschritt t berechnet der exponentielle Normalisator der intratemporalen Decoder-Attention
184 einen neuen Attention-Kontextvektor. Für t>1verwendet der exponentielle Normalisator der intratemporalen Decoder-Attention
184 die folgende Gleichung zum Berechnen von Attention-Werten:
wodurch der aktuelle intratemporale Encoder-Attention-Vektor als eine konvexe Kombination der verborgenen Zustände des Encoders, skaliert durch den entsprechenden aktuellen normalisierten Encoder-Temporalwert, erzeugt wird und aktuelle normalisierte Decoder-Attention-Werte für jeden der vorherigen verborgenen Zustände des Decoders durch exponentielles Normalisieren jedes der aktuellen Decoder-Attention-Werte erstellt werden. Der intratemporale Attention-Kontextvektor wird wie Folgt berechnet: Erzeugen des aktuellen Intra-Decoder-Attention-Vektors als konvexe Kombination der vorherigen verborgenen Zustände des Decoders, skaliert durch die entsprechenden aktuellen normalisierten Decoder-Attention-Werte, und Verarbeiten des Vektors zum Ausgeben eines Zusammenfassungs-Tokens.
und tt' bezieht sich auf den aktuellen Zeitschritt, j = 1 bezieht sich auf den ersten Decodierungszeitschritt und der Kontextvektor
Der Decoder-Kontextvektor
wird auf einen Vektor von Nullen eingestellt, da die erstellte Sequenz im ersten Decodierungsschritt leer ist.
-
Der exponentielle Normalisator der intratemporalen Encoder-Attention 142 und der exponentielle Normalisator der intratemporalen Decoder-Attention 184 können unter Verwendung eines herkömmlichen Softmax-Moduls implementiert werden.
-
8 zeigt den Zusammenfassungswort-Emitter 192, welcher den Encoder-Kontextvektor 618, den Decoder-Kontextvektor 718 und den Vektor des aktuellen verborgenen Zustands 835 kombiniert. Das Zurückschauen auf vorherige Decodierungsschritte gestattet der offenbarten abstrahierungsfähigen Textverdichtungsarchitektur das Vornehmen strukturierterer Vorhersagen und das Vermeiden des Wiederholens der gleichen Informationen, selbst wenn diese Informationen schon viele Schritte zuvor erstellt wurden.
-
Zunächst lässt der offenbarte Verstärkungslernprozess das Modell seine eigene Zusammenfassung erstellen, und dann verwendet er einen externen Bewerter zum Vergleichen der erstellten Zusammenfassung mit der Ground Truth. Dieser Bewerter zeigt dann dem Modell die Qualität der erstellten Zusammenfassung an. Wenn der Wert hoch ist, kann das Modell sich selbst aktualisieren, damit derartige Zusammenfassungen in Zukunft wahrscheinlicher erscheinen. Ansonsten wird das Modell, wenn der Wert niedrig ist, bestraft und ändert seine Erstellungsprozedur, um ähnliche Zusammenfassungen zu verhindern. Dieses verstärkte Modell ist sehr gut beim Erhöhen des Verdichtungswertes, der die gesamte Sequenz anstatt einer Wortfür-Wort-Vorhersage bewertet.
-
9 veranschaulicht die Encoder- und Decoder-Attention-Funktionen kombiniert, mit dem Beispieleingabe-Dokumenttext „The United States became the largest tech ...“, der durch die offenbarte RNN-basierte abstrahierungsfähige Textverdichtungsarchitektur 100 unter Verwendung der Kombination von zwei Attention-Funktionen bei einem gegebenen Decodierungsschritt verarbeitet wird. D.h., die temporale Attention und die Intra-Decoder-Attention werden in Kombination zum Erstellen neuer Wörter verwendet. Jedes Element der Sequenz - in diesem Fall jedes Wort - wird eines nach dem anderen verarbeitet. Für jede neue Eingabe in der Sequenz wird ein neuer verborgener Zustand als eine Funktion dieser Eingabe und des vorherigen verborgenen Zustands erstellt. So gesehen ist der bei jedem Wort berechnete verborgene Zustand eine Funktion sämtlicher Wörter, die bis zu diesem Punkt gelesen wurden. Bei jedem Schritt wird der verborgene Zustand des RNN 835 zum Erstellen eines neuen Wortes verwendet, das zu der abschließenden Ausgabetextsequenz 968 hinzugefügt wird und als die Eingabe der nächsten Funktion zugeführt wird. Die RNNs zum Lesen der Eingabe und Erstellen der Ausgabe werden kombiniert, wobei der abschließende verborgene Zustand des Eingabe-RNN als der anfängliche verborgene Zustand des Ausgabe-RNN verwendet wird. Die Attention wird moduliert, um sicherzustellen, dass das Modell unterschiedliche Teile der Eingabe verwendet, wenn der Ausgabetext erstellt wird, wodurch die Informationsabdeckung der Zusammenfassung erhöht wird. In dem Beispiel wird „United States“ zu US 966 verkürzt, und ein Attention-Wert von 0,8 wird erstellt und dem Wort „expanded“ zugewiesen, während dem Wort „became“ ein Attention-Wert von 0,1 zugewiesen wird und dem Wort „increased“ ein Attention-Wert von 0,05 zugewiesen wird (928). Die offenbarte Architektur ist in der Lage, jeglichen Text zu lesen und einen unterschiedlichen Text daraus zu erstellen. In einer Implementierung der offenbarten Technologie werden zwei 200-dimensionale LSTMs für den bidirektionalen Encoder und ein 400-dimensionaler LSTM für den Decoder eingesetzt; die Größe des Eingabevokabulars ist auf 150.000 Tokens begrenzt und das Ausgabevokabular ist auf 50.000 Tokens begrenzt, indem die häufigsten Tokens in dem Anlernsatz ausgewählt werden. Die Eingabeworteinbettungen sind 100-dimensional und werden mit GloVe initialisiert.
-
10 zeigt quantitative Ergebnisse am CNN/Daily Mail-Datensatz, wobei die offenbarte Architektur 100 über die oben beschriebene automatisierte Evaluierungsmetrik ROUGE mit vorhandenen abstrahierungsfähigen und extraktiven Ansätzen zur Textverdichtung verglichen wird. Bis vor kurzem betrug der höchste ROUGE-1-Wert für die abstrahierungsfähige Textverdichtung am CNN/Daily Mail-Datensatz 35,46 1016. Die offenbarte Kombination des RNN-Modells der Intra-Decoder-Attention mit kombiniertem überwachtem Anlernen und RL-Anlernen verbessert diesen Wert auf 39,87 1066 als die bessere ROUGE-Leistung und liefert lesbarere automatisch erstellte Dokumentzusammenfassungen.
-
11 und 12 zeigen Beispieldokumente und Mehrsatzzusammenfassungen, die durch die offenbarte Architektur 100 basierend auf den Beispieldokumenten erstellt werden, im Vergleich zu vom Menschen erstellten Ground-Truth-Zusammenfassungen. Für jedes Beispiel sind der Originalartikel, die Ground-Truth-Zusammenfassung und die über das offenbarte Modell erstellte Zusammenfassung gezeigt.
-
Das offenbarte Modell und die offenbarte Anlernprozedur erhalten State of the Art - Ergebnisse bei der Textverdichtung für CNN/Daily Mail, verbessern die Lesbarkeit der erstellten Zusammenfassungen und sind für lange Ausgabesequenzen besser geeignet.
-
Computersystem
-
13 ist ein vereinfachtes Blockdiagramm eines Computersystems 1300, das zum Implementieren des abstrahierungsfähigen Verdichtungsmodells 100 eingesetzt werden kann. Das Computersystem 1300 beinhaltet üblicherweise einen oder mehrere CPU-Prozessoren 1320, die über das Bus-Untersystem 1332 mit einer Reihe von Peripheriegeräten kommunizieren. Zu diesen Peripheriegeräten können ein Speicheruntersystem 1312, das zum Beispiel Speichergeräte und ein Dateispeicherungsuntersystem 1318 beinhaltet, Benutzerschnittstellen-Eingabegeräte 1330, Benutzerschnittstellen-Ausgabegeräte 1324, ein Netzwerkschnittstellen-Untersystem 1322 und eine GPU 1326 mit mehreren GPU-Verarbeitungskernen oder GPU-Prozessoren 1328 zählen. Die Eingabe- und Ausgabegeräte gestatten eine Benutzerinteraktion mit dem Computersystem 1300. Das Netzwerkschnittstellen-Untersystem 1322 stellt eine Schnittstelle zu externen Netzwerken bereit, einschließlich einer Schnittstelle zu entsprechenden Schnittstellengeräten in anderen Computersystemen.
-
Die Operationen des abstrahierungsfähigen Verdichtungsmodells 100 werden gemäß einiger Implementierungen durch die GPU-Verarbeitungskerne 1328 durchgeführt.
-
Zu den Benutzerschnittstellen-Eingabegeräten 1330 oder Clients oder Client-Geräten können eine Tastatur; Zeigegeräte, wie z.B. eine Maus, ein Trackball, ein Touchpad oder ein Grafiktablett; ein Scanner; ein in die Anzeige eingeschlossener Touchscreen; Audio-Eingabegeräte, wie z.B. Spracherkennungssysteme und Mikrophone; und andere Arten von Eingabegeräten zählen. Im Allgemeinen soll die Verwendung des Begriffs „Eingabegerät“ alle möglichen Arten von Geräten und Möglichkeiten zum Eingeben von Informationen in das Computersystem 1300 beinhalten.
-
Zu den Benutzerschnittstellen-Ausgabegeräten 1324 können ein Anzeigeuntersystem, ein Drucker, ein Faxgerät oder nichtvisuelle Anzeigen, wie z.B. Audio-Ausgabegeräte, zählen. Das Anzeigeuntersystem kann eine LED-Anzeige, ein Flachbildgerät, wie z.B. eine Flüssigkristallanzeige (LCD - Liquid Crystal Display), eine Kathodenstrahlröhre (CRT - Cathode Ray Tube), ein Projektionsgerät oder einen anderen Mechanismus zum Erzeugen eines sichtbaren Bildes beinhalten. Das Anzeigeuntersystem kann auch eine nichtvisuelle Anzeige, wie z.B. Audio-Ausgabegeräte, bereitstellen. Im Allgemeinen soll die Verwendung des Begriffs „Ausgabegerät“ alle möglichen Arten von Geräten und Möglichkeiten zum Ausgeben von Informationen vom Computersystem 1300 an den Benutzer oder eine andere Maschine oder ein anderes Computersystem beinhalten.
-
Das Speicherungsuntersystem 1310 speichert Programmierungs- und Datenkonstrukte, welche die Funktionalität einiger oder aller der hierin beschriebenen Module und Verfahren bereitstellen. Diese Softwaremodule werden im Allgemeinen durch die CPU-Prozessoren 1320 allein oder in Kombination mit anderen Prozessoren, wie den GPU-Prozessoren 1328, ausgeführt.
-
Das Speicheruntersystem 1312 im Speicherungsuntersystem kann eine Reihe von Speichern beinhalten, einschließlich eines Hauptzufallszugriffspeichers (RAM - Random Access Memory) 1316 zur Speicherung von Anweisungen und Daten während der Programmausführung und eines Nur-Lese-Speichers (ROM - Read Only Memory) 1314, in welchem feste Anweisungen gespeichert sind. Ein Dateispeicherungsuntersystem 1318 kann persistente Speicherung für Programm- und Datendateien bereitstellen und kann ein Festplattenlaufwerk, ein Diskettenlaufwerk zusammen mit assoziierten entfernbaren Medien, ein CD-ROM-Laufwerk, ein optisches Laufwerk oder entfernbare Medienkassetten beinhalten. Die Module, welche die Funktionalität bestimmter Implementierungen implementieren, können durch das Dateispeicherungsuntersystem 1318 oder das Speicheruntersystem 1312 oder in anderen Maschinen, auf die der Prozessor Zugriff hat, gespeichert sein.
-
Das Bus-Untersystem 1332 stellt einen Mechanismus zur Verfügung, durch welchen die verschiedenen Komponenten und Untersysteme des Computersystems 1300 wie beabsichtigt miteinander kommunizieren können. Obwohl das Bus-Untersystem 1332 schematisch als ein einzelner Bus gezeigt ist, können alternative Implementierungen des Bus-Untersystems mehrere Busse verwenden. In einigen Implementierungen kann ein Anwendungsserver (nicht gezeigt) ein Rahmen sein, der das Ausführen der Anwendungen des Computersystems 1300, wie z.B. die Hardware und/oder Software, z.B. das Betriebssystem, gestattet.
-
Das Computersystem 1300 selbst kann verschiedenen Typs sein, einschließlich eines PCs, eines tragbaren Computers, einer Workstation, eines Computerterminals, eines Netzwerkcomputers, eines TV-Gerätes, eines Mainframes, einer Serverfarm, eines weitverbreiteten Satzes lose miteinander vernetzter Computer oder jeglichen anderen Datenverarbeitungssystems oder Benutzergerätes. Aufgrund der sich ständig verändernden Natur von Computern und Netzwerken ist die Beschreibung des in 13 gezeigten Computersystems 1300 nur als ein spezifisches Beispiel zum Zweck der Veranschaulichung der bevorzugten Ausführungsformen der vorliegenden Erfindung gedacht. Viele andere Konfigurationen des Computersystems 1300, die mehr oder weniger Komponenten als das in 13 gezeigte Computersystem aufweisen, sind möglich.
-
Die vorstehende Beschreibung ist dargelegt, um das Herstellen und Verwenden der offenbarten Technologie zu ermöglichen. Verschiedene Modifikationen an den offenbarten Implementierungen werden offensichtlich sein, und die hierin definierten allgemeinen Prinzipien können auch auf andere Implementierungen und Anwendungen angewandt werden, ohne sich vom Geist und Umfang der offenbarten Technologie zu entfernen. Ähnlich sind aufgeführte Prozessschritte möglicherweise nicht auf die gezeigte oder diskutierte Reihenfolge beschränkt. Die Beschreibung und die Zeichnungen sind entsprechend in einem veranschaulichenden anstatt einem einschränkenden Sinn zu betrachten. Somit soll die offenbarte Technologie nicht auf die gezeigten Implementierungen beschränkt sein, sondern es soll ihr der größte Anwendungsbereich in Übereinstimmung mit den hierin offenbarten Prinzipien und Merkmalen gewährt werden.
-
Einige besondere Implementierungen
-
Einige besondere Implementierungen und Merkmale sind in der folgenden Diskussion beschrieben.
-
Eine Implementierung eines offenbarten, durch ein neuronales Netzwerk implementierten Verfahrens der abstrahierungsfähigen Textverdichtung beinhaltet das Verarbeiten von Eingabe-Token-Einbettungen eines Dokuments durch einen rekurrenten Encoder, der verborgene Zustände des Encoders für jede der Einbettungen erzeugt; das Initialisieren eines rekurrenten Attentive Decoders mit einem letzten verborgenen Zustand des Encoders und einem speziellen Zusammenfassungsstart-Token zum Erzeugen verborgener Zustände des Decoders bei aufeinanderfolgenden Decodierungsschritten; und, bei jedem Decodierungsschritt, das Ausgeben, durch den Decoder, eines Zusammenfassungs-Tokens unter Verwendung eines aktuellen intratemporalen Encoder-Attention-Vektors, eines aktuellen Intra-Decoder-Attention-Vektors und eines aktuellen verborgenen Zustands des Decoders. Das Verfahren beinhaltet auch das Anwenden des aktuellen verborgenen Zustands des Decoders auf jeden der verborgenen Zustände des Encoders zum Erzeugen aktueller Encoder-Attention-Werte für jeden der verborgenen Zustände des Encoders; das Erstellen aktueller Encoder-Temporalwerte für jeden der verborgenen Zustände des Encoders durch exponentielles Normalisieren eines aktuellen Encoder-Attention-Wertes eines bestimmten verborgenen Zustands des Encoders über seine vorherigen Encoder-Attention-Werte; das Erstellen aktueller normalisierter Encoder-Temporalwerte durch Einheitsnormalisierung der aktuellen Encoder-Temporalwerte; das Erzeugen des aktuellen intratemporalen Encoder-Attention-Vektors als eine konvexe Kombination der verborgenen Zustände des Encoders, skaliert durch die entsprechenden aktuellen normalisierten Encoder-Temporalwerte; das Anwenden des aktuellen verborgenen Zustands des Decoders auf jeden von vorherigen verborgenen Zuständen des Decoders zum Erzeugen aktueller Decoder-Attention-Werte für jeden der vorherigen verborgenen Zustände des Decoders; das Erstellen aktueller normalisierter Decoder-Attention-Werte für jeden der vorherigen verborgenen Zustände des Decoders durch exponentielles Normalisieren jedes der aktuellen Decoder-Attention-Werte; und das Erzeugen des aktuellen Intra-Decoder-Attention-Vektors als konvexe Kombination der vorherigen verborgenen Zustände des Decoders, skaliert durch die entsprechenden aktuellen normalisierten Decoder-Attention-Werte, und das Verarbeiten des Vektors zum Ausgeben eines Zusammenfassungs-Tokens.
-
Dieses Verfahren und andere Implementierungen der offenbarten Technologie können ein oder mehrere der folgenden Merkmale und/oder Merkmale, die in Verbindung mit zusätzlichen offenbarten Verfahren beschrieben sind, beinhalten. Im Interesse der Übersichtlichkeit sind die in dieser Anmeldung offenbarten Kombinationen von Merkmalen nicht einzeln nummeriert und werden nicht mit jedem grundlegenden Merkmalssatz wiederholt.
-
Die offenbarte Technologie kann in der Praxis als ein System, Verfahren oder Herstellungsartikel umgesetzt sein. Ein oder mehrere Merkmale einer Implementierung können mit der Grundimplementierung kombiniert sein. Implementierungen, die nicht gegenseitig ausschließend sind, werden als kombinierbar gelehrt. Ein oder mehrere Merkmale einer Implementierung können mit anderen Implementierungen kombiniert werden. Diese Offenbarung erinnert den Benutzer periodisch an diese Optionen. Ein Weglassen von Rezitationen, die diese Optionen wiederholen, aus einigen Implementierungen, soll nicht als die in den vorhergehenden Abschnitten gelehrten Kombinationen einschränkend angenommen werden - diese Rezitationen sind hiermit durch Verweis in jede der nachfolgenden Implementierungen weiter eingeschlossen.
-
Bei einer Implementierung des durch ein neuronales Netzwerk implementierten Verfahrens werden die Einbettungen in einen hochdimensionalen Worteinbettungsraum eingebettet.
-
Für das offenbarte Verfahren umfasst der bidirektionale RNN-basierte Encoder zwei separate LSTM (Long Short-Term Memory) -Netzwerke und der RNN-basierte Decoder umfasst ein einzelnes LSTM-Netzwerk. In einigen offenbarten Implementierungen ist der Encoder ein bidirektionales rekurrentes neuronales Netzwerk (abgekürzt Bi-RNN), das Vorwärts- und Rückwärts-RNNs umfasst, wobei die Vorwärts- und Rückwärts-RNNs jeweils die Einbettungen als Eingabe zum Erzeugen von verborgenen Zuständen des Vorwärts- und Rückwärts-RNN empfangen und es sich bei den verborgenen Zuständen des Encoders um Verknüpfungen entsprechender verborgener Zustände des Vorwärts- und Rückwärts-RNN handelt.
-
Um das Beste aus sowohl überwachtem Lernen als auch Verstärkungslernen zu implementieren, kann das offenbarte Verfahren ferner das Anlernen des abstrahierungsfähigen Textverdichtungsmodells unter Verwendung einer Kombination aus Verstärkungslernen und überwachtem Lernen beinhalten und kann ferner das Anlernen des abstrahierungsfähigen Verdichtungsmodells unter Verwendung einer gemischten Anlernzielfunktion, die überwachtes maschinelles Lernen, das einen Maximum Likelihood-Verlust bei jedem Decodierungsschritt zum Bewerten der Relevanz durch Vergleichen der Decoder-Zusammenfassungsausgabe mit einer Ground-Truth-Zusammenfassung der Dokumentsequenz minimiert, mit Verstärkungslernen, das die Decoder-Zusammenfassungsausgabe gegenüber einer Baseline-Ausgabe evaluiert und eine Belohnung oder Strafe für die Lesbarkeit der Decoder-Zusammenfassungsausgabe zurückmeldet, mischt, beinhalten, wobei die Mischung aus dem überwachten maschinellen Lernen und dem Verstärkungslernen ein gewichteter Durchschnitt ist. Das offenbarte Verfahren verwendet sowohl Überwachung auf der Wortebene als auch auf der Ebene der gesamten Zusammenfassung, um sie kohärenter und lesbarer zu machen. Insbesondere hilft das ROUGE-optimierte RL bei der Verbesserung der Erinnerung, wodurch sichergestellt wird, das die wichtigen Informationen, die verdichtet werden müssen, tatsächlich enthalten sind, und die Lernüberwachung auf der Wortebene stellt einen guten Sprachfluss sicher, wodurch die Zusammenfassung kohärenter und lesbarer wird.
-
In der vorläufigen Anmeldung genannte Dokumente, „ROUGE: A Package for Automatic Evaluation of Summaries“ und „The ROUGE-AR: A Proposed Extension to the ROUGE Evaluation Metric for Abstractive Text Summarization“, identifizieren unterschiedliche Arten der ROUGE-Evaluierungsmetrik. Zur Optimierung diskreter Evaluierungsmetriken wie ROUGE verwendet die offenbarte abstrahierungsfähige Textverdichtungsarchitektur Verstärkungslernalgorithmen. Bei einigen Implementierungen des offenbarten Verfahrens ist das Verstärkungslernen unter Verwendung eines selbstkritischen Sequenzanlern- (SCST - Self-Critical Sequence Training) Algorithmus implementiert und das überwachte Lernen ist unter Verwendung eines Maximum Likelihood- (ML -) Verlust-Anlernziels implementiert.
-
Bei einigen offenbarten Implementierungen wird das abstrahierungsfähige Verdichtungsmodell zum Verdichten von Dokumentsequenzen von 400 bis 800 Tokens in Zusammenfassungssequenzen von 40 bis 100 Tokens verwendet.
-
In einer offenbarten Implementierung wird das abstrahierungsfähige Textverdichtungsmodell zum Durchführen auf maschineller Übersetzung basierter Aufgaben der Verarbeitung natürlicher Sprache (NLP - Natural Language Processing) verwendet. In einer weiteren offenbarten Implementierung wird das abstrahierungsfähige Verdichtungsmodell zum Durchführen Frage-Antwort-basierter NLP-Aufgaben verwendet. In noch einer weiteren Implementierung wird das abstrahierungsfähige Verdichtungsmodell zum Durchführen Dialogsystem-basierter NLP-Aufgaben verwendet.
-
Einige Implementierungen des offenbarten Verfahrens beinhalten ferner das Evaluieren der Leistung des abstrahierungsfähigen Verdichtungsmodells anhand diskreter ROUGE-Evaluierungsmetriken. In einer weiteren Implementierung des offenbarten Verfahrens zur Implementierung eines neuralen Sequenzverfahrens, das ein abstrahierungsfähiges Verdichtungsmodell implementiert, können BLEU- oder METEOR-Evaluierungsmetriken genutzt werden.
-
Einige Implementierungen des offenbarten Verfahrens beinhalten ferner das Verlangen vom RNN-basierten Decoder, eine gleiche Trigramm-Sequenz von Ausgabezusammenfassungs-Tokens nicht mehr als einmal in einer Zusammenfassung auszugeben.
-
Eine Implementierung eines offenbarten Verfahrens zur Implementierung eines neuralen Sequenzverfahrens, das ein abstrahierungsfähiges Verdichtungsmodell implementiert, beinhaltet das Einbetten von Eingabedokument-Tokens einer Dokumentsequenz in einen Worteinbettungsraum und das Bereitstellen der Eingabedokument-Token-Einbettungen an einen bidirektionalen, auf einem rekurrenten neuronalen Netzwerk (RNN) basierten Encoder zum Erzeugen einer gesamten bidirektionalen Codierung für das Eingabedokument und bidirektionaler Token-Codierungen für die Eingabedokument-Tokens der Dokumentsequenz. Das offenbarte Verfahren beinhaltet auch das Initialisieren eines RNN-basierten Decoders mit der gesamten bidirektionalen Codierung als ein anfänglicher aktueller verborgener Zustand des Decoders. Das Verfahren beinhaltet ferner, bei jedem Decodierungsschritt, das Berechnen, durch den RNN-basierten Decoder, eines intratemporalen Encoder-Attention-Vektors durch das Anwenden des aktuellen verborgenen Zustands des Decoders auf die bidirektionalen Token-Codierungen zum Erzeugen codierter Zustands-Attention-Gewichte für die Eingabedokument-Tokens; das exponentielle Normalisieren der codierten Zustands-Attention-Gewichte; und das Berechnen einer gewichteten Summe der bidirektionalen Token-Codierungen basierend auf den normalisierten codierten Zustands-Attention-Gewichten. Außerdem beinhaltet das Verfahren, bei jedem Decodierungsschritt, das Berechnen, durch den RNN-basierten Decoder, eines Intra-Decoder-Attention-Vektors durch das Anwenden des aktuellen verborgenen Zustands des Decoders auf zuvor berechnete verborgene Zustände des Decoders zum Erzeugen decodierter Zustands-Attention-Gewichte für jeden der zuvor berechneten verborgenen Zustände des Decoders; das exponentielle Normalisieren der decodierten Zustands-Attention-Gewichte; und das Berechnen einer gewichteten Summe der zuvor berechneten verborgenen Zustände des Decoders basierend auf den normalisierten decodierten Zustands-Attention-Gewichten; und das Verknüpfen, bei jedem Decodierungsschritt, des Intra-Decoder-Attention-Vektors mit dem intratemporalen Encoder-Attention-Vektor und mit dem aktuellen verborgenen Zustand des Decoders und das Verarbeiten des verknüpften Vektors zum Ausgeben eines Zusammenfassungs-Tokens.
-
Noch eine weitere Implementierung kann physische, nicht temporäre computerlesbare Medien beinhalten, die auf die Medien geladene Computerprogrammanweisungen beinhalten, die, wenn sie mit Computerhardware kombiniert und ausgeführt werden, einen Computer zum Implementieren jegliches der zuvor beschriebenen Verfahren veranlassen.
-
Eine Systemimplementierung der offenbarten Verfahren beinhaltet einen oder mehrere an Speicher gekoppelte Prozessoren, die jegliches der zuvor beschriebenen Verfahren implementieren.
-
Bei einigen Implementierungen kann das offenbarte System ferner das Ausgeben eines aktuellen Zusammenfassungs-Tokens durch den Attentive Decoder beinhalten, indem ein aktueller verborgener Zustand des Decoders und Ergebnisse der Attention der verborgenen Zustände des Encoders und seine zuvor erzeugten verborgenen Zustände des Decoders kombiniert werden. In einigen Implementierungen konzentriert sich die Decoder-Attention der verborgenen Zustände des Encoders auf unverdichtete Abschnitte des Dokuments. In einigen Fällen verhindert die Decoder-Attention der zuvor erzeugten verborgenen Zustände des Decoders das Ausgeben wiederholter Zusammenfassungsphrasen.
-
Einige Implementierungen des offenbarten, auf einem neuronalen Netzwerk basierten abstrahierungsfähigen Textverdichtungssystems beinhalten ferner das Anlernen des abstrahierungsfähigen Verdichtungsmodells unter Verwendung einer Kombination aus Verstärkungslernen und überwachtem Lernen. Einige Implementierungen des auf einem neuronalen Netzwerk basierten abstrahierungsfähigen Textverdichtungssystems beinhalten das Anlernen des abstrahierungsfähigen Verdichtungsmodells unter Verwendung einer gemischten Anlernzielfunktion, die überwachtes maschinelles Lernen, das einen Maximum Likelihood-Verlust bei jedem Decodierungsschritt zum Bewerten der Relevanz durch Vergleichen der Decoder-Zusammenfassungsausgabe mit einer Ground-Truth-Zusammenfassung der Dokumentsequenz minimiert, mit Verstärkungslernen, das die Decoder-Zusammenfassungsausgabe gegenüber einer Baseline-Ausgabe evaluiert und eine Belohnung oder Strafe für die Lesbarkeit der Decoder-Zusammenfassungsausgabe zurückmeldet, mischt, wobei die Mischung aus dem überwachten maschinellen Lernen und dem Verstärkungslernen ein gewichteter Durchschnitt ist.
-
Diese Systemimplementierung und andere optional offenbarte Systeme beinhalten ein oder mehrere der Merkmale, die in Verbindung mit offenbarten Verfahren beschrieben sind. Im Interesse der Übersichtlichkeit sind alternative Kombinationen von Systemmerkmalen nicht einzeln nummeriert. Merkmale, die auf Systeme, Verfahren und Herstellungsartikel anwendbar sind, werden nicht für jeden Grundmerkmalssatz der vorgeschriebenen Klasse wiederholt. Der Leser wird verstehen, wie in diesem Abschnitt identifizierte Merkmale leicht mit Grundmerkmalen in anderen vorgeschriebenen Klassen kombiniert werden können.
-
Die vorstehende Beschreibung ist lediglich veranschaulichender Natur und beabsichtigt keine Einschränkung der Implementierungen des Gegenstandes oder der Anwendung und Verwendung derartiger Implementierungen. Ferner ist keine Bindung durch jegliche ausgedrückte oder implizierte Theorie, die im Technischen Gebiet, im Allgemeinen Stand der Technik oder der Detaillierten Beschreibung dargelegt ist, beabsichtigt. Wie hierin verwendet, bedeutet das Wort „beispielhaft“ „als ein Beispiel, eine Instanz oder Veranschaulichung dienend“. Jegliche hierin als beispielhaft beschriebene Implementierung ist nicht notwendigerweise als bevorzugt oder vorteilhaft gegenüber anderen Implementierungen anzusehen, und die hierin beschriebenen beispielhaften Implementierungen sollen den Umfang oder die Anwendbarkeit des Gegenstands in keiner Weise einschränken.
-
Während die offenbarte Technologie durch Verweis auf die oben detailliert beschriebenen bevorzugten Ausführungsformen und Beispiele offenbart ist, soll verstanden werden, dass diese Beispiele in einem veranschaulichenden anstatt einem einschränkenden Sinn gedacht sind. Es wird in Betracht gezogen, dass Modifikationen und Kombinationen für den Fachmann auf dem Gebiet leicht erkennbar sind, wobei diese Modifikationen und Kombinationen innerhalb des Geistes der Erfindung und des Umfangs der folgenden Ansprüche liegen.
-
Folgendes wird beansprucht:
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
-
Zitierte Nicht-Patentliteratur
-
- Nallapati, et al., 2016; Zeng, et al., 2016 [0010]
- Durrett, et al., 2016, Nallapati, et al., 2017 [0025]