DE202022002901U1

DE202022002901U1 - Text-Bild-Layout Transformer (TILT)

Info

Publication number: DE202022002901U1
Application number: DE202022002901.2U
Authority: DE
Original assignee: Applica Sp Z O O; Applica Sp zoo
Current assignee: Applica Sp Z O O; Applica Sp zoo
Priority date: 2021-02-17
Filing date: 2022-02-16
Publication date: 2024-01-03
Anticipated expiration: 2032-02-17
Also published as: WO2022175849A1; US20230259709A1; US20220270311A1; US11763087B2; EP4295266A1; US20240028832A1; US11934786B2; US11620451B2; US20220327286A1; CN117043783A; DE202022002902U1; EP4295267A1; US20220261547A1; US11455468B2; WO2022175847A1; CN117083605A

Abstract

System zur Verarbeitung natürlicher Sprache (NLP (= Natural Language Processing)) von Dokumenten aus der realen Welt, umfassend:
ein Text-Bild-Layout-Transformer-(TILT(= Text-Image-Layout Transformer)-)System zur Verarbeitung natürlicher Sprache (NLP (= Natural Language Processing)), das auf einem oder mehreren Prozessoren ausgeführt wird, wobei das TILT-System ausführbare Anweisungen umfasst, die dann, wenn sie durch den Prozessor ausgeführt werden, ein Verfahren durchführen, wobei das Verfahren folgendes umfasst:
Ausführen von einem oder mehreren Modellen, das oder die aus einer Gruppe ausgewählt ist oder sind, die folgendes umfasst:
ein Encoder-Decoder-Modell;
ein räumliches Modell, und
ein multimodales Modell;
Empfangen von Daten, die wenigstens Textdaten, Layoutdaten und Bilddaten umfassen; und
Arbeiten an den empfangenen Daten, um eine verwendbare Ausgabe zu erzeugen, die sich auf eine Analyse der empfangenen Daten bezieht.

Description

ZUGEHÖRIGE ANMELDUNGEN
Diese Anmeldung beansprucht das Vorrecht der provisorischen US-Patentanmeldung Nr. 63/150,271 , eingereicht am 17. Februar 2021, die hierin durch Bezugnahme in ihrer Gesamtheit enthalten ist.
GEBIET DER ERFINDUNG
Erfindungen, die hierin offenbart und beansprucht werden, sind im Gebiet der Verarbeitung natürlicher Sprache (NLP (= Natural Language Processing)) und insbesondere NLP von Dokumenten aus der realen Welt, die Tabellen, Figuren bzw. Abbildungen, Formulare und Bilder enthalten.
Um als Gebrauchsmuster und Gegenstand des Gebrauchsmusters geschützt zu werden, gibt es gemäß den Erfordernissen des Gebrauchsmustergesetzes nur Vorrichtungen, wie es in den Ansprüchen definiert ist, aber keine Verfahren. In dem Fall, in welchem die Beschreibung auf Verfahren Bezug nimmt, dienen diese Bezugnahmen lediglich dazu, die Vorrichtung oder Vorrichtungen darzustellen, für welche Schutz mit den beigefügten Ansprüchen gesucht wird.
HINTERGRUND
Die meisten Aufgaben bei NLP (= Natural Language Processing) können unter einem Framework vereint werden, indem sie als Tripletts aus Frage, Kontext und Antwort zusammengefasst werden. Wir betrachten eine solche Vereinigung von Dokumentenklassifizierung, Schlüsselinformationsextraktion und Fragenbeantwortung in einem anspruchsvollen Szenario, in dem ein Kontext über die Textebene hinausgeht.
Diese Herausforderung ist in Geschäftsfällen vorherrschend, da Verträge, Formulare, Anträge und Rechnungen eine umfangreiche Auswahl an Dokumenttypen und komplexen räumlichen Layouts abdecken.
Bisher enthalten bei NLP erzielte Erfolge Modelle, die eine rohe Texteingabe auf eine rohe Textausgabe abbilden, die für gewöhnlich in digitaler Form bereitgestellt werden. Ein wichtiger Aspekt von auf eine reale Welt ausgerichteten Problemen ist das Vorhandensein von gescannten Schriftstückaufzeichnungen bzw. -daten und anderen analogen Materialien, die digital wurden. Als Folge davon gibt es keine leicht zugängliche Information bezüglich des Dokumentenlayouts oder der Lesereihenfolge, und diese ist als Teil des Prozesses zu bestimmen. Weiterhin kann eine Interpretation von Formen und Diagrammen über das Layout hinausgehend nützlich sein, um die Werte für einige der angeforderten Eigenschaften zu finden. Ein System kann sich nicht nur auf Text verlassen, sondern erfordert eine Einbeziehung von Information aus Strukturen und Bildern.
Wie es in 1 gezeigt ist, wird dasselbe Dokument in Abhängigkeit von gewählten Modalitäten unterschiedlich wahrgenommen. 1A konzentriert sich auf den visuellen Aspekt. Ein Schema in 1B stellt räumliche Beziehungen zwischen Begrenzungsrahmen detektierter bzw. erkannter Wörter dar. Schließlich gibt es einen unstrukturierten Text desselben Auszugs in 1C, wie er durch eine optische Zeichenerkennung (OCR (= Optical Character Recognition)) unter der erkannten Lesereihenfolge zurückgegeben wird. Es braucht somit drei Modalitäten, um diese grundlegende Herausforderung zu lösen. Eine Extraktion von Schlüsselinformation aus reich formatierten Dokumenten liegt genau an der Schnittstelle von NLP, Computervision und Layoutanalyse.
Sequenzbeschriftungsmodelle können in allen Fällen trainiert werden, in denen die der Kommentar bzw. die Anmerkung bzw. die Annotation auf Tokenebene verfügbar ist oder leicht erhalten werden kann. Grenzen für diesen Ansatz sind bei Aufgaben, die entweder in Musterbeispielen von entweder Schlüsselinformationsextraktion oder Eigenschaftsextraktion eingebettet sind, auffallend sichtbar. Hier sind keine kommentierte Spannen verfügbar, sondern sind dem Dokument nur Eigenschaftswertpaare zugewiesen. Gelegentlich wird vom Modell erwartet, dass es eine bestimmte Unter- bzw. Teilsequenz des Dokuments markiert.
Nimmt man Bezug auf die Tabelle 1, ist ein Vergleich von Aufgaben unter der Annahme einer Extraktion von Objekten aus der realen Welt gezeigt, die im Text erwähnt sind. Erwartete Werte sind immer in einer Teilzeichenfolge eines Dokuments bei einer Erkennung benannter Entitäten vorhanden, aber nicht an anderer Stelle. Jedoch sind Probleme, bei denen der erwartete Wert selten eine Teilzeichenfolge eines betrachteten Texts ist, unlösbar, wenn man Methoden zur Sequenzbeschriftung bzw. -kennzeichnung annimmt. Als Ergebnis sind Autoren, die modernste Entitätserkennungsmodelle anwenden, gezwungen, sich auf von Menschen erstellte Heuristiken und zeitaufwändige Regeltechnik zu verlassen. Spezielle Probleme, die man bei einem Verwenden einer Sequenzbeschriftungsmethode lösen muss, können in drei Gruppen aufgeteilt werden. Wir untersuchen sie im Folgenden, um die Grenzen dieses Ansatzes genau aufzuzeigen.
Es soll ein Beispiel für den Gesamtbetrag genommen werden, der einem Empfang im SROIE-Datensatz zugewiesen ist. Es soll angenommen werden, dass es keine genaue Übereinstimmung eines erwarteten Werts im Dokument gibt, wie z.B. aufgrund eines OCR-Fehlers, einer falschen Lesereihenfolge oder eines verwendeten anderen Dezimaltrennzeichens. Leider kann kein standardmäßiges Sequenzbeschriftungsmodell angewendet werden und Autoren, die sich mit einer Eigenschaftenextraktion befassen, verlassen sich auf entweder manuelle Annotation oder die auf Heuristik basierte Etikettierungs- bzw. Markierungs- bzw. Tagging-Prozedur, die sich auf die gesamten Ende-zu-Ende-Ergebnisse auswirkt. Darüber hinaus ist dann, wenn Empfänge bzw. Belege mit einem aufgelisteten Element betrachtet werden, der Gesamtbetrag gleich einem Einzelelementpreis, was die Ursache für noch ein weiteres Problem ist. Genauer gesagt ist es dann, wenn es mehrere Übereinstimmungen des Werts im Dokument gibt, nicht eindeutig bzw. unklar, ob alle von ihnen, einige von ihnen oder keine von ihnen zu etikettieren bzw. zu markieren sind.
Ein weiteres Problem, das man lösen muss, besteht darin, zu entscheiden, wie viele der erkannten Entitäten zurückgegeben werden sollen, welche davon und ob die Ausgabe irgendwie normalisiert werden soll. Als Konsequenz schlugen die Autoren von Kleister eine Reihe von handgefertigten Regeln für die endgültige Auswahl der Entitätswerte vor. Diese und ähnliche Regeln sind sowohl arbeitsintensiv als auch fehleranfällig.
Schließlich nimmt das Musterbeispiel Eigenschaftsextraktion nicht an, dass der angeforderte Wert in irgendeiner Form im Artikel bzw. Gegenstand auftauchte, da es ausreicht, dass er, wie im Fall einer Dokumentenklassifizierung oder einer nicht extraktiven Fragebeantwortung, aus dem Inhalt abgeleitet werden kann.
Diese verschiedenen Herausforderungen erlegen zusätzliche Bedingungen auf, die über NLP hinausgehen.
Es wäre wünschenswert, ein NLP-System zur Verarbeitung von Dokumenten aus der realen Welt bzw. von realen Dokumenten zu haben, das die angegebenen Mängel des Standes der Technik überwindet.
KURZE BESCHREIBUNG DER ZEICHNUNGEN

1 ist eine Darstellung von Daten eines realen Dokuments, wie sie unter Verwendung verschiedener Modalitäten nach dem Stand der Technik gesehen werden.
2 ist ein Systemdiagramm einer Ausführungsform eines Systems zur Verarbeitung von realen Dokumenten, wie es hierin beschrieben ist.
3 ist ein Diagramm, das räumliche Beziehungen zwischen Token in einem Dokument gemäß einer Ausführungsform darstellt.
4A ist eine Darstellung von Transformer-Schemen nach dem Stand der Technik.
4B ist eine Darstellung eines Transformer-Schemas gemäß hierin beschriebenen Ausführungsformen.
5 ist eine Darstellung eines U-NET-Netzwerks gemäß einer Ausführungsform.

DETAILLIERTE BESCHREIBUNG
Die Herausforderungen und Einschränkungen, die durch frühere Ansätze für die Verarbeitung natürlicher Sprache (NLP) von Dokumenten aus der realen Welt präsentiert sind, werden durch eine neue Architektur, wie sie hierin beschrieben ist, weitgehend überwunden. Bei einer Ausführungsform werden layoutbewusste Modelle innerhalb eines Encoder-Decoder-Frameworks formuliert. Da eine auf Namensentitätserkennung (NER (= Name Entity Recognition)) basierende Extraktion von dem endgültigen Zweck getrennt ist, für den die empfangenen Daten verwendet werden, erfordert ein typisches reales Szenario die Einstellung von Schlüsselinformationsextraktion. Um dieses Problem anzugehen, konzentriert sich eine Ausführungsform auf die Anwendbarkeit eines Encoder-Decoder-Modells, da es Werte erzeugen kann, die nicht explizit im Eingabetext enthalten sind, und sie erbringt bei allen textbasierten Problemen, die natürliche Sprache betreffen, eine recht gute Leistung. Dies löst potenziell alle identifizierten Probleme von Sequenzbeschriftungs-Architekturen und bindet andere Aufgaben, wie z.B. Fragebeantwortung oder Textklassifizierung, in dasselbe Framework ein. Zum Beispiel kann das Modell ableiten, dass nur in Abhängigkeit von der Frageform mit Ja oder Nein geantwortet wird. Seine Ende-zu-Ende-Eleganz und Benutzerfreundlichkeit lässt zu, dass man sich nicht auf von Menschen erstellte Heuristiken verlässt und zeitaufwändige Regeltechnik loswird, die beim Musterbeispiel Sequenzbeschriftung erforderlich ist.
Bei Ausführungsformen verwendet die Architektur mehrere bisher nicht kombinierte unterschiedliche Modelle, einschließlich Encoder-Decoder, räumlich und multimodal. Eine Ausführungsform basiert auf einem Transformer-Ansatz und konzentriert sich auf eine Einbeziehung von räumlicher Information oder unterschiedlichen Modalitäten in Textverarbeitungssysteme sowie auf eine Anwendbarkeit von Encoder-Decoder-Modellen auf Informationsextraktion und Fragebeantwortung.
2 ist ein Systemdiagramm einer Ausführungsform eines Verarbeitungssystems für reale Dokumente 200, wie es hierin beschrieben ist. Das NLP-System 202 ist bei einer Ausführungsform ein Text-Bild-Layout-Transformer (TILT (=Text-Image-Layout Transformer)). TILT 202 verwendet Modelle 204, die ein Encoder-Decoder-Modell, ein räumliches Modell und ein multimodales Modell enthalten. TILT 202 ist als Softwareanweisungen verkörpert, die von einem oder mehreren Prozessoren ausgeführt werden, der oder die sich an einer beliebigen Stelle befinden könnte oder könnten.
TILT 206 empfängt reale Daten 206, einschließlich Textdaten, Layoutdaten und Bilddaten, elektronisch über irgendeine Art von Datennetzwerk 210. TILT 202 empfängt auch Fragen 208 über das Datennetzwerk 210.
TILT erzeugt eine Ausgabe 212, die Schlüsselinformation, Dokumentenklassifizierung und Antworten auf Fragen 208 enthält. Wie bei allen elektronischen Daten könnte sich jedes der im System 200 gezeigten Elemente physisch irgendwo bzw. überall befinden und von irgendeiner Art von Prozessor erzeugt und verarbeitet werden, wie es auf dem Gebiet verstanden wird.
ÜBERSICHT ÜBER ANSÄTZE GEMÄSS VERSCHIEDENEN AUSFÜHRUNGSFORMEN
Räumlich bewusste Transformer
Wenn Aufgaben mit 2D-Dokumenten betrachtet werden, können sequentielle Modelle übertroffen werden, indem Layoutinformation entweder direkt als positionelle Einbettungen oder indirekt durch Zulassen, dass sie in ihrer räumlichen Nachbarschaft kontextualisiert werden, betrachtet werden. Weitere Verbesserungen konzentrieren sich auf die Trainings- und Inferenzaspekte jeweils durch die Einbeziehung der Bereichsmaskierungsverlustfunktion oder ein Erreichen einer Unabhängigkeit von einer sequentiellen Reihenfolge bei einer Decodierung. Im Gegensatz zu diesen vorherigen Methoden wird der Selbstaufmerksamkeit anstelle von Positionseinbettungen eine Verzerrung hinzugefügt, die auf Entfernungen bzw. Abstände auf der 2D-Ebene verallgemeinert wird. Zusätzlich wird eine wortzentrierte Maskierungsmethode verwendet, die sowohl Bilder als auch Text betrifft. Darüber hinaus wird dadurch, dass ein Verwenden eines Encoder-Decoders ausgewählt wird, eine Unabhängigkeit von einer sequentiellen Reihenfolge bei einer Decodierung ohne dedizierte Änderungen an der Architektur gewährleistet.
Encoder-Decoder für IE und QA
Die meisten NLP-Aufgaben können unter einem Framework vereint werden, indem sie als Sprachmodellierung, Sequenzbeschriftung oder Fragebeantwortung zusammengefasst werden. Das QA-Programm zur Vereinigung von NLP formuliert alle Probleme als Tripletts aus Frage, Kontext und Antwort oder Element, Eigenschaftsname und Antwort. Obwohl dies nicht unbedingt zur Verwendung von Encoder-Decoder-Modellen führt, haben mehrere bisherige Lösungen auf Varianten der Transformer-Architektur beruht. Der T5-Transformer ist ein prominentes Beispiel des Standes der Technik für große Transformer, die bei verschiedenen NLP-Benchmarks bzw. -Vergleichsmaßstäben Ergebnisse gemäß dem neuesten Stand der Technik erzielen. Bei Ausführungsformen wird dieser Ansatz über das Text-zu-Text-Szenario hinaus erweitert, indem es möglich gemacht wird, eine multimodale Eingabe zu konsumieren.
Multimodale Transformer
Multimodale Transformer greifen die Beziehungen zwischen Text und anderen Medien an. Im Zusammenhang mit Bildern wurde diese Nische bisher mit einem Bildzu-Text-Queraufmerksamkeits-Mechanismus oder alternativ durch Hinzufügen visueller Merkmale zu Worteinbettungen oder eine Verkettung von ihnen angegangen. Im Gegensatz zu früheren Ansätzen werden gemäß einer Ausführungsform visuelle Merkmale zu Worteinbettungen hinzugefügt, die bereits auf mehreren Auflösungsebenen eines Bildes kontextualisiert sind.
MODELL-ARCHITEKTUR
Bei einer Ausführungsform ist die Architektur eines Transformers, die ursprünglich für das Problem von neuronaler maschineller Übersetzung vorgeschlagen wurde, eine solide Basis für alle generativen Aufgaben, die natürliche Sprache beinhalten.
Starten wir von der allgemeinen Sicht auf die Aufmerksamkeit in der ersten Schicht des Transformers. Wenn n die Anzahl der Eingabe-Token bezeichnet, was in einer Matrix von Einbettungen X resultiert, dann kann eine Selbstaufmerksamkeit gesehen werden als: $s o f t m a x (\frac{Q_{x} K_{x}^{T}}{\sqrt{n}} + B) V_{x}$
wobei Q_x, K_x und V_x Projektionen von X auf Abfrage-, Schlüssel- und Werteräume sind, während B für eine optionale Aufmerksamkeitsverzerrung steht. Im ursprünglichen Transformer gibt es keinen B-Term, und Information über die Reihenfolge von Token wird dem Modell explizit zur Verfügung gestellt, d.h.:
wobei S und P jeweils die semantischen Einbettungen von Token und Positionseinbettung resultierend aus ihren Positionen sind. 0_n ⇥ d bezeichnet eine Nullmatrix.
Im Gegensatz zur ursprünglichen Formulierung verlassen wir uns auf relative Aufmerksamkeitsverzerrungen anstelle von positionellen Einbettungen. Diese werden weiter erweitert, um räumliche Beziehungen zwischen Token zu berücksichtigen, wie es im Dokumentauszug der 3 gezeigt ist, und zwar mit unterschiedenen vertikalen Eimern bzw. Buckets für das Betrags-Token.
MODELLARCHITEKTUR: Räumliche Verzerrung
Bei einer Ausführungsform wird der herkömmliche T5-Architekturansatz auf räumliche Dimensionen ausgedehnt. Die herkömmliche T5-Architektur ignoriert positionelle Einbettungen, indem sie X = S einstellt, um dadurch eine relative Verzerrung durch Erweitern einer Selbstaufmerksamkeits-Gleichung mit dem sequentiellen Verzerrungs-Term B = B^ID, einer vereinfachten Form der Positionssignaleinbindung, einzuführen. Hier hat jeder zur Berechnung der Aufmerksamkeitskopfgewichtungen verwendete Logit einen gelernten Skalar hinzugefügt, was aus entsprechenden Tokenzu-Token-Offsets resultiert. Bei einer Ausführungsform, die diesen grundlegenden Ansatz auf räumliche Dimensionen ausdehnt, werden Verzerrungen für relative horizontale und vertikale Abstände zwischen jedem Paar von Token berechnet und zur ursprünglichen sequentiellen Verzerrung hinzugefügt bzw. addiert: $B = B ID + B H + B V$
Eine solche Verzerrung fällt in einen von 32 Eimern bzw. Buckets, wobei jede Gruppe ähnlich weit voneinander entfernte Tokenpaare sind. Die Größe der Eimer bzw. Buckets wächst logarithmisch, so dass größere Tokenpaarabstände in größere Buckets gruppiert werden.
MODELLARCHITEKTUR: Kontextualisierte Bildeinbettungen
Bei herkömmlichen Systemen wird von kontextualisierten Wort-Einbettungen erwartet, dass sie kontextabhängige Semantik erfassen. In Anbetracht dieser Tatsache wird für die gesamte Eingabesequenz eine assoziierte bzw. zugeordnete Sequenz von Vektoren zurückgegeben. Bei einer Ausführungsform haben kontextualisierte Bild-Einbettungen das gleiche Ziel, das heißt, sie decken die Semantik des Bildbereichs im Kontext ihrer gesamten visuellen Nachbarschaft ab. Bei einer Ausführungsform wird zum Erzeugen von Bild-Einbettungen ein Faltungsnetzwerk verwendet, das das gesamte Seitenbild einer Größe von 512 x 384 verbraucht, und es erzeugt eine Merkmalskarte von 64 x 48 x 128. Eine Ausführungsform verwendet U-Net als Backbone-Encoder-Netzwerk, da diese Architektur einen Zugriff auf nicht nur die Information in der unmittelbaren Nachbarschaft des Tokens zur Verfügung stellt, wie beispielsweise Schriftart und Stil, sondern auch auf weiter entfernte Bereiche der Seite, was in Fällen nützlich ist, in denen der Text mit anderen Strukturen in Beziehung steht, wie z.B. dort, wo der Text die Beschriftung eines Bildes ist.
5 stellt ein abgeschnittenes U-Net-Netzwerk ^ conv ^ max-pool ^ up-conv ^ residual dar, wobei diese Multiskaleneigenschaft aus den Skip-Connections (Überspringen einer Schicht) innerhalb der gewählten Architektur hervorgeht. Dann werden Begrenzungsrahmen von jedem Token verwendet, um Merkmale aus der Merkmalskarte vom U-Net mit ROI-Pooling (Zusammenlegung beim Bereich von Interesse (ROI (= Region Of Interest))) zu extrahieren.
Ein Bild, das als Matrix von Pixeln dargestellt ist, wird durch eine Anzahl von Faltungsschichten Conv in Kombination mit Max-Pooling-Operationen MaxPool verarbeitet, um eine dichte Tensor-Darstellung des Bildes zu erhalten. Dann wird diese Darstellung durch eine Kombination von Aufwärtsfaltungen UpConv und Faltungen Conv mit Restverbindungen Residual aus entsprechenden Schritten verarbeitet. Auf diese Weise werden Darstellungen in höheren Auflösungen erhalten, einschließlich der endgültigen Ausgabe des Netzwerks, die visuelle Merkmale des Bildes darstellt.
Nimmt man Bezug auf 4A, wird im originalen „Vanilla“-Transformer 4AI Information über die Reihenfolge von Token dem Modell durch zu semantischen Einbettungen hinzugefügte positionelle Einbettungen explizit bereitgestellt. In der T5-Architektur, 4A2, wird sequentielle Verzerrung eingeführt, um dadurch Semantik von sequentiellen Abständen zu trennen.
4B stellt eine Ausführungsform dar, bei der diese klare Unterscheidung beibehalten wird, aber zusätzlich Verzerrungen mit räumlichen Beziehungen erweitert werden und zusätzliche Bildsemantik am Eingang bereitgestellt wird.
Ein Bild, das als Matrix von Pixeln dargestellt ist, wird durch ein OCR-System verarbeitet, um Text-Token zu erhalten. Die verteilende und kontextualisierte Semantik von Texttoken ist in einen mehrdimensionalen Vektorraum eingebettet. Texteinbettungen werden unter Verwendung der Vektorsummenoperation zu den direkt aus dem Bild erhaltenen kontextualisierten visuellen Merkmalen hinzugefügt, wobei jedem Texttoken unterschiedliche visuelle Merkmale in Bezug auf seine Position und Umgebung zugewiesen werden. Die gemeinsamen Einbettungen werden unter Verwendung von erlernbaren linearen Projektionen in Abfragen, Schlüsseln und Werten abgebildet. Abfragen werden unter Verwendung von Punktprodukt bzw. Skalarprodukt gegenüber Schlüsseln abgeglichen. Das Ergebnis dieser Operation wird mit entsprechenden Aufmerksamkeitsverzerrungen summiert, die lineare ID-Beziehungen sowie auch räumliche 2D-Beziehungen kombinieren; die räumlichen 2D-Beziehungen werden wiederum unter Verwendung der Abstände von Begrenzungsrahmen jedes Tokens bestimmt, wie sie mit OCR erhalten werden. Die Aufmerksamkeitsverzerrungen werden auf eine paarweise Art für jedes Paar von Texttoken bestimmt. Ein Abfrage-Schlüssel-Abgleich, der mit der Aufmerksamkeitsverzerrung summiert wird, wird dann verwendet, um die geeigneten Werte auszuwählen. Die gewichtete Summe von Werten wird als die Ausgabe eines Selbstaufmerksamkeitskopfes bzw. -anfangs zurückgegeben und bildet eine kontextualisierte Einbettung, um als die Eingabe zur nächsten Schicht verwendet zu werden.
Die Gewichtungen und Einbettungen werden auf automatische Weise unter Verwendung von Rückwärtspropagierung bzw. Backpropagation erlernt.
Einbettungen
Um visuelle Information zum Transformer zu injizieren, wird eine Matrix von kontextualisierten Bildbereichs-Einbettungen I zur semantischen Einbettung hinzugefügt, was wir in Übereinstimmung mit der Konvention aus dem obigen Abschnitt „Modell-Architektur“ definieren als: $X = S + I$
REGULARISIERUNGSTECHNIKEN
Im Sequenzbeschriftungsszenario führt jedes Dokument zu mehreren Trainingsinstanzen (Tokenklassifizierung), während bei Transformer-Sequenz-zu-Sequenz-Modellen dasselbe Dokument zu einer Trainingsinstanz mit höherem Merkmalsraum (Decodierung aus mehreren Token) führt.
Da die meisten der Token bei einer Schlüsselinformationsextraktion irrelevant sind und kontextualisierte Worteinbettungen absichtlich korreliert sind, haben Ausführungsformen leichter eine Überanpassung als ihre Sequenzbeschriftungs-Gegenstücke. Um die Robustheit des Modells zu verbessern, führen wir für jede Modalität eine Regularisierungstechnik ein.
REGULARISIERUNGSTECHNIKEN: Augmentierung von Fällen
Eine Tokenisierung von Teilwörtern, die häufig bei einer Transformer-Architektur verwendet wird, hat mehrere identifizierte Nachteile. Zum Beispiel ist sie deterministisch, obwohl gezeigt worden ist, dass eine nicht-deterministische Segmentierung aufgrund eines besseren Erlernens der Zusammensetzbarkeit von Wörtern zu robusteren Modellen führt. Darüber hinaus neigen vortrainierte Modelle dazu, unterdurchschnittlich abzuschneiden, wenn Text mit Großbuchstaben geschrieben ist, da dies zu einer unterschiedlichen Segmentierung mit Einbettungen von selten verwendeten Einheiten führt. Beide von diesen Problemen werden bei einer Ausführungsform mit einer einfachen Regularisierungsstrategie überwunden. Verbesserte Kopien von Dateninstanzen werden durch gleichzeitige Klein- oder Großschreibung von sowohl Dokumenten- als auch Zieltext erzeugt.
REGULARISIERUNGSTECHNIKEN: Augmentierung von räumlicher Verzerrung
Gemäß einer Ausführungsform werden räumliche Verzerrungen durch Multiplizieren der horizontalen und vertikalen Abstände zwischen Token mit einem Zufallsfaktor verstärkt. Eine solche Transformation ähnelt einem Strecken oder Zusammendrücken von Dokumentseiten in horizontalen und vertikalen Dimensionen. Zur Skalierung jeder Dimension verwendete Faktoren werden einheitlich abgetastet.
REGULARISIERUNGSTECHNIKEN: Augmentierung von affiner Vision
Um visuelle Deformationen bzw. Verzerrungen von realen Dokumenten zu korrigieren, werden Bilder mit einer affinen Transformation erweitert, bei der parallele Linien innerhalb eines Bildes beibehalten werden, aber seine Position, sein Winkel, seine Größe und seine Scherung modifiziert werden. Wenn solche Modifikationen am Bild durchgeführt werden, werden die Begrenzungsrahmen von jedem Texttoken entsprechend aktualisiert. Bei einer Ausführungsform wurden die exakten Hyperparameter einer an einem Basismodell für einen DocVQA-Datensatz durchgeführten Optimierung unterzogen.
Während hierin verschiedene erfinderische Ausführungsformen beschrieben und dargestellt worden sind, werden sich durchschnittliche Fachleute auf dem Gebiet ohne weiteres eine Vielzahl anderer Mittel und/oder Strukturen zum Durchführen der Funktion und/oder zum Erhalten der Ergebnisse und/oder eines oder mehrerer der hierin beschriebenen Vorteile vorstellen und wird jede von solchen Variationen und/oder Modifikationen als sich innerhalb des Schutzumfangs der hierin beschriebenen erfinderischen Ausführungsformen befindend angesehen. Allgemeiner werden diese Fachleute auf dem Gebiet leicht erkennen, dass alle hierin beschriebenen Parameter, Dimensionen bzw. Abmessungen, Materialien und Konfigurationen beispielhaft sein sollen und dass die tatsächlichen Parameter, Abmessungen, Materialien und/oder Konfigurationen von der spezifischen Anwendung oder den spezifischen Anwendungen abhängen, für die die erfinderischen Lehren verwendet werden. Diese Fachleute auf dem Gebiet werden unter Verwendung von nicht mehr als routinemäßigen Versuchsdurchführungen viele Äquivalente zu den hierin beschriebenen spezifischen erfinderischen Ausführungsformen erkennen oder festzustellen in der Lage sein. Es ist daher zu verstehen, dass die vorangehenden Ausführungsformen nur anhand eines Beispiels dargestellt sind und dass erfinderische Ausführungsformen innerhalb des Schutzumfangs der beigefügten Ansprüche und ihrer Äquivalente auch auf andere Weise ausgeführt werden können, als es spezifisch beschrieben und beansprucht ist. Erfinderische Ausführungsformen der vorliegenden Offenbarung sind auf jedes einzelne Merkmal, jedes einzelne System, jeden einzelnen Gegenstand, jedes einzelne Material, jede einzelne Ausstattung und/oder jedes einzelne Verfahren gerichtet, die hierin beschrieben sind. Zusätzlich ist irgendeine Kombination von zwei oder mehr solchen Merkmalen, Systemen, Gegenständen, Materialien, Ausstattungen und/oder Verfahren, wenn solche Merkmale, Systeme, Gegenstände, Materialien, Ausstattungen und/oder Verfahren nicht wechselseitig inkonsistent sind, innerhalb des erfinderischen Schutzumfangs der vorliegenden Offenbarung enthalten.
Die oben beschriebenen Ausführungsformen können auf eine beliebige von zahlreichen Arten implementiert werden. Zum Beispiel können Ausführungsformen für ein Entwickeln und Herstellen der hierin offenbarten Technologie unter Verwendung von Hardware, Software oder einer Kombination davon implementiert werden. Wenn er in Software implementiert ist, kann der Softwarecode unabhängig davon, ob er in einem einzelnen Computer bereitgestellt oder auf mehrere Computer verteilt ist, auf irgendeinem geeigneten Prozessor oder einer Sammlung von Prozessoren ausgeführt werden.
Weiterhin sollte eingesehen werden, dass ein Computer in irgendeiner einer Anzahl von Formen verkörpert sein kann, wie beispielsweise einem rackmontierten Computer, einem Desktop-Computer, einem Laptop-Computer oder einem Tablet-Computer. Zusätzlich kann ein Computer in einer Vorrichtung eingebettet sein, die im Allgemeinen nicht als Computer angesehen wird, aber über geeignete Verarbeitungsfähigkeiten verfügt, einschließlich eines persönlichen digitalen Assistenten (PDA), eines Smartphones oder irgendeiner anderen geeigneten tragbaren oder ortsfesten elektronischen Vorrichtung.
Ebenso kann ein Computer ein oder mehrere Eingabe- und Ausgabevorrichtungen haben. Diese Vorrichtungen können unter anderem zur Darstellung einer Benutzerschnittstelle bzw. Benutzeroberfläche verwendet werden. Beispiele für Ausgabevorrichtungen, die zum Bereitstellen einer Benutzerschnittstelle verwendet werden können, enthalten Drucker oder Anzeigebildschirme zur visuellen Präsentation bzw. Darstellung einer Ausgabe und Lautsprecher oder andere Klangerzeugungsvorrichtungen zur hörbaren Präsentation bzw. Darstellung einer Ausgabe. Beispiele für Eingabevorrichtungen, die für eine Benutzerschnittstelle verwendet werden können, enthalten Tastaturen und Zeigevorrichtungen wie beispielsweise Mäuse, Touchpads und Digitalisierungstabletts. Als ein weiteres Beispiel kann ein Computer Eingabeinformation durch Spracherkennung oder in einem anderen hörbaren Format empfangen.
Solche Computer können durch ein oder mehrere Netzwerke in irgendeiner geeigneten Form miteinander verbunden sein, einschließlich eines lokalen Netzwerks oder eines Weitverkehrsnetzes, wie beispielsweise eines Unternehmensnetzwerks, und eines intelligenten Netzwerks (IN) oder des Internets. Solche Netzwerke können auf irgendeiner geeigneten Technologie basieren und können gemäß irgendeinem geeigneten Protokoll arbeiten und können drahtlose Netzwerke, kabelgebundene Netzwerke oder Glasfasernetze enthalten.
Die verschiedenen Verfahren oder Prozesse, die hierin behandelt sind, können als Software codiert sein, die auf einem oder mehreren Prozessoren ausführbar ist, der oder die irgendeines oder irgendeine einer Vielfalt von Betriebssystemen oder Plattformen verwendet oder verwenden. Zusätzlich kann solche Software unter Verwendung einer oder eines beliebigen einer Anzahl von geeigneten Programmiersprachen und/oder Programmier- oder Scripting-Tools geschrieben werden und kann auch als ausführbarer Maschinensprachencode oder Zwischencode kompiliert werden, der auf einem Framework oder einer virtuellen Maschine ausgeführt wird.
In dieser Hinsicht können verschiedene erfinderische Konzepte als ein computerlesbares Speichermedium (oder mehrere computerlesbare Speichermedien) (z.B. ein Computerspeicher, eine oder mehrere Disketten, Compact Discs, optische Platten, Magnetbänder, Flash-Speicher, Schaltungskonfigurationen in feldprogrammierbaren Gate-Arrays oder anderen Halbleitervorrichtungen oder ein anderes nichtflüchtiges Medium oder physisches Computerspeichermedium) verkörpert sein, und zwar codiert mit einem oder mehreren Programmen, die dann, wenn sie auf einem oder mehreren Computern oder anderen Prozessoren ausgeführt werden, Verfahren durchführen, die die verschiedenen Ausführungsformen der oben diskutierten Erfindung implementieren. Das computerlesbare Medium kann oder die computerlesbaren Medien können transportierbar sein, so dass das Programm oder die Programme, das oder die darauf gespeichert ist oder sind, auf einen oder mehrere unterschiedliche Computer oder andere Prozessoren geladen werden kann oder können, um verschiedene Aspekte der vorliegenden Erfindung, wie sie oben diskutiert ist, zu implementieren.
Die Begriffe „Programm“ oder „Software“ werden hierin in einem allgemeinen Sinn verwendet, um sich auf jede Art von Computercode oder Satz von computerausführbaren Anweisungen zu beziehen, die verwendet werden können, um einen Computer oder einen anderen Prozessor zu programmieren, um verschiedene Aspekte von Ausführungsformen, wie sie oben diskutiert sind, zu implementieren. Zusätzlich sollte eingesehen werden, dass gemäß einem Aspekt ein oder mehrere Computerprogramme, das oder die dann, wenn es oder sie ausgeführt wird oder werden, Verfahren der vorliegenden Erfindung durchführt oder durchführen, sich nicht auf einem einzelnen Computer oder Prozessor befinden muss oder müssen, sondern auf modulare Weise auf eine Anzahl von unterschiedlichen Computern oder Prozessoren verteilt sein kann oder können, um verschiedene Aspekte der vorliegenden Erfindung zu implementieren.
Computerausführbare Anweisungen können in vielen Formen vorliegen, wie beispielsweise als Programmmodule, die durch einen oder mehrere Computer oder andere Vorrichtungen ausgeführt werden. Im Allgemeinen enthalten Programmmodule Routinen, Programme, Objekte, Komponenten, Datenstrukturen usw., die bestimmte Aufgaben durchführen oder bestimmte abstrakte Datentypen implementieren. Typischerweise kann die Funktionalität der Programmmodule bei verschiedenen Ausführungsformen kombiniert oder verteilt werden, wie es gewünscht ist.
Ebenso können Datenstrukturen in computerlesbaren Medien in irgendeiner geeigneten Form gespeichert werden. Der Einfachheit einer Darstellung halber kann gezeigt werden, dass Datenstrukturen Felder haben, die durch die Position in der Datenstruktur in Beziehung stehen. Solche Beziehungen können ebenfalls durch Zuweisen von Speicher für die Felder mit Positionen in einem computerlesbaren Medium, die eine Beziehung zwischen den Feldern vermitteln, erreicht werden. Es kann jedoch irgendein geeigneter Mechanismus verwendet werden, um eine Beziehung zwischen Information in Feldern einer Datenstruktur einzurichten, einschließlich durch die Verwendung von Zeigern, Tags bzw. Kennzeichen oder anderen Mechanismen, die eine Beziehung zwischen Datenelementen herstellen bzw. einrichten.
Auch können verschiedene erfinderische Konzepte als ein oder mehrere Verfahren verkörpert sein, wovon ein Beispiel bereitgestellt worden ist. Die als Teil des Verfahrens durchgeführten Handlungen können auf irgendeine geeignete Weise angeordnet werden. Demgemäß können Ausführungsformen konstruiert werden, bei denen Handlungen in einer anderen als der dargestellten Reihenfolge durchgeführt werden, was ein gleichzeitiges Durchführen einiger Handlungen enthalten kann, auch wenn sie bei illustrativen Ausführungsformen als aufeinanderfolgende Handlungen gezeigt sind.
Alle Definitionen, wie sie hierin definiert und verwendet werden, sollten so verstanden werden, dass sie die Kontrolle über Wörterbuchdefinitionen, Definitionen in Dokumenten, die durch Bezugnahme aufgenommen sind, und/oder gewöhnliche Bedeutungen der definierten Begriffe haben.
Die unbestimmten Artikel „einer“, „eine“ und „ein“, wie sie hierin in der Beschreibung und in den Ansprüchen verwendet werden, sollten, sofern nicht eindeutig das Gegenteil angegeben ist, so verstanden werden, dass sie „wenigstens einer, eine und ein“ bedeuten.
Der Ausdruck „und/oder“, wie er hierin in der Beschreibung und in den Ansprüchen verwendet wird, sollte so verstanden werden, dass er „eines oder beide“ der so verbundenen Elemente bedeutet, d.h. Elemente, die in einigen Fällen verbunden vorhanden sind und in anderen Fällen getrennt vorhanden sind. Mehrere Elemente, die mit „und/oder“ aufgelistet sind, sollten auf dieselbe Weise ausgelegt werden, d.h. als „eines oder mehrere“ der so verbundenen Elemente. Optional können andere Elemente vorhanden sein als die Elemente, die spezifisch durch die „und/oder“-Klausel identifiziert sind, unabhängig davon, ob sie mit diesen spezifisch identifizierten Elementen in Verbindung stehen oder nicht. So kann sich als nicht einschränkendes Beispiel eine Bezugnahme auf „A und/oder B“, wenn sie in Verbindung mit einer offenen Sprache, wie beispielsweise „umfassend“, verwendet wird, bei einer Ausführungsform nur auf A beziehen (optional andere Elemente als B enthaltend); bei einer anderen Ausführungsform nur auf B (optional andere Elemente als A enthaltend); bei noch einer anderen Ausführungsform sowohl auf A als auch auf B (optional andere Elemente enthaltend); usw.
Wie es hierin in der Beschreibung und in den Ansprüchen verwendet ist, sollte „oder“ so verstanden werden, dass es dieselbe Bedeutung wie „und/oder“ hat, wie es oben definiert ist. Beim Trennen von Elementen in einer Liste soll zum Beispiel „oder“ oder „und/oder“ als inklusiv interpretiert werden, d.h. als die Einbeziehung von wenigstens einem, aber auch mehr als einem enthaltend, einer Anzahl oder Liste von Elementen und optional von zusätzlichen, nicht aufgelisteten Elementen. Nur Begriffe, die eindeutig auf das Gegenteil hinweisen, wie z.B. „nur eines von“ oder „genau eines von“ oder dann, wenn sie in den Ansprüchen verwendet werden, „bestehend aus“, werden sich auf die Einbeziehung von genau einem Element einer Anzahl oder Liste von Elementen beziehen. Im Allgemeinen soll der Begriff „oder“, wie er hier verwendet wird, nur so interpretiert werden, dass er auf ausschließliche Alternativen hinweist (d.h. „das eine oder das andere, aber nicht beides“), wenn ihm Begriffe einer Ausschließlichkeit vorangestellt sind, wie beispielsweise „entweder“, „einer von“, „nur einer von“ oder „genau einer von“. Wenn in den Ansprüchen „im Wesentlichen bestehend aus“ verwendet wird, soll dies seine gewöhnliche Bedeutung haben, wie sie auf dem Gebiet des Patentrechts verwendet wird.
Wie er hierin in der Beschreibung und in den Ansprüchen verwendet wird, sollte der Ausdruck „wenigstens eines“ in Bezug auf eine Liste von einem oder mehreren Elementen so verstanden werden, dass er wenigstens ein Element bedeutet, das aus irgendeinem oder mehreren der Elemente in der Liste von Elementen ausgewählt ist, aber nicht notwendigerweise wenigstens eines von jedem einzelnen Element enthält, das speziell innerhalb der Liste von Elementen aufgelistet ist, und keine Kombinationen von Elementen in die Liste von Elementen ausschließt. Diese Definition lässt auch zu, dass optional andere Elemente vorhanden sein können als die Elemente, die innerhalb der Liste von Elementen, auf die sich der Ausdruck „wenigstens eines“ bezieht, spezifisch identifiziert sind, unabhängig davon, ob sie mit diesen spezifisch identifizierten Elementen in Beziehung stehen oder nicht. Somit kann sich als nicht einschränkendes Beispiel „wenigstens eines von A und B“ (oder äquivalent „wenigstens eines von A oder B“ oder äquivalent „wenigstens eines von A und/oder B“) bei einer Ausführungsform auf wenigstens ein, optional mehr als ein, A enthaltend, wobei kein B vorhanden ist (und optional andere Elemente als B enthaltend) beziehen; bei einer anderen Ausführungsform auf wenigstens ein, optional mehr als ein, B enthaltend, wobei kein A vorhanden ist (und optional andere Elemente als A enthaltend); bei noch einer anderen Ausführungsform auf wenigstens ein, optional mehr als ein, A enthaltend und wenigstens ein, optional mehr als ein, B enthaltend (und optional andere Elemente enthaltend); usw.
In den Ansprüchen, sowie auch in der obigen Beschreibung, sind alle Übergangsphrasen wie beispielsweise „umfassend“, „einschließlich“, „tragend“, „aufweisend“, „enthaltend“, „einschließend“, „haltend“, „zusammengesetzt aus“ und dergleichen als offen zu verstehen, d.h. sie haben die Bedeutung von einschließend, aber nicht von beschränkt auf. Nur die Übergangsphrasen „bestehend aus“ und „im Wesentlichen bestehend aus“ sollen jeweils geschlossene oder halbgeschlossene Übergangsphrasen sein, wie es in Manual of Patent Examining Procedures, Section 2111.03, des Patentamts der Vereinigten Staaten dargelegt ist.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 63/150271 [0001]

Claims

System zur Verarbeitung natürlicher Sprache (NLP (= Natural Language Processing)) von Dokumenten aus der realen Welt, umfassend: ein Text-Bild-Layout-Transformer-(TILT(= Text-Image-Layout Transformer)-)System zur Verarbeitung natürlicher Sprache (NLP (= Natural Language Processing)), das auf einem oder mehreren Prozessoren ausgeführt wird, wobei das TILT-System ausführbare Anweisungen umfasst, die dann, wenn sie durch den Prozessor ausgeführt werden, ein Verfahren durchführen, wobei das Verfahren folgendes umfasst: Ausführen von einem oder mehreren Modellen, das oder die aus einer Gruppe ausgewählt ist oder sind, die folgendes umfasst: ein Encoder-Decoder-Modell; ein räumliches Modell, und ein multimodales Modell; Empfangen von Daten, die wenigstens Textdaten, Layoutdaten und Bilddaten umfassen; und Arbeiten an den empfangenen Daten, um eine verwendbare Ausgabe zu erzeugen, die sich auf eine Analyse der empfangenen Daten bezieht.
System nach Anspruch 1, wobei ein Ausführen des einen oder der mehreren Modelle eine auf Namensentitätserkennung (NER (= Name Entity Recognition)) basierende Extraktion und ein Trennen der auf Namensentitätserkennung (NER) basierenden Extraktion von der verwendbaren Ausgabe umfasst.
System nach Anspruch 1, wobei das Verfahren weiterhin ein Empfangen einer oder mehrerer Fragen bezüglich der empfangenen Daten umfasst.
System nach Anspruch 3, wobei die verwendbare Ausgabe Antworten auf die eine oder die mehreren Fragen umfasst.
System nach Anspruch 3, wobei die verwendbare Ausgabe Schlüsselinformation umfasst.
System nach Anspruch 3, wobei die verwendbare Ausgabe eine Dokumentenklassifizierung umfasst.
System nach Anspruch 1, wobei das räumliche Modell einen raumbewussten Transformer umfasst, der Selbstaufmerksamkeit verwendet, und ein wortzentriertes Maskierungsverfahren, das sowohl Bilder als auch Text betrifft.
System nach Anspruch 1, wobei das Verfahren weiterhin ein Erweitern eines T5-Transformers umfasst, um einen Verbrauch von multimodaler Eingabe zu ermöglichen.
System nach Anspruch 1, wobei das multimodale Modell ein Hinzufügen visueller Merkmale zu Worteinbettungen umfasst, die auf mehreren Auflösungsebenen eines Bildes kontextualisiert sind.
System nach Anspruch 9, wobei das multimodale Modell weiterhin ein Verlassen auf relative Aufmerksamkeitsverzerrungen umfasst.
System nach Anspruch 1, wobei das Verfahren weiterhin ein Erweitern eines T5-Architekturansatzes auf räumliche Dimensionen umfasst.
System nach Anspruch 1, wobei das Verfahren weiterhin ein Erzeugen kontextualisierter Bildeinbettungen umfasst.
System nach Anspruch 1, wobei das Verfahren weiterhin eine Augmentierung bzw. Zunahme von räumlicher Verzerrung umfasst.
Computerprogramm zur Verarbeitung natürlicher Sprache, NLP (= Natural Language Processing), das Anweisungen umfasst, die dann, wenn sie durch einen oder mehrere Prozessoren ausgeführt werden, veranlassen, dass der eine oder die mehreren Prozessoren Operationen durchführen, die folgendes umfassen: Empfangen eines Dokuments aus der realen Welt, das wenigstens Textdaten, Layoutdaten und Bilddaten umfasst; Ausführen von einem oder mehreren Modellen, das oder die aus einer Gruppe ausgewählt ist oder sind, die folgendes umfasst: ein Encoder-Decoder-Modell; ein räumliches Modell, und ein multimodales Modell; und Arbeiten an dem Dokument aus der realen Welt, um eine verwendbare Ausgabe zu erzeugen.
Computerprogramm nach Anspruch 14, wobei ein Ausführen des einen oder der mehreren Modelle eine auf Namensentitätserkennung (NER (= Name Entity Recognition)) basierende Extraktion und ein Trennen der auf Namensentitätserkennung (NER) basierenden Extraktion von der verwendbaren Ausgabe umfasst.
Computerprogramm nach Anspruch 14, wobei die Operationen weiterhin ein Empfangen einer oder mehrerer Fragen bezüglich der empfangenen Daten umfassen.
Computerprogramm nach Anspruch 16, wobei die verwendbare Ausgabe Antworten auf die eine oder die mehreren Fragen umfasst.
Computerprogramm nach Anspruch 16, wobei die verwendbare Ausgabe Schlüsselinformation umfasst.
Computerprogramm nach Anspruch 16, wobei die verwendbare Ausgabe eine Dokumentenklassifizierung umfasst.
Computerprogramm nach Anspruch 14, wobei das räumliche Modell einen raumbewussten Transformer umfasst, der Selbstaufmerksamkeit verwendet, und ein wortzentriertes Maskierungsverfahren, das sowohl Bilder als auch Text betrifft.
Computerprogramm nach Anspruch 14, wobei die Operationen weiterhin ein Erweitern eines T5-Transformers umfassen, um einen Verbrauch von multimodaler Eingabe zu ermöglichen.
Computerprogramm nach Anspruch 14, wobei das multimodale Modell ein Hinzufügen visueller Merkmale zu Worteinbettungen umfasst, die auf mehreren Auflösungsebenen eines Bildes kontextualisiert sind.
Computerprogramm nach Anspruch 22, wobei das multimodale Modell weiterhin ein Verlassen auf relative Aufmerksamkeitsverzerrungen umfasst.
Computerprogramm nach Anspruch 14, wobei die Operationen weiterhin ein Erweitern eines T5-Architekturansatzes auf räumliche Dimensionen umfassen.
Computerprogramm nach Anspruch 14, wobei die Operationen weiterhin ein Erzeugen kontextualisierter Bildeinbettungen umfassen.
Computerprogramm nach Anspruch 14, wobei die Operationen weiterhin eine Augmentierung bzw. Zunahme von räumlicher Verzerrung umfassen.
Nichtflüchtiges Computermedium, das darin Anweisungen gespeichert hat, die dann, wenn sie durch einen Prozessor ausgeführt werden, Operationen durchführen, wobei die Operationen folgendes umfassen: Empfangen eines Dokuments aus der realen Welt, das wenigstens Textdaten, Layoutdaten und Bilddaten umfasst; Ausführen von einem oder mehreren Modellen, das oder die aus einer Gruppe ausgewählt ist oder sind, die folgendes umfasst: ein Encoder-Decoder-Modell; ein räumliches Modell, und ein multimodales Modell; und Arbeiten an dem Dokument aus der realen Welt, um eine verwendbare Ausgabe zu erzeugen.
Nichtflüchtiges Computermedium nach Anspruch 27, wobei ein Ausführen des einen oder der mehreren Modelle eine auf Namensentitätserkennung (NER (= Name Entity Recognition)) basierende Extraktion und ein Trennen der auf Namensentitätserkennung (NER) basierenden Extraktion von der verwendbaren Ausgabe umfasst.
Nichtflüchtiges Computermedium nach Anspruch 27, wobei die Operationen weiterhin ein Empfangen einer oder mehrerer Fragen bezüglich der empfangenen Daten umfassen.
Nichtflüchtiges Computermedium nach Anspruch 29, wobei die verwendbare Ausgabe Antworten auf die eine oder die mehreren Fragen umfasst.