DE202024100090U1 - Online system for layout analysis of handwritten documents - Google Patents
Online system for layout analysis of handwritten documents Download PDFInfo
- Publication number
- DE202024100090U1 DE202024100090U1 DE202024100090.0U DE202024100090U DE202024100090U1 DE 202024100090 U1 DE202024100090 U1 DE 202024100090U1 DE 202024100090 U DE202024100090 U DE 202024100090U DE 202024100090 U1 DE202024100090 U1 DE 202024100090U1
- Authority
- DE
- Germany
- Prior art keywords
- grained
- strokes
- neural network
- coarse
- fine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 90
- 239000013598 vector Substances 0.000 claims abstract description 80
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 238000011084 recovery Methods 0.000 claims abstract description 17
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 16
- 238000010586 diagram Methods 0.000 claims abstract description 11
- 230000015654 memory Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 description 6
- 238000000034 method Methods 0.000 description 3
- 229920001817 Agar Polymers 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
Ein Online-System zur Analyse des Layouts handschriftlicher Dokumente, wobei das System ausgebildet ist, ein Dokument in mehrere grobkörnige Objekte zu segmentieren, um zu bestimmen, ob es sich bei einem Typ jedes der grobkörnigen Objekte um einen Absatz, eine Liste, eine Tabelle, ein Diagramm oder eine Anmerkung handelt, wobei das System ausgebildet ist, jedes der grobkörnigen Objekte in eine Vielzahl feinkörniger Objekte aufzuteilen und zu bestimmen, ob es sich bei einem Typ jedes der feinkörnigen Objekte um eine Textzeile, eine Formel, eine Grundform, ein Graffiti oder einen Satz falsch geschriebener Striche handelt; wobei die grobkörnigen Objekte und die feinkörnigen Objekte eine Baumstruktur bilden; wobei das System umfasst:
einen Mainframe, der einen Prozessor und einen Speicher umfasst; wobei der Prozessor zur Ausführung erforderlicher Vorgänge des Systems dient und der Speicher zum Speichern von Daten, Programmen und zugehörigen Betriebsergebnissen des Systems dient;
eine Vorverarbeitungseinheit, die ausgebildet ist, das Dokument zu empfangen, um eine Vorverarbeitung an dem Dokument durchzuführen, wobei das Dokument ein Online-Handschriftdokument ist und aus einer Vielzahl von Strichen besteht, die zeitlich oder räumlich nahe beieinander liegen;
wobei die Vorverarbeitungseinheit ausgebildet ist, bei der Vorverarbeitung einen ungerichteten Graphen, der mehrere Knoten und mehrere Kanten enthält, zur Darstellung von Beziehungen zwischen verschiedenen Strichen des Dokuments zu erzeugen; wobei jeder der Knoten einem jeweiligen Strich entspricht, der eine gerichtete Folge ist, die aus den Punkten des Strichs gemäß einer Schreibreihenfolge besteht, wobei jede der Kanten einem Paar jeweiliger Striche entspricht, die zeitlich oder räumlich nahe beieinander liegen, wobei das Paar jeweiliger Striche, die zeitlich oder räumlich nahe beieinander liegen, jeweils einer Kante entspricht; wobei jeder der Striche mit sich selbst außerdem einen Satz bildet, um jeweils eine Kante in Form einer Schleife zu bilden, wobei eine Schleife eine Kante ist, die einen Strich mit sich selbst verbindet;
wobei das System ausgebildet ist, im ungerichteten Diagramm davon auszugehen, dass jeder der Striche zeitlich nahe an den meisten NT-Strichen liegt, die danach geschrieben werden; für jeden der Striche einen nächstgelegenen Punktabstand zwischen dem Strich und den anderen Strichen zu berechnen, um die meisten NS -Striche zu bestimmen, die dem Strich räumlich am nächsten liegen, wobei jeder NT und NS jeweils ein vorgegebener Wert ist;
eine bidirektionale rekursive neuronale Netzwerkeinheit, die mit der Vorverarbeitungseinheit verbunden ist, um einen Merkmalsvektor jedes Knotens im ungerichteten Graphen zu initialisieren und einen Merkmalsvektor jeder Kante im ungerichteten Graphen unter Verwendung rekursiver neuronaler Netzwerke (RNN) zu initialisieren; wobei das System ausgebildet ist, in der bidirektionalen rekursiven neuronalen Netzwerkeinheit den Merkmalsvektor jeder der Kanten mit Nullwerten zu initialisieren;
eine grafische neuronale Netzwerkeinheit, die mit der bidirektionalen rekursiven neuronalen Netzwerkeinheit verbunden ist, wobei die grafische neuronale Netzwerkeinheit ausgebildet ist, den Merkmalsvektor jedes Knotens und den Merkmalsvektor jeder Kante zu aktualisieren, um einen aktualisierten Merkmalsvektor jedes Knotens und einen aktualisierten Merkmalsvektor jeder Kante unter Verwendung eines grafischen neuronalen Netzwerks (GNN) zu erhalten, das auf einer Nachrichtenübermittlung basiert;
eine vollständig verbundene neuronale Netzwerkeinheit, die mit der grafischen neuronalen Netzwerkeinheit verbunden ist, wobei die vollständig verbundene neuronale Netzwerkeinheit ausgebildet ist, den Typ des grobkörnigen Objekts und des feinkörnigen Objekts für die Striche vorherzusagen, die jedem der Knoten entsprechen, und ferner vorherzusagen, ob das Strichpaar, das jeder der Kanten entspricht, zu dem demselben grobkörnigen Objekt oder demselben feinkörnigen Objekt gehört; wobei das System ausgebildet ist, bei der Vorhersage der vollständig verbundenen neuronalen Netzwerkeinheit eine grobkörnige Objektklassifizierung und eine feinkörnige Objektklassifizierung für jeden der Knoten und Kanten unter Verwendung vollständig verbundener neuronaler Netzwerke auf der Grundlage der aktualisierten Merkmalsvektoren der Knoten und der Kanten von der grafischen neuronalen Netzwerkeinheit durchzuführen;
eine Einheit zur Wiederherstellung des Dokuments, die mit der vollständig verbundenen neuronalen Netzwerkeinheit verbunden ist, für die Wiederherstellung der Baumstruktur des Dokuments, wobei die Einheit zur Wiederherstellung des Dokuments ausgebildet ist, alle Striche zu gruppieren, um die entsprechenden feinkörnigen Objekte zu erhalten, und dabei eine Analyse verbundener Komponenten gemäß den Vorhersageergebnissen der Striche zu verwenden, die zu demselben feinkörnigen Objekt in der vollständig verbundenen neuronalen Netzwerkeinheit gehören, wobei die Einheit zur Wiederherstellung des Dokuments ausgebildet ist, den Typ jedes der entsprechenden feinkörnigen Objekte durch eine Summe der Konfidenzen zu bestimmen, dass die Striche im feinkörnigen Objekt voraussichtlich zu einem bestimmten Typ des feinkörnigen Objekts zu der vollständig verbundenen neuronalen Netzwerkeinheit gehören; und
die Einheit zur Wiederherstellung des Dokuments ferner ausgebildet ist, die entsprechenden feinkörnigen Objekte zu gruppieren, um die entsprechenden grobkörnigen Objekte zu erhalten und dabei eine Analyse verbundener Komponenten gemäß den vorhergesagten Ergebnissen der Striche zu verwenden, die zu demselben grobkörnigen Objekt in der vollständig verbundenen neuronalen Netzwerkeinheit gehören; wobei die Einheit zur Wiederherstellung des Dokuments ausgebildet ist, den Typ jedes der entsprechenden grobkörnigen Objekte durch eine Summe der Konfidenzen zu bestimmen, dass die Striche im grobkörnigen Objekt voraussichtlich zu einem bestimmten Typ des grobkörnigen Objekts in der vollständig verbundenen neuronalen Netzwerkeinheit gehören.
An online system for analyzing the layout of handwritten documents, the system being configured to segment a document into a plurality of coarse-grained objects to determine whether a type of each of the coarse-grained objects is a paragraph, a list, a table, a diagram or an annotation, the system being configured to divide each of the coarse-grained objects into a plurality of fine-grained objects and to determine whether a type of each of the fine-grained objects is a line of text, a formula, a basic shape, a graffiti or is a set of misspelled dashes; wherein the coarse-grained objects and the fine-grained objects form a tree structure; wherein the system includes:
a mainframe that includes a processor and memory; wherein the processor is used to perform required operations of the system and the memory is used to store data, programs and associated operating results of the system;
a pre-processing unit configured to receive the document to perform pre-processing on the document, the document being an online handwriting document and consisting of a plurality of strokes that are close to each other in time or space;
wherein the preprocessing unit is configured to generate, in the preprocessing, an undirected graph containing a plurality of nodes and a plurality of edges for representing relationships between different strokes of the document; wherein each of the nodes corresponds to a respective stroke that is a directed sequence consisting of the points of the stroke according to a writing order, each of the edges corresponds to a pair of respective strokes that are close to each other in time or space, the pair of respective strokes, which are close together in time or space, each corresponds to an edge; each of the strokes also forming a set with itself to each form an edge in the form of a loop, wherein one Loop is an edge that connects a stroke to itself;
wherein the system is designed to assume in the undirected diagram that each of the strokes is close in time to most of the N T strokes that are written thereafter; for each of the strokes, calculate a nearest point distance between the stroke and the other strokes to determine the most N S strokes that are spatially closest to the stroke, each N T and N S each being a predetermined value;
a bidirectional recursive neural network unit connected to the preprocessing unit for initializing a feature vector of each node in the undirected graph and initializing a feature vector of each edge in the undirected graph using recursive neural networks (RNN); wherein the system is designed to initialize the feature vector of each of the edges with zero values in the bidirectional recursive neural network unit;
a graphical neural network unit connected to the bidirectional recursive neural network unit, the graphical neural network unit being configured to update the feature vector of each node and the feature vector of each edge to produce an updated feature vector of each node and an updated feature vector of each edge using a graphical neural network (GNN) based on messaging;
a fully connected neural network unit connected to the graphical neural network unit, the fully connected neural network unit being configured to predict the type of the coarse-grained object and the fine-grained object for the strokes corresponding to each of the nodes, and further predict whether the Pair of strokes corresponding to each of the edges belonging to the same coarse-grained object or the same fine-grained object; wherein the system is configured, in predicting the fully connected neural network unit, to perform a coarse-grained object classification and a fine-grained object classification for each of the nodes and edges using fully connected neural networks based on the updated feature vectors of the nodes and the to perform edges by the graphical neural network unit;
a document recovery unit, connected to the fully connected neural network unit, for recovering the tree structure of the document, the document recovery unit being adapted to group all the strokes to obtain the corresponding fine-grained objects, and thereby to use connected component analysis according to the prediction results of the strokes belonging to the same fine-grained object in the fully connected neural network unit, the document recovery unit being adapted to determine the type of each of the corresponding fine-grained objects by a sum of the confidences, that the strokes in the fine-grained object are expected to belong to a particular type of fine-grained object to the fully connected neural network unit; and
the document recovery unit is further configured to group the corresponding fine-grained objects to obtain the corresponding coarse-grained objects using connected component analysis according to the predicted results of the strokes belonging to the same coarse-grained object in the fully connected neural network unit belong; wherein the document recovery unit is configured to determine the type of each of the corresponding coarse-grained objects by a sum of the confidences that the strokes in the coarse-grained object are expected to belong to a particular type of the coarse-grained object in the fully connected neural network unit.
Description
GEBIET DER ERFINDUNGFIELD OF THE INVENTION
Die Erfindung bezieht sich auf ein Layout-Analysesystem und insbesondere auf ein Online-Layout-Analysesystem für Handschriftdokumente.The invention relates to a layout analysis system and in particular to an online layout analysis system for handwritten documents.
HINTERGRUND DER ERFINDUNGBACKGROUND OF THE INVENTION
Mithilfe der Online-Layoutanalyse von Handschriftdokumenten werden Striche in verschiedene Sätze segmentiert und wird der Inhaltstyp jedes Strichsatzes bestimmt, z. B. Tabellen, Anmerkungen usw. Es gibt bereits relativ ausgereifte Techniken zum Erkennen jeweils von Textzeilen, mathematischen Formeln und Formen. Durch die Aufteilung des handschriftlichen Inhalts in erkennbare Objekte hilft das System den aus mehreren Inhaltstypen bestehenden handschriftlichen Inhalt zu verstehen, wodurch das freie Schreiberlebnis von herkömmlichem Papier mit der Durchsuchbarkeit elektronischer Informationen kombiniert wird.Online layout analysis of handwriting documents segments strokes into different sets and determines the content type of each stroke sentence, such as: B. Tables, notes, etc. There are already relatively sophisticated techniques for recognizing lines of text, mathematical formulas and shapes. By breaking down handwritten content into recognizable objects, the system helps understand handwritten content composed of multiple content types, combining the free writing experience of traditional paper with the searchability of electronic information.
Im Stand der Technik basieren herkömmliche Layout-Analysealgorithmen für Online-Handschriftdokumente im Allgemeinen auf künstlichen neuronalen Netzen, insbesondere auf rekurrenten neuronalen Netzwerken oder grafischen neuronalen Netzwerken. Der Nachteil des Ansatzes rekurrenter neuronaler Netzwerke besteht jedoch darin, dass es schwierig ist, die zweidimensionalen räumlichen Informationen im Dokument effektiv zu nutzen, Der Nachteil des grafischen neuronalen Netzwerkansatzes besteht darin, dass er das Feature-Engineering der Informationen nicht vollständig nutzen kann.In the prior art, conventional layout analysis algorithms for online handwriting documents are generally based on artificial neural networks, particularly recurrent neural networks or graphical neural networks. However, the disadvantage of the recurrent neural network approach is that it is difficult to effectively use the two-dimensional spatial information in the document. The disadvantage of the graphical neural network approach is that it cannot fully utilize the feature engineering of the information.
Darüber hinaus können für verschiedene Layoutanalysearbeiten wie Text- oder Nichttextklassifizierung, Textzeilensegmentierung, Diagrammerkennung und -identifizierung, Tabellenerkennung und - identifizierung sowie Erkennung mathematischer Formeln usw., Die traditionellen Methoden können nur zur Analyse einiger der oben genannten Analysearbeiten verwendet werden und können nicht alle oben genannten Werke gleichzeitig zu analysieren. Der eigentliche Inhalt des Dokuments ist jedoch recht komplex, da er Tabellen, Diagramme, Texte und eine Vielzahl unterschiedlicher Inhaltstypen enthalten kann. Jede der herkömmlichen Methoden kann nur einige wenige Arten von Dokumenteninhalten identifizieren, die den Anforderungen der tatsächlichen Verwendung nicht gerecht werden.In addition, for various layout analysis work such as text or non-text classification, text line segmentation, graph detection and identification, table detection and identification, and mathematical formula recognition, etc., the traditional methods can only be used to analyze some of the above analysis work and cannot use all of the above Analyze works simultaneously. However, the actual content of the document is quite complex as it can contain tables, diagrams, text and a variety of different content types. Each of the traditional methods can only identify a few types of document content that do not meet the needs of actual use.
ZUSAMMENFASSUNG DER ERFINDUNGSUMMARY OF THE INVENTION
Um die oben genannten Mängel im Stand der Technik zu beheben, besteht die Aufgabe der Erfindung daher darin, ein Online-System zur Analyse des Layouts von Handschriftdokumenten bereitzustellen, wobei die Vorteile der Erfindung darin bestehen, dass das Online-System zur Analyse des Layouts von Handschriftdokumenten der Erfindung in der Lage ist zur Unterstützung der Segmentierung und Klassifizierung über eine Reihe von Objekten mit mehreren Granularitäten, die gleichzeitig eine Text-/Nichttextklassifizierung, Textzeilensegmentierung, Diagrammerkennung und -identifizierung, Tabellenerkennung und - identifizierung sowie die Erkennung mathematischer Formeln durchführen können. Die Erfindung ist in der Lage, verschiedene feinkörnige Objektsegmentierungen und -klassifizierungen gleichzeitig durchzuführen, Striche in mehrere grobkörnige Objekte aufzuteilen und zu bestimmen, ob es sich um einen Absatz, eine Liste, eine Tabelle, ein Diagramm oder eine Anmerkung handelt. Die Erfindung kann auch die Striche jedes grobkörnigen Objekts in mehrere feinkörnige Objekte unterteilen und bestimmen, ob es sich um eine Textzeile, eine Formel, eine Grundform, ein Graffiti oder eine Reihe falsch geschriebener Striche handelt. Daher können die Klassifizierung von Text/Nicht-Text, die Segmentierung von Textzeilen, die Erkennung und Identifizierung von Diagrammen, die Erkennung und Identifizierung von Tabellen sowie die Erkennung mathematischer Formeln alle mit dem System der Erfindung analysiert werden.In order to remedy the above-mentioned deficiencies in the prior art, the object of the invention is therefore to provide an online system for analyzing the layout of handwritten documents, the advantages of the invention being that the online system for analyzing the layout of Handwritten documents of the invention are capable of supporting segmentation and classification across a range of objects at multiple granularities that can simultaneously perform text/non-text classification, text line segmentation, graph recognition and identification, table recognition and identification, and mathematical formula recognition. The invention is capable of performing various fine-grained object segmentation and classification simultaneously, dividing strokes into multiple coarse-grained objects, and determining whether it is a paragraph, a list, a table, a chart, or an annotation. The invention can also divide the strokes of any coarse-grain object into multiple fine-grain objects and determine whether it is a line of text, a formula, a basic shape, graffiti, or a series of misspelled strokes. Therefore, text/non-text classification, text line segmentation, graph recognition and identification, table recognition and identification, and mathematical formula recognition can all be analyzed with the system of the invention.
KURZE BESCHREIBUNG DER ZEICHNUNGENBRIEF DESCRIPTION OF THE DRAWINGS
-
1 ist ein strukturiertes Blockdiagramm, das die Hauptelemente der Erfindung zeigt.1 is a structured block diagram showing the main elements of the invention. -
2 ist ein strukturiertes Blockdiagramm, das die Elemente der Erfindung zeigt.2 is a structured block diagram showing the elements of the invention. -
3 ist ein strukturiertes Blockdiagramm, das die Elemente des Mainframes der Erfindung zeigt.3 is a structured block diagram showing the elements of the mainframe of the invention. -
4 ist ein Ablaufdiagramm, das die Verarbeitung des Dokuments der Erfindung zeigt.4 is a flowchart showing processing of the document of the invention. -
5 ist eine schematische Ansicht, die die Baumstruktur des Dokuments der Erfindung zeigt.5 is a schematic view showing the tree structure of the document of the invention. -
6 ist eine schematische Ansicht, die die Verarbeitung des Dokuments der Erfindung zeigt6 is a schematic view showing processing of the document of the invention -
7 ist eine schematische Ansicht, die die Aktualisierung und Klassifizierung der Merkmalsvektoren der Knoten und Kanten der Erfindung zeigt.7 is a schematic view showing the updating and classification of the feature vectors of the nodes and edges of the invention.
DETAILLIERTE BESCHREIBUNG EINES BEVORZUGTEN AUSFÜHRUNGSBEISPIELSDETAILED DESCRIPTION OF A PREFERRED EMBODIMENT
Die Erfindung stellt ein Online-Layout-Analysesystem 1 für Handschriftdokumente zur Durchführung einer Segmentierung und Klassifizierung über einen Bereich von Objekten mit mehreren Granularitäten bereit. Bezugnehmend auf
Gemäß den
Unter Bezugnahme auf die
Eine Vorverarbeitungseinheit 10 dient zur Aufnahme des Dokuments 300 zur Durchführung einer Vorverarbeitung an dem Dokument 300. Das Dokument 300 ist ein Online-Handschriftdokument und besteht aus mehreren Strichen. Die Anzahl der Striche beträgt m Striche, die zeitlich oder räumlich nahe beieinander liegen. Die m Striche werden als v1,v2, ···, vm dargestellt und jeder der Striche wird als vi dargestellt, wobei 1≤i≤m ist. Jeder Strich vi der Striche besteht aus ni Punkten, die als (xi,1, yi,1), ..., (xi,n
Bei der Vorverarbeitung der Vorverarbeitungseinheit 10 dient die Vorverarbeitungseinheit 10 dazu, einen ungerichteten Graphen G=(V,E) zur Darstellung von Beziehungen zwischen verschiedenen Strichen des Dokuments 300 (Schritt 100 in
Im ungerichteten Graphen G wird davon ausgegangen, dass jeder der m Striche zeitlich nahe an den meisten NT Strichen liegt, die danach geschrieben werden. Für jeden der m Striche wird ein nächstgelegener Punktabstand d zwischen dem Strich und den anderen Strichen berechnet, um meisten Ns Striche zu bestimmen, die dem Strich räumlich am nächsten liegen. NT und Ns sind jeweils ein vorgegebener Wert. Der kleinste Punktabstand d von jeweils zwei Strichen vi, vi' der m Striche wird dargestellt als
Im ungerichteten Graphen G=(V,E), E = ET ∪ ES. ET = {{vi, vj}|1 ≤ i ≤ j ≤ min{i + NT, m}}. NT ist eine Menge bestehend aus den m Strichen v1, v2, ···, vm und den NT Strichen, die jedem der m Striche v1, v2, ···, vm entsprechen. Jeder der Striche und die entsprechenden NT -Striche in zeitlicher Nähe dazu sind durch eine entsprechende Kante verbunden.In the undirected graph G=(V,E), E = E T ∪ E S . E T = {{ vi , v j }|1 ≤ i ≤ j ≤ min{i + N T , m}}. N T is a set consisting of the m lines v 1 , v 2 , ···, v m and the N T lines corresponding to each of the m lines v 1 , v 2 , ···, v m . Each of the bars and the corresponding N T bars in temporal proximity thereto are connected by a corresponding edge.
ES = {{vi, vj
Eine bidirektionale rekursive neuronale Netzwerkeinheit 500 ist mit der Vorverarbeitungseinheit 10 verbunden, um einen Merkmalsvektor jedes Knotens im ungerichteten Graphen G zu initialisieren und einen Merkmalsvektor jeder Kante im ungerichteten Graphen G zu initialisieren, indem rekursive neuronale Netzwerke (RNN) verwendet werden. Der Merkmalsvektor stellt einen Vektor, die Merkmale eines entsprechenden Absatzes, eine Liste, eine Tabelle, eines Diagramms und eine Anmerkung usw. dar. In der bidirektionalen rekursiven neuronalen Netzwerkeinheit 500 wird der Merkmalsvektor jeder Kante mit Nullwerten initialisiert.A bidirectional recursive
Bezug nehmend auf
- Eine erste BLSTM-Einheit (Bidirektionaler Lang-Kurzzeitspeicher) 15 ist mit der Vorverarbeitungseinheit 10 verbunden, um den Merkmalsvektor jedes Knotens und jeder Kante des ungerichteten Graphen G zu initialisieren (
Schritt 110 in4 ). Da eine räumliche Positionsbeziehung zwischen einem Strichpaar vi, vi' aus dem Strichpaar vi, vi' selbst erhalten werden kann, wird der Merkmalsvektor jeder Kante auf einen Nullvektor initialisiert und wird als
- A first BLSTM unit (bidirectional long-short-term memory) 15 is responsible for pre-processing device 10 connected to initialize the feature vector of each node and edge of the undirected graph G (step 110 in
4 ). Since a spatial positional relationship between a stroke pair vi , vi ' can be obtained from the stroke pair vi , vi ' itself, the feature vector of each edge is initialized to a zero vector and is called
Die erste BLSTM-Einheit 15 dient außerdem dazu, ein Punktmerkmal P zu extrahieren, das Kontextinformationen enthält. Das Punktmerkmal P wird als
Eine Pooling-Einheit 20 ist mit der ersten BLSTM-Einheit 15 verbunden, um das Punktmerkmal P mithilfe eines durchschnittlichen Poolings zu einem Strichmerkmal zusammenzufassen (Schritt 120 in
Eine zweite BLSTM-Einheit (Bidirektionaler Lang-Kurzzeitspeicher) 25 ist mit der Pooling-Einheit 20 verbunden und dient dazu, das Strichmerkmal von der Pooling-Einheit 20 zu empfangen, um die initialisierten Merkmalsvektoren der Knoten zu erhalten, die den Strichen v1, v2, ···, vm entsprechen (Schritt 130 in
Eine grafische neuronale Netzwerkeinheit 30 ist mit der zweiten BLSTM-Einheit 25 der bidirektionalen rekursiven neuronalen Netzwerkeinheit 500 verbunden. Die grafische neuronale Netzwerkeinheit 30 dient dazu, den Merkmalsvektor jedes der Knoten und den Merkmalsvektor jeder der Kanten zu aktualisieren, um einen aktualisierten Merkmalsvektors für jede der Knoten und einen aktualisierten Merkmalsvektors für jede der Kanten unter Verwendung eines grafischen neuronalen Netzwerks (GNN) zu erhalten, das auf einer Nachrichtenübermittlung basiert (Schritt 140 in
Bezugnehmend auf
Eine vollständig verbundene neuronale Netzwerkeinheit 35 ist mit der grafischen neuronalen Netzwerkeinheit 30 verbunden. Die vollständig verbundene neuronale Netzwerkeinheit 35 dient zur Vorhersage des Typs des grobkörnigen Objekts und des feinkörnigen Objekts für die Striche, die jedem der Knoten entsprechen und um vorherzusagen, ob das Strichpaar, das jeder der Kanten entspricht, zu demselben grobkörnigen Objekt oder zu demselben feinkörnigen Objekt gehört. Bei der Vorhersage der vollständig verbundenen neuronalen Netzwerkeinheit 35 werden eine grobkörnige Objektklassifizierung und eine feinkörnige Objektklassifizierung für jeden der Knoten und Kanten unter Verwendung der vollständig verbundenen neuronalen Netzwerke auf der Grundlage der aktualisierten Merkmalsvektoren der Knoten und die Kanten von der grafischen neuronalen Netzwerkeinheit 30 durchgeführt (Schritt 150 in
Bezugnehmend auf
Ein erster Klassifikator 351 undein zweiter Klassifikator 352 dienen dazu, die aktualisierten Merkmalsvektoren der Knoten zu empfangen, um den Typ des grobkörnigen Objekts und den Typ des feinkörnigen Objekts vorherzusagen, denen jeder der Striche jedem der Knoten gehört, jeweils entsprach.Ein dritter Klassifikator 353 undein vierter Klassifikator 354 dienen dazu, die aktualisierten Merkmalsvektoren der Kanten zu empfangen, um jeweils vorherzusagen, ob das Strichpaar v_i, v_(i^'), das jeder der Kanten entspricht, zu einem selben grobkörnigen Objekt oder einem selben feinkörnigen Objekt gehört.Der erste Klassifikator 351, der zweiteKlassifikator 352, der dritteKlassifikator 353 und der vierte Klassifikator 354 bestehen jeweils aus einem vollständig verbundenen neuronalen Netzwerk und einer Aktivierungsfunktion. Die Aktivierungsfunktion kann eine Softmax-Funktion oder eine Sigmoidfunktion sein.Der erste Klassifikator 351 ist mit dem Graph-Aufmerksamkeitsnetzwerk 311 verbunden und dient dazu, eine feinkörnige Konfidenz für jeden Knoten vi auszugeben. Die feinkörnige Knotenkonfidenz wird alsIm ersten Klassifikator 351 wird der aktualisierte Merkmalsvektor
- A first classifier 351 and a second classifier 352 serve to receive the updated feature vectors of the nodes to predict the type of coarse-grained object and the type of fine-grained object to which each of the strokes belongs to each of the nodes, respectively.
- A third classifier 353 and a fourth classifier 354 serve to receive the updated feature vectors of the edges to respectively predict whether the stroke pair v_i, v_(i^') corresponding to each of the edges belongs to the same coarse-grained object or the same belongs to fine-grained object.
- The first classifier 351, the second classifier 352, the third classifier 353 and the fourth classifier 354 each consist of a fully connected neural network and an activation function. The activation function can be a softmax function or a sigmoid function.
- The first classifier 351 is connected to the graph attention network 311 and serves to output a fine-grained confidence for each node vi . The fine-grained node confidence is given as
Der zweite Klassifikator 352 ist mit dem Graphenaufmerksamkeitsnetzwerk 311 verbunden und dient dazu, eine grobkörnige Knotenkonfidenz für jeden Strich vi auszugeben. Die grobkörnige Konfidenz des Knotens wird als
Der dritte Klassifikator 353 ist mit dem Feedforward-Neuronalen Netzwerk 312 verbunden und dient dazu, eine feinkörnige Kantenkonfidenz für das Strichpaar v_i, v_(i^') auszugeben, das jeder der Kanten entspricht. Das feinkörnige Kantenkonfident wird als
Der vierte Klassifikator 354 ist mit dem Feedforward-Neuronalen Netzwerk 312 verbunden und dient dazu, eine grobkörnige Kantenkonfidenz für das Strichpaar vi, vi' auszugeben, die jeder der Kanten entspricht. Das grobkörnige Kantenkonfidenz wird als
Eine Einheit zur Wiederherstellung des Dokuments 40 ist mit der vollständig verbundenen neuronalen Netzwerkeinheit 35 verbunden, um eine Baumstruktur des Dokuments 300 wiederherzustellen (Schritt 160 in
Die Einheit zur Wiederherstellung des Dokuments 40 dient weiterhin dazu, die entsprechenden feinkörnigen Objekte zu gruppieren, um die entsprechenden grobkörnigen Objekte zu erhalten, indem sie die Analyse verbundener Komponenten gemäß den vorhergesagten Ergebnissen (den grobkörnigen Kantenkonfidenzen) der Striche verwendet, die zu denselben grobkörnigen Objekten in der vollständig verbundenen neuronalen Netzwerkeinheit 35 gehören. Der Typ jedes der entsprechenden grobkörnigen Objekte wird durch eine Summe der Konfidenzen (der grobkörnigen Knoten- konfidenzen) bestimmt, dass die Striche im grobkörnigen Objekt voraussichtlich zu einem bestimmten Typ des grobkörnigen Objekts in der vollständig verbundenen neuronalen Netzwerkeinheit 35 gehören.The
Wenn die feinkörnige Kantenkonfidenz weniger als 0,5
Wenn die grobkörnige Kantenkonfidenz größer oder gleich 0,5
Nachdem die Erfindung so beschrieben wurde, ist es offensichtlich, dass sie auf vielfältige Weise variiert werden kann. Solche Variationen sind nicht als Abweichung vom Geist und Umfang der Erfindung zu betrachten, und alle derartigen Modifikationen, die für einen Fachmann offensichtlich wären, sollen im Umfang der folgenden Ansprüche enthalten sein.Having thus described the invention, it is obvious that it can be varied in many ways. Such variations are not to be considered a departure from the spirit and scope of the invention, and all such modifications that would be apparent to one skilled in the art are intended to be included within the scope of the following claims.
Zusammenfassend betrifft die Erfindung ein Online-Layout-Analysesystem für Handschriftdokumente, das umfasst: eine Vorverarbeitungseinheit, die dazu dient, ein Dokument zu empfangen, das aus mehreren Strichen besteht, und einen ungerichteten Graphen zu erzeugen, der mehrere Knoten und mehrere Kanten enthält, um die Beziehungen zwischen verschiedenen Strichen darzustellen. Eine bidirektionale rekursive neuronale Netzwerkeinheit zum Initialisieren eines Merkmalsvektors jedes Knotens und eines Merkmalsvektors jeder Kante. Eine grafische neuronale Netzwerkeinheit dient dazu, die Merkmalsvektoren der Knoten und Kanten zu aktualisieren, um aktualisierte Merkmalsvektoren zu erhalten. Eine vollständig verbundene neuronale Netzwerkeinheit dient zur Durchführung einer grobkörnigen Objektklassifizierung und einer feinkörnigen Objektklassifizierung für jeden der Knoten und Kanten auf der Grundlage der aktualisierten Merkmalsvektoren. Eine Einheit zur Wiederherstellung des Dokuments dient zur Wiederherstellung einer Baumstruktur des Dokuments.In summary, the invention relates to an online layout analysis system for handwriting documents, comprising: a pre-processing unit for receiving a document consisting of a plurality of strokes and generating an undirected graph containing a plurality of nodes and a plurality of edges represent the relationships between different lines. A bidirectional recursive neural network unit for initializing a feature vector of each node and a feature vector of each edge. A graphical neural network unit is used to update the feature vectors of the nodes and edges to obtain updated feature vectors. A fully connected neural network unit is used to perform coarse-grained object classification and fine-grained object classification for each of the nodes and edges based on the updated feature vectors. A document restore unit is used to restore a tree structure of the document.
Claims (6)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE202024100090.0U DE202024100090U1 (en) | 2024-01-09 | 2024-01-09 | Online system for layout analysis of handwritten documents |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE202024100090.0U DE202024100090U1 (en) | 2024-01-09 | 2024-01-09 | Online system for layout analysis of handwritten documents |
Publications (1)
Publication Number | Publication Date |
---|---|
DE202024100090U1 true DE202024100090U1 (en) | 2024-02-08 |
Family
ID=90062675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE202024100090.0U Active DE202024100090U1 (en) | 2024-01-09 | 2024-01-09 | Online system for layout analysis of handwritten documents |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE202024100090U1 (en) |
-
2024
- 2024-01-09 DE DE202024100090.0U patent/DE202024100090U1/en active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69325204T2 (en) | Method and device for developing an initial collection of handwriting prototypes into a user-specific collection | |
DE60208223T2 (en) | ARRANGEMENT AND METHOD FOR FACE DETECTION USING PARTS OF THE LEARNED MODEL | |
DE69424196T2 (en) | Automatic character recognition using static and dynamic parameters | |
DE60217299T2 (en) | HOLISTIC-ANALYTICAL DETECTION OF HAND-WRITTEN TEXT | |
DE69222141T2 (en) | Method and device for recognizing touching and degraded text | |
DE102018111905A1 (en) | Domain-specific language for generating recurrent neural network architectures | |
DE69528023T2 (en) | System and method for automatic interpretation of input printouts using new a posteriori probability mass and optimally trained data processing networks | |
DE112017006166T5 (en) | METHOD AND SYSTEM FOR GENERATING A MULTI-RELEVANT LABEL | |
DE69333431T2 (en) | Method for recognizing handwritten symbols | |
DE102019000675A1 (en) | USE A MODEL BASED ON A DEEP NEURONAL NETWORK TO IDENTIFY VISUALLY SIMILAR DIGITAL IMAGES BASED ON USER-SELECTED VISUAL PROPERTIES | |
DE69226338T2 (en) | Image recognition method using finite machine networks | |
Obaidullah et al. | Automatic Indic script identification from handwritten documents: page, block, line and word-level approach | |
DE112018005418T5 (en) | COGNITIVE DOCUMENT IMAGE DIGITALIZATION | |
DE102005040306B4 (en) | System and method for biological data analysis using a Bayesian network in conjunction with a support vector machine | |
DE102016223193A1 (en) | Method and apparatus for completing a knowledge graph | |
DE69720564T2 (en) | Method, device and computer program product for generating a classification tree | |
DE112011104487T5 (en) | Method and system for predictive modeling | |
DE112017007492T5 (en) | System and method for capturing objects in a digital image and system and method for re-evaluating object capturing | |
DE112012005998T5 (en) | Apparatus, method and program for word sense | |
DE112021000392T5 (en) | POWERFUL COMMENTARY ON GROUND TRUTH | |
DE102021209171A1 (en) | SYSTEM FOR CHOOSING A LEARNING MODEL | |
DE60217748T2 (en) | Method and device for displaying a picture space | |
DE69529015T2 (en) | Speed and recognition improvement for OCR using normalized height / latitude position | |
DE112021005925T5 (en) | DOMAIN GENERALIZED SCOPE OVER METALLER TO DEEP FACE RECOGNITION | |
DE102012025349B4 (en) | Determination of a similarity measure and processing of documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R207 | Utility model specification |