DE202022104461U1 - Syntax guided recognition system for mathematical terms - Google Patents
Syntax guided recognition system for mathematical terms Download PDFInfo
- Publication number
- DE202022104461U1 DE202022104461U1 DE202022104461.9U DE202022104461U DE202022104461U1 DE 202022104461 U1 DE202022104461 U1 DE 202022104461U1 DE 202022104461 U DE202022104461 U DE 202022104461U DE 202022104461 U1 DE202022104461 U1 DE 202022104461U1
- Authority
- DE
- Germany
- Prior art keywords
- mathematical
- terms
- handwritten
- mathematical terms
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/171—Editing, e.g. inserting or deleting by use of digital ink
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/111—Mathematical or scientific formatting; Subscripts; Superscripts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/196—Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
- G06V30/1983—Syntactic or structural pattern recognition, e.g. symbolic string recognition
- G06V30/1985—Syntactic analysis, e.g. using a grammatical approach
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
Abstract
Ein Syntax-gerichtetes Erkennungssystem für mathematische Termini, wobei das System der vorliegenden Erfindung eine zentrale Verarbeitungseinheit und einen Hauptspeicher umfasst; wobei der Hauptspeicher dazu dient, in dem System verwendete notwendige Software zu speichern und die zentrale Verarbeitungseinheit dazu dient, in dem System verwendete Prozesse auszuführen; wobei das System der vorliegenden Erfindung ferner folgendes umfasst:
eine Einheit für handgeschriebene mathematische Online-Termini für den Empfang von handgeschriebenen mathematischen Online-Termini, welche Striche von mathematischen Symbolen und zugehörige Texte der mathematischen Termini enthält, um Koordinaten der Striche und Programmcodes zu erfassen, welche dem handgeschriebenen mathematischen Online-Terminus entsprechen; wobei die Koordinaten der Striche und die Program-Codes als handgeschriebene Online-Muster gebildet werden und die Einheit für handgeschriebene mathematische Online-Termini eine Online-Datenbank zur Speicherung einer großen Anzahl handgeschriebener Online-Muster enthält, welche Verwendung beim Training der neuronalen Netze Verwendung finden;
eine Einheit für handgeschriebene und gedruckte mathematische Offline-Termini zum Empfang der handgeschriebenen und gedruckten mathematischen Offline-Termini mit voreingestellten Programm-Codes, wobei die handgeschriebenen und gedruckten mathematischen Offline-Termini und zugehörigen Programm-Codes Muster für handgeschriebene und gedruckte mathematische Offline-Termini bilden, welche in einer Offline-Datenbank gespeichert sind;
einen Generator für strukturierte mathematische Termini zur Erzeugung strukturierter mathematischer Termini; den Generator für mathematische Termini einschließlich eines Korpus und einer mathematischen Grammatikdatenbank; den Generator für strukturierte mathematische Ausdrücke, welcher eine große Menge von Programm-Codes mathematischer Termini sammelt, welche dann im Korpus gespeichert werden; die Datenbank für mathematische Grammatik speichert Grammatiken bestimmter mathematischer Programmiersprachen, wobei der Generator für strukturierte mathematische Termini eine große Menge von strukturierten mathematischen Termini erzeugt, indem er die Programm-Codes der mathematischen Termini im Korpus auf der Grundlage der Grammatiken in der Datenbank für mathematische Grammatik verwendet; und
einen Handschriftmustergenerator, der mit der Einheit für handgeschriebene mathematische Online-Termini, der Einheit für handgeschriebene und gedruckte mathematische Offline-Termini und dem Generator für strukturierte mathematische Termini in Verbindung steht; den Handschriftmustergenerator, der dazu dient, eine Großmenge von Handschriftmustern aus mathematischen Termini für die Einheit für mathematische Online-Termini in der Einheit für handgeschriebene mathematische Online-Termini, der Einheit für handgeschriebene und gedruckte mathematische Offline-Termini und dem Generator für strukturierte mathematische Termini zur Verwendung beim Training des neuronalen Netzwerks zu erzeugen ; und
ein neuronales Netz zur Erkennung mathematischer Termini mit einer Eingabeschnittstelle und einer Ausgabeschnittstelle; wobei die Eingabeschnittstelle eine Vielzahl von Eingabeanschlüssen und die Ausgabeschnittstelle eine Vielzahl von Ausgabeanschlüssen enthält, wobei die Eingabeschnittstelle mit dem Handschriftmustergenerator zum Empfang der Handschriftmuster für mathematische Termini in Verbindung steht; wobei die Ausgabeschnittstelle dazu dient, die Programm-Codes zu empfangen, welche den in die Eingabeschnittstelle eingegebenen Handschriftproben für mathematische Termini entsprechen; und in der Vorhersagestufe werden Koordinaten von Strichen eines mathematischen Terminus zur Erkennung in die Eingabeschnittstelle des neuronalen Netzes zur mathematischen Erkennung eingegeben; die Ausgangsschnittstelle des neuronalen Netzes gibt mindestens einen Programm-Code aus, welcher dem eingegebenen mathematischen Terminus entspricht.
A syntax-directed recognition system for mathematical terms, the system of the present invention comprising a central processing unit and a main memory; wherein the main memory serves to store necessary software used in the system and the central processing unit serves to execute processes used in the system; the system of the present invention further comprising:
an on-line handwritten mathematical term unit for receiving on-line handwritten mathematical terms, including strokes of mathematical symbols and associated texts of the mathematical terms, for detecting coordinates of the strokes and program codes corresponding to the on-line handwritten mathematical term; wherein the coordinates of the strokes and the program codes are formed as on-line handwritten patterns, and the on-line handwritten mathematical terms unit includes an on-line database for storing a large number of on-line handwritten patterns for use in training the neural networks ;
an offline handwritten and printed mathematical terms unit for receiving the offline handwritten and printed mathematical terms with preset program codes, the offline handwritten and printed mathematical terms and associated program codes constituting templates for offline handwritten and printed mathematical terms , which are stored in an offline database;
a structured math term generator for generating structured math terms; the math term generator including a corpus and a math grammar database; the generator for structured mathematical expressions, which collects a large amount of program codes of mathematical terms, which are then stored in the corpus; the Mathematical Grammar Database stores grammars of certain mathematical programming languages, while the Structured Mathematical Terms Generator generates a large set of structured mathematical terms by using the program codes of the mathematical terms in the corpus based on the grammars in the Mathematical Grammar Database ; and
a handwriting pattern generator in communication with the online handwritten math term engine, the offline handwritten and printed math term engine, and the structured math term generator; the handwriting sample generator for generating a bulk of handwriting samples from mathematical terms for the online mathematical terms unit in the online handwritten mathematical terms unit, the offline handwritten and printed mathematical terms unit and the structured mathematical terms generator generate use in training the neural network; and
a neural network for recognizing mathematical terms, having an input interface and an output interface; the input interface including a plurality of input ports and the output interface including a plurality of output ports, the input interface communicating with the handwriting pattern generator for receiving the handwriting patterns for mathematical terms; wherein the output interface is for receiving the program codes corresponding to the mathematical term handwriting samples input to the input interface correspond to; and in the prediction stage, coordinates of strokes of a mathematical term for recognition are input to the input interface of the neural network for mathematical recognition; the output interface of the neural network outputs at least one program code which corresponds to the mathematical term entered.
Description
GEBIET DER ERFINDUNGFIELD OF THE INVENTION
Die Erfindung bezieht sich auf die Erkennung mathematischer Termini durch neuronale Netze und insbesondere auf ein syntaxgeleitetes Erkennungssystem für mathematische Termini.The invention relates to neural network recognition of mathematical terms, and more particularly to a syntax-directed recognition system for mathematical terms.
HINTERGRUND DER ERFINDUNGBACKGROUND OF THE INVENTION
Handgeschriebene mathematische Online-Termini bezeichnen mathematische Termini, welche von einem Nutzer erfasst werden, indem dieser mathematische Termini handschriftlich in ein elektronisches Gerät (z.B. Touch-Pens, Handschrifttafeln oder Tablets usw.) eingibt. In dieser Erfindung umfassen die mathematischen Termini mathematische Zeichen und mathematische Formeln, welche aus mathematischen Symbole zusammengesetzt sind. Weiterhin werden auch die jeweiligen Positionsbeziehungen zwischen mathematischen Symbolen erfasst. Die Erkennung anhand der oben genannten Daten wird als Online-Erkennung bezeichnet.Online handwritten math terms refer to math terms that are acquired by a user entering math terms by hand into an electronic device (e.g., touch pens, blackboards, or tablets, etc.). In this invention, the mathematical terms include mathematical symbols and mathematical formulas composed of mathematical symbols. Furthermore, the respective positional relationships between mathematical symbols are also detected. Detection based on the above data is called online detection.
Der so genannte handgeschriebene mathematische Offline-Terminus oder gedruckte mathematische Terminus hat die Aufgabe, mathematische Termini zu erfassen, welche nicht den oben erwähnten handschriftlichen Online-Zuständen entsprechen. Zum Beispiel zweidimensionale Figuren oder gedruckte mathematische Termini, die keine Informationen über die Striche und die Strichfolgen enthalten. Die Erkennung des mathematischen Terminus auf Basis dieser Daten (offline) wird Offline-Erkennung genannt.The so-called offline handwritten mathematical term or printed mathematical term has the task of capturing mathematical terms which do not correspond to the above-mentioned online handwritten states. For example, two-dimensional figures or printed mathematical terms that do not contain information about the strokes and stroke sequences. The recognition of the mathematical term based on this data (offline) is called offline recognition.
Herkömmlicherweise ist beim Training eines neuronalen Netzes zur Erkennung mathematischer Termini eine große Menge mathematischer Termini in der Trainingsstufe notwendig. Die Anzahl der benötigten Proben kann einen Wert von Hunderttausenden erreichen. Solch eine große Menge mathematischer Termini kann nur mechanisch erzeugt werden, während herkömmliche Wege zur Erzeugung mathematischer Termini zu viel Zeit benötigen. Zudem sind Handschriftenproben sehr schwer zu sammeln und darüber hinaus kann ein trainiertes neuronales Netz nicht modifiziert oder gar erweitert werden. All dies sind Probleme, denen man im derzeitigen Stand der Technik begegnet.Conventionally, when training a neural network to recognize mathematical terms, a large amount of mathematical terms is necessary in the training stage. The number of samples required can reach hundreds of thousands. Such a large amount of mathematical terms can only be generated mechanically, while conventional ways of generating mathematical terms take too much time. In addition, handwriting samples are very difficult to collect and, moreover, a trained neural network cannot be modified or even expanded. All of these are problems encountered in the current state of the art.
ZUSAMMENFASSUNG DER ERFINDUNGSUMMARY OF THE INVENTION
Dementsprechend besteht die Aufgabe dieser Erfindung darin, ein syntaxgeleitetes Erkennungssystem für mathematische Termini bereitzustellen, wobei handgeschriebene mathematische Online-Termini, handgeschriebene und gedruckte mathematische Offline-Termini und strukturierte mathematische Termini kombiniert werden, um eine riesige Menge an mathematischen Termini zu erzeugen, die beim Training von neuronalen Netzen anwendbar sind. Ein End-to-End-Lernweg wird dabei angewandt, um das neuronale Netzwerk zu trainieren und einen besseren Lerneffekt zu erzielen, wobei auch kognitive Fähigkeiten gefördert werden. Zudem wird das Problem der Überanpassung in mehrschichtigen neuronalen Netzen effektiv reduziert und die Generalisierung erhöht. Als Ergebnis daraus wird die Genauigkeit eines Testsatzes massiv verbessert. Der Modus des neuronalen Netzwerks dieser Erfindung ist für handschriftliche mathematische Online-Termini sowie für handschriftliche und gedruckte mathematische Offline-Termini anwendbar. Daher wird nur ein einziges Erkennungssystem verwendet und kein anderes System benötigt, so dass hierbei Kosten stark reduziert werden. Weitere neue mathematische Termini werden zur Erkennung benötigt, aber es werden nur wenige neue Muster angewandt und Grammatiken der mathematischen Programmsprache müssen nur geringfügig angepasst werden, um die kognitive Fähigkeit des neuronalen Netzes zu erweitern. Bei der Erfindung wird die mathematische Sprachgrammatik beim Training angewandt und somit werden die Erkennungsergebnisse an die mathematische Grammatiken angepasst. Darüber hinaus ist die Erfindung vorteilhaft für die kundenspezifische Anpassung.Accordingly, it is an object of this invention to provide a syntax-directed mathematical term recognition system that combines online handwritten mathematical terms, offline handwritten and printed mathematical terms, and structured mathematical terms to generate a vast set of mathematical terms that can be used in training of neural networks are applicable. An end-to-end learning path is applied to train the neural network and achieve a better learning effect, while also promoting cognitive abilities. In addition, the problem of overfitting in multi-layer neural networks is effectively reduced and generalization is increased. As a result, the accuracy of a test set is massively improved. The neural network mode of this invention is applicable to on-line handwritten math terms as well as off-line handwritten and printed math terms. Therefore, only a single detection system is used and no other system is required, thereby greatly reducing costs. More new mathematical terms are needed for recognition, but few new patterns are applied and grammars of the mathematical programming language need only minor adjustments to enhance the neural network's cognitive ability. In the invention, the mathematical language grammar is applied during training and thus the recognition results are adapted to the mathematical grammar. In addition, the invention is advantageous for customization.
Figurenlistecharacter list
DETAILLIERTE BESCHREIBUNG DES BEVORZUGTEN AUSFÜHRUNGSBEISPIELS DER ERFINDUNGDETAILED DESCRIPTION OF THE PREFERRED EMBODIMENT OF THE INVENTION
Gemäß den
Eine Einheit 10 für handgeschriebene mathematische Online-Termini dient dazu, handgeschriebene mathematische Online-Termini einschließlich der Striche mathematischer Symbole und verwandter Texte von mathematischen Termini zu empfangen, wobei man Koordinaten der Striche und Programm-Codes erhält, welche dem handgeschriebenen mathematischen Online-Terminus entsprechen (für bestimmte ComputerSprachen, wie z.B. LaTeX oder MathML - Mathematical Markup Language. Es sind jedoch alle für mathematische Termini verwendbare Computersprachen in der Erfindung zulässig). Die Programmcodes können nach der Zusammenstellung oder Interpretation in mathematische Termini umgewandelt werden. Die Koordinaten der Striche und des Programm-Codes werden als handschriftliche Online-Muster 12 abgebildet. Vorzugsweise werden Koordinaten der Striche durch InkML (Ink Markup Language) gespeichert.An on-line handwritten
Zum Beispiel in der mathematischen Programmsprache LaTeX bedeutet ein Programm-Code of \\frac { 1 } { 3 } nichts weiter als
Beim Training von neuronalen Netzwerken werden Koordinaten der Striche von mathematischen Termini als Eingaben der neuronalen Netzwerke verwendet und die Programm-Codes dienen als Ausgaben der neuronalen Netzwerke.In training neural networks, coordinates of the strokes of mathematical terms are used as inputs of the neural networks and the program codes serve as outputs of the neural networks.
Die Einheit für handgeschriebene mathematische Online-Termini 10 enthält eine Online-Datenbank 15 zur Speicherung größerer Mengen an handgeschriebenen Online-Mustern 12 für das Training der neuronalen Netzwerke.The on-line handwritten
In der Einheit für handgeschriebene mathematische Online-Termini 10 werden submathematische Termini aus den ursprünglichen handgeschriebenen mathematischen Online-Termini extrahiert, um sie als unabhängige mathematische Termini zu bilden, wobei ein submathematischer Terminus ein Teil des ursprünglichen handgeschriebenen mathematischen Online-Terminus ist. Die Koordinaten der Striche und Programm-Codes der submathematischen Termini werden ebenfalls extrahiert, um handschriftliche Online-Muster 12 zu bilden, welche dann in der Online-Datenbank 15 gespeichert werden.In the unit for online handwritten
Eine Einheit für handgeschriebene und gedruckte mathematische Offline-Termini 20 dient zum Empfang der handgeschriebenen und gedruckten mathematischen Offline-Termini mit voreingestellten Programm-Codes, wobei die Programm-Codes der handgeschriebenen und gedruckten mathematischen Offline-Ausdrücke im Voraus bekannt sind. Die handgeschriebenen und gedruckten mathematischen Offline-Termini und zugehörigen Programm-Codes werden als handgeschriebene und gedruckte mathematische Offline-Ausdrucksmuster 22 gebildet, welche dann in einer Offline-Datenbank 25 abgespeichert werden. Beispielsweise ist der handgeschriebene und gedruckte mathematische Offline-Terminus eine zweidimensionale Figur (z.B. mit PNG formatiert), deren Programm-Codes in einer Auszeichnungssprache gespeichert werden, wie z.B. der MathML-Sprache.An off-line handwritten and printed
Ein Generator 30 für strukturierte mathematische Termini dient zur Erzeugung strukturierter mathematischer Termini. Der Generator 30 für mathematische Termini enthält einen Corpus 34 und eine Datenbank 33 für mathematische Grammatik. Dazu sammelt der Generator 30 für strukturierte mathematische Termini eine große Menge von Programm-Codes mathematischer Termini (z.B. über Netzwerke), welche im Corpus 34 abgespeichert sind. Die Datenbank für mathematische Grammatik 33 speichert Grammatiken spezifischer mathematischer Programmiersprachen, wie z.B. stochastische, kontextfreie Grammatik. Die stochastische, kontextfreie Grammatik beschreibt Grammatiken von Programm-Codes mathematischer Termini für einige spezifische Programmiersprachen wie LaTeX oder MathML. Der Generator 30 für strukturierte mathematische Termini erzeugt eine große Menge strukturierter mathematischer Termini unter Verwendung der Programm-Codes der mathematischen Termini im Corpus 34 basierend auf den Grammatiken in der Datenbank 33 für mathematische Grammatik. Die strukturierten mathematischen Termini können unter Verwendung mathematischer Auszeichnungssprachen gespeichert werden , wie z.B. MathML.A structured
Ein Handschriftmustergenerator 40 ist mit der Einheit für handgeschriebene mathematische Online-Termini 40, der Einheit für handgeschriebene und gedruckte mathematische Offline-Termini 20 und dem Generator 20 für strukturierte mathematische Termini verbunden. Der Handschriftmustergenerator 40 dient zur Erzeugung einer großen Menge von Handschriftmustern für mathematische Termini 42 für die Einheit der mathematischen Online-Termini 10, für die Einheit für handgeschriebene mathematische Offline-Trmini 20 und für handgeschriebene sowie gedruckte mathematische Termini und dem Generator 30 mit dem Ziel der Verwendung von strukturierten mathematischen Termini zum Training des neuronalen Netzwerks. In der Erfindung kann die Menge an Handschriftproben 42 für mathematische Ausdrücke in den fünnfstelligen Bereich gehen. Wege zur Erzeugung der mathematischen Ausdruckshandschriftmuster werden nachstehend beschrieben.
- (a) Die Koordinaten der Striche und die Programm-Codes der handgeschriebenen mathematischen Online-Termini in den handschriftlichen Online-Mustern 12 werden als entsprechende handschriftliche Muster mathematischer Termini 42 gebildet.
- (b) Es fndet eine Einbeziehung der Striche aus den handgeschriebenen und gedruckten mathematischen Offline-Termini in die Probemenge für handgeschriebenen und gedruckten Offline-Termini 22 zur Erfassung der Koordinaten der Striche statt, wobei die Programm-Codes des handgeschriebenen und gedruckten mathematischen Offline-Terminus im Voraus bekannt sind, wie es auch schon weiter oben festegeigt wurde. Daher werden diese Koordinaten und Programm-Codes für die handgeschriebenen und gedruckten mathematischen Offline-Termini als entsprechende Handschriftmuster für mathematische Termini 42 gebildet.
- (c) Erfassung von Handschriftmustern für mathematische Termini 42 für struktrierte mathematische Termini aus dem Generator für strukturierte
mathematische Termini 30 auf folgende Weise: (1) die strukturierten mathematischen Termini werden in mathematische Termini in gedruckter Form umgewandelt (gerendert) und für jedes mathematische Symbol in dem mathematischen Ausdruck in gedruckter Form wird ein minimaler Rechteckrahmen erfasst, welcher gerade ein entsprechendes mathematisches Symbol enthält. (2) Die gedruckten mathematischen Termini sind in mehrere untergeordnete mathematische Termini unterteilt, welche identische mathematische Termini in den handschriftlichen mathematischen Mustern für mathematische Online-Termini 12 auffindbar machen. Wenn die untergeordneten mathematischen Termini keine entsprechenden mathematischen Online-Termini in den handschriftlichen mathematischen Mustern 12 finden, dann werden diese submathematischen Ausdrücke im folgenden Prozess nicht verwendet. Der minimale Rechtecksrahmen für jedes mathematische Symbol wird angepasst. (3) Ziel ist es, Koordinaten von Strichen in den Mustern handschriftlicher mathematischer Termini 12 zu finden, welche den Strichen jedes Symbols in den submathematischen Ausdrücken entsprechen. Dann wird eine affine Transformation an den oben gefundenen Koordinaten der Striche durchgeführt, um transformierte Koordinaten der Striche jedes Symbols und die Programm-Codes des strukturierten mathematischen Terminus zu erhalten, die als ein Handschriftmuster für mathematische Ausdrücke 42 kombiniert werden. (4) Das Handschriftmuster für mathematische Termini 42 wird zufällig gedreht oder in der Größe zufällig geändert, um mehr und mehr Handschriftproben 42 für mathematische Ausdrücke zu erzeugen.
- (a) The coordinates of the strokes and the program codes of the on-line handwritten mathematical terms in the on-line handwritten patterns 12 are formed as corresponding on-line handwritten patterns 42.
- (b) The strokes from the offline handwritten and printed mathematical terms are included in the sample set for offline handwritten and printed mathematical terms 22 for detecting the coordinates of the strokes, the program codes of the offline handwritten and printed mathematical terms are known in advance, as has already been established above. Therefore, these coordinates and program codes for the off-line handwritten and printed mathematical terms are formed as corresponding handwriting patterns for mathematical terms 42 .
- (c) Acquisition of handwriting samples for mathematical terms 42 for structured mathematical terms from the structured
mathematical terms generator 30 in the following way: (1) the structured mathematical terms are converted (rendered) into mathematical terms in printed form and for each mathematical symbol in the mathematical expression in printed form, a minimal rectangular frame is captured, which just contains a corresponding mathematical symbol. (2) The printed mathematical terms are divided into several subordinate mathematical terms, which make identical mathematical terms discoverable in the handwritten mathematical templates for online mathematical terms 12. If the sub-mathematical terms do not find corresponding online mathematical terms in the handwritten mathematical patterns 12, then those sub-mathematical expressions are not used in the following process. The minimum rectangle frame for each math symbol is adjusted. (3) The aim is to find coordinates of strokes in the patterns of handwritten mathematical terms 12 which correspond to the strokes of each symbol in the sub-mathematical expressions. Then, an affine transformation is performed on the stroke coordinates found above to obtain transformed stroke coordinates of each symbol and the program codes of the structured mathematical term, which are combined as a handwriting pattern for mathematical expressions 42 . (4) The handwriting sample for mathematical terms 42 is randomly rotated or resized to generate more and more handwriting samples 42 for mathematical expressions.
Ein neuronales Netz 50 zur Erkennung mathematischer Termini umfasst eine Eingangsschnittstelle 51 und eine Ausgangsschnittstelle 55. Die Eingangsschnittstelle 51 beinhaltet mehrere Eingangsanschlüsse 52 und die Ausgangsschnittstelle 55 umfasst mehrere Ausgangsanschlüsse 56. Wie in den
In der Trainingsphase werden an die Zehn- oder gar Hunderttausende Proben von Handschriftmustern 42 für mathematische Termini verwendet. Die Koordinaten der Striche in den Handschriftmustern für mathematische Termini werden in eine Vielzahl von Eingabeanschlüssen 52 der Eingabeschnittstelle 51 eingegeben. Die Ausgaben der Ausgabeschnittstelle 55 werden als Programm-Codes gesetzt, welche den Handschriftmustern für mathematische Termini entsprechen. Durch mehrere Trainingsstufen werden die Gewichtungswerte in den Verbindungslinien des neuronalen Netzes 50 angepasst. Das neuronale Netz 50 zur Erkennung mathematischer Termini ist in der Lage, eingegebene Handschriftproben 42 mathematischer Termini zu identifizieren.In the training phase, tens or even hundreds of thousands of samples of handwriting samples 42 are used for mathematical terms. The coordinates of the strokes in the handwriting patterns for mathematical terms are input to a plurality of
In der Vorhersagestufe werden Koordinaten von Strichen eines mathematischen Terminus 100, welche mit den mathematischen Grammatiken übereinstimmen zur Erkennung in die Eingabeschnittstelle 51 des mathematischen kognitiven neuronalen Netzwerks 50 eingegeben. Die Ausgangsschnittstelle 55 des neuronalen Netzwerks gibt mindestens einen Programm-Code aus, der dem eingegebenen mathematischen Ausdruck 100 entspricht.In the prediction stage, coordinates of strokes of a mathematical term 100 which conform to the mathematical grammars are input to the
Wie in
Bei der Beschreibung der vorliegenden Erfindung ist es offensichtlich, dass dieselbe auf viele Arten variiert werden kann. Solche Variationen sind nicht als Abweichung vom Geist und Umfang der Erfindung zu betrachten und all solche Modifikationen, welche für einen Fachmann offensichtlich wären, sollen im Umfang der folgenden Ansprüche enthalten sein.Having described the present invention, it is obvious that the same can be varied in many ways. Such variations are not to be regarded as a departure from the spirit and scope of the invention, and all such modifications as would be obvious to one skilled in the art are intended to be included within the scope of the following claims.
Zusammenfassend betrifft die Erfindung ein syntaxgesteuertes Erkennungssystem für mathematische Termini kombiniert mit handgeschriebenen mathematischen Online-Termini, handgeschriebenen und gedruckten mathematischen Termini sowie strukturierten mathematischen Termini, um eine große Menge mathematischer Termini zu erzeugen, welche beim Training von neuronalen Netzwerken anwendbar sind. Ein End-to-End-Lernweg wird dabei genutzt, um das neuronale Netzwerk für die Erhöhung des Lerneffekts und der kognitiven Fähigkeit zu trainieren. Das Problem der Überanpassung in mehrschichtigen neuronalen Netzwerken wird effektiv reduziert, um die Genauigkeit eines Testsatzes zu erhöhen. Der Modus des neuronalen Netzwerks ist für handschriftliche mathematische Online-Termini sowie handschriftliche und gedruckte mathematische Offline-Termini anwendbar. Daher wird nur ein Erkennungssystem genutzt und ein weiteres System nicht benötigt.In summary, the invention relates to a syntax-driven mathematical term recognition system combining online handwritten mathematical terms, handwritten and printed mathematical terms, and structured mathematical terms to generate a large set of mathematical terms applicable to neural network training. An end-to-end learning path is used to train the neural network to increase learning and cognitive ability. The problem of overfitting in multi-layer neural networks is effectively reduced to increase the accuracy of a test set. The neural network mode is applicable to online handwritten math terms and offline handwritten and printed math terms. Therefore, only one detection system is used and another system is not required.
Claims (11)
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE202022104461.9U DE202022104461U1 (en) | 2022-08-04 | 2022-08-04 | Syntax guided recognition system for mathematical terms |
TW112205242U TWM649558U (en) | 2022-08-04 | 2023-05-25 | Syntax-oriented mathematical expression recognition system |
JP2023002183U JP3243700U (en) | 2022-08-04 | 2023-06-21 | Syntax-driven formula identification system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE202022104461.9U DE202022104461U1 (en) | 2022-08-04 | 2022-08-04 | Syntax guided recognition system for mathematical terms |
Publications (1)
Publication Number | Publication Date |
---|---|
DE202022104461U1 true DE202022104461U1 (en) | 2022-08-16 |
Family
ID=83114625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE202022104461.9U Active DE202022104461U1 (en) | 2022-08-04 | 2022-08-04 | Syntax guided recognition system for mathematical terms |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP3243700U (en) |
DE (1) | DE202022104461U1 (en) |
TW (1) | TWM649558U (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2622305A (en) * | 2022-07-14 | 2024-03-13 | Sunia Pte Ltd | Syntax-directed mathematical expression recognition system |
-
2022
- 2022-08-04 DE DE202022104461.9U patent/DE202022104461U1/en active Active
-
2023
- 2023-05-25 TW TW112205242U patent/TWM649558U/en unknown
- 2023-06-21 JP JP2023002183U patent/JP3243700U/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2622305A (en) * | 2022-07-14 | 2024-03-13 | Sunia Pte Ltd | Syntax-directed mathematical expression recognition system |
Also Published As
Publication number | Publication date |
---|---|
JP3243700U (en) | 2023-09-12 |
TWM649558U (en) | 2023-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69424196T2 (en) | Automatic character recognition using static and dynamic parameters | |
DE69528023T2 (en) | System and method for automatic interpretation of input printouts using new a posteriori probability mass and optimally trained data processing networks | |
DE69604481T2 (en) | METHOD AND DEVICE FOR SEPARATING THE FOREGROUND AND BACKGROUND IN TEXT-CONTAINING IMAGES | |
DE60130742T2 (en) | Pattern recognition with hierarchical networks | |
DE69231309T2 (en) | Method and system for handwriting recognition | |
DE60208223T2 (en) | ARRANGEMENT AND METHOD FOR FACE DETECTION USING PARTS OF THE LEARNED MODEL | |
DE69325204T2 (en) | Method and device for developing an initial collection of handwriting prototypes into a user-specific collection | |
DE69333811T2 (en) | Method and device for generating and adjusting a neuron | |
DE69720564T2 (en) | Method, device and computer program product for generating a classification tree | |
DE102006010607A1 (en) | Object localization method, involves calculating probability values for limitation boxes in input image based on probability that object is arranged in these locations, and selecting box with highest probability as location of object | |
DE102017220307A1 (en) | Device and method for recognizing traffic signs | |
DE69223979T2 (en) | FUZZY RECOVERY DEVICE AND METHOD THEREFOR | |
DE102019204139A1 (en) | Training for artificial neural networks with better utilization of the learning data sets | |
DE4119091C2 (en) | Method for recognizing characters, in particular characters and device for carrying out the method | |
EP2082357B1 (en) | Device, method and computer program for identifying characters in an image | |
DE202022002901U1 (en) | Text-Image Layout Transformer (TILT) | |
DE202022106040U1 (en) | Handwriting recognition system based on a neural network | |
DE69529015T2 (en) | Speed and recognition improvement for OCR using normalized height / latitude position | |
DE202022104461U1 (en) | Syntax guided recognition system for mathematical terms | |
DE112020000172T5 (en) | ANSWERING TO COGNITIVE INQUIRIES OF SENSOR INPUT SIGNALS | |
DE202023102803U1 (en) | System for emotion detection and mood analysis through machine learning | |
DE4407998C2 (en) | Method and device for recognizing a pattern on a document | |
DE69521868T2 (en) | Procedure for designing classification trees | |
DE69419837T2 (en) | Continuous sign language recognition device and input device therefor | |
DE69331035T2 (en) | Character recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R207 | Utility model specification |