DE202022106616U1 - A system for representing and classifying formulas for searching mathematical information - Google Patents
A system for representing and classifying formulas for searching mathematical information Download PDFInfo
- Publication number
- DE202022106616U1 DE202022106616U1 DE202022106616.7U DE202022106616U DE202022106616U1 DE 202022106616 U1 DE202022106616 U1 DE 202022106616U1 DE 202022106616 U DE202022106616 U DE 202022106616U DE 202022106616 U1 DE202022106616 U1 DE 202022106616U1
- Authority
- DE
- Germany
- Prior art keywords
- formula
- query
- generalized
- vector
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 9
- 239000010931 gold Substances 0.000 claims description 9
- 229910052737 gold Inorganic materials 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 8
- 238000013459 approach Methods 0.000 description 43
- 238000000034 method Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 10
- 230000008901 benefit Effects 0.000 description 8
- SVDVJBWDBYSQLO-UHFFFAOYSA-N 5-(4-hydroxy-3-methoxyphenyl)-5-phenylimidazolidine-2,4-dione Chemical compound C1=C(O)C(OC)=CC(C2(C(NC(=O)N2)=O)C=2C=CC=CC=2)=C1 SVDVJBWDBYSQLO-UHFFFAOYSA-N 0.000 description 5
- 101000937642 Homo sapiens Malonyl-CoA-acyl carrier protein transacylase, mitochondrial Proteins 0.000 description 5
- 102100027329 Malonyl-CoA-acyl carrier protein transacylase, mitochondrial Human genes 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000005259 measurement Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 101100020619 Arabidopsis thaliana LATE gene Proteins 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004816 latex Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/111—Mathematical or scientific formatting; Subscripts; Superscripts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Ein System zur Darstellung und Einordnung von Formeln für die Suche nach mathematischen Informationen, wobei das System umfasst:eine Eingabeeinheit zum Empfang wissenschaftlicher Dokumentdaten und einer Benutzerabfrage;eine Dokumentenvorverarbeitungseinheit zum Entfernen von Rauschen und zum Extrahieren von Formeln aus den wissenschaftlichen Dokumentendaten;einen Formeleinbettungsprozessor mit einer Formeleinbettungseinheit zum Erzeugen eines binären Vektors unter Verwendung einer Bitpositionsinformation und einem eingebetteten Formelindexierer zum Erzeugen eines eingebetteten Formelindexes für die erzeugten binären Vektoren;einen Formelverallgemeinerungsprozessor mit einer Formelverallgemeinerungseinheit zum Extrahieren aller in der Formel vorhandenen Entitäten, wodurch diese in einen verallgemeinerten Vektor umgewandelt werden, und einen verallgemeinerten Formelindexierer zum Erzeugen eines verallgemeinerten Formelindexes;eine Abfrageeinbettungseinheit zum Extrahieren eines Satzes von Entitäten aus der Benutzerabfrage und zum Verwenden einer Bitpositionsinformation für die Erzeugung eines Abfragevektors;eine Abfrageverallgemeinerungseinheit zum Umwandeln der Benutzerabfrage in einen verallgemeinerten Abfragevektor; undeine Such- und Rangordnungseinheit zum Empfangen eines verallgemeinerten Abfragevektors mit Schlüsselwörtern, wodurch ein Satz von Ähnlichkeits- und Unähnlichkeitsfaktoren erzeugt wird, die dazu beitragen, die exakte Übereinstimmungsformel, die Unterformel und die übergeordnete Formel abzurufen und jedes eingegebene Schlüsselwort mit jedem indizierten Kontext abzugleichen, wodurch die Anzahl der ähnlichen Token zwischen der Abfrage und dem indizierten Kontext berechnet wird.A system for representing and ranking formulas for searching mathematical information, the system comprising:an input unit for receiving scientific document data and a user query;a document preprocessing unit for removing noise and extracting formulas from the scientific document data;a formula embedding processor having a Formula embedding unit for generating a binary vector using bit position information and an embedded formula indexer for generating an embedded formula index for the generated binary vectors;a formula generalization processor with a formula generalization unit for extracting all entities present in the formula, thereby converting them into a generalized vector, and a generalized formula indexer for generating a generalized formula index;a query embedding unit for extracting a set of entities from the user query and using bit position information for generating a query vector;a query generalization unit for converting the user query into a generalized query vector; anda search and ranking unit for receiving a generalized query vector of keywords, thereby generating a set of similarity and dissimilarity factors that help to retrieve the exact match formula, the subformula and the parent formula and to match each input keyword with each indexed context, whereby calculating the number of similar tokens between the query and the indexed context.
Description
BEREICH DER ERFINDUNGFIELD OF THE INVENTION
Die vorliegende Offenlegung bezieht sich auf ein System zur Darstellung und Einordnung von Formeln für die Suche nach mathematischen Informationen.The present disclosure relates to a system for representing and ranking formulas for searching mathematical information.
HINTERGRUND DER ERFINDUNGBACKGROUND OF THE INVENTION
Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ist ein Bereich der künstlichen Intelligenz (AI), der sich mit der Verarbeitung und Analyse menschlicher Sprachen beschäftigt. Es automatisiert den Prozess der Informationsextraktion, -verwaltung, - übersetzung, -synthetisierung und -generierung. Das Internet gilt als universeller Wissensspeicher, der kostenlosen oder kostengünstigen Zugang zu verschiedenen Informationen bietet. Die Welt der Informationen wächst jedoch, und die schnelle Suche nach benötigten Informationen wird zu einer äußerst komplexen Aufgabe. Der Prozess der Informationssuche ändert sich je nach dem Gegenstand der Suche. Die Suche nach Textinformationen unterscheidet sich in quantitativer und qualitativer Hinsicht von der Suche nach Bildern, Videos und mathematischen Notationen. Im Allgemeinen ist Information Retrieval (IR) eine Anwendung des NLP, die darauf abzielt, dass das generische IR-System die Anfrage des Benutzers als Eingabe nimmt, die Ähnlichkeit schätzt und den Rang der relevanten Suchergebnisse liefert. Die Mehrzahl der im Web verfügbaren Daten sind sequentielle Textdaten, Bilder und Videos. Die Anforderungen der Benutzer können sich jedoch ändern. Manchmal suchen Benutzer nach Bildern/Videos auf der Grundlage einer textbasierten Abfrage, oder sie suchen nach Textinformationen mit Hilfe einer bildbasierten Abfrage oder nach Videos auf der Grundlage einer audiobasierten Abfrage.Natural language processing (NLP) is an area of artificial intelligence (AI) concerned with the processing and analysis of human language. It automates the process of information extraction, management, translation, synthesis and generation. The Internet is considered to be a universal repository of knowledge, providing free or low-cost access to various information. However, the world of information is growing and finding the information you need quickly becomes an extremely complex task. The process of searching for information varies depending on the subject of the search. The search for text information differs quantitatively and qualitatively from the search for images, videos and mathematical notations. In general, Information Retrieval (IR) is an application of NLP that aims to have the generic IR system take the user's query as input, estimate similarity, and provide the rank of relevant search results. The majority of data available on the web is sequential text data, images and video. However, user requirements may change. Sometimes users are looking for images/videos based on a text-based query, or they are looking for text information using an image-based query, or videos based on an audio-based query.
Die Formeln sind oft wichtiger als der Text, um die Idee eines wissenschaftlichen Dokuments zu vermitteln. Die digitalen mathematischen Bibliotheken (DMLs) erforderten ein System, das Formeln in wissenschaftlichen Dokumenten erkennt und abruft. Herkömmliche IR-Systeme behandeln die Formeln als Text, sind aber nicht in der Lage, die strukturelle und semantische Bedeutung der Formeln zu erfassen. Um diese Lücke zu schließen, ist das Mathematical Information Retrieval (MIR) System ins Rampenlicht gerückt und hat die Aufmerksamkeit der Forscher auf sich gezogen. Die Hauptaufgabe eines MIR-Systems besteht darin, das wissenschaftliche Dokument/die Formel/die Quelldatei zu finden, das/die die abgefragte Formel oder relevante Informationen in Bezug auf die Benutzeranfrage enthält. In MIR können die Benutzer ihren Informationsbedarf in Form von natürlichsprachigem Text oder mathematischen Formeln oder einer Kombination aus beidem (Text + Formeln) ausdrücken. In MIR ist die Bedeutung des Begriffs „relevant“ eine subjektive Angelegenheit und wird auf zwei Arten definiert: die erste findet die strukturellen Ähnlichkeiten zwischen der Benutzeranfrage und der Berichtsinformation, die zweite die semantischen Ähnlichkeiten zwischen der Benutzeranfrage und der Berichtsinformation. Diese Relevanzkriterien berücksichtigen nicht nur die genaue Übereinstimmung mit der Benutzeranfrage, sondern auch die Informationen, die teilweise mit der Benutzeranfrage übereinstimmen.The formulas are often more important than the text in conveying the idea of a scientific document. The Digital Mathematical Libraries (DMLs) required a system that would recognize and retrieve formulas in scientific documents. Traditional IR systems treat the formulas as text, but are unable to capture the structural and semantic meaning of the formulas. To fill this gap, the Mathematical Information Retrieval (MIR) system has come into the limelight and caught the attention of researchers. The main task of a MIR system is to find the scientific document/formula/source file that contains the queried formula or relevant information related to the user query. In MIR, users can express their information needs in the form of natural language text or mathematical formulas or a combination of both (text + formulas). In MIR, the meaning of the term "relevant" is a subjective matter and is defined in two ways: the first finds the structural similarities between the user query and the report information, the second finds the semantic similarities between the user query and the report information. These relevance criteria consider not only the exact match with the user's query, but also the information that partially matches the user's query.
Die bestehenden Information Retrieval und MIR-System haben einige Herausforderungen, einschließlich der mathematischen Formeln sind rekursiv in der Struktur, während die textuellen Informationen sind linear in der Struktur und die konventionellen Suchmaschinen haben keine Verfügbarkeit von Mathematik-Editor, um die Formel-basierte Abfrage.The existing information retrieval and MIR system have some challenges including the mathematical formulas are recursive in structure while the textual information is linear in structure and the conventional search engines have no availability of math editor to query the formula-based.
In Anbetracht der vorangegangenen Diskussion wird deutlich, dass ein System zur Darstellung von Formeln und zur Erstellung von Ranglisten für das mathematische Information Retrieval erforderlich ist.In view of the preceding discussion, it is clear that a formula representation and ranking system is required for mathematical information retrieval.
ZUSAMMENFASSUNG DER ERFINDUNGSUMMARY OF THE INVENTION
Die vorliegende Offenlegung zielt darauf ab, ein System für die Darstellung und Einstufung von Formeln für die Suche nach mathematischen Informationen bereitzustellen.The present disclosure aims to provide a system for representing and ranking formulas for searching mathematical information.
In einer Ausführungsform wird ein System zur Formeldarstellung und zum Ranking für die mathematische Informationssuche offengelegt. Das System umfasst eine Eingabeeinheit zum Empfang wissenschaftlicher Dokumentdaten und einer Benutzerabfrage. Das System umfasst ferner eine Dokumentenvorverarbeitungseinheit zum Entfernen von Rauschen und zum Extrahieren von Formeln aus den wissenschaftlichen Dokumentdaten. Das System enthält ferner einen Formel-Einbettungsprozessor mit einer Formel-Einbettungseinheit zum Erzeugen eines binären Vektors unter Verwendung einer Bitpositionsinformation und einem eingebetteten Formel-Indexer zum Erzeugen eines eingebetteten Formel-Index für die erzeugten binären Vektoren. Das System umfasst ferner einen Formelverallgemeinerungsprozessor mit einer Formelverallgemeinerungseinheit zum Extrahieren aller in der Formel vorhandenen Entitäten, wodurch diese in einen verallgemeinerten Vektor umgewandelt werden, und einen verallgemeinerten Formelindexierer zum Erzeugen eines verallgemeinerten Formelindexes. Das System enthält ferner eine Abfrageeinbettungseinheit zum Extrahieren eines Satzes von Entitäten aus der Benutzerabfrage und zum Verwenden einer Bitpositionsinformation für die Erzeugung eines Abfragevektors. Das System enthält ferner eine Abfrageverallgemeinerungseinheit zum Umwandeln der Benutzerabfrage in einen verallgemeinerten Abfragevektor. Das System enthält ferner eine Such- und Rangiereinheit zum Empfangen des verallgemeinerten Abfragevektors mit ihren Schlüsselwörtern, wodurch ein Satz von Ähnlichkeits- und Unähnlichkeitsfaktoren erzeugt wird, die dazu beitragen, die exakte Übereinstimmungsformel, die Unterformel und die übergeordnete Formel abzurufen und jedes eingegebene Schlüsselwort mit jedem indizierten Kontext abzugleichen, wodurch die Anzahl der ähnlichen Token zwischen der Abfrage und dem indizierten Kontext berechnet wird.In one embodiment, a formula rendering and ranking system for mathematical information retrieval is disclosed. The system includes an input unit for receiving scientific document data and a user query. The system further includes a document pre-processing unit for removing noise and extracting formulas from the scientific document data. The system further includes a formula embedding processor having a formula embedding unit for generating a binary vector using bit position information and an embedded formula indexer for generating an embedded formula index for the generated binaries ren vectors. The system further includes a formula generalization processor having a formula generalization unit for extracting all entities present in the formula, thereby converting them into a generalized vector, and a generalized formula indexer for generating a generalized formula index. The system also includes a query embedding unit for extracting a set of entities from the user query and using bit position information to generate a query vector. The system also includes a query generalization unit for converting the user query into a generalized query vector. The system also includes a search and shunting unit for receiving the generalized query vector with its keywords, generating a set of similarity and dissimilarity factors that help retrieve the exact match formula, subformula, parent formula, and each entered keyword with each match the indexed context, which calculates the number of similar tokens between the query and the indexed context.
In einer anderen Ausführungsform besteht der verallgemeinerte Formelindex aus vier Attributen, die aus einer Gruppe von Vektoren in verallgemeinerter Form, dem Kontext einer Formel, der Dokument-ID, aus der die Formel extrahiert wurde, und der Formel im Presentation MathML-Format ausgewählt werden.In another embodiment, the generalized formula index consists of four attributes selected from a set of vectors in generalized form, the context of a formula, the document ID from which the formula was extracted, and the formula in Presentation MathML format.
In einer anderen Ausführungsform ist die Benutzerabfrage eine Kombination aus mathematischen Formeln und textlichen Schlüsselwörtern, wobei der Abfragesatz einfache und komplexe Abfragen enthält, die eine effiziente Auswertung ermöglichen, wobei jede Abfrage eine eindeutige ID hat, die verwendet wird, um das erhaltene Ergebnis einer Abfrage mit den bewerteten Ergebnissen zu vergleichen, die im Gold-Datensatz gespeichert sind.In another embodiment, the user query is a combination of mathematical formulas and textual keywords, the query set includes simple and complex queries that allow for efficient evaluation, each query having a unique ID that is used to identify the obtained result of a query with compared to the graded results stored in the gold record.
In einer anderen Ausführungsform zeigt der Ähnlichkeitsfaktor der indizierten Formel an, wie sehr die indizierte Formel der Benutzerabfrage ähnlich ist, während der Unähnlichkeitsfaktor der indizierten Formel anzeigt, wie sehr die indizierte Formel von der Benutzerabfrage abweicht.In another embodiment, the indexed formula similarity factor indicates how much the indexed formula is similar to the user query, while the indexed formula dissimilarity factor indicates how much the indexed formula differs from the user query.
In einer anderen Ausführungsform wird die Benutzerabfrage durch die Abfrageeinbettungseinheit und die Abfrageverallgemeinerungseinheit in einen Vektor aus 0 und 1 umgewandelt.In another embodiment, the user query is converted into a vector of 0s and 1s by the query embedding unit and the query generalization unit.
In einer anderen Ausführungsform ist die Formeleinbettungseinheit so konfiguriert, dass sie die syntaktisch ähnliche Formel abruft, während die Formelverallgemeinerung verwendet wird, um die semantisch ähnliche Formel in Bezug auf die vom Benutzer eingegebene Anfrage abzurufen.In another embodiment, the formula embedder is configured to retrieve the syntactically similar formula while formula generalization is used to retrieve the semantically similar formula in relation to the query entered by the user.
In einer anderen Ausführungsform reichen die Bitpositionen von 0-25 und die lexikalischen Einheiten an den Bitpositionen 150-201 werden für die verallgemeinerte Vektorform auf Null gesetzt, wobei der Formelverallgemeinerungsprozessor so konfiguriert ist, dass er die semantisch ähnliche Formel in einer einheitlichen Form darstellt.In another embodiment, the bit positions ranging from 0-25 and the lexical units at bit positions 150-201 are set to zero for the generalized vector form, and the formula generalization processor is configured to represent the semantically similar formula in a unified form.
In einer anderen Ausführungsform durchsucht der Abfragevektor alle im Index vorhandenen Formelvektoren nach der Formelrelevanzbewertung und der Kontextrelevanzbewertung.In another embodiment, the query vector searches all formula vectors present in the index for the formula relevance score and the context relevance score.
Ein Ziel der vorliegenden Offenbarung ist es, ein System für die Darstellung von Formeln und die Einstufung für die Suche nach mathematischen Informationen bereitzustellen.An object of the present disclosure is to provide a formula representation and ranking system for searching mathematical information.
Ein weiteres Ziel der vorliegenden Offenbarung ist es, syntaktisch und semantisch ähnliche Formeln, Unterformeln und übergeordnete Formeln zu finden.Another goal of the present disclosure is to find syntactically and semantically similar formulas, sub-formulae and super-formulae.
Ein weiteres Ziel der vorliegenden Erfindung ist es, einen schnellen und kostengünstigen Ansatz zur Einbettung und Verallgemeinerung von Formeln unter Verwendung von Bitpositionsinformationen zu liefern, um die Leistung von MIR-Systemen zu verbessern.Another object of the present invention is to provide a fast and inexpensive approach to embedding and generalizing formulas using bit position information to improve the performance of MIR systems.
Zur weiteren Verdeutlichung der Vorteile und Merkmale der vorliegenden Offenbarung wird eine genauere Beschreibung der Erfindung durch Bezugnahme auf bestimmte Ausführungsformen gegeben, die in den beigefügten Figuren dargestellt sind. Es wird davon ausgegangen, dass diese Figuren nur typische Ausführungsformen der Erfindung darstellen und daher nicht als Einschränkung des Umfangs der Erfindung zu betrachten sind. Die Erfindung wird mit zusätzlicher Spezifität und Detail mit den beigefügten Figuren beschrieben und erläutert werden.In order to further clarify the advantages and features of the present disclosure, a more detailed description of the invention is provided by reference to specific embodiments that are illustrated in the accompanying figures. It is understood that these figures represent only typical embodiments of the invention and therefore should not be considered as limiting the scope of the invention. The invention will be described and illustrated with additional specificity and detail with the accompanying figures.
Figurenlistecharacter list
Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Offenbarung werden besser verstanden, wenn die folgende detaillierte Beschreibung mit Bezug auf die beigefügten Figuren gelesen wird, in denen gleiche Zeichen gleiche Teile in den Figuren darstellen, wobei:
-
1 ein Blockdiagramm eines Systems zur Darstellung von Formeln und zur Einstufung für die Suche nach mathematischen Informationen gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt; -
2 eine Systemarchitektur des vorgeschlagenen Ansatzes in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung zeigt; -
3 einen Vektor-Generierungsprozess Einbettung und Verallgemeinerung Modul mit Formel in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung veranschaulicht; -
4 die Struktur eines eingebetteten Formelindexes gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt; -
5 veranschaulicht, dassTabelle 1 Bitpositionsinformationen in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung darstellt; -
6 veranschaulicht Tabelle 2, die die Werte der Bewertungsparameter für 40 Datenbankformel-Browsing-Aufgabenabfragen gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt; und -
7 zeigtTabelle 3 mit den Werten der Bewertungsparameter für 30 Datenbank-Hauptaufgabenabfragen gemäß einer Ausführungsform der vorliegenden Offenbarung.
-
1 Figure 12 shows a block diagram of a formula representation and ranking system for searching mathematical information according to an embodiment of the present disclosure; -
2 shows a system architecture of the proposed approach in accordance with an embodiment of the present disclosure; -
3 illustrates a vector generation process embedding and generalization module with formula in accordance with an embodiment of the present disclosure; -
4 Figure 12 shows the structure of an embedded formula index according to an embodiment of the present disclosure; -
5 Illustrates that Table 1 presents bit position information in accordance with an embodiment of the present disclosure; -
6 Table 2 illustrates the values of the evaluation parameters for 40 database formula browsing task queries according to an embodiment of the present disclosure; and -
7 Table 3 shows the values of the evaluation parameters for 30 main database task queries according to an embodiment of the present disclosure.
Der Fachmann wird verstehen, dass die Elemente in den Figuren der Einfachheit halber dargestellt sind und nicht unbedingt maßstabsgetreu gezeichnet wurden. Die Flussdiagramme veranschaulichen beispielsweise das Verfahren anhand der wichtigsten Schritte, um das Verständnis der Aspekte der vorliegenden Offenbarung zu verbessern. Darüber hinaus kann es sein, dass eine oder mehrere Komponenten der Vorrichtung in den Figuren durch herkömmliche Symbole dargestellt sind, und dass die Figuren nur die spezifischen Details zeigen, die für das Verständnis der Ausführungsformen der vorliegenden Offenbarung relevant sind, um die Figuren nicht mit Details zu überfrachten, die für Fachleute, die mit der vorliegenden Beschreibung vertraut sind, leicht erkennbar sind.Those skilled in the art will understand that the elements in the figures are presented for simplicity and are not necessarily drawn to scale. For example, the flow charts illustrate the method of key steps to enhance understanding of aspects of the present disclosure. In addition, one or more components of the device may be represented in the figures by conventional symbols, and the figures only show the specific details relevant to understanding the embodiments of the present disclosure, not to encircle the figures with details to overload, which are easily recognizable to those skilled in the art familiar with the present description.
DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION
Um das Verständnis der Erfindung zu fördern, wird nun auf die in den Figuren dargestellte Ausführungsform Bezug genommen und diese mit bestimmten Worten beschrieben. Es versteht sich jedoch von selbst, dass damit keine Einschränkung des Umfangs der Erfindung beabsichtigt ist, wobei solche Änderungen und weitere Modifikationen des dargestellten Systems und solche weiteren Anwendungen der darin dargestellten Grundsätze der Erfindung in Betracht gezogen werden, wie sie einem Fachmann auf dem Gebiet der Erfindung normalerweise einfallen würden.For the purposes of promoting an understanding of the invention, reference will now be made to the embodiment illustrated in the figures and specific language will be used to describe the same. It should be understood, however, that no limitation on the scope of the invention is intended, and such alterations and further modifications to the illustrated system and such further applications of the principles of the invention set forth therein are contemplated as would occur to those skilled in the art invention would normally come to mind.
Es versteht sich für den Fachmann von selbst, dass die vorstehende allgemeine Beschreibung und die folgende detaillierte Beschreibung beispielhaft und erläuternd für die Erfindung sind und diese nicht einschränken sollen.It will be understood by those skilled in the art that the foregoing general description and the following detailed description are exemplary and explanatory of the invention and are not intended to be limiting.
Wenn in dieser Beschreibung von „einem Aspekt“, „einem anderen Aspekt“ oder ähnlichem die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Offenbarung enthalten ist. Daher können sich die Ausdrücke „in einer Ausführungsform“, „in einer anderen Ausführungsform“ und ähnliche Ausdrücke in dieser Beschreibung alle auf dieselbe Ausführungsform beziehen, müssen es aber nicht.When this specification refers to "an aspect," "another aspect," or the like, it means that a particular feature, structure, or characteristic described in connection with the embodiment is present in at least one embodiment included in the present disclosure. Therefore, the phrases "in one embodiment," "in another embodiment," and similar phrases throughout this specification may or may not all refer to the same embodiment.
Die Ausdrücke „umfasst“, „enthaltend“ oder andere Variationen davon sollen eine nicht ausschließliche Einbeziehung abdecken, so dass ein Verfahren oder eine Methode, die eine Liste von Schritten umfasst, nicht nur diese Schritte einschließt, sondern auch andere Schritte enthalten kann, die nicht ausdrücklich aufgeführt sind oder zu einem solchen Verfahren oder einer solchen Methode gehören. Ebenso schließen eine oder mehrere Vorrichtungen oder Teilsysteme oder Elemente oder Strukturen oder Komponenten, die mit „umfasst...a“ eingeleitet werden, nicht ohne weitere Einschränkungen die Existenz anderer Vorrichtungen oder anderer Teilsysteme oder anderer Elemente oder anderer Strukturen oder anderer Komponenten oder zusätzlicher Vorrichtungen oder zusätzlicher Teilsysteme oder zusätzlicher Elemente oder zusätzlicher Strukturen oder zusätzlicher Komponenten aus.The terms "comprises,""including," or other variations thereof are intended to cover non-exclusive inclusion, such that a method or method that includes a list of steps includes not only those steps, but may also include other steps that are not expressly stated or pertaining to any such process or method. Likewise, any device or subsystem or element or structure or component preceded by "comprises...a" does not, without further limitation, exclude the existence of other devices or other subsystem or other element or other structure or other component or additional devices, or additional subsystems, or additional elements, or additional structures, or additional components.
Sofern nicht anders definiert, haben alle hierin verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung, wie sie von einem Fachmann auf dem Gebiet, zu dem diese Erfindung gehört, allgemein verstanden wird. Das System, die Methoden und die Beispiele, die hier angegeben werden, dienen nur der Veranschaulichung und sind nicht als Einschränkung gedacht.Unless otherwise defined, all technical and scientific terms used herein have the same meaning as commonly understood by one skilled in the art to which this invention pertains. The system, methods, and examples provided herein are for purposes of illustration only and are not intended to be limiting.
Ausführungsformen der vorliegenden Offenbarung werden im Folgenden unter Bezugnahme auf die beigefügten Figuren im Detail beschrieben.Embodiments of the present disclosure are described in detail below with reference to the attached figures.
In einer Ausführungsform ist eine Dokumentenvorverarbeitungseinheit 104 mit einer Eingabeeinheit 102 verbunden, um Rauschen zu entfernen und Formeln aus den wissenschaftlichen Dokumentendaten zu extrahieren.In one embodiment, a
In einer anderen Ausführungsform ist ein Formeleinbettungsprozessor 106 mit einer Dokumentenvorverarbeitungseinheit 104 verbunden und verfügt über eine Formeleinbettungseinheit 108, die zur Erzeugung eines binären Vektors unter Verwendung einer Bitpositionsinformation verwendet wird, und einen eingebetteten Formelindexierer 110, der zur Erstellung eines eingebetteten Formelindex für die erzeugten binären Vektoren verwendet wird.In another embodiment, a
In einer anderen Ausführungsform ist ein Formelverallgemeinerungsprozessor 112 mit einem Formeleinbettungsprozessor 106 verbunden, der eine Formelverallgemeinerungseinheit 114 aufweist, die mit einem Formelverallgemeinerungsprozessor 112 verbunden ist, um alle in der Formel vorhandenen Entitäten zu extrahieren und dadurch in einen verallgemeinerten Vektor umzuwandeln, und ein verallgemeinerter Formelindexierer 116 ist mit einer Formelverallgemeinerungseinheit 114 verbunden, um einen verallgemeinerten Formelindex zu erzeugen.In another embodiment, a
In einer anderen Ausführungsform ist eine AbfrageEinbettungseinheit 118 mit einem Formel-Einbettungsprozessor 106 verbunden, um einen Satz von Entitäten aus der Benutzerabfrage zu extrahieren und eine Bitpositionsinformation für die Erzeugung eines Abfragevektors zu verwenden.In another embodiment, a
In einer anderen Ausführungsform ist eine Abfragegeneralisierungseinheit 120 mit einem Formelgeneralisierungsprozessor 112 verbunden, um die Benutzerabfrage in einen generalisierten Abfragevektor umzuwandeln.In another embodiment, a
In einer anderen Ausführungsform wird eine Such- und Rangordnungseinheit 122 eingesetzt, um einen verallgemeinerten Abfragevektor mit Schlüsselwörtern zu empfangen und dadurch einen Satz von Ähnlichkeits- und Unähnlichkeitsfaktoren zu erzeugen, die dazu beitragen, die exakte Übereinstimmungsformel, die Unterformel und die übergeordnete Formel abzurufen und jedes eingegebene Schlüsselwort mit jedem indizierten Kontext abzugleichen, wodurch die Anzahl der ähnlichen Token zwischen der Abfrage und dem indizierten Kontext berechnet wird.In another embodiment, a search and
In einer anderen Ausführungsform besteht der verallgemeinerte Formelindex aus vier Attributen, die aus einer Gruppe von Vektoren in verallgemeinerter Form, dem Kontext einer Formel, der Dokument-ID, aus der die Formel extrahiert wurde, und der Formel im Presentation MathML-Format ausgewählt werden.In another embodiment, the generalized formula index consists of four attributes selected from a set of vectors in generalized form, the context of a formula, the document ID from which the formula was extracted, and the formula in Presentation MathML format.
In einer anderen Ausführungsform ist die Benutzerabfrage eine Kombination aus mathematischen Formeln und textlichen Schlüsselwörtern, wobei der Abfragesatz einfache und komplexe Abfragen enthält, die eine effiziente Auswertung ermöglichen, wobei jede Abfrage eine eindeutige ID hat, die verwendet wird, um das erhaltene Ergebnis einer Abfrage mit den bewerteten Ergebnissen zu vergleichen, die im Gold-Datensatz gespeichert sind.In another embodiment, the user query is a combination of mathematical formulas and textual keywords, the query set includes simple and complex queries that allow for efficient evaluation, each query having a unique ID that is used to identify the obtained result of a query with compared to the graded results stored in the gold record.
In einer anderen Ausführungsform zeigt der Ähnlichkeitsfaktor der indizierten Formel an, wie sehr die indizierte Formel der Benutzerabfrage ähnlich ist, während der Unähnlichkeitsfaktor der indizierten Formel anzeigt, wie sehr die indizierte Formel von der Benutzerabfrage abweicht.In another embodiment, the indexed formula similarity factor indicates how much the indexed formula is similar to the user query, while the indexed formula dissimilarity factor indicates how much the indexed formula differs from the user query.
In einer anderen Ausführungsform wird die Benutzerabfrage durch die Abfrageeinbettungseinheit 118 und die Abfrageverallgemeinerungseinheit 120 in einen Vektor aus 0 und 1 umgewandelt.In another embodiment, the user query is converted into a vector of 0's and 1's by
In einer anderen Ausführungsform ist die Formeleinbettungseinheit 108 so konfiguriert, dass sie die syntaktisch ähnliche Formel abruft, während die Formelgeneralisierung verwendet wird, um die semantisch ähnliche Formel in Bezug auf die vom Benutzer eingegebene Abfrage abzurufen.In another embodiment, the
In einer anderen Ausführungsform reichen die Bitpositionen von 0-25 und die lexikalischen Einheiten an den Bitpositionen 150-201 werden für die verallgemeinerte Vektorform auf Null gesetzt, wobei der Formelverallgemeinerungsprozessor 112 so konfiguriert ist, dass er die semantisch ähnliche Formel in einer einheitlichen Form darstellt.In another embodiment, the bit positions ranging from 0-25 and the lexical units at bit positions 150-201 are set to zero for the generalized vector form, and the
Die Leistung des vorgeschlagenen Ansatzes wurde anhand von 70 mathematischen Abfragen bewertet, die im Presentation MathML-Format dargestellt sind. Zu diesen 70 Abfragen gehören 40 formelbasierte Abfragen, die aus der Datenbank-Formel-Browsing-Aufgabe ausgewählt wurden, und 30 Abfragen, die sowohl Formeln als auch Text enthalten und aus der Datenbank-Hauptaufgabe ausgewählt wurden. Diese Abfragen wurden vom Organisator der NTCIR-12 MathIR-Aufgabe zur Verfügung gestellt. Der Abfragesatz umfasst einfache und komplexe Abfragen, die eine effiziente Evaluierung des vorgeschlagenen Ansatzes ermöglichen. Jede Abfrage hat eine eindeutige ID, die zum Vergleich des Ergebnisses einer Abfrage mit den im Gold-Datensatz gespeicherten Ergebnissen verwendet wird.The performance of the proposed approach was evaluated using 70 mathematical queries presented in Presentation MathML format. These 70 queries include 40 formula-based queries selected from the database formula browsing task and 30 queries containing both formulas and text selected from the main database task. These queries were provided by the organizer of the NTCIR-12 MathIR task. The query set includes simple and complex queries that allow efficient evaluation of the proposed approach. Each query has a unique ID that is used to compare the result of a query against the results stored in the gold record.
Um die Leistung des vorgeschlagenen Ansatzes in einer realistischen Weise zu validieren, hat der Organisator des NTCIR-12 MathIR Task den Gold-Datensatz zur Verfügung gestellt, der streng dem qrel-Format der Text REtrieval Conference (TREC) folgt. Das erste Feld ist ‚QueryID‘, das zur Identifizierung einer bestimmten Abfrage eines Querysets verwendet wird. Das zweite Feld, „Iteration“, ist auf 0 gesetzt und wird von der TREC ignoriert. Das dritte Feld ist „Document#“, das den Namen/Titel des Dokuments angibt, und das vierte Attribut ist „Relevance“, das die Meinung eines Menschen über die gesuchte Information angibt, die als binäre Kategorie von relevant (1) oder nicht relevant (0) ausgedrückt wird.In order to validate the performance of the proposed approach in a realistic manner, the organizer of the NTCIR-12 MathIR Task provided the Gold dataset, which strictly follows the Text REtrieval Conference (TREC) qrel format. The first field is 'QueryID' which is used to identify a specific query of a query set. The second field, Iteration, is set to 0 and is ignored by the TREC. The third field is "Document#" which indicates the name/title of the document and the fourth attribute is "Relevance" which indicates a human's opinion of the information sought, classified as a binary category of relevant (1) or not relevant (0) is expressed.
Die mit dem vorgeschlagenen Ansatz erzielten Suchergebnisse entsprechen dem TREC-Format. Die Ergebnismenge umfasst sechs Attribute, von denen drei (QuerylD, Document und Relevance Score) bewertet wurden, während die übrigen drei (Iteration, Rank und RunID) ignoriert wurden. Der vorgeschlagene MIR-Ansatz findet erfolgreich 800 wissenschaftliche Dokumente für die 40 mathematischen Abfragen. Für jede Abfrage hat der vorgeschlagene Ansatz die 20 besten wissenschaftlichen Dokumente gefunden, von denen jedes mindestens eine mathematische Formel als Antwort auf die abgefragte Formel enthält.The search results obtained with the proposed approach correspond to the TREC format. The result set includes six attributes, three of which (QuerylD, Document, and Relevance Score) were scored while the remaining three (Iteration, Rank, and RunID) were ignored. The proposed MIR approach successfully finds 800 scientific documents for the 40 mathematical queries. For each query, the proposed approach found the top 20 scientific documents, each of which contains at least one mathematical formula as the answer to the queried formula.
Die Systemarchitektur ist in
Die mathematischen Artikel des Datenbankkorpus enthalten sowohl textliche als auch mathematische Inhalte. Die mathematischen Formeln in den Artikeln sind in drei verschiedenen Formen geschrieben: Presentation MathML, Content MathML und LATE X. Das Dokumenten-Präprozessormodul der vorgeschlagenen Architektur extrahiert die mathematischen Notationen, die mit „<math>“ & „</math>“ gekennzeichnet sind, und den sie umgebenden Text, insbesondere die mit „<title>“ & „</title>“ gekennzeichneten Titel, die Überschriften „<h@>“ & „</h@>“, wobei @ für 1, 2, 3,...n steht, und den Kontext jeder Formel. Der Kontext der Formel ist ein kleines Fenster, in dem die 10 umgebenden eindeutigen Wörter jeder Formel erfasst werden. In diesem Ausschnitt extrahiert das Dokument-Präprozessormodul die mathematische Gleichung mit dem Titel, der Überschrift und den 10 umgebenden Vokabularen.The mathematical articles in the database corpus contain both textual and mathematical content. The mathematical formulas in the articles are written in three different forms: Presentation MathML, Content MathML, and LATE X. The document preprocessor module of the proposed architecture extracts the mathematical notations marked with "<math>"&"</math>". , and the text surrounding them, specifically the titles marked "<title>"&"</title>", the headings "<h@>"&"</h@>", where @ stands for 1, 2, 3 ,...n and the context of each formula. the context of the formula is a small window that captures the 10 surrounding unique words of each formula. In this snippet, the document preprocessor engine extracts the math equation with the title, the caption, and the 10 surrounding vocabularies.
Für die Suche nach einer semantisch ähnlichen Formel wurde in der vorgeschlagenen Systemarchitektur das Modul zur Formelgeneralisierung eingesetzt. Das Formelverallgemeinerungsmodul extrahiert alle in der Formel vorhandenen Entitäten und wandelt sie in einen verallgemeinerten Vektor der Größe 202 um, wobei 1 für das Vorhandensein und 0 für das Fehlen einer bestimmten Entität in einer Formel steht. Für die verallgemeinerte Vektorform werden die Bitpositionen 0-25 und die lexikalischen Entitäten, die an den Bitpositionen 150-201 vorhanden sind, auf „0“ gesetzt. Die Hauptaufgabe des Formelgeneralisierungsansatzes besteht darin, die semantisch ähnlichen Formeln in einer einheitlichen Form darzustellen. Zum Beispiel werden a2 + b2 und x2 + y2 jeweils als 02 + 02 dargestellt. Der Prozess der Formelverallgemeinerung ist in
Der Ansatz zur Messung der Formelrelevanz berücksichtigt die Ähnlichkeits- und Unähnlichkeitsfaktoren indizierter Formeln in Bezug auf die Benutzerabfrage. Der Ähnlichkeitsfaktor der indizierten Formel zeigt an, wie sehr die indizierte Formel der Benutzerabfrage ähnlich ist, während der Unähnlichkeitsfaktor der indizierten Formel anzeigt, wie sehr die indizierte Formel von der Benutzerabfrage abweicht. Sowohl die Ähnlichkeit als auch die Unähnlichkeit tragen in gleichem Maße dazu bei, die exakt passende Formel, die Unterformel und die übergeordnete Formel zu finden. Der Prozess der Abfragetransformation, wie in Abschnitt 3.5.6 und 3.5.7 beschrieben, bei dem die Benutzerabfrage durch das Modul zur Einbettung und Verallgemeinerung von Abfragen in einen Vektor aus 0 und 1 umgewandelt wird. Für die Bewertung der Formelrelevanz sucht der Abfragevektor alle im Index vorhandenen Formelvektoren ab. Für jeden im Index vorhandenen Formelvektor werden Ähnlichkeit und Unähnlichkeit gemäß Gleichung 1 berechnet. Die vorgeschlagene Technik zur Messung der Relevanz von Formeln fungiert als Ausgleichsfaktor im Ranking-Mechanismus des mathematischen Information Retrieval. Für die Bewertung der Kontextrelevanz vergleicht der vorgeschlagene Ansatz jedes Eingabeschlüsselwort mit jedem indizierten Kontext und berechnet die Anzahl der ähnlichen Token zwischen der Anfrage und dem indizierten Kontext. Der endgültige Relevanzwert kombiniert die Formel und den Kontextrelevanzwert zu einer einzigen Metrik, wie in Gleichung 2 definiert.
Dabei steht f für die Formel in einem Dokument und q für eine Benutzerabfrage. Ähnlichkeit (f, q) und Unähnlichkeit (f, q) berechnen die Anzahl der ähnlichen bzw. unähnlichen Bits in einer Formel in Bezug auf eine Benutzerabfrage.
Dabei berechnet die Formelrelevanzbewertung (f, q) die Relevanz zwischen dem Formelvektor und dem Abfragevektor. Context relevance score(f, q) berechnet die Ähnlichkeit zwischen dem indizierten Kontext der Formel und den Schlüsselwörtern, die in der Benutzeranfrage enthalten sind.The formula relevance score (f, q) calculates the relevance between the formula vector and the query vector. Context relevance score(f, q) calculates the similarity between the indexed context of the formula and the keywords contained in the user query.
Nachfolgend sind die wichtigsten Eckpunkte der Berechnung der Relevanzbewertung zwischen den Dokumenten und der Benutzeranfrage aufgeführt:
- • Bei der Berechnung der Formelähnlichkeit haben die Entitäten an den Bitpositionen 0-25 und 150-201
der Tabelle 1 eine geringere Priorität als andere Entitäten an den Bitpositionen 26-149. - • Die Anzahl der ähnlichen und unähnlichen Bits in einer Formel f ist in Bezug auf die Benutzeranfrage q gleich. Daher gewährleistet der vorgeschlagene Ansatz zur Relevanzmessung die symmetrische Eigenschaft der Gleichheit. Diese Eigenschaft beweist, dass die Unähnlichkeit zwischen der Formel und der Abfrage im Vergleich zur Ähnlichkeit die gleiche Bedeutung hat.
- • Für die normalisierte Relevanzbewertung wird die Unähnlichkeitsbewertung zwischen der Formel und der Abfrage von der Ähnlichkeitsbewertung abgezogen. Die normalisierte Relevanzbewertung wird als Relevanzbewertung für ein bestimmtes Dokument in Bezug auf die Benutzeranfrage betrachtet.
- • Der Bereich der Relevanzbewertung ist nicht definiert; es kann sich um einen positiven oder negativen Wert handeln. Nach erfolgreicher Berechnung der Relevanzbewertung kombiniert das Rangfolgemodul die abgerufenen Dokumente aus beiden Ansätzen, d.h. aus dem Formel-Einbettungsansatz und dem Formel-Verallgemeinerungsansatz. Das Hauptziel des Ranker-Moduls ist es, die Dokumente auf der Grundlage des jeweiligen Suchansatzes zu ordnen. Die Dokumente, die mit beiden Ansätzen (Formel-Einbettung und Formel-Verallgemeinerung) abgerufen werden, haben eine höhere Priorität als ein einzelnes Dokument. Die Prioritäten gehen dann an die Dokumente, die mit dem Formel-Einbettungs-Ansatz gefunden wurden. Die Dokumente, die mit dem Formelverallgemeinerungsansatz gefunden werden, haben eine geringere Priorität als der kombinierte Ansatz und der Formel-Einbettungsansatz. Als endgültiges Suchergebnis gibt das Ranglistenmodul die 25 besten Dokumente zurück, die in Bezug auf die vom Benutzer eingegebene Suchanfrage gefunden wurden.
- • When calculating formula similarity, the entities at bit positions 0-25 and 150-201 of Table 1 have lower priority than other entities at bit positions 26-149.
- • The number of similar and dissimilar bits in a formula f is the same with respect to the user query q. Therefore, the proposed approach to relevance measurement ensures the symmetrical property of equality. This property proves that the dissimilarity between the formula and the query has the same meaning compared to the similarity.
- • For the normalized relevance score, the dissimilarity score between the formula and the query is subtracted from the similarity score. The normalized relevance score is considered a relevance score for a particular document in relation to the user query.
- • The scope of the relevance assessment is not defined; it can be a positive or negative value. After successfully calculating the relevance score, the ranking engine combines the retrieved documents from both approaches, ie from the formula embedding approach and the formula generalization approach. The main goal of the Ranker module is to rank the documents based on the specific search approach. The documents retrieved using both approaches (formula embedding and formula generalization) have a higher priority than a single document. Priorities then go to the documents found using the formula embedding approach. The documents found with the formula generalization approach have a lower priority than the combined approach and the formula embedding approach. As a final search result, the ranking module returns the top 25 documents found in relation to the search query entered by the user.
Die folgenden Punkte sind für den Prozess der Vektorgenerierung und die Bit Position Information Table (BPIT) von Bedeutung:
- i. Die Bitpositionen 0-25, 57-65 und 71-100 sind mit dem Inhalt des <mi>-Tags verknüpft, die Bitpositionen 26-45, 66-70 und 101-149 mit dem Inhalt des <mo>-Tags und die Bitpositionen 46-56 mit dem MathML-Tag. Diese Bitpositionen tragen zur semantischen Formel bei. Die Bitpositionen 150-175 und 176-201 wiederum stehen für die lexikalischen Einheiten in hoch- und tiefgestellter Form.
- ii. Es gibt keinen Unterschied zwischen den Entitäten, die eine semantische Ähnlichkeit aufweisen, wie z. B. „log“ und „In“, die derselben Bitposition zugeordnet sind. Ebenso werden „exp“ und „e“ der gleichen Bitposition zugeordnet. Variablen sind unabhängig von der Groß-/Kleinschreibung, d. h. es gibt keinen Unterschied zwischen den Groß-/Kleinschreibungsvariablen, und werden der gleichen Bitposition zugewiesen. So werden z. B. ‚A‘ und ‚a‘ derselben Bitposition zugewiesen.
- iii. Wenn die Entität mehr als einmal auftritt, wird nur ein Auftreten dieser Entität für die Vektorgenerierung berücksichtigt.
- iv. Die trigonometrischen Funktionen werden der gleichen Bitposition zugewiesen, um ein verallgemeinertes Ergebnis zu erhalten.
- v.
Bitposition 65 ist als Mehrzweckvariable gekennzeichnet, deren Rolle nicht vordefiniert ist, wie z.B. log, lim, usw.
- i. Bit positions 0-25, 57-65 and 71-100 are linked to the content of the <mi> tag, bit positions 26-45, 66-70 and 101-149 are linked to the content of the <mo> tag and the bit positions 46-56 with the MathML tag. These bit positions contribute to the semantic formula. Bit positions 150-175 and 176-201 in turn represent the lexical units in superscript and subscript form.
- ii. There is no difference between the entities that share a semantic similarity, such as B. "log" and "In" mapped to the same bit position. Likewise, "exp" and "e" are mapped to the same bit position. Variables are case-insensitive, ie there is no difference between upper and lower case variables, and are assigned the same bit position. So e.g. For example, 'A' and 'a' are assigned to the same bit position.
- iii. If the entity occurs more than once, only one occurrence of that entity is considered for vector generation.
- IV. The trigonometric functions are assigned the same bit position to get a generalized result.
- v.
Bit position 65 is marked as a general purpose variable whose role is not predefined, such as log, lim, etc.
Queryset BeschreibungQuery set description
Zur Bewertung der Leistung des vorgeschlagenen Ansatzes wurden 70 mathematische Abfragen verwendet, die im Presentation MathML-Format dargestellt sind. Der Abfragesatz besteht sowohl aus einfachen als auch aus komplexen Abfragen, was zu einer effizienten Bewertung der Leistung des vorgeschlagenen Ansatzes führt. Von den oben genannten 70 Abfragen wurden 30 Abfragen aus der Wikipedia-Hauptaufgabe und 40 aus der Wikipedia-Formel-Browsing-Aufgabe des NTCIR-12 gewonnen. Jede Abfrage hat eine eindeutige ID, die es ermöglicht, das Ergebnis einer Abfrage mit den bewerteten Ergebnissen im Gold-Datensatz zu vergleichen.To evaluate the performance of the proposed approach, 70 mathematical queries presented in Presentation MathML format were used. The query set consists of both simple and complex queries, resulting in an efficient assessment of the performance of the proposed approach. Of the above 70 queries, 30 queries were obtained from the main Wikipedia task and 40 from the NTCIR-12 Wikipedia formula browsing task. Each query has a unique ID that allows the result of a query to be compared to the scored results in the gold dataset.
Gold-Datensatz BeschreibungGold record description
Um die Wirksamkeit des vorgeschlagenen Ansatzes auf standardisierte Weise zu messen, wird der Gold-Datensatz verwendet. Die Struktur des Gold-Datensatzes folgt strikt dem qrel-Format der Text REtrieval Conference (TREC), das aus vier Attributen besteht. Das erste Attribut ist „QueryID“, das die ID einer bestimmten Abfrage in einem Queryset definiert. Das zweite Attribut ist „Iteration“, das auf 0 gesetzt ist und von der TREC beiseite geschoben wird. Das dritte Attribut ist „Document#“, das den Namen/Titel des Dokuments definiert, und das vierte Attribut ist „Relevance“, das die Beurteilung durch einen Menschen in Bezug auf den Informationsbedarf des Benutzers definiert, und die Beurteilung wird als binäre Klassifizierung entweder als relevant (1) oder nicht relevant (0) angegeben.The Gold dataset is used to measure the effectiveness of the proposed approach in a standardized way. The structure of the Gold dataset strictly follows the Text REtrieval Conference (TREC) qrel format, which consists of four attributes. The first attribute is QueryID, which defines the ID of a specific query in a query set. The second attribute is Iteration, which is set to 0 and is pushed aside by the TREC. The third attribute is "Document#" which defines the name/title of the document and the fourth attribute is "Relevance" which defines a human's assessment in relation to the user's information needs and the assessment is defined as a binary classification of either indicated as relevant (1) or not relevant (0).
Struktur der ErgebnismengeStructure of the result set
Mit dem vorgeschlagenen Ansatz wurden 1400 Dokumente für 70 MathML-Abfragen aus dem Queryset abgerufen. Der Ergebnissatz enthält 6 Attribute, von denen drei (QueryID, Document und Relevance Score) durch ein Bewertungstool untersucht wurden, während die übrigen drei (Iteration, Rank und RunID) beiseite gelassen wurden.With the proposed approach, 1400 documents for 70 MathML queries were retrieved from the queryset. The result set contains 6 attributes, three of which (QueryID, Document, and Relevance Score) were examined by a scoring tool, while the remaining three (Iteration, Rank, and RunID) were left aside.
Bewertung Parameterrating parameters
Die Leistung des Information Retrieval Systems wird anhand der Anzahl der vom System abgerufenen Dokumente gemessen. Für jede Benutzeranfrage erstellt das Retrievalsystem eine Liste von Dokumenten, und dann wird der Durchschnitt genommen, um die Gesamtleistung des Retrievalsystems zu messen. Dieser Rahmen zur Leistungsmessung umfasst die Parameter, die die Effektivität des Retrievalsystems bewerten. In dieser Arbeit wird zur Messung der Leistung des vorgeschlagenen Ansatzes der Parameter P K verwendet, der die Anzahl der relevanten 401 Dokumente aus den Top-K abgerufenen Dokumenten berechnet, wobei K=5, 10, 15 und 20. Alle diese Maße werden zunächst für jede Abfrage berechnet, und die Ergebnisse werden dann über alle Abfragen mit gleichen Beiträgen gemittelt.Information retrieval system performance is measured by the number of documents retrieved from the system. For each user query, the retrieval system creates a list of documents, and then the average is taken to measure the overall performance of the retrieval system. This performance measurement framework includes the parameters that assess the effectiveness of the retrieval system. In this work, to measure the performance of the proposed approach, the parameter P K is used, which calculates the number of relevant 401 documents from the top K retrieved documents, where K=5, 10, 15, and 20. All these measures are first calculated for each Query is calculated, and the results are then averaged across all queries with equal posts.
Vergleichende AnalyseComparative Analysis
Die Module zur Einbettung und Verallgemeinerung von Formeln des vorgeschlagenen Ansatzes finden effektiv die syntaktisch und semantisch ähnlichen Formeln, Unterformeln und übergeordneten Formeln. Die Leistungsergebnisse des vorgeschlagenen Ansatzes sind in den Tabellen 2 und 3 dargestellt. Es zeigt sich, dass der Ansatz, den Kontext der Formel und den Unähnlichkeitsfaktor bei der Messung der Relevanzbewertung zu berücksichtigen, zu relevanteren Ergebnissen führt. Die erzielten Ergebnisse für 40 Wikipedia-Formel-Browsing-Aufgaben werden mit dem Stand der Technik verglichen, d.h. mit einer textbasierten Suchmaschine, die mit der Apache Nutch4-Plattform implementiert wurde, mit MIaS, dem Formel-Einbettungsansatz, den offiziellen Treceval-Ergebnissen des MCAT-Mathe-Retrieval-Systems und dem Tangent-3-System des RITUW. Die grafische und tabellarische Darstellung der Ergebnisse ist in Tabelle 2 dargestellt. Ebenso werden die erzielten Ergebnisse für 30 Datenbank-Hauptaufgabenabfragen mit den offiziellen Aufgabenergebnissen der NTCIR-12-Teilnehmer verglichen, d.h. Team FSE, WikiMir-System von ICST, Team MCAT, MIaS-System von Team MIRMU, Tangent-3-System von Team RITUW und Team SMSG5. Die graphische und tabellarische Darstellung der Ergebnisse ist in Tabelle 3 dargestellt. Der bemerkenswerte Unterschied in den Maßen dieser bestehenden State-of-the-Art-MIR-Ansätze hat gezeigt, dass der kombinierte Ansatz von Formel-Einbettung und Generalisierung zu relevanteren Suchergebnissen führt. Aus dem Vergleich der genannten Ansätze lässt sich ableiten, dass der Unähnlichkeitsfaktor bei der Messung der Relevanzbewertung einen signifikanten Zusatzwert darstellt. Interessanterweise zeigt das Ergebnis des vorgeschlagenen Ansatzes, dass die exakte Übereinstimmung im Vergleich zu übergeordneten Formeln und Unterformeln in der Rangfolge der abgerufenen Dokumente den ersten Platz einnimmt. Der Ansatz, den Formelkontext und den Unähnlichkeitsfaktor bei der Berechnung der Relevanzbewertung zu berücksichtigen, führt zu qualitativ und qualitativ effektiven Suchergebnissen.The formula embedding and generalization modules of the proposed approach effectively find the syntactically and semantically similar formulas, subformulas, and parent formulas. The performance results of the proposed approach are presented in Tables 2 and 3. It turns out that the approach of considering the context of the formula and the dissimilarity factor when measuring the relevance score leads to more relevant results. The results obtained for 40 Wikipedia Formula browsing tasks are compared to the state of the art, i.e. a text-based search engine implemented using the Apache Nutch4 platform, using MIaS, the formula embedding approach, the official treceval results of the MCAT math retrieval system and the
Die folgenden Unterschiede zwischen dem vorgeschlagenen Ansatz und den bestehenden MIR-Systemen sowie die Grenzen der bestehenden MIR-Systeme sind ebenfalls erwähnenswert:
- Erstens integriert der vorgeschlagene Ansatz Ergebnisse aus verschiedenen Modulen, die für die Bewältigung unterschiedlicher Herausforderungen konzipiert sind. Den Suchergebnissen, die Text und Mathematik enthalten, die sehr erwünscht sind, wird die höchste Präferenz zugewiesen. Diese Beispielergebnisse zeigen, dass es erfolgreich Suchergebnisse findet, die ähnliche Formeln, Unterformeln, übergeordnete Formeln und solche, die sowohl Text als auch Formeln enthalten. Zweitens verwendet das leistungsstärkste ICST Math Retrieval System des NTCIR die Technik der semantischen Anreicherung, um strukturelle und semantische Informationen aus dem Layout der Formeln zu extrahieren. Das ICST-System verwendet jedoch nur wenige der Dateien für Experimente. Außerdem kann es die Korrelation zwischen Textabfragen und indizierten mathematischen Inhalten nicht verarbeiten. Drittens verwendet das MCAT-Mathe-Retrieval-System die Dependency-Graph-Methode, um die Textinformationen anzureichern und die Suche durchzuführen. Das Scheitern der Dependency-Graph-Methode von MCAT ist jedoch der Tatsache geschuldet, dass die Mehrzahl der in der Abfrage enthaltenen Textschlüsselwörter Stopp-Wörtern ähneln und ihre Anreicherung daher nicht von Vorteil ist.
Nur 5von 30 Abfragen enthalten Schlüsselwörter, die ungewöhnlich und spezifisch für die Formel sind. Viertens berücksichtigt das TANGENT-System auch nicht die Beziehungen zwischen Text und Mathematik und verwendet keine Textmerkmale oder Kontexte, die mit der Formel verbunden sind. Fünftens berücksichtigt der auf der Borda-Anzahl basierende Ranking-Mechanismus, der vom SMSGS-System verwendet wird, verschiedene Wissensdatenbanken, weist aber den Ergebnissen aus diesen Wissensdatenbanken die gleiche Gewichtung zu, was für die Mehrheit der Abfragen nicht gut funktioniert.
- First, the proposed approach integrates results from different modules designed to address different challenges. The search results that contain text and math, which are highly desirable, are assigned the highest preference. These sample results show that it successfully finds search results that contain similar formulas, subformulas, parent formulas, and those that contain both text and formulas. Second, NTCIR's most powerful ICST Math Retrieval System uses the technique of semantic enrichment to extract structural and semantic information from the layout of the formulas. However, the ICST system uses few of the files for experiments. Also, it cannot handle the correlation between text queries and indexed math content. Third, the MCAT math retrieval system uses the dependency graph method to enrich the text information and perform the search. However, the failure of MCAT's Dependency Graph method is due to the fact that the majority of the text keywords included in the query resemble stop words and their enrichment is therefore not beneficial. Only 5 out of 30 queries contain keywords that are uncommon and specific to the formula. Fourth, the TANGENT system also does not consider the relationships between text and mathematics and does not use textual features or context associated with the formula. Fifth, the Borda count-based ranking mechanism used by the SMSGS system considers different knowledge bases, but assigns the same weight to the results from those knowledge bases, which does not work well for the majority of queries.
Die Figuren und die vorangehende Beschreibung geben Beispiele für Ausführungsformen. Der Fachmann wird verstehen, dass eines oder mehrere der beschriebenen Elemente durchaus zu einem einzigen Funktionselement kombiniert werden können. Alternativ dazu können bestimmte Elemente in mehrere Funktionselemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. So kann beispielsweise die Reihenfolge der hier beschriebenen Prozesse geändert werden und ist nicht auf die hier beschriebene Weise beschränkt. Darüber hinaus müssen die Aktionen eines Flussdiagramms nicht in der gezeigten Reihenfolge ausgeführt werden; auch müssen nicht unbedingt alle Aktionen durchgeführt werden. Auch können die Handlungen, die nicht von anderen Handlungen abhängig sind, parallel zu den anderen Handlungen ausgeführt werden. Der Umfang der Ausführungsformen ist durch diese spezifischen Beispiele keineswegs begrenzt. Zahlreiche Variationen sind möglich, unabhängig davon, ob sie in der Beschreibung explizit aufgeführt sind oder nicht, wie z. B. Unterschiede in der Struktur, den Abmessungen und der Verwendung von Materialien. Der Umfang der Ausführungsformen ist mindestens so groß wie in den folgenden Ansprüchen angegeben.The figures and the preceding description give examples of embodiments. Those skilled in the art will understand that one or more of the elements described may well be combined into a single functional element. Alternatively, certain elements can be broken down into multiple functional elements. Elements from one embodiment may be added to another embodiment. For example, the order of the processes described herein may be changed and is not limited to the manner described herein. Additionally, the actions of a flowchart need not be performed in the order shown; Also, not all actions have to be carried out. Also, the actions that are not dependent on other actions can be performed in parallel with the other actions. The scope of the embodiments is in no way limited by these specific examples. Numerous variations are possible, regardless of whether they are explicitly mentioned in the description or not, e.g. B. Differences in structure, dimensions and use of materials. The scope of the embodiments is at least as broad as indicated in the following claims.
Vorteile, andere Vorzüge und Problemlösungen wurden oben im Hinblick auf bestimmte Ausführungsformen beschrieben. Die Vorteile, Vorzüge, Problemlösungen und Komponenten, die dazu führen können, dass ein Vorteil, ein Nutzen oder eine Lösung auftritt oder ausgeprägter wird, sind jedoch nicht als kritisches, erforderliches oder wesentliches Merkmal oder Komponente eines oder aller Ansprüche zu verstehen.Advantages, other benefits, and solutions to problems have been described above with respect to particular embodiments. However, the benefits, advantages, problem solutions, and components that can cause an advantage, benefit, or solution to occur or become more pronounced are not to be construed as a critical, required, or essential feature or component of any or all claims.
BezugszeichenlisteReference List
- 100100
- Ein System zur Darstellung von Formeln und zur Erstellung von Ranglisten für die mathematische Informationsbeschaffung.A formula display and ranking system for mathematical information retrieval.
- 102102
- Eingabeeinheitinput unit
- 104104
- Vorverarbeitungseinheit für DokumentePreprocessing unit for documents
- 106106
- Formel-Einbettungs-ProzessorFormula embedding processor
- 108108
- Einheit zur Einbettung von FormelnUnit for embedding formulas
- 110110
- Indexer für eingebettete FormelnIndexer for embedded formulas
- 112112
- Formelverallgemeinerungs-ProzessorFormula Generalization Processor
- 114114
- Einheit für FormelverallgemeinerungUnit for formula generalization
- 116116
- Indexer für verallgemeinerte FormelnIndexer for generalized formulas
- 118118
- Einheit für die Einbettung von AbfragenUnit for embedding queries
- 120120
- Einheit zur Verallgemeinerung von AbfragenUnit for query generalization
- 122122
- Sucher und RangordnungseinheitSeeker and ranking unit
- 202202
- Wissenschaftliche DokumenteScientific Documents
- 204204
- Dokumenten-PräprozessorDocument Preprocessor
- 206206
- Modul zur Einbettung von FormelnModule for embedding formulas
- 208208
- Formel-Indexer zum EinbettenFormula indexer to embed
- 210210
- Formel-Index einbettenEmbed formula index
- 212212
- Modul zur FormelverallgemeinerungFormula generalization module
- 214214
- Verallgemeinerungs-Formel-IndexerGeneralization Formula Indexer
- 216216
- Verallgemeinerungsformel-IndexGeneralization Formula Index
- 218218
- Formel-Einbettungs-AnsatzFormula embedding approach
- 220220
- Formelverallgemeinerungs-AnsatzFormula Generalization Approach
- 222222
- ErgebnisseResults
- 224224
- Abfragequery
- 226226
- Suchergebnissesearch results
- 228228
- Ranglisteranking
- 230230
- RelevanzbewertungRelevance Rating
- 232232
- Ähnlichkeitsimilarity
- 234234
- Unähnlichkeitdissimilarity
- 236236
- Sucher- und RanglistenmodulSeeker and ranking module
- 238238
- Modul zur Einbettung von SuchanfragenModule for embedding search queries
- 240240
- Modul zur Verallgemeinerung von SuchanfragenModule for generalizing search queries
- 242242
- Benutzerabfrageuser query
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE202022106616.7U DE202022106616U1 (en) | 2022-11-25 | 2022-11-25 | A system for representing and classifying formulas for searching mathematical information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE202022106616.7U DE202022106616U1 (en) | 2022-11-25 | 2022-11-25 | A system for representing and classifying formulas for searching mathematical information |
Publications (1)
Publication Number | Publication Date |
---|---|
DE202022106616U1 true DE202022106616U1 (en) | 2023-04-12 |
Family
ID=86144057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE202022106616.7U Active DE202022106616U1 (en) | 2022-11-25 | 2022-11-25 | A system for representing and classifying formulas for searching mathematical information |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE202022106616U1 (en) |
-
2022
- 2022-11-25 DE DE202022106616.7U patent/DE202022106616U1/en active Active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69811066T2 (en) | DATA SUMMARY DEVICE. | |
DE69900854T2 (en) | A SEARCH SYSTEM AND METHOD FOR RETURNING DATA AND USE IN A SEARCHER | |
DE19952769B4 (en) | Search engine and method for retrieving information using natural language queries | |
DE3650417T2 (en) | Information recording and retrieval system. | |
DE112020002600T5 (en) | DISCOVERING A SEMANTIC MEANING OF DATA FIELDS USING PROFILE DATA OF THE DATA FIELDS | |
DE69727421T2 (en) | Hypertext document retrieval system for retrieving related hypertext documents | |
DE112018000334T5 (en) | System and method for domain independent aspect level mood recognition | |
DE102013205737A1 (en) | Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed | |
DE10231161A1 (en) | Domain-specific knowledge-based meta search system and method for using the same | |
DE102012221251A1 (en) | Semantic and contextual search of knowledge stores | |
DE112007000053T5 (en) | System and method for intelligent information acquisition and processing | |
DE112013000987T5 (en) | Generating visualizations of a display group of tags representing content instances in search criteria fulfilling objects | |
DE102007037646B4 (en) | Computer storage system and method for indexing, searching and retrieving databases | |
DE102006040208A1 (en) | Patent-related search procedure and system | |
DE112018006345T5 (en) | GET SUPPORTING EVIDENCE FOR COMPLEX ANSWERS | |
DE102019212421A1 (en) | Method and device for identifying similar documents | |
DE112017007530T5 (en) | Entity model CREATION | |
DE102008005083A1 (en) | Retrieve case-based closure information from archive records | |
DE102018007024A1 (en) | DOCUMENT BROKEN BY GRAMMATIC UNITS | |
DE102021209171A1 (en) | SYSTEM FOR CHOOSING A LEARNING MODEL | |
DE102005051617B4 (en) | Automatic, computer-based similarity calculation system for quantifying the similarity of textual expressions | |
DE112021006602T5 (en) | REFINING QUERY GENERATION PATTERNS | |
DE112021001743T5 (en) | VECTOR EMBEDDING MODELS FOR RELATIONAL TABLES WITH NULL OR EQUIVALENT VALUES | |
DE202022106616U1 (en) | A system for representing and classifying formulas for searching mathematical information | |
WO2011044865A1 (en) | Method for determining a similarity of objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R207 | Utility model specification | ||
R082 | Change of representative |
Representative=s name: LIPPERT STACHOW PATENTANWAELTE RECHTSANWAELTE , DE |