DE202022106616U1 - A system for representing and classifying formulas for searching mathematical information - Google Patents

A system for representing and classifying formulas for searching mathematical information Download PDF

Info

Publication number
DE202022106616U1
DE202022106616U1 DE202022106616.7U DE202022106616U DE202022106616U1 DE 202022106616 U1 DE202022106616 U1 DE 202022106616U1 DE 202022106616 U DE202022106616 U DE 202022106616U DE 202022106616 U1 DE202022106616 U1 DE 202022106616U1
Authority
DE
Germany
Prior art keywords
formula
query
generalized
vector
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE202022106616.7U
Other languages
German (de)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE202022106616.7U priority Critical patent/DE202022106616U1/en
Publication of DE202022106616U1 publication Critical patent/DE202022106616U1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/111Mathematical or scientific formatting; Subscripts; Superscripts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Ein System zur Darstellung und Einordnung von Formeln für die Suche nach mathematischen Informationen, wobei das System umfasst:eine Eingabeeinheit zum Empfang wissenschaftlicher Dokumentdaten und einer Benutzerabfrage;eine Dokumentenvorverarbeitungseinheit zum Entfernen von Rauschen und zum Extrahieren von Formeln aus den wissenschaftlichen Dokumentendaten;einen Formeleinbettungsprozessor mit einer Formeleinbettungseinheit zum Erzeugen eines binären Vektors unter Verwendung einer Bitpositionsinformation und einem eingebetteten Formelindexierer zum Erzeugen eines eingebetteten Formelindexes für die erzeugten binären Vektoren;einen Formelverallgemeinerungsprozessor mit einer Formelverallgemeinerungseinheit zum Extrahieren aller in der Formel vorhandenen Entitäten, wodurch diese in einen verallgemeinerten Vektor umgewandelt werden, und einen verallgemeinerten Formelindexierer zum Erzeugen eines verallgemeinerten Formelindexes;eine Abfrageeinbettungseinheit zum Extrahieren eines Satzes von Entitäten aus der Benutzerabfrage und zum Verwenden einer Bitpositionsinformation für die Erzeugung eines Abfragevektors;eine Abfrageverallgemeinerungseinheit zum Umwandeln der Benutzerabfrage in einen verallgemeinerten Abfragevektor; undeine Such- und Rangordnungseinheit zum Empfangen eines verallgemeinerten Abfragevektors mit Schlüsselwörtern, wodurch ein Satz von Ähnlichkeits- und Unähnlichkeitsfaktoren erzeugt wird, die dazu beitragen, die exakte Übereinstimmungsformel, die Unterformel und die übergeordnete Formel abzurufen und jedes eingegebene Schlüsselwort mit jedem indizierten Kontext abzugleichen, wodurch die Anzahl der ähnlichen Token zwischen der Abfrage und dem indizierten Kontext berechnet wird.A system for representing and ranking formulas for searching mathematical information, the system comprising:an input unit for receiving scientific document data and a user query;a document preprocessing unit for removing noise and extracting formulas from the scientific document data;a formula embedding processor having a Formula embedding unit for generating a binary vector using bit position information and an embedded formula indexer for generating an embedded formula index for the generated binary vectors;a formula generalization processor with a formula generalization unit for extracting all entities present in the formula, thereby converting them into a generalized vector, and a generalized formula indexer for generating a generalized formula index;a query embedding unit for extracting a set of entities from the user query and using bit position information for generating a query vector;a query generalization unit for converting the user query into a generalized query vector; anda search and ranking unit for receiving a generalized query vector of keywords, thereby generating a set of similarity and dissimilarity factors that help to retrieve the exact match formula, the subformula and the parent formula and to match each input keyword with each indexed context, whereby calculating the number of similar tokens between the query and the indexed context.

Description

BEREICH DER ERFINDUNGFIELD OF THE INVENTION

Die vorliegende Offenlegung bezieht sich auf ein System zur Darstellung und Einordnung von Formeln für die Suche nach mathematischen Informationen.The present disclosure relates to a system for representing and ranking formulas for searching mathematical information.

HINTERGRUND DER ERFINDUNGBACKGROUND OF THE INVENTION

Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ist ein Bereich der künstlichen Intelligenz (AI), der sich mit der Verarbeitung und Analyse menschlicher Sprachen beschäftigt. Es automatisiert den Prozess der Informationsextraktion, -verwaltung, - übersetzung, -synthetisierung und -generierung. Das Internet gilt als universeller Wissensspeicher, der kostenlosen oder kostengünstigen Zugang zu verschiedenen Informationen bietet. Die Welt der Informationen wächst jedoch, und die schnelle Suche nach benötigten Informationen wird zu einer äußerst komplexen Aufgabe. Der Prozess der Informationssuche ändert sich je nach dem Gegenstand der Suche. Die Suche nach Textinformationen unterscheidet sich in quantitativer und qualitativer Hinsicht von der Suche nach Bildern, Videos und mathematischen Notationen. Im Allgemeinen ist Information Retrieval (IR) eine Anwendung des NLP, die darauf abzielt, dass das generische IR-System die Anfrage des Benutzers als Eingabe nimmt, die Ähnlichkeit schätzt und den Rang der relevanten Suchergebnisse liefert. Die Mehrzahl der im Web verfügbaren Daten sind sequentielle Textdaten, Bilder und Videos. Die Anforderungen der Benutzer können sich jedoch ändern. Manchmal suchen Benutzer nach Bildern/Videos auf der Grundlage einer textbasierten Abfrage, oder sie suchen nach Textinformationen mit Hilfe einer bildbasierten Abfrage oder nach Videos auf der Grundlage einer audiobasierten Abfrage.Natural language processing (NLP) is an area of artificial intelligence (AI) concerned with the processing and analysis of human language. It automates the process of information extraction, management, translation, synthesis and generation. The Internet is considered to be a universal repository of knowledge, providing free or low-cost access to various information. However, the world of information is growing and finding the information you need quickly becomes an extremely complex task. The process of searching for information varies depending on the subject of the search. The search for text information differs quantitatively and qualitatively from the search for images, videos and mathematical notations. In general, Information Retrieval (IR) is an application of NLP that aims to have the generic IR system take the user's query as input, estimate similarity, and provide the rank of relevant search results. The majority of data available on the web is sequential text data, images and video. However, user requirements may change. Sometimes users are looking for images/videos based on a text-based query, or they are looking for text information using an image-based query, or videos based on an audio-based query.

Die Formeln sind oft wichtiger als der Text, um die Idee eines wissenschaftlichen Dokuments zu vermitteln. Die digitalen mathematischen Bibliotheken (DMLs) erforderten ein System, das Formeln in wissenschaftlichen Dokumenten erkennt und abruft. Herkömmliche IR-Systeme behandeln die Formeln als Text, sind aber nicht in der Lage, die strukturelle und semantische Bedeutung der Formeln zu erfassen. Um diese Lücke zu schließen, ist das Mathematical Information Retrieval (MIR) System ins Rampenlicht gerückt und hat die Aufmerksamkeit der Forscher auf sich gezogen. Die Hauptaufgabe eines MIR-Systems besteht darin, das wissenschaftliche Dokument/die Formel/die Quelldatei zu finden, das/die die abgefragte Formel oder relevante Informationen in Bezug auf die Benutzeranfrage enthält. In MIR können die Benutzer ihren Informationsbedarf in Form von natürlichsprachigem Text oder mathematischen Formeln oder einer Kombination aus beidem (Text + Formeln) ausdrücken. In MIR ist die Bedeutung des Begriffs „relevant“ eine subjektive Angelegenheit und wird auf zwei Arten definiert: die erste findet die strukturellen Ähnlichkeiten zwischen der Benutzeranfrage und der Berichtsinformation, die zweite die semantischen Ähnlichkeiten zwischen der Benutzeranfrage und der Berichtsinformation. Diese Relevanzkriterien berücksichtigen nicht nur die genaue Übereinstimmung mit der Benutzeranfrage, sondern auch die Informationen, die teilweise mit der Benutzeranfrage übereinstimmen.The formulas are often more important than the text in conveying the idea of a scientific document. The Digital Mathematical Libraries (DMLs) required a system that would recognize and retrieve formulas in scientific documents. Traditional IR systems treat the formulas as text, but are unable to capture the structural and semantic meaning of the formulas. To fill this gap, the Mathematical Information Retrieval (MIR) system has come into the limelight and caught the attention of researchers. The main task of a MIR system is to find the scientific document/formula/source file that contains the queried formula or relevant information related to the user query. In MIR, users can express their information needs in the form of natural language text or mathematical formulas or a combination of both (text + formulas). In MIR, the meaning of the term "relevant" is a subjective matter and is defined in two ways: the first finds the structural similarities between the user query and the report information, the second finds the semantic similarities between the user query and the report information. These relevance criteria consider not only the exact match with the user's query, but also the information that partially matches the user's query.

Die bestehenden Information Retrieval und MIR-System haben einige Herausforderungen, einschließlich der mathematischen Formeln sind rekursiv in der Struktur, während die textuellen Informationen sind linear in der Struktur und die konventionellen Suchmaschinen haben keine Verfügbarkeit von Mathematik-Editor, um die Formel-basierte Abfrage.The existing information retrieval and MIR system have some challenges including the mathematical formulas are recursive in structure while the textual information is linear in structure and the conventional search engines have no availability of math editor to query the formula-based.

In Anbetracht der vorangegangenen Diskussion wird deutlich, dass ein System zur Darstellung von Formeln und zur Erstellung von Ranglisten für das mathematische Information Retrieval erforderlich ist.In view of the preceding discussion, it is clear that a formula representation and ranking system is required for mathematical information retrieval.

ZUSAMMENFASSUNG DER ERFINDUNGSUMMARY OF THE INVENTION

Die vorliegende Offenlegung zielt darauf ab, ein System für die Darstellung und Einstufung von Formeln für die Suche nach mathematischen Informationen bereitzustellen.The present disclosure aims to provide a system for representing and ranking formulas for searching mathematical information.

In einer Ausführungsform wird ein System zur Formeldarstellung und zum Ranking für die mathematische Informationssuche offengelegt. Das System umfasst eine Eingabeeinheit zum Empfang wissenschaftlicher Dokumentdaten und einer Benutzerabfrage. Das System umfasst ferner eine Dokumentenvorverarbeitungseinheit zum Entfernen von Rauschen und zum Extrahieren von Formeln aus den wissenschaftlichen Dokumentdaten. Das System enthält ferner einen Formel-Einbettungsprozessor mit einer Formel-Einbettungseinheit zum Erzeugen eines binären Vektors unter Verwendung einer Bitpositionsinformation und einem eingebetteten Formel-Indexer zum Erzeugen eines eingebetteten Formel-Index für die erzeugten binären Vektoren. Das System umfasst ferner einen Formelverallgemeinerungsprozessor mit einer Formelverallgemeinerungseinheit zum Extrahieren aller in der Formel vorhandenen Entitäten, wodurch diese in einen verallgemeinerten Vektor umgewandelt werden, und einen verallgemeinerten Formelindexierer zum Erzeugen eines verallgemeinerten Formelindexes. Das System enthält ferner eine Abfrageeinbettungseinheit zum Extrahieren eines Satzes von Entitäten aus der Benutzerabfrage und zum Verwenden einer Bitpositionsinformation für die Erzeugung eines Abfragevektors. Das System enthält ferner eine Abfrageverallgemeinerungseinheit zum Umwandeln der Benutzerabfrage in einen verallgemeinerten Abfragevektor. Das System enthält ferner eine Such- und Rangiereinheit zum Empfangen des verallgemeinerten Abfragevektors mit ihren Schlüsselwörtern, wodurch ein Satz von Ähnlichkeits- und Unähnlichkeitsfaktoren erzeugt wird, die dazu beitragen, die exakte Übereinstimmungsformel, die Unterformel und die übergeordnete Formel abzurufen und jedes eingegebene Schlüsselwort mit jedem indizierten Kontext abzugleichen, wodurch die Anzahl der ähnlichen Token zwischen der Abfrage und dem indizierten Kontext berechnet wird.In one embodiment, a formula rendering and ranking system for mathematical information retrieval is disclosed. The system includes an input unit for receiving scientific document data and a user query. The system further includes a document pre-processing unit for removing noise and extracting formulas from the scientific document data. The system further includes a formula embedding processor having a formula embedding unit for generating a binary vector using bit position information and an embedded formula indexer for generating an embedded formula index for the generated binaries ren vectors. The system further includes a formula generalization processor having a formula generalization unit for extracting all entities present in the formula, thereby converting them into a generalized vector, and a generalized formula indexer for generating a generalized formula index. The system also includes a query embedding unit for extracting a set of entities from the user query and using bit position information to generate a query vector. The system also includes a query generalization unit for converting the user query into a generalized query vector. The system also includes a search and shunting unit for receiving the generalized query vector with its keywords, generating a set of similarity and dissimilarity factors that help retrieve the exact match formula, subformula, parent formula, and each entered keyword with each match the indexed context, which calculates the number of similar tokens between the query and the indexed context.

In einer anderen Ausführungsform besteht der verallgemeinerte Formelindex aus vier Attributen, die aus einer Gruppe von Vektoren in verallgemeinerter Form, dem Kontext einer Formel, der Dokument-ID, aus der die Formel extrahiert wurde, und der Formel im Presentation MathML-Format ausgewählt werden.In another embodiment, the generalized formula index consists of four attributes selected from a set of vectors in generalized form, the context of a formula, the document ID from which the formula was extracted, and the formula in Presentation MathML format.

In einer anderen Ausführungsform ist die Benutzerabfrage eine Kombination aus mathematischen Formeln und textlichen Schlüsselwörtern, wobei der Abfragesatz einfache und komplexe Abfragen enthält, die eine effiziente Auswertung ermöglichen, wobei jede Abfrage eine eindeutige ID hat, die verwendet wird, um das erhaltene Ergebnis einer Abfrage mit den bewerteten Ergebnissen zu vergleichen, die im Gold-Datensatz gespeichert sind.In another embodiment, the user query is a combination of mathematical formulas and textual keywords, the query set includes simple and complex queries that allow for efficient evaluation, each query having a unique ID that is used to identify the obtained result of a query with compared to the graded results stored in the gold record.

In einer anderen Ausführungsform zeigt der Ähnlichkeitsfaktor der indizierten Formel an, wie sehr die indizierte Formel der Benutzerabfrage ähnlich ist, während der Unähnlichkeitsfaktor der indizierten Formel anzeigt, wie sehr die indizierte Formel von der Benutzerabfrage abweicht.In another embodiment, the indexed formula similarity factor indicates how much the indexed formula is similar to the user query, while the indexed formula dissimilarity factor indicates how much the indexed formula differs from the user query.

In einer anderen Ausführungsform wird die Benutzerabfrage durch die Abfrageeinbettungseinheit und die Abfrageverallgemeinerungseinheit in einen Vektor aus 0 und 1 umgewandelt.In another embodiment, the user query is converted into a vector of 0s and 1s by the query embedding unit and the query generalization unit.

In einer anderen Ausführungsform ist die Formeleinbettungseinheit so konfiguriert, dass sie die syntaktisch ähnliche Formel abruft, während die Formelverallgemeinerung verwendet wird, um die semantisch ähnliche Formel in Bezug auf die vom Benutzer eingegebene Anfrage abzurufen.In another embodiment, the formula embedder is configured to retrieve the syntactically similar formula while formula generalization is used to retrieve the semantically similar formula in relation to the query entered by the user.

In einer anderen Ausführungsform reichen die Bitpositionen von 0-25 und die lexikalischen Einheiten an den Bitpositionen 150-201 werden für die verallgemeinerte Vektorform auf Null gesetzt, wobei der Formelverallgemeinerungsprozessor so konfiguriert ist, dass er die semantisch ähnliche Formel in einer einheitlichen Form darstellt.In another embodiment, the bit positions ranging from 0-25 and the lexical units at bit positions 150-201 are set to zero for the generalized vector form, and the formula generalization processor is configured to represent the semantically similar formula in a unified form.

In einer anderen Ausführungsform durchsucht der Abfragevektor alle im Index vorhandenen Formelvektoren nach der Formelrelevanzbewertung und der Kontextrelevanzbewertung.In another embodiment, the query vector searches all formula vectors present in the index for the formula relevance score and the context relevance score.

Ein Ziel der vorliegenden Offenbarung ist es, ein System für die Darstellung von Formeln und die Einstufung für die Suche nach mathematischen Informationen bereitzustellen.An object of the present disclosure is to provide a formula representation and ranking system for searching mathematical information.

Ein weiteres Ziel der vorliegenden Offenbarung ist es, syntaktisch und semantisch ähnliche Formeln, Unterformeln und übergeordnete Formeln zu finden.Another goal of the present disclosure is to find syntactically and semantically similar formulas, sub-formulae and super-formulae.

Ein weiteres Ziel der vorliegenden Erfindung ist es, einen schnellen und kostengünstigen Ansatz zur Einbettung und Verallgemeinerung von Formeln unter Verwendung von Bitpositionsinformationen zu liefern, um die Leistung von MIR-Systemen zu verbessern.Another object of the present invention is to provide a fast and inexpensive approach to embedding and generalizing formulas using bit position information to improve the performance of MIR systems.

Zur weiteren Verdeutlichung der Vorteile und Merkmale der vorliegenden Offenbarung wird eine genauere Beschreibung der Erfindung durch Bezugnahme auf bestimmte Ausführungsformen gegeben, die in den beigefügten Figuren dargestellt sind. Es wird davon ausgegangen, dass diese Figuren nur typische Ausführungsformen der Erfindung darstellen und daher nicht als Einschränkung des Umfangs der Erfindung zu betrachten sind. Die Erfindung wird mit zusätzlicher Spezifität und Detail mit den beigefügten Figuren beschrieben und erläutert werden.In order to further clarify the advantages and features of the present disclosure, a more detailed description of the invention is provided by reference to specific embodiments that are illustrated in the accompanying figures. It is understood that these figures represent only typical embodiments of the invention and therefore should not be considered as limiting the scope of the invention. The invention will be described and illustrated with additional specificity and detail with the accompanying figures.

Figurenlistecharacter list

Diese und andere Merkmale, Aspekte und Vorteile der vorliegenden Offenbarung werden besser verstanden, wenn die folgende detaillierte Beschreibung mit Bezug auf die beigefügten Figuren gelesen wird, in denen gleiche Zeichen gleiche Teile in den Figuren darstellen, wobei:

  • 1 ein Blockdiagramm eines Systems zur Darstellung von Formeln und zur Einstufung für die Suche nach mathematischen Informationen gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt;
  • 2 eine Systemarchitektur des vorgeschlagenen Ansatzes in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung zeigt;
  • 3 einen Vektor-Generierungsprozess Einbettung und Verallgemeinerung Modul mit Formel in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung veranschaulicht;
  • 4 die Struktur eines eingebetteten Formelindexes gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt;
  • 5 veranschaulicht, dass Tabelle 1 Bitpositionsinformationen in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung darstellt;
  • 6 veranschaulicht Tabelle 2, die die Werte der Bewertungsparameter für 40 Datenbankformel-Browsing-Aufgabenabfragen gemäß einer Ausführungsform der vorliegenden Offenbarung zeigt; und
  • 7 zeigt Tabelle 3 mit den Werten der Bewertungsparameter für 30 Datenbank-Hauptaufgabenabfragen gemäß einer Ausführungsform der vorliegenden Offenbarung.
These and other features, aspects, and advantages of the present disclosure will be better understood when the following detailed description is read with reference to the accompanying figures, in which like characters represent like parts throughout the figures, wherein:
  • 1 Figure 12 shows a block diagram of a formula representation and ranking system for searching mathematical information according to an embodiment of the present disclosure;
  • 2 shows a system architecture of the proposed approach in accordance with an embodiment of the present disclosure;
  • 3 illustrates a vector generation process embedding and generalization module with formula in accordance with an embodiment of the present disclosure;
  • 4 Figure 12 shows the structure of an embedded formula index according to an embodiment of the present disclosure;
  • 5 Illustrates that Table 1 presents bit position information in accordance with an embodiment of the present disclosure;
  • 6 Table 2 illustrates the values of the evaluation parameters for 40 database formula browsing task queries according to an embodiment of the present disclosure; and
  • 7 Table 3 shows the values of the evaluation parameters for 30 main database task queries according to an embodiment of the present disclosure.

Der Fachmann wird verstehen, dass die Elemente in den Figuren der Einfachheit halber dargestellt sind und nicht unbedingt maßstabsgetreu gezeichnet wurden. Die Flussdiagramme veranschaulichen beispielsweise das Verfahren anhand der wichtigsten Schritte, um das Verständnis der Aspekte der vorliegenden Offenbarung zu verbessern. Darüber hinaus kann es sein, dass eine oder mehrere Komponenten der Vorrichtung in den Figuren durch herkömmliche Symbole dargestellt sind, und dass die Figuren nur die spezifischen Details zeigen, die für das Verständnis der Ausführungsformen der vorliegenden Offenbarung relevant sind, um die Figuren nicht mit Details zu überfrachten, die für Fachleute, die mit der vorliegenden Beschreibung vertraut sind, leicht erkennbar sind.Those skilled in the art will understand that the elements in the figures are presented for simplicity and are not necessarily drawn to scale. For example, the flow charts illustrate the method of key steps to enhance understanding of aspects of the present disclosure. In addition, one or more components of the device may be represented in the figures by conventional symbols, and the figures only show the specific details relevant to understanding the embodiments of the present disclosure, not to encircle the figures with details to overload, which are easily recognizable to those skilled in the art familiar with the present description.

DETAILLIERTE BESCHREIBUNGDETAILED DESCRIPTION

Um das Verständnis der Erfindung zu fördern, wird nun auf die in den Figuren dargestellte Ausführungsform Bezug genommen und diese mit bestimmten Worten beschrieben. Es versteht sich jedoch von selbst, dass damit keine Einschränkung des Umfangs der Erfindung beabsichtigt ist, wobei solche Änderungen und weitere Modifikationen des dargestellten Systems und solche weiteren Anwendungen der darin dargestellten Grundsätze der Erfindung in Betracht gezogen werden, wie sie einem Fachmann auf dem Gebiet der Erfindung normalerweise einfallen würden.For the purposes of promoting an understanding of the invention, reference will now be made to the embodiment illustrated in the figures and specific language will be used to describe the same. It should be understood, however, that no limitation on the scope of the invention is intended, and such alterations and further modifications to the illustrated system and such further applications of the principles of the invention set forth therein are contemplated as would occur to those skilled in the art invention would normally come to mind.

Es versteht sich für den Fachmann von selbst, dass die vorstehende allgemeine Beschreibung und die folgende detaillierte Beschreibung beispielhaft und erläuternd für die Erfindung sind und diese nicht einschränken sollen.It will be understood by those skilled in the art that the foregoing general description and the following detailed description are exemplary and explanatory of the invention and are not intended to be limiting.

Wenn in dieser Beschreibung von „einem Aspekt“, „einem anderen Aspekt“ oder ähnlichem die Rede ist, bedeutet dies, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Eigenschaft, die im Zusammenhang mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform der vorliegenden Offenbarung enthalten ist. Daher können sich die Ausdrücke „in einer Ausführungsform“, „in einer anderen Ausführungsform“ und ähnliche Ausdrücke in dieser Beschreibung alle auf dieselbe Ausführungsform beziehen, müssen es aber nicht.When this specification refers to "an aspect," "another aspect," or the like, it means that a particular feature, structure, or characteristic described in connection with the embodiment is present in at least one embodiment included in the present disclosure. Therefore, the phrases "in one embodiment," "in another embodiment," and similar phrases throughout this specification may or may not all refer to the same embodiment.

Die Ausdrücke „umfasst“, „enthaltend“ oder andere Variationen davon sollen eine nicht ausschließliche Einbeziehung abdecken, so dass ein Verfahren oder eine Methode, die eine Liste von Schritten umfasst, nicht nur diese Schritte einschließt, sondern auch andere Schritte enthalten kann, die nicht ausdrücklich aufgeführt sind oder zu einem solchen Verfahren oder einer solchen Methode gehören. Ebenso schließen eine oder mehrere Vorrichtungen oder Teilsysteme oder Elemente oder Strukturen oder Komponenten, die mit „umfasst...a“ eingeleitet werden, nicht ohne weitere Einschränkungen die Existenz anderer Vorrichtungen oder anderer Teilsysteme oder anderer Elemente oder anderer Strukturen oder anderer Komponenten oder zusätzlicher Vorrichtungen oder zusätzlicher Teilsysteme oder zusätzlicher Elemente oder zusätzlicher Strukturen oder zusätzlicher Komponenten aus.The terms "comprises,""including," or other variations thereof are intended to cover non-exclusive inclusion, such that a method or method that includes a list of steps includes not only those steps, but may also include other steps that are not expressly stated or pertaining to any such process or method. Likewise, any device or subsystem or element or structure or component preceded by "comprises...a" does not, without further limitation, exclude the existence of other devices or other subsystem or other element or other structure or other component or additional devices, or additional subsystems, or additional elements, or additional structures, or additional components.

Sofern nicht anders definiert, haben alle hierin verwendeten technischen und wissenschaftlichen Begriffe die gleiche Bedeutung, wie sie von einem Fachmann auf dem Gebiet, zu dem diese Erfindung gehört, allgemein verstanden wird. Das System, die Methoden und die Beispiele, die hier angegeben werden, dienen nur der Veranschaulichung und sind nicht als Einschränkung gedacht.Unless otherwise defined, all technical and scientific terms used herein have the same meaning as commonly understood by one skilled in the art to which this invention pertains. The system, methods, and examples provided herein are for purposes of illustration only and are not intended to be limiting.

Ausführungsformen der vorliegenden Offenbarung werden im Folgenden unter Bezugnahme auf die beigefügten Figuren im Detail beschrieben.Embodiments of the present disclosure are described in detail below with reference to the attached figures.

1 zeigt ein Blockdiagramm eines Systems zur Darstellung von Formeln und zur Erstellung von Ranglisten für die Suche nach mathematischen Informationen gemäß einer Ausführungsform der vorliegenden Offenbarung. Das System 100 umfasst eine Eingabeeinheit 102 zum Empfang wissenschaftlicher Dokumentdaten und einer Benutzerabfrage. 1 12 shows a block diagram of a system for representing formulas and ranking for searching mathematical information according to an embodiment of the present disclosure. The system 100 includes an input unit 102 for receiving scientific document data and a user query.

In einer Ausführungsform ist eine Dokumentenvorverarbeitungseinheit 104 mit einer Eingabeeinheit 102 verbunden, um Rauschen zu entfernen und Formeln aus den wissenschaftlichen Dokumentendaten zu extrahieren.In one embodiment, a document pre-processing unit 104 is connected to an input unit 102 to remove noise and extract formulas from the scientific document data.

In einer anderen Ausführungsform ist ein Formeleinbettungsprozessor 106 mit einer Dokumentenvorverarbeitungseinheit 104 verbunden und verfügt über eine Formeleinbettungseinheit 108, die zur Erzeugung eines binären Vektors unter Verwendung einer Bitpositionsinformation verwendet wird, und einen eingebetteten Formelindexierer 110, der zur Erstellung eines eingebetteten Formelindex für die erzeugten binären Vektoren verwendet wird.In another embodiment, a formula embedding processor 106 is coupled to a document preprocessing unit 104 and has a formula embedding unit 108 used to generate a binary vector using bit position information and an embedded formula indexer 110 used to generate an embedded formula index for the generated binary vectors is used.

In einer anderen Ausführungsform ist ein Formelverallgemeinerungsprozessor 112 mit einem Formeleinbettungsprozessor 106 verbunden, der eine Formelverallgemeinerungseinheit 114 aufweist, die mit einem Formelverallgemeinerungsprozessor 112 verbunden ist, um alle in der Formel vorhandenen Entitäten zu extrahieren und dadurch in einen verallgemeinerten Vektor umzuwandeln, und ein verallgemeinerter Formelindexierer 116 ist mit einer Formelverallgemeinerungseinheit 114 verbunden, um einen verallgemeinerten Formelindex zu erzeugen.In another embodiment, a formula generalization processor 112 is connected to a formula embedding processor 106, which has a formula generalization unit 114, which is connected to a formula generalization processor 112 to extract all entities present in the formula and thereby convert it into a generalized vector, and a generalized formula indexer 116 is connected to a formula generalization unit 114 to generate a generalized formula index.

In einer anderen Ausführungsform ist eine AbfrageEinbettungseinheit 118 mit einem Formel-Einbettungsprozessor 106 verbunden, um einen Satz von Entitäten aus der Benutzerabfrage zu extrahieren und eine Bitpositionsinformation für die Erzeugung eines Abfragevektors zu verwenden.In another embodiment, a query embedding unit 118 is coupled to a formula embedding processor 106 to extract a set of entities from the user query and use bit position information to generate a query vector.

In einer anderen Ausführungsform ist eine Abfragegeneralisierungseinheit 120 mit einem Formelgeneralisierungsprozessor 112 verbunden, um die Benutzerabfrage in einen generalisierten Abfragevektor umzuwandeln.In another embodiment, a query generalization unit 120 is coupled to a formula generalization processor 112 to convert the user query into a generalized query vector.

In einer anderen Ausführungsform wird eine Such- und Rangordnungseinheit 122 eingesetzt, um einen verallgemeinerten Abfragevektor mit Schlüsselwörtern zu empfangen und dadurch einen Satz von Ähnlichkeits- und Unähnlichkeitsfaktoren zu erzeugen, die dazu beitragen, die exakte Übereinstimmungsformel, die Unterformel und die übergeordnete Formel abzurufen und jedes eingegebene Schlüsselwort mit jedem indizierten Kontext abzugleichen, wodurch die Anzahl der ähnlichen Token zwischen der Abfrage und dem indizierten Kontext berechnet wird.In another embodiment, a search and ranking unit 122 is employed to receive a generalized query vector of keywords, thereby generating a set of similarity and dissimilarity factors that help retrieve the exact match formula, subformula, and parent formula and each match the entered keyword against each indexed context, thereby calculating the number of similar tokens between the query and the indexed context.

In einer anderen Ausführungsform besteht der verallgemeinerte Formelindex aus vier Attributen, die aus einer Gruppe von Vektoren in verallgemeinerter Form, dem Kontext einer Formel, der Dokument-ID, aus der die Formel extrahiert wurde, und der Formel im Presentation MathML-Format ausgewählt werden.In another embodiment, the generalized formula index consists of four attributes selected from a set of vectors in generalized form, the context of a formula, the document ID from which the formula was extracted, and the formula in Presentation MathML format.

In einer anderen Ausführungsform ist die Benutzerabfrage eine Kombination aus mathematischen Formeln und textlichen Schlüsselwörtern, wobei der Abfragesatz einfache und komplexe Abfragen enthält, die eine effiziente Auswertung ermöglichen, wobei jede Abfrage eine eindeutige ID hat, die verwendet wird, um das erhaltene Ergebnis einer Abfrage mit den bewerteten Ergebnissen zu vergleichen, die im Gold-Datensatz gespeichert sind.In another embodiment, the user query is a combination of mathematical formulas and textual keywords, the query set includes simple and complex queries that allow for efficient evaluation, each query having a unique ID that is used to identify the obtained result of a query with compared to the graded results stored in the gold record.

In einer anderen Ausführungsform zeigt der Ähnlichkeitsfaktor der indizierten Formel an, wie sehr die indizierte Formel der Benutzerabfrage ähnlich ist, während der Unähnlichkeitsfaktor der indizierten Formel anzeigt, wie sehr die indizierte Formel von der Benutzerabfrage abweicht.In another embodiment, the indexed formula similarity factor indicates how much the indexed formula is similar to the user query, while the indexed formula dissimilarity factor indicates how much the indexed formula differs from the user query.

In einer anderen Ausführungsform wird die Benutzerabfrage durch die Abfrageeinbettungseinheit 118 und die Abfrageverallgemeinerungseinheit 120 in einen Vektor aus 0 und 1 umgewandelt.In another embodiment, the user query is converted into a vector of 0's and 1's by query embedding unit 118 and query generalization unit 120 .

In einer anderen Ausführungsform ist die Formeleinbettungseinheit 108 so konfiguriert, dass sie die syntaktisch ähnliche Formel abruft, während die Formelgeneralisierung verwendet wird, um die semantisch ähnliche Formel in Bezug auf die vom Benutzer eingegebene Abfrage abzurufen.In another embodiment, the formula embedder 108 is configured to retrieve the syntactically similar formula while using formula generalization to retrieve the semantically similar formula in relation to the query entered by the user.

In einer anderen Ausführungsform reichen die Bitpositionen von 0-25 und die lexikalischen Einheiten an den Bitpositionen 150-201 werden für die verallgemeinerte Vektorform auf Null gesetzt, wobei der Formelverallgemeinerungsprozessor 112 so konfiguriert ist, dass er die semantisch ähnliche Formel in einer einheitlichen Form darstellt.In another embodiment, the bit positions ranging from 0-25 and the lexical units at bit positions 150-201 are set to zero for the generalized vector form, and the formula generalization processor 112 is configured to represent the semantically similar formula in a unified form.

2 zeigt die Systemarchitektur des vorgeschlagenen Ansatzes in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung. Der vorgeschlagene Ansatz wurde mit dem MathTag Articles of database corpus von NTCIR-12 getestet. Es enthielt 31,839 wissenschaftliche Artikel, die 579,608 Formeln in drei verschiedenen Formaten enthielten, nämlich LATEX, Presentation MathML und Content MathML. Die Dokumente von Math Tag Articles enthalten sowohl textuelle als auch mathematische Informationen und jedes der Dokumente enthält mindestens eine Formel. 2 12 shows the system architecture of the proposed approach in accordance with an embodiment of the present disclosure. The proposed approach was tested using NTCIR-12's MathTag Articles of database corpus. It contained 31,839 scientific articles containing 579,608 formulas in three different formats namely LATEX, Presentation MathML and Content MathML. Math Tag Articles documents contain both textual and mathematical information, and each of the documents contains at least one formula.

Die Leistung des vorgeschlagenen Ansatzes wurde anhand von 70 mathematischen Abfragen bewertet, die im Presentation MathML-Format dargestellt sind. Zu diesen 70 Abfragen gehören 40 formelbasierte Abfragen, die aus der Datenbank-Formel-Browsing-Aufgabe ausgewählt wurden, und 30 Abfragen, die sowohl Formeln als auch Text enthalten und aus der Datenbank-Hauptaufgabe ausgewählt wurden. Diese Abfragen wurden vom Organisator der NTCIR-12 MathIR-Aufgabe zur Verfügung gestellt. Der Abfragesatz umfasst einfache und komplexe Abfragen, die eine effiziente Evaluierung des vorgeschlagenen Ansatzes ermöglichen. Jede Abfrage hat eine eindeutige ID, die zum Vergleich des Ergebnisses einer Abfrage mit den im Gold-Datensatz gespeicherten Ergebnissen verwendet wird.The performance of the proposed approach was evaluated using 70 mathematical queries presented in Presentation MathML format. These 70 queries include 40 formula-based queries selected from the database formula browsing task and 30 queries containing both formulas and text selected from the main database task. These queries were provided by the organizer of the NTCIR-12 MathIR task. The query set includes simple and complex queries that allow efficient evaluation of the proposed approach. Each query has a unique ID that is used to compare the result of a query against the results stored in the gold record.

Um die Leistung des vorgeschlagenen Ansatzes in einer realistischen Weise zu validieren, hat der Organisator des NTCIR-12 MathIR Task den Gold-Datensatz zur Verfügung gestellt, der streng dem qrel-Format der Text REtrieval Conference (TREC) folgt. Das erste Feld ist ‚QueryID‘, das zur Identifizierung einer bestimmten Abfrage eines Querysets verwendet wird. Das zweite Feld, „Iteration“, ist auf 0 gesetzt und wird von der TREC ignoriert. Das dritte Feld ist „Document#“, das den Namen/Titel des Dokuments angibt, und das vierte Attribut ist „Relevance“, das die Meinung eines Menschen über die gesuchte Information angibt, die als binäre Kategorie von relevant (1) oder nicht relevant (0) ausgedrückt wird.In order to validate the performance of the proposed approach in a realistic manner, the organizer of the NTCIR-12 MathIR Task provided the Gold dataset, which strictly follows the Text REtrieval Conference (TREC) qrel format. The first field is 'QueryID' which is used to identify a specific query of a query set. The second field, Iteration, is set to 0 and is ignored by the TREC. The third field is "Document#" which indicates the name/title of the document and the fourth attribute is "Relevance" which indicates a human's opinion of the information sought, classified as a binary category of relevant (1) or not relevant (0) is expressed.

Die mit dem vorgeschlagenen Ansatz erzielten Suchergebnisse entsprechen dem TREC-Format. Die Ergebnismenge umfasst sechs Attribute, von denen drei (QuerylD, Document und Relevance Score) bewertet wurden, während die übrigen drei (Iteration, Rank und RunID) ignoriert wurden. Der vorgeschlagene MIR-Ansatz findet erfolgreich 800 wissenschaftliche Dokumente für die 40 mathematischen Abfragen. Für jede Abfrage hat der vorgeschlagene Ansatz die 20 besten wissenschaftlichen Dokumente gefunden, von denen jedes mindestens eine mathematische Formel als Antwort auf die abgefragte Formel enthält.The search results obtained with the proposed approach correspond to the TREC format. The result set includes six attributes, three of which (QuerylD, Document, and Relevance Score) were scored while the remaining three (Iteration, Rank, and RunID) were ignored. The proposed MIR approach successfully finds 800 scientific documents for the 40 mathematical queries. For each query, the proposed approach found the top 20 scientific documents, each of which contains at least one mathematical formula as the answer to the queried formula.

Die Systemarchitektur ist in dargestellt, wobei jedes Modul kooperativ arbeitet, um die relevanten Suchergebnisse zu erhalten. Die Einbettung und Verallgemeinerung von Formeln sind die beiden wichtigsten Module der vorgeschlagenen Systemarchitektur. Die Hauptaufgabe des Moduls zur Einbettung von Formeln besteht darin, die syntaktisch ähnlichen Formeln zu finden, während die Formelverallgemeinerung dazu dient, die semantisch ähnlichen Formeln in Bezug auf die vom Benutzer eingegebene Anfrage zu finden. Die einzelnen Module der Systemarchitektur werden in den folgenden Unterabschnitten beschrieben.The system architecture is in displayed, with each module working cooperatively to obtain the relevant search results. The embedding and generalization of formulas are the two most important modules of the proposed system architecture. The main task of the formula embedding module is to find the syntactically similar formulas, while formula generalization is to find the semantically similar formulas with respect to the query entered by the user. The individual modules of the system architecture are described in the following subsections.

Die mathematischen Artikel des Datenbankkorpus enthalten sowohl textliche als auch mathematische Inhalte. Die mathematischen Formeln in den Artikeln sind in drei verschiedenen Formen geschrieben: Presentation MathML, Content MathML und LATE X. Das Dokumenten-Präprozessormodul der vorgeschlagenen Architektur extrahiert die mathematischen Notationen, die mit „<math>“ & „</math>“ gekennzeichnet sind, und den sie umgebenden Text, insbesondere die mit „<title>“ & „</title>“ gekennzeichneten Titel, die Überschriften „<h@>“ & „</h@>“, wobei @ für 1, 2, 3,...n steht, und den Kontext jeder Formel. Der Kontext der Formel ist ein kleines Fenster, in dem die 10 umgebenden eindeutigen Wörter jeder Formel erfasst werden. In diesem Ausschnitt extrahiert das Dokument-Präprozessormodul die mathematische Gleichung mit dem Titel, der Überschrift und den 10 umgebenden Vokabularen.The mathematical articles in the database corpus contain both textual and mathematical content. The mathematical formulas in the articles are written in three different forms: Presentation MathML, Content MathML, and LATE X. The document preprocessor module of the proposed architecture extracts the mathematical notations marked with "<math>"&"</math>". , and the text surrounding them, specifically the titles marked "<title>"&"</title>", the headings "<h@>"&"</h@>", where @ stands for 1, 2, 3 ,...n and the context of each formula. the context of the formula is a small window that captures the 10 surrounding unique words of each formula. In this snippet, the document preprocessor engine extracts the math equation with the title, the caption, and the 10 surrounding vocabularies.

3 zeigt ein Modul zur Einbettung und Verallgemeinerung eines Vektorerzeugungsprozesses unter Verwendung einer Formel gemäß einer Ausführungsform der vorliegenden Offenbarung. Das Formel-Einbettungsmodul einer Systemarchitektur verwendet die Bitpositionsinformationen der Tabelle 1 für die Erzeugung eines binären Vektors. Dieses Modul wandelt die Formel in einen binären Vektor der Größe 202 um, wobei 1 für das Vorhandensein und 0 für das Fehlen einer bestimmten Einheit in einer Formel steht. Betrachten wir zum Beispiel eine mathematische Formel x2 - 2y + 1, die 2 Variablen, nämlich x und y, 2 Operatoren, nämlich - und +, 1 numerische und 1 hochgestellte Einheit enthält. Der Prozess der Formeleinbettung ist in dargestellt. 3 FIG. 12 shows a module for embedding and generalizing a vector generation process using a formula, according to an embodiment of the present disclosure. The formula embedding module of a system architecture uses the bit position information of Table 1 to generate a binary vector. This module converts the formula into a binary vector of size 202, where 1 represents the presence and 0 represents the absence of a specific unit in a formula. For example, consider a mathematical formula x2 - 2y + 1, which contains 2 variables, namely x and y, 2 operators, namely - and +, 1 numeric unit and 1 superscript. The process of formula embedding is in shown.

Für die Suche nach einer semantisch ähnlichen Formel wurde in der vorgeschlagenen Systemarchitektur das Modul zur Formelgeneralisierung eingesetzt. Das Formelverallgemeinerungsmodul extrahiert alle in der Formel vorhandenen Entitäten und wandelt sie in einen verallgemeinerten Vektor der Größe 202 um, wobei 1 für das Vorhandensein und 0 für das Fehlen einer bestimmten Entität in einer Formel steht. Für die verallgemeinerte Vektorform werden die Bitpositionen 0-25 und die lexikalischen Entitäten, die an den Bitpositionen 150-201 vorhanden sind, auf „0“ gesetzt. Die Hauptaufgabe des Formelgeneralisierungsansatzes besteht darin, die semantisch ähnlichen Formeln in einer einheitlichen Form darzustellen. Zum Beispiel werden a2 + b2 und x2 + y2 jeweils als 02 + 02 dargestellt. Der Prozess der Formelverallgemeinerung ist in dargestellt.To search for a semantically similar formula, the formula generalization module was used in the proposed system architecture. The formula generalization engine extracts all entities present in the formula and converts them into a generalized vector of size 202, where 1 represents the presence and 0 represents the absence of a given entity in a formula. For the generalized vector form, bit positions 0-25 and the lexical entities present at bit positions 150-201 are set to "0". The main task of the formula generalization approach is to represent the semantically similar formulas in a unified form. For example, a2 + b2 and x2 + y2 are represented as 02 + 02, respectively. The process of formula generalization is in shown.

4 zeigt die Struktur eines eingebetteten Formelindexes gemäß einer Ausführungsform der vorliegenden Offenbarung. Das Indexierungsmodul des Formel-Einbettungsansatzes erstellt den Index für die vom Formel-Einbettungsmodul erzeugten Vektoren. Jeder Index entspricht den vier Feldern: Vektordarstellung der Formel, der Kontext einer Formel, die Dokument-ID, in der die Formel ursprünglich erstellt wurde, und die Formel im Presentation MathML-Format. Der Indexer erstellt den Index für die 579.608 Formeln, die aus den 31.839 Dokumenten extrahiert wurden. Die Gesamtgröße des Indexes beträgt 787,6 MB, was ~37% der Korpusgröße entspricht. Die Struktur des eingebetteten Formelindex ist in dargestellt. Ähnlich wie der Indexer für eingebettete Formeln erzeugt der Indexer für verallgemeinerte Formeln 116 den Index für eine vorverarbeitete verallgemeinerte Formel in einem wissenschaftlichen Dokument. Der Index für verallgemeinerte Formeln enthielt 579.608 verallgemeinerte Vektoren aus 31,839 Dokumenten mit einer Größe von 787.6 MB, was -37 % der Korpusgröße entspricht. Wie der eingebettete Formelindex besteht auch der verallgemeinerte Formelindex aus vier Attributen: Vektor in verallgemeinerter Form, der Kontext einer Formel, die Dokument-ID, aus der die Formel extrahiert wurde, und die Formel im Presentation MathML-Format. Die Benutzerabfrage ist eine Kombination aus mathematischen Formeln und textuellen Schlüsselwörtern. Das Abfrageeinbettungsmodul extrahiert die in der Benutzerabfrage vorhandenen Entitäten und verwendet die Bitpositionsinformationen aus Tabelle 1 für die Generierung eines Abfragevektors, wobei 1 für das Vorhandensein und 0 für das Fehlen einer bestimmten Entität in einer Benutzerabfrage steht. Nach erfolgreicher Generierung des Abfragevektors wird der Abfragevektor mit seinen Schlüsselwörtern in das Such- und Rangordnungsmodul eingespeist. Ähnlich wie das Formelgeneralisierungsmodul wandelt das Abfragegeneralisierungsmodul die Benutzerabfrage in einen verallgemeinerten Abfragevektor um. Anschließend wird der Abfragevektor mit den Schlüsselwörtern an das Sucher- und Ranglistenmodul des vorgeschlagenen Ansatzes gesendet. Das Modul zur Abfragegeneralisierung ersetzt alle Entitäten zwischen den Bitpositionen 0-25 und lexikalische Entitäten an den Bitpositionen 150-201 durch „0“. 4 FIG. 1 shows the structure of an embedded formula index according to an embodiment of the present disclosure. The indexing module of the formula embedding approach creates the index for the vectors generated by the formula embedding module. Each index corresponds to the four fields: vector representation of the formula, the context of a formula, the document ID in which the formula was originally created, and the formula in Presentation MathML format. The indexer creates the index for the 579,608 formulas extracted from the 31,839 documents. The total size of the index is 787.6 MB, which is ~37% of the corpus size. The structure of the embedded formula index is in shown. Similar to the embedded formula indexer, the generalized formula indexer 116 creates the index for a pre-processed generalized formula in a scientific document. The index for generalized formulas contained 579,608 generalized vectors from 31,839 documents with a size of 787.6 MB, which is -37% of the corpus size. Like the embedded formula index, the generalized formula index consists of four attributes: vector in generalized form, the context of a formula, the document ID from which the formula was extracted, and the formula in Presentation MathML format. The user query is a combination of mathematical formulas and textual keywords. The query embedder extracts the entities present in the user query and uses the bit position information from Table 1 to generate a query vector, where 1 represents the presence and 0 represents the absence of a specific entity in a user query. After the query vector has been successfully generated, the query vector with its keywords is fed into the search and ranking module. Similar to the formula generalizer, the query generalizer transforms the user query into a generalized query vector. Then the query vector with the keywords is sent to the searcher and ranking module of the proposed approach. The query generalization engine replaces all entities between bit positions 0-25 and lexical entities in bit positions 150-201 with "0".

Der Ansatz zur Messung der Formelrelevanz berücksichtigt die Ähnlichkeits- und Unähnlichkeitsfaktoren indizierter Formeln in Bezug auf die Benutzerabfrage. Der Ähnlichkeitsfaktor der indizierten Formel zeigt an, wie sehr die indizierte Formel der Benutzerabfrage ähnlich ist, während der Unähnlichkeitsfaktor der indizierten Formel anzeigt, wie sehr die indizierte Formel von der Benutzerabfrage abweicht. Sowohl die Ähnlichkeit als auch die Unähnlichkeit tragen in gleichem Maße dazu bei, die exakt passende Formel, die Unterformel und die übergeordnete Formel zu finden. Der Prozess der Abfragetransformation, wie in Abschnitt 3.5.6 und 3.5.7 beschrieben, bei dem die Benutzerabfrage durch das Modul zur Einbettung und Verallgemeinerung von Abfragen in einen Vektor aus 0 und 1 umgewandelt wird. Für die Bewertung der Formelrelevanz sucht der Abfragevektor alle im Index vorhandenen Formelvektoren ab. Für jeden im Index vorhandenen Formelvektor werden Ähnlichkeit und Unähnlichkeit gemäß Gleichung 1 berechnet. Die vorgeschlagene Technik zur Messung der Relevanz von Formeln fungiert als Ausgleichsfaktor im Ranking-Mechanismus des mathematischen Information Retrieval. Für die Bewertung der Kontextrelevanz vergleicht der vorgeschlagene Ansatz jedes Eingabeschlüsselwort mit jedem indizierten Kontext und berechnet die Anzahl der ähnlichen Token zwischen der Anfrage und dem indizierten Kontext. Der endgültige Relevanzwert kombiniert die Formel und den Kontextrelevanzwert zu einer einzigen Metrik, wie in Gleichung 2 definiert. Formel Relevanzbewertung  ( f , q ) = ( A ¨ hnlichkeit ( f , q ) )   ( Un a ¨ hnlichkeit ( f , q ) )

Figure DE202022106616U1_0001
The formula relevance measurement approach considers the similarity and dissimilarity factors of indexed formulas in relation to the user query. The indexed formula similarity factor indicates how similar the indexed formula is to the user query, while the indexed formula dissimilarity factor indicates how much the indexed formula differs from the user query. Both similarity and dissimilarity contribute equally to finding the exact matching formula, subformula, and parent formula. The process of query transformation, as described in Sections 3.5.6 and 3.5.7, in which the user query is transformed into a vector of 0s and 1s by the query embedding and generalization engine. To evaluate formula relevance, the query vector searches all formula vectors in the index. For each formula vector present in the index, similarity and dissimilarity are calculated according to Equation 1. The proposed technique for measuring the relevance of formulas acts as a balancing factor in the ranking mechanism of mathematical information retrieval. To assess context relevance, the proposed approach compares each input keyword to each indexed context and calculates the Number of similar tokens between the request and the indexed context. The final relevance score combines the formula and context relevance score into a single metric, as defined in Equation 2. Formula relevance rating ( f , q ) = ( A ¨ resemblance ( f , q ) ) ( U.N a ¨ resemblance ( f , q ) )
Figure DE202022106616U1_0001

Dabei steht f für die Formel in einem Dokument und q für eine Benutzerabfrage. Ähnlichkeit (f, q) und Unähnlichkeit (f, q) berechnen die Anzahl der ähnlichen bzw. unähnlichen Bits in einer Formel in Bezug auf eine Benutzerabfrage. Endg u ¨ ltige Relevanzbewertung ( f , q ) = ( Formelrelevanzbewertung ( f ,   q ) ) + ( Kontextrelevanzbewertung ( f , q ) )

Figure DE202022106616U1_0002
where f represents the formula in a document and q represents a user query. Similarity(f,q) and Dissimilarity(f,q) calculate the number of similar and dissimilar bits, respectively, in a formula related to a user query. final and ¨ current relevance rating ( f , q ) = ( formula relevance assessment ( f , q ) ) + ( Context Relevance Score ( f , q ) )
Figure DE202022106616U1_0002

Dabei berechnet die Formelrelevanzbewertung (f, q) die Relevanz zwischen dem Formelvektor und dem Abfragevektor. Context relevance score(f, q) berechnet die Ähnlichkeit zwischen dem indizierten Kontext der Formel und den Schlüsselwörtern, die in der Benutzeranfrage enthalten sind.The formula relevance score (f, q) calculates the relevance between the formula vector and the query vector. Context relevance score(f, q) calculates the similarity between the indexed context of the formula and the keywords contained in the user query.

Nachfolgend sind die wichtigsten Eckpunkte der Berechnung der Relevanzbewertung zwischen den Dokumenten und der Benutzeranfrage aufgeführt:

  • • Bei der Berechnung der Formelähnlichkeit haben die Entitäten an den Bitpositionen 0-25 und 150-201 der Tabelle 1 eine geringere Priorität als andere Entitäten an den Bitpositionen 26-149.
  • • Die Anzahl der ähnlichen und unähnlichen Bits in einer Formel f ist in Bezug auf die Benutzeranfrage q gleich. Daher gewährleistet der vorgeschlagene Ansatz zur Relevanzmessung die symmetrische Eigenschaft der Gleichheit. Diese Eigenschaft beweist, dass die Unähnlichkeit zwischen der Formel und der Abfrage im Vergleich zur Ähnlichkeit die gleiche Bedeutung hat.
  • • Für die normalisierte Relevanzbewertung wird die Unähnlichkeitsbewertung zwischen der Formel und der Abfrage von der Ähnlichkeitsbewertung abgezogen. Die normalisierte Relevanzbewertung wird als Relevanzbewertung für ein bestimmtes Dokument in Bezug auf die Benutzeranfrage betrachtet.
  • • Der Bereich der Relevanzbewertung ist nicht definiert; es kann sich um einen positiven oder negativen Wert handeln. Nach erfolgreicher Berechnung der Relevanzbewertung kombiniert das Rangfolgemodul die abgerufenen Dokumente aus beiden Ansätzen, d.h. aus dem Formel-Einbettungsansatz und dem Formel-Verallgemeinerungsansatz. Das Hauptziel des Ranker-Moduls ist es, die Dokumente auf der Grundlage des jeweiligen Suchansatzes zu ordnen. Die Dokumente, die mit beiden Ansätzen (Formel-Einbettung und Formel-Verallgemeinerung) abgerufen werden, haben eine höhere Priorität als ein einzelnes Dokument. Die Prioritäten gehen dann an die Dokumente, die mit dem Formel-Einbettungs-Ansatz gefunden wurden. Die Dokumente, die mit dem Formelverallgemeinerungsansatz gefunden werden, haben eine geringere Priorität als der kombinierte Ansatz und der Formel-Einbettungsansatz. Als endgültiges Suchergebnis gibt das Ranglistenmodul die 25 besten Dokumente zurück, die in Bezug auf die vom Benutzer eingegebene Suchanfrage gefunden wurden.
Below are the main cornerstones of calculating the relevance score between the documents and the user query:
  • • When calculating formula similarity, the entities at bit positions 0-25 and 150-201 of Table 1 have lower priority than other entities at bit positions 26-149.
  • • The number of similar and dissimilar bits in a formula f is the same with respect to the user query q. Therefore, the proposed approach to relevance measurement ensures the symmetrical property of equality. This property proves that the dissimilarity between the formula and the query has the same meaning compared to the similarity.
  • • For the normalized relevance score, the dissimilarity score between the formula and the query is subtracted from the similarity score. The normalized relevance score is considered a relevance score for a particular document in relation to the user query.
  • • The scope of the relevance assessment is not defined; it can be a positive or negative value. After successfully calculating the relevance score, the ranking engine combines the retrieved documents from both approaches, ie from the formula embedding approach and the formula generalization approach. The main goal of the Ranker module is to rank the documents based on the specific search approach. The documents retrieved using both approaches (formula embedding and formula generalization) have a higher priority than a single document. Priorities then go to the documents found using the formula embedding approach. The documents found with the formula generalization approach have a lower priority than the combined approach and the formula embedding approach. As a final search result, the ranking module returns the top 25 documents found in relation to the search query entered by the user.

Die folgenden Punkte sind für den Prozess der Vektorgenerierung und die Bit Position Information Table (BPIT) von Bedeutung:

  1. i. Die Bitpositionen 0-25, 57-65 und 71-100 sind mit dem Inhalt des <mi>-Tags verknüpft, die Bitpositionen 26-45, 66-70 und 101-149 mit dem Inhalt des <mo>-Tags und die Bitpositionen 46-56 mit dem MathML-Tag. Diese Bitpositionen tragen zur semantischen Formel bei. Die Bitpositionen 150-175 und 176-201 wiederum stehen für die lexikalischen Einheiten in hoch- und tiefgestellter Form.
  2. ii. Es gibt keinen Unterschied zwischen den Entitäten, die eine semantische Ähnlichkeit aufweisen, wie z. B. „log“ und „In“, die derselben Bitposition zugeordnet sind. Ebenso werden „exp“ und „e“ der gleichen Bitposition zugeordnet. Variablen sind unabhängig von der Groß-/Kleinschreibung, d. h. es gibt keinen Unterschied zwischen den Groß-/Kleinschreibungsvariablen, und werden der gleichen Bitposition zugewiesen. So werden z. B. ‚A‘ und ‚a‘ derselben Bitposition zugewiesen.
  3. iii. Wenn die Entität mehr als einmal auftritt, wird nur ein Auftreten dieser Entität für die Vektorgenerierung berücksichtigt.
  4. iv. Die trigonometrischen Funktionen werden der gleichen Bitposition zugewiesen, um ein verallgemeinertes Ergebnis zu erhalten.
  5. v. Bitposition 65 ist als Mehrzweckvariable gekennzeichnet, deren Rolle nicht vordefiniert ist, wie z.B. log, lim, usw.
The following points are relevant to the vector generation process and the Bit Position Information Table (BPIT):
  1. i. Bit positions 0-25, 57-65 and 71-100 are linked to the content of the <mi> tag, bit positions 26-45, 66-70 and 101-149 are linked to the content of the <mo> tag and the bit positions 46-56 with the MathML tag. These bit positions contribute to the semantic formula. Bit positions 150-175 and 176-201 in turn represent the lexical units in superscript and subscript form.
  2. ii. There is no difference between the entities that share a semantic similarity, such as B. "log" and "In" mapped to the same bit position. Likewise, "exp" and "e" are mapped to the same bit position. Variables are case-insensitive, ie there is no difference between upper and lower case variables, and are assigned the same bit position. So e.g. For example, 'A' and 'a' are assigned to the same bit position.
  3. iii. If the entity occurs more than once, only one occurrence of that entity is considered for vector generation.
  4. IV. The trigonometric functions are assigned the same bit position to get a generalized result.
  5. v. Bit position 65 is marked as a general purpose variable whose role is not predefined, such as log, lim, etc.

5 veranschaulicht, dass Tabelle 1 Bitpositionsinformationen in Übereinstimmung mit einer Ausführungsform der vorliegenden Offenbarung darstellt. 5 FIG. 1 illustrates that Table 1 presents bit position information in accordance with an embodiment of the present disclosure.

6 veranschaulicht Tabelle 2 zeigt die Werte der Bewertungsparameter für 40 Datenbankformel-Browsing-Aufgabenabfragen gemäß einer Ausführungsform der vorliegenden Offenbarung. 6 Table 2 shows the values of the evaluation parameters for 40 database formula browsing task queries according to an embodiment of the present disclosure.

7 zeigt Tabelle 3 mit den Werten der Bewertungsparameter für 30 Datenbank-Hauptaufgabenabfragen gemäß einer Ausführungsform der vorliegenden Offenbarung. 7 Table 3 shows the values of the evaluation parameters for 30 main database task queries according to an embodiment of the present disclosure.

Queryset BeschreibungQuery set description

Zur Bewertung der Leistung des vorgeschlagenen Ansatzes wurden 70 mathematische Abfragen verwendet, die im Presentation MathML-Format dargestellt sind. Der Abfragesatz besteht sowohl aus einfachen als auch aus komplexen Abfragen, was zu einer effizienten Bewertung der Leistung des vorgeschlagenen Ansatzes führt. Von den oben genannten 70 Abfragen wurden 30 Abfragen aus der Wikipedia-Hauptaufgabe und 40 aus der Wikipedia-Formel-Browsing-Aufgabe des NTCIR-12 gewonnen. Jede Abfrage hat eine eindeutige ID, die es ermöglicht, das Ergebnis einer Abfrage mit den bewerteten Ergebnissen im Gold-Datensatz zu vergleichen.To evaluate the performance of the proposed approach, 70 mathematical queries presented in Presentation MathML format were used. The query set consists of both simple and complex queries, resulting in an efficient assessment of the performance of the proposed approach. Of the above 70 queries, 30 queries were obtained from the main Wikipedia task and 40 from the NTCIR-12 Wikipedia formula browsing task. Each query has a unique ID that allows the result of a query to be compared to the scored results in the gold dataset.

Gold-Datensatz BeschreibungGold record description

Um die Wirksamkeit des vorgeschlagenen Ansatzes auf standardisierte Weise zu messen, wird der Gold-Datensatz verwendet. Die Struktur des Gold-Datensatzes folgt strikt dem qrel-Format der Text REtrieval Conference (TREC), das aus vier Attributen besteht. Das erste Attribut ist „QueryID“, das die ID einer bestimmten Abfrage in einem Queryset definiert. Das zweite Attribut ist „Iteration“, das auf 0 gesetzt ist und von der TREC beiseite geschoben wird. Das dritte Attribut ist „Document#“, das den Namen/Titel des Dokuments definiert, und das vierte Attribut ist „Relevance“, das die Beurteilung durch einen Menschen in Bezug auf den Informationsbedarf des Benutzers definiert, und die Beurteilung wird als binäre Klassifizierung entweder als relevant (1) oder nicht relevant (0) angegeben.The Gold dataset is used to measure the effectiveness of the proposed approach in a standardized way. The structure of the Gold dataset strictly follows the Text REtrieval Conference (TREC) qrel format, which consists of four attributes. The first attribute is QueryID, which defines the ID of a specific query in a query set. The second attribute is Iteration, which is set to 0 and is pushed aside by the TREC. The third attribute is "Document#" which defines the name/title of the document and the fourth attribute is "Relevance" which defines a human's assessment in relation to the user's information needs and the assessment is defined as a binary classification of either indicated as relevant (1) or not relevant (0).

Struktur der ErgebnismengeStructure of the result set

Mit dem vorgeschlagenen Ansatz wurden 1400 Dokumente für 70 MathML-Abfragen aus dem Queryset abgerufen. Der Ergebnissatz enthält 6 Attribute, von denen drei (QueryID, Document und Relevance Score) durch ein Bewertungstool untersucht wurden, während die übrigen drei (Iteration, Rank und RunID) beiseite gelassen wurden.With the proposed approach, 1400 documents for 70 MathML queries were retrieved from the queryset. The result set contains 6 attributes, three of which (QueryID, Document, and Relevance Score) were examined by a scoring tool, while the remaining three (Iteration, Rank, and RunID) were left aside.

Bewertung Parameterrating parameters

Die Leistung des Information Retrieval Systems wird anhand der Anzahl der vom System abgerufenen Dokumente gemessen. Für jede Benutzeranfrage erstellt das Retrievalsystem eine Liste von Dokumenten, und dann wird der Durchschnitt genommen, um die Gesamtleistung des Retrievalsystems zu messen. Dieser Rahmen zur Leistungsmessung umfasst die Parameter, die die Effektivität des Retrievalsystems bewerten. In dieser Arbeit wird zur Messung der Leistung des vorgeschlagenen Ansatzes der Parameter P K verwendet, der die Anzahl der relevanten 401 Dokumente aus den Top-K abgerufenen Dokumenten berechnet, wobei K=5, 10, 15 und 20. Alle diese Maße werden zunächst für jede Abfrage berechnet, und die Ergebnisse werden dann über alle Abfragen mit gleichen Beiträgen gemittelt.Information retrieval system performance is measured by the number of documents retrieved from the system. For each user query, the retrieval system creates a list of documents, and then the average is taken to measure the overall performance of the retrieval system. This performance measurement framework includes the parameters that assess the effectiveness of the retrieval system. In this work, to measure the performance of the proposed approach, the parameter P K is used, which calculates the number of relevant 401 documents from the top K retrieved documents, where K=5, 10, 15, and 20. All these measures are first calculated for each Query is calculated, and the results are then averaged across all queries with equal posts.

Vergleichende AnalyseComparative Analysis

Die Module zur Einbettung und Verallgemeinerung von Formeln des vorgeschlagenen Ansatzes finden effektiv die syntaktisch und semantisch ähnlichen Formeln, Unterformeln und übergeordneten Formeln. Die Leistungsergebnisse des vorgeschlagenen Ansatzes sind in den Tabellen 2 und 3 dargestellt. Es zeigt sich, dass der Ansatz, den Kontext der Formel und den Unähnlichkeitsfaktor bei der Messung der Relevanzbewertung zu berücksichtigen, zu relevanteren Ergebnissen führt. Die erzielten Ergebnisse für 40 Wikipedia-Formel-Browsing-Aufgaben werden mit dem Stand der Technik verglichen, d.h. mit einer textbasierten Suchmaschine, die mit der Apache Nutch4-Plattform implementiert wurde, mit MIaS, dem Formel-Einbettungsansatz, den offiziellen Treceval-Ergebnissen des MCAT-Mathe-Retrieval-Systems und dem Tangent-3-System des RITUW. Die grafische und tabellarische Darstellung der Ergebnisse ist in Tabelle 2 dargestellt. Ebenso werden die erzielten Ergebnisse für 30 Datenbank-Hauptaufgabenabfragen mit den offiziellen Aufgabenergebnissen der NTCIR-12-Teilnehmer verglichen, d.h. Team FSE, WikiMir-System von ICST, Team MCAT, MIaS-System von Team MIRMU, Tangent-3-System von Team RITUW und Team SMSG5. Die graphische und tabellarische Darstellung der Ergebnisse ist in Tabelle 3 dargestellt. Der bemerkenswerte Unterschied in den Maßen dieser bestehenden State-of-the-Art-MIR-Ansätze hat gezeigt, dass der kombinierte Ansatz von Formel-Einbettung und Generalisierung zu relevanteren Suchergebnissen führt. Aus dem Vergleich der genannten Ansätze lässt sich ableiten, dass der Unähnlichkeitsfaktor bei der Messung der Relevanzbewertung einen signifikanten Zusatzwert darstellt. Interessanterweise zeigt das Ergebnis des vorgeschlagenen Ansatzes, dass die exakte Übereinstimmung im Vergleich zu übergeordneten Formeln und Unterformeln in der Rangfolge der abgerufenen Dokumente den ersten Platz einnimmt. Der Ansatz, den Formelkontext und den Unähnlichkeitsfaktor bei der Berechnung der Relevanzbewertung zu berücksichtigen, führt zu qualitativ und qualitativ effektiven Suchergebnissen.The formula embedding and generalization modules of the proposed approach effectively find the syntactically and semantically similar formulas, subformulas, and parent formulas. The performance results of the proposed approach are presented in Tables 2 and 3. It turns out that the approach of considering the context of the formula and the dissimilarity factor when measuring the relevance score leads to more relevant results. The results obtained for 40 Wikipedia Formula browsing tasks are compared to the state of the art, i.e. a text-based search engine implemented using the Apache Nutch4 platform, using MIaS, the formula embedding approach, the official treceval results of the MCAT math retrieval system and the Tangent 3 system of the RITUW. The graphical and tabular representation of the results is shown in Table 2. Likewise, the achieved results for 30 database main task queries are compared with the official task results of the NTCIR-12 participants, i.e. Team FSE, WikiMir system by ICST, Team MCAT, MIaS system by Team MIRMU, Tangent-3 system by Team RITUW and Team SMSG5. The graphical and tabular representation of the results is shown in Table 3. The remarkable difference in the metrics of these existing state-of-the-art MIR approaches has shown that the combined approach of formula embedding and generalization leads to more relevant search results. From the comparison of the approaches mentioned, it can be deduced that the dissimilarity factor represents a significant additional value when measuring the relevance rating. Interestingly, the result of the proposed approach shows that the exact match ranks first in the ranking of retrieved documents compared to parent formulas and subformulae. The approach of considering the formula context and the dissimilarity factor when calculating the relevance score results in qualitatively and qualitatively effective search results.

Die folgenden Unterschiede zwischen dem vorgeschlagenen Ansatz und den bestehenden MIR-Systemen sowie die Grenzen der bestehenden MIR-Systeme sind ebenfalls erwähnenswert:

  • Erstens integriert der vorgeschlagene Ansatz Ergebnisse aus verschiedenen Modulen, die für die Bewältigung unterschiedlicher Herausforderungen konzipiert sind. Den Suchergebnissen, die Text und Mathematik enthalten, die sehr erwünscht sind, wird die höchste Präferenz zugewiesen. Diese Beispielergebnisse zeigen, dass es erfolgreich Suchergebnisse findet, die ähnliche Formeln, Unterformeln, übergeordnete Formeln und solche, die sowohl Text als auch Formeln enthalten. Zweitens verwendet das leistungsstärkste ICST Math Retrieval System des NTCIR die Technik der semantischen Anreicherung, um strukturelle und semantische Informationen aus dem Layout der Formeln zu extrahieren. Das ICST-System verwendet jedoch nur wenige der Dateien für Experimente. Außerdem kann es die Korrelation zwischen Textabfragen und indizierten mathematischen Inhalten nicht verarbeiten. Drittens verwendet das MCAT-Mathe-Retrieval-System die Dependency-Graph-Methode, um die Textinformationen anzureichern und die Suche durchzuführen. Das Scheitern der Dependency-Graph-Methode von MCAT ist jedoch der Tatsache geschuldet, dass die Mehrzahl der in der Abfrage enthaltenen Textschlüsselwörter Stopp-Wörtern ähneln und ihre Anreicherung daher nicht von Vorteil ist. Nur 5 von 30 Abfragen enthalten Schlüsselwörter, die ungewöhnlich und spezifisch für die Formel sind. Viertens berücksichtigt das TANGENT-System auch nicht die Beziehungen zwischen Text und Mathematik und verwendet keine Textmerkmale oder Kontexte, die mit der Formel verbunden sind. Fünftens berücksichtigt der auf der Borda-Anzahl basierende Ranking-Mechanismus, der vom SMSGS-System verwendet wird, verschiedene Wissensdatenbanken, weist aber den Ergebnissen aus diesen Wissensdatenbanken die gleiche Gewichtung zu, was für die Mehrheit der Abfragen nicht gut funktioniert.
The following differences between the proposed approach and the existing MIR systems as well as the limitations of the existing MIR systems are also worth noting:
  • First, the proposed approach integrates results from different modules designed to address different challenges. The search results that contain text and math, which are highly desirable, are assigned the highest preference. These sample results show that it successfully finds search results that contain similar formulas, subformulas, parent formulas, and those that contain both text and formulas. Second, NTCIR's most powerful ICST Math Retrieval System uses the technique of semantic enrichment to extract structural and semantic information from the layout of the formulas. However, the ICST system uses few of the files for experiments. Also, it cannot handle the correlation between text queries and indexed math content. Third, the MCAT math retrieval system uses the dependency graph method to enrich the text information and perform the search. However, the failure of MCAT's Dependency Graph method is due to the fact that the majority of the text keywords included in the query resemble stop words and their enrichment is therefore not beneficial. Only 5 out of 30 queries contain keywords that are uncommon and specific to the formula. Fourth, the TANGENT system also does not consider the relationships between text and mathematics and does not use textual features or context associated with the formula. Fifth, the Borda count-based ranking mechanism used by the SMSGS system considers different knowledge bases, but assigns the same weight to the results from those knowledge bases, which does not work well for the majority of queries.

Die Figuren und die vorangehende Beschreibung geben Beispiele für Ausführungsformen. Der Fachmann wird verstehen, dass eines oder mehrere der beschriebenen Elemente durchaus zu einem einzigen Funktionselement kombiniert werden können. Alternativ dazu können bestimmte Elemente in mehrere Funktionselemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. So kann beispielsweise die Reihenfolge der hier beschriebenen Prozesse geändert werden und ist nicht auf die hier beschriebene Weise beschränkt. Darüber hinaus müssen die Aktionen eines Flussdiagramms nicht in der gezeigten Reihenfolge ausgeführt werden; auch müssen nicht unbedingt alle Aktionen durchgeführt werden. Auch können die Handlungen, die nicht von anderen Handlungen abhängig sind, parallel zu den anderen Handlungen ausgeführt werden. Der Umfang der Ausführungsformen ist durch diese spezifischen Beispiele keineswegs begrenzt. Zahlreiche Variationen sind möglich, unabhängig davon, ob sie in der Beschreibung explizit aufgeführt sind oder nicht, wie z. B. Unterschiede in der Struktur, den Abmessungen und der Verwendung von Materialien. Der Umfang der Ausführungsformen ist mindestens so groß wie in den folgenden Ansprüchen angegeben.The figures and the preceding description give examples of embodiments. Those skilled in the art will understand that one or more of the elements described may well be combined into a single functional element. Alternatively, certain elements can be broken down into multiple functional elements. Elements from one embodiment may be added to another embodiment. For example, the order of the processes described herein may be changed and is not limited to the manner described herein. Additionally, the actions of a flowchart need not be performed in the order shown; Also, not all actions have to be carried out. Also, the actions that are not dependent on other actions can be performed in parallel with the other actions. The scope of the embodiments is in no way limited by these specific examples. Numerous variations are possible, regardless of whether they are explicitly mentioned in the description or not, e.g. B. Differences in structure, dimensions and use of materials. The scope of the embodiments is at least as broad as indicated in the following claims.

Vorteile, andere Vorzüge und Problemlösungen wurden oben im Hinblick auf bestimmte Ausführungsformen beschrieben. Die Vorteile, Vorzüge, Problemlösungen und Komponenten, die dazu führen können, dass ein Vorteil, ein Nutzen oder eine Lösung auftritt oder ausgeprägter wird, sind jedoch nicht als kritisches, erforderliches oder wesentliches Merkmal oder Komponente eines oder aller Ansprüche zu verstehen.Advantages, other benefits, and solutions to problems have been described above with respect to particular embodiments. However, the benefits, advantages, problem solutions, and components that can cause an advantage, benefit, or solution to occur or become more pronounced are not to be construed as a critical, required, or essential feature or component of any or all claims.

BezugszeichenlisteReference List

100100
Ein System zur Darstellung von Formeln und zur Erstellung von Ranglisten für die mathematische Informationsbeschaffung.A formula display and ranking system for mathematical information retrieval.
102102
Eingabeeinheitinput unit
104104
Vorverarbeitungseinheit für DokumentePreprocessing unit for documents
106106
Formel-Einbettungs-ProzessorFormula embedding processor
108108
Einheit zur Einbettung von FormelnUnit for embedding formulas
110110
Indexer für eingebettete FormelnIndexer for embedded formulas
112112
Formelverallgemeinerungs-ProzessorFormula Generalization Processor
114114
Einheit für FormelverallgemeinerungUnit for formula generalization
116116
Indexer für verallgemeinerte FormelnIndexer for generalized formulas
118118
Einheit für die Einbettung von AbfragenUnit for embedding queries
120120
Einheit zur Verallgemeinerung von AbfragenUnit for query generalization
122122
Sucher und RangordnungseinheitSeeker and ranking unit
202202
Wissenschaftliche DokumenteScientific Documents
204204
Dokumenten-PräprozessorDocument Preprocessor
206206
Modul zur Einbettung von FormelnModule for embedding formulas
208208
Formel-Indexer zum EinbettenFormula indexer to embed
210210
Formel-Index einbettenEmbed formula index
212212
Modul zur FormelverallgemeinerungFormula generalization module
214214
Verallgemeinerungs-Formel-IndexerGeneralization Formula Indexer
216216
Verallgemeinerungsformel-IndexGeneralization Formula Index
218218
Formel-Einbettungs-AnsatzFormula embedding approach
220220
Formelverallgemeinerungs-AnsatzFormula Generalization Approach
222222
ErgebnisseResults
224224
Abfragequery
226226
Suchergebnissesearch results
228228
Ranglisteranking
230230
RelevanzbewertungRelevance Rating
232232
Ähnlichkeitsimilarity
234234
Unähnlichkeitdissimilarity
236236
Sucher- und RanglistenmodulSeeker and ranking module
238238
Modul zur Einbettung von SuchanfragenModule for embedding search queries
240240
Modul zur Verallgemeinerung von SuchanfragenModule for generalizing search queries
242242
Benutzerabfrageuser query

Claims (8)

Ein System zur Darstellung und Einordnung von Formeln für die Suche nach mathematischen Informationen, wobei das System umfasst: eine Eingabeeinheit zum Empfang wissenschaftlicher Dokumentdaten und einer Benutzerabfrage; eine Dokumentenvorverarbeitungseinheit zum Entfernen von Rauschen und zum Extrahieren von Formeln aus den wissenschaftlichen Dokumentendaten; einen Formeleinbettungsprozessor mit einer Formeleinbettungseinheit zum Erzeugen eines binären Vektors unter Verwendung einer Bitpositionsinformation und einem eingebetteten Formelindexierer zum Erzeugen eines eingebetteten Formelindexes für die erzeugten binären Vektoren; einen Formelverallgemeinerungsprozessor mit einer Formelverallgemeinerungseinheit zum Extrahieren aller in der Formel vorhandenen Entitäten, wodurch diese in einen verallgemeinerten Vektor umgewandelt werden, und einen verallgemeinerten Formelindexierer zum Erzeugen eines verallgemeinerten Formelindexes; eine Abfrageeinbettungseinheit zum Extrahieren eines Satzes von Entitäten aus der Benutzerabfrage und zum Verwenden einer Bitpositionsinformation für die Erzeugung eines Abfragevektors; eine Abfrageverallgemeinerungseinheit zum Umwandeln der Benutzerabfrage in einen verallgemeinerten Abfragevektor; und eine Such- und Rangordnungseinheit zum Empfangen eines verallgemeinerten Abfragevektors mit Schlüsselwörtern, wodurch ein Satz von Ähnlichkeits- und Unähnlichkeitsfaktoren erzeugt wird, die dazu beitragen, die exakte Übereinstimmungsformel, die Unterformel und die übergeordnete Formel abzurufen und jedes eingegebene Schlüsselwort mit jedem indizierten Kontext abzugleichen, wodurch die Anzahl der ähnlichen Token zwischen der Abfrage und dem indizierten Kontext berechnet wird.A system for representing and ranking formulas for searching mathematical information, the system comprising: an input unit for receiving scientific document data and a user query; a document pre-processing unit for removing noise and extracting formulas from the scientific document data; a formula embedding processor having a formula embedding unit for generating a binary vector using bit position information and an embedded formula indexer for generating an embedded formula index for the generated binary vectors; a formula generalization processor having a formula generalization unit for extracting all entities present in the formula, thereby converting them into a generalized vector, and a generalized formula indexer for generating a generalized formula index; a query embedding unit for extracting a set of entities from the user query and using bit position information to generate a query vector; a query generalization unit for converting the user query into a generalized query vector; and a search and ranking unit for receiving a generalized query vector of keywords, thereby generating a set of similarity and dissimilarity factors that help retrieve the exact match formula, subformula and parent formula and match each input keyword to each indexed context, which calculates the number of similar tokens between the query and the indexed context. System nach Anspruch 1, wobei der verallgemeinerte Formelindex vier Attribute bildet, die aus einer Gruppe von Vektoren in verallgemeinerter Form, dem Kontext einer Formel, der Dokument-ID, aus der die Formel extrahiert wurde, und der Formel im Presentation MathML-Format ausgewählt sind.system after claim 1 , where the generalized formula index forms four attributes selected from a set of vectors in generalized form, the context of a formula, the document ID from which the formula was extracted, and the formula in Presentation MathML format. System nach Anspruch 1, wobei die Benutzerabfrage eine Kombination aus mathematischen Formeln und textuellen Schlüsselwörtern ist, wobei der Abfragesatz einfache und komplexe Abfragen enthält, die eine effiziente Auswertung ermöglichen, wobei jede Abfrage eine eindeutige ID hat, die verwendet wird, um das erhaltene Ergebnis einer Abfrage mit den in dem Gold-Datensatz gespeicherten beurteilten Ergebnissen zu vergleichen.system after claim 1 , where the user query is a combination of mathematical formulas and textual keywords, where the query set contains simple and complex queries that allow for efficient evaluation, where each query has a unique ID that is used to compare the obtained result of a query with the in compare assessed results stored with the gold record. System nach Anspruch 1, wobei der Ähnlichkeitsfaktor der indizierten Formel darstellt, wie sehr die indizierte Formel der Benutzerabfrage ähnlich ist, während der Unähnlichkeitsfaktor der indizierten Formel darstellt, wie sehr die indizierte Formel von der Benutzerabfrage abweicht.system after claim 1 , where the indexed formula similarity factor represents how closely the indexed formula is similar to the user query, while the indexed formula dissimilarity factor represents how closely the indexed formula differs from the user query. System nach Anspruch 1, wobei die Benutzerabfrage durch eine Abfrageeinbettungseinheit und eine Abfrageverallgemeinerungseinheit in einen Vektor aus 0 und 1 umgewandelt wird.system after claim 1 , where the user query is transformed into a vector of 0s and 1s by a query embedding unit and a query generalization unit. System nach Anspruch 1, wobei die Formeleinbettungseinheit so konfiguriert ist, dass sie die syntaktisch ähnliche Formel abruft, während die Formelverallgemeinerung verwendet wird, um die semantisch ähnliche Formel in Bezug auf die vom Benutzer eingegebene Anfrage abzurufen.system after claim 1 , wherein the formula embedder is configured to retrieve the syntactically similar formula while using the formula generalization to retrieve the semantically similar formula in relation to the query entered by the user. System nach Anspruch 1, wobei die Bitpositionen im Bereich von 0-25 liegen und lexikalische Einheiten, die an den Bitpositionen 150-201 vorhanden sind, für die verallgemeinerte Vektorform auf Null gesetzt werden, wobei der Formelverallgemeinerungsprozessor so konfiguriert ist, dass er die semantisch ähnliche Formel in einer vereinheitlichten Form darstellt.system after claim 1 , where the bit positions are in the range 0-25 and lexical units present at bit positions 150-201 are set to zero for the generalized vector form, the formula generalization processor being configured to unify the semantically similar formula into a represents shape. System nach Anspruch 1, wobei der Abfragevektor alle im Index vorhandenen Formelvektoren auf Formel-Relevanz-Score und Kontext-Relevanz-Score durchsucht.system after claim 1 , where the query vector searches all formula vectors present in the index for formula relevance score and context relevance score.
DE202022106616.7U 2022-11-25 2022-11-25 A system for representing and classifying formulas for searching mathematical information Active DE202022106616U1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE202022106616.7U DE202022106616U1 (en) 2022-11-25 2022-11-25 A system for representing and classifying formulas for searching mathematical information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE202022106616.7U DE202022106616U1 (en) 2022-11-25 2022-11-25 A system for representing and classifying formulas for searching mathematical information

Publications (1)

Publication Number Publication Date
DE202022106616U1 true DE202022106616U1 (en) 2023-04-12

Family

ID=86144057

Family Applications (1)

Application Number Title Priority Date Filing Date
DE202022106616.7U Active DE202022106616U1 (en) 2022-11-25 2022-11-25 A system for representing and classifying formulas for searching mathematical information

Country Status (1)

Country Link
DE (1) DE202022106616U1 (en)

Similar Documents

Publication Publication Date Title
DE69811066T2 (en) DATA SUMMARY DEVICE.
DE69900854T2 (en) A SEARCH SYSTEM AND METHOD FOR RETURNING DATA AND USE IN A SEARCHER
DE19952769B4 (en) Search engine and method for retrieving information using natural language queries
DE3650417T2 (en) Information recording and retrieval system.
DE112020002600T5 (en) DISCOVERING A SEMANTIC MEANING OF DATA FIELDS USING PROFILE DATA OF THE DATA FIELDS
DE69727421T2 (en) Hypertext document retrieval system for retrieving related hypertext documents
DE112018000334T5 (en) System and method for domain independent aspect level mood recognition
DE102013205737A1 (en) Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed
DE10231161A1 (en) Domain-specific knowledge-based meta search system and method for using the same
DE102012221251A1 (en) Semantic and contextual search of knowledge stores
DE112007000053T5 (en) System and method for intelligent information acquisition and processing
DE112013000987T5 (en) Generating visualizations of a display group of tags representing content instances in search criteria fulfilling objects
DE102007037646B4 (en) Computer storage system and method for indexing, searching and retrieving databases
DE102006040208A1 (en) Patent-related search procedure and system
DE112018006345T5 (en) GET SUPPORTING EVIDENCE FOR COMPLEX ANSWERS
DE102019212421A1 (en) Method and device for identifying similar documents
DE112017007530T5 (en) Entity model CREATION
DE102008005083A1 (en) Retrieve case-based closure information from archive records
DE102018007024A1 (en) DOCUMENT BROKEN BY GRAMMATIC UNITS
DE102021209171A1 (en) SYSTEM FOR CHOOSING A LEARNING MODEL
DE102005051617B4 (en) Automatic, computer-based similarity calculation system for quantifying the similarity of textual expressions
DE112021006602T5 (en) REFINING QUERY GENERATION PATTERNS
DE112021001743T5 (en) VECTOR EMBEDDING MODELS FOR RELATIONAL TABLES WITH NULL OR EQUIVALENT VALUES
DE202022106616U1 (en) A system for representing and classifying formulas for searching mathematical information
WO2011044865A1 (en) Method for determining a similarity of objects

Legal Events

Date Code Title Description
R207 Utility model specification
R082 Change of representative

Representative=s name: LIPPERT STACHOW PATENTANWAELTE RECHTSANWAELTE , DE