WO2005008521A1 - Method for the indexation of structured documents - Google Patents

Method for the indexation of structured documents Download PDF

Info

Publication number
WO2005008521A1
WO2005008521A1 PCT/EP2004/051346 EP2004051346W WO2005008521A1 WO 2005008521 A1 WO2005008521 A1 WO 2005008521A1 EP 2004051346 W EP2004051346 W EP 2004051346W WO 2005008521 A1 WO2005008521 A1 WO 2005008521A1
Authority
WO
WIPO (PCT)
Prior art keywords
indexing
document
tree
path
instances
Prior art date
Application number
PCT/EP2004/051346
Other languages
German (de)
French (fr)
Inventor
Jörg Heuer
Andreas Hutter
Andrea Kofler-Vogt
Original Assignee
Siemens Aktiengesellschaft
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE10351896A external-priority patent/DE10351896A1/en
Application filed by Siemens Aktiengesellschaft filed Critical Siemens Aktiengesellschaft
Publication of WO2005008521A1 publication Critical patent/WO2005008521A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The invention relates to a method for the indexation of a structured document containing a plurality of instances. At least one path and a textual path description is allocated to an instance in the document. At least one path comprises a position number or a position number sequence consisting of several position numbers as a differentiating characteristic for instances having different paths and the same textual path descriptions. The invention is characterized in that an indexing tree or an indexing list comprising a plurality of entries is produced; instances with allocated paths which exclusively differ in terms of position numbers or position number sequences, are allocated to the same entry and the entries respectively comprise the position numbers or position number sequences of the paths which are allocated to the instances. The indexing tree or the indexing list is combined with a data flow containing the structured document, is more particularly introduced into said data flow or allocated to said data flow and is separately transmitted or stored.

Description

Verfahren zur Indizierung von strukturierten Dokumenten Procedure for indexing structured documents
Da momentan Multimedia-Anwendungen immer mehr an Bedeutung gewinnen, wird der Zugriff auf digitalisierte Datenquellen in Form von Audio, Video oder Bild immer wichtiger. Die Motion Picture Experts Group (MPEG) hat beispielsweise einen Standard entwickelt, um die unterschiedlichsten Typen des digita- lisierten Materials einheitlich beschreiben zu können. Dies wurde mit dem MPEG-7-Standard [1] realisiert, dessen Ziel es ist, Suche und Zugriff auf solche Daten zu vereinfachen.As multimedia applications are becoming increasingly important at the moment, access to digitized data sources in the form of audio, video or images is becoming increasingly important. For example, the Motion Picture Experts Group (MPEG) has developed a standard to be able to describe the most varied types of digitized material in a uniform manner. This was achieved with the MPEG-7 standard [1], whose goal is to simplify the search and access to such data.
Eine MPEG7-Beschreibung wird mit Hilfe der Extensible Markup Language (XML) erstellt und kann in mehrere Einheiten (Access ünits) aufgeteilt werden, welche ihrerseits wiederum aus mehreren Fragmenten (Fragment Update Units) bestehen. Diese Einheiten können mit Hilfe eines Encoders codiert und bei Bedarf an einen oder mehrere Empfänger versandt werden. In den Emp- fängern können die Einheiten dann mit einem entsprechenden Decoder wieder decodiert werden.An MPEG7 description is created using the Extensible Markup Language (XML) and can be divided into several units (Access units), which in turn consist of several fragments (Fragment Update Units). These units can be encoded using an encoder and sent to one or more receivers if required. The units can then be decoded again in the receivers using a corresponding decoder.
Es tritt häufig der Fall auf, dass ein Empfänger mehrere MPEG7-Beschreibungen erhält, aus denen nur bestimmte Inhalte für einen Benutzer interessant sind. Mit Hilfe einer Abfragesprache - wie beispielsweise XPath - kann ein Benutzer bewerten, ob er in einer Beschreibung die benötigten Informationen findet, und er kann gegebenenfalls auf diese zugreifen. Damit eine Beschreibung aber nicht erst decodiert werden muss, um einen Filterprozess zur Ermittlung der benötigten Informationen anwenden zu können, wird häufig ein Indexsystem verwendet, mit dem Pfade in der übertragenen Dokumentenstruktur indiziert werden. Ein solches System sollte aber eine hinreichende Funktionalität aufweisen. Insbesondere genügt es nicht, nur einfache Pfadausdrücke zu unterstützen, sondern es sollten auch komplexere Strukturen realisiert werden. XPath unterstützt beispielsweise Wildcards (,//' und ,*'), mit deren Hilfe Abfragen formuliert werden können, bei denen die genaue DokumentStruktur nicht bekannt ist.It often happens that a recipient receives several MPEG7 descriptions from which only certain content is of interest to a user. With the help of a query language - such as XPath - a user can evaluate whether he finds the required information in a description and can access it if necessary. So that a description does not have to be decoded first in order to be able to use a filter process to determine the required information, an index system is often used with which paths in the transmitted document structure are indexed. However, such a system should have sufficient functionality. In particular, it is not enough to only support simple path expressions, but more complex structures should also be implemented. XPath supports wildcards (, // 'and, *'), for example, which can be used to formulate queries for which the exact document structure is not known.
Neben Wildcards sollte ein Indexsystem auch sog. Multiple- Key-Queries unterstützen. Darunter versteht man das Vorhandensein von mehreren Bedingungen in einer Abfrage, wie beispielsweise: "Gib mir jeden Autor zurück, der mit Nachnamen Müller heißt und im Jahre i960 geboren wurde". Eine solche Abfrage setzt sich aus einem sog. Präfixpfad (alles bis zum Autor) und mehreren Bedingungen (Nachname = Müller und Geburtsdatum = i960) zusammen.In addition to wildcards, an index system should also support so-called multiple-key queries. This means the existence of several conditions in a query, such as: "Give me back every author who is called Müller and who was born in i960". Such a query consists of a so-called prefix path (everything up to the author) and several conditions (last name = Müller and date of birth = i960).
Die beschriebenen Probleme treten aber nicht nur im Zusammen- hang von MPEG-7-Beschreibungen auf. Die vorliegende Erfindung lässt sich insbesondere in sämtlichen Bereichen anwenden, welche eine Indizierung von strukturierten Dokumenten erfordern.The problems described do not only occur in connection with MPEG-7 descriptions. The present invention can be used in particular in all areas that require an indexing of structured documents.
Aus dem Stand der Technik sind bereits zahlreiche Index- Systeme für XML-Dokumente bekannt. Viele davon unterstützen nur einfache Pfadabfragen, einige ermöglichen komplexere Abfragen, bieten aber trotzdem nur eine eingeschränkte Funktionalität. Im folgenden werden bekannte Index-Systeme disku- tiert, die sowohl Wildcards als auch Multiple-Key-Queries unterstützen, wobei insbesondere auf die Abarbeitung von Multiple-Key-Queries eingegangen wird.Numerous index systems for XML documents are already known from the prior art. Many of them only support simple path queries, some enable more complex queries, but still offer only limited functionality. In the following, well-known index systems are discussed that support both wildcards and multiple-key queries, whereby the processing of multiple-key queries is particularly discussed.
In XISS (XML Indexing and Storage System) werden Elemente und Attribute mit sog. B-Bäumen indiziert. Zusätzlich wird für ein XML-Dokument ein sog. "Nuπ-bering-Scheme" aufgebaut. Dabei werden für jeden Knoten des Dokumentenbaumes zwei Zahlen gespeichert: eine Ordnungsnummer und eine Gewichtung. Es kann mit Hilfe dieser Nummern mittels einer "Nachfolger-Funktion" bestimmt werden, ob ein bestimmtes Element ein direkter oder ein erweiterter Nachfolger eines anderen Elementes, d. h. Kind, Enkel, Urenkel usw. ist. Bei einer Abfrage wird für jedes im Abfrage-Pfad angegebene Element eine Suche im B-Baum durchgeführt. Für jeden unterschiedlichen Elementnamen wird eine Teilliste zurückgeliefert. Diese Teilliste enthält eine Reihe von Zahlenpaaren bestehend aus Ordnungsnummer und Ge- wichtung. Mit Hilfe der "Nachfolger-Funktion" werden aus den Teillisten der Elementnamen wieder vollständige Pfade er- stellt. Bei einer Multiple-Key-Query werden zuerst die Teillisten für die Elemente des Präfixpfades und eine erste Ergebnisliste aller Nachfolger erstellt. Bei der oben erläuterten Suchabfrage nach Autoren mit Nachnahmen Müller und Geburtsjahr 1960 werden z. B. folgende Listen erstellt: XX/autori, XX/autor2, XX/autor3, ... , wobei "XX" für einen beliebigen Teilpfad im XML-Dokument steht. Dann wird eine Liste mit allen Nachnamen erstellt, welche den Wert Müller haben (nachnamei, nachname2, ....). Mit Hilfe des Nummernschemas werden dann jene Teilpfade aussortiert, die keinen Nachfolger in der Liste mit den Nachnamen haben. Schließlich wird eine Liste generiert, die alle Geburtsdaten mit dem Wert ,1960' enthalten und die Autorenliste nochmal entsprechend reduziert. In der Ergebnisliste befinden sich dadurch alle Pfade bis zum Autoren-Element, die als Nachfolger sowohl ein Nach- name-Element mit dem Wert Müller als auch ein Geburtsdatum- Element mit dem Wert 1960 haben.In XISS (XML Indexing and Storage System) elements and attributes are indexed with so-called B-trees. In addition, a so-called "Nuπ-ringing scheme" is set up for an XML document. Two numbers are saved for each node in the document tree: an order number and a weighting. With the help of these numbers, a "successor function" be determined whether a certain element is a direct or an extended successor of another element, ie child, grandchildren, great-grandchildren, etc. In the case of a query, a search is carried out in the B-tree for every element specified in the query path. A partial list is returned for each different element name. This partial list contains a number of pairs of numbers consisting of order number and weighting. With the help of the "successor function" complete paths are created again from the partial lists of the element names. In a multiple-key query, the partial lists for the elements of the prefix path and a first result list of all successors are created first. In the search query for authors with cash on delivery Müller and year of birth 1960 explained z. For example, the following lists are created: XX / author, XX / author 2 , XX / author 3 , ..., where "XX" stands for any partial path in the XML document. Then a list is created with all surnames that have the value Müller (surnamei, surname 2 , ....). With the help of the numbering scheme, those partial paths that do not have a successor in the list with the last names are then sorted out. Finally, a list is generated that contains all dates of birth with the value '1960' and the list of authors is reduced accordingly again. As a result, all paths to the author element are found in the results list, which have a surname element with the value Müller and a date of birth element with the value 1960 as successor.
In einem Technical Report von Bremer und Gertz wird ein Index-System für XML-Daten angegeben, bei dem zunächst ein sog. "Dataguide" von dem XML-Dokument abgeleitet wird. Darunter versteht man eine Schemazusammenfassung, in der jeder unterschiedliche Pfad genau einmal enthalten ist . Jeder Knoten in diesem Dataguide erhält einen eindeutigen Bezeichner (ID) , mit dessen Hilfe nicht nur ein Element, sondern auch der Pfad von der Wurzel zum identifizierten Knoten dargestellt wird. Zusätzlich zu den Bezeichnern werden gegebenenfalls auch Po- sitionsnummern abgelegt, falls ein Element öfters vorkommt. Die Positionsnummern werden dabei mit so wenig Bits wie möglich gespeichert. Die Positionsnummern werden nach dem Kno- tenbezeichner in Serie abgelegt, d. h. ID, posι...posn. Diese Kombination wird als PID (path identifier) bezeichnet. Zusätzlich zum Data-Guide werden zwei B-Bäume aufgebaut: der T- Index und der P-Index. Der T-Index (term index) liefert eine Liste von PIDs zu einem entsprechenden Knotenbezeichner (ID) . Der P-Index (path index) übersetzt solche PIDs in die physi- kaiische Adresse des indizierten Elements. Eine Abfrage beginnt im Data-Guide. Bei einer Multiple-Key-Query wird mit Hilfe des Data-Guides zunächst der Knotenbezeichner des Elementes am Ende des Präfixes der Suchabfrage ermittelt. Bei der oben dargestellten Suchabfrage wird somit der Knotenbe- Zeichner für "Autor" ermittelt. Mit der Knotennummer wird dann im T-Index die Liste der dazugehörigen PIDs generiert. Gemäß der oben genannten Abfrage werden somit ausgehend vom vorher im Data-Guide identifizierten Autor-Element die ID des Elementes ,Nachname' mit dem Wert Müller gesucht. Für diese ID werden alle PIDs aus dem B-Baum gefiltert. Der gleiche Vorgang wird für den Nachfolger , Geburtsdatum' mit dem Wert 1960 wiederholt. In einem letzten Schritt wird die Liste der Autoren-PIDs reduziert. Dazu werden alle PIDs aus der Autoren-Liste gestrichen, deren Positionsnummern nicht als Präfix einer Positionsnummernfolge in der Nachnamen-Liste vorhanden sind. Durch das Vergleichen der Positionsnummern aus der Geburtsdatum-Liste mit denen der Autoren-Liste wird letztere noch einmal verkleinert und liefert dann die endgültigen PIDs, mit deren Hilfe die physikalische Adresse im P-Index gewonnen wird.In a technical report by Bremer and Gertz, an index system for XML data is specified, in which a so-called "data guide" is first derived from the XML document. This is a schema summary in which each different path is contained exactly once. Each node in this data guide is given a unique identifier (ID), which is used to display not only an element, but also the path from the root to the identified node. In addition to the identifiers, Po- sition numbers stored if an element occurs frequently. The position numbers are saved with as few bits as possible. The position numbers are stored in series after the node identifier, ie ID, posι ... pos n . This combination is called PID (path identifier). In addition to the data guide, two B-trees are set up: the T index and the P index. The T index (term index) provides a list of PIDs for a corresponding node identifier (ID). The P index (path index) translates such PIDs into the physical address of the indexed element. A query begins in the data guide. In the case of a multiple-key query, the node identifier of the element at the end of the prefix of the search query is first determined using the data guide. In the search query shown above, the node identifier for "author" is thus determined. The list of the associated PIDs is then generated with the node number in the T-index. According to the above-mentioned query, the ID of the element 'last name' with the value Müller is searched for based on the author element previously identified in the Data Guide. All PIDs from the B-tree are filtered for this ID. The same process is repeated for the successor 'Date of Birth' with the value 1960. In a final step, the list of author PIDs is reduced. For this purpose, all PIDs are deleted from the author list, whose position numbers are not available as a prefix of a position number sequence in the last name list. By comparing the position numbers from the date of birth list with those of the list of authors, the latter is reduced again and then provides the final PIDs, which are used to obtain the physical address in the P index.
Alle oben genannten Verfahren zur Erzeugung einer Indexstruktur haben den Nachteil, dass die Erstellung der Index- Struktur sehr aufwändig ist und der Index ein beträchtliches Datenvolumen benötigt. Aufgabe der Erfindung ist es deshalb, ein Verfahren zur Indizierung eines strukturierten Dokuments zu schaffen, mit dem auf einfache Weise eine Indexstruktur für Suchabfragen in dem Dokument generiert wird.All of the above-mentioned methods for generating an index structure have the disadvantage that the creation of the index structure is very complex and the index requires a considerable amount of data. The object of the invention is therefore to create a method for indexing a structured document with which an index structure for search queries in the document is generated in a simple manner.
Diese Aufgabe wird durch die unabhängigen Patentansprüche gelöst. Bevorzugte Ausführungsformen der Erfindung sind in den abhängigen Ansprüchen definiert.This problem is solved by the independent claims. Preferred embodiments of the invention are defined in the dependent claims.
Durch das erfindungsgemäße Verfahren wird ein strukturiertes Dokument indiziert, welches eine Vielzahl von Instanzen enthält, wobei mindestens einer Instanz im Dokument ein Pfad und eine textuelle Pfadbeschreibung zugeordnet wird und mindestens ein Pfad eine Positionsnummer oder eine mehrere Positi- onsnummern umfassende Positionsnummernfolge als Unterscheidungsmerkmal für Instanzen mit unterschiedlichen Pfaden und gleichen textuellen Pfadbeschreibungen umfasst. Mit dem erfindungsgemäßen Verfahren wird ein Indizierungsbaum oder eine Indizierungsliste, welche eine Vielzahl von Einträgen um- fasst, derart erzeugt, dass Instanzen, denen Pfade zugeordnet sind, die sich ausschließlich in ihren Positionsnummern oder Positionsnummernfolgen unterscheiden, dem gleichen Eintrag zugeordnet werden, und die Einträge jeweils die Positionsnummern oder die Positionsnummerfolgen der den Instanzen zuge- ordneten Pfade umfassen. Der Indizierungsbaum oder die Indizierungsliste wird schließlich mit einem das strukturierte Dokument enthaltenden Datenstrom verknüpft, insbesondere in den Datenstrom eingefügt oder dem Datenstrom zugewiesen und separat übertragen oder gespeichert.The method according to the invention indexes a structured document which contains a multiplicity of instances, with at least one instance in the document being assigned a path and a textual path description and at least one path having a position number or a sequence of position numbers comprising a plurality of position numbers as a distinguishing feature for instances includes different paths and the same textual path descriptions. With the method according to the invention, an indexing tree or an indexing list which comprises a multiplicity of entries is generated in such a way that instances to which paths are assigned which differ only in their position numbers or position number sequences are assigned to the same entry, and the entries each include the position numbers or the position number sequences of the paths assigned to the instances. The indexing tree or the indexing list is finally linked to a data stream containing the structured document, in particular inserted into the data stream or assigned to the data stream and transmitted or stored separately.
Durch die Kopplung von Einträgen im Indizierungsbaum bzw. in der Indizierungsliste mit Positionsnummern bzw. Positionsnummernfolgen können effektiv schnelle Abfragen nach Inhalten des strukturierten Dokuments durchgeführt werden. In einer bevorzugten Ausführungsform werden in dem Indizierungsbaum oder der Indizierungsliste den Instanzen zugewiesene Instanzwerte oder Referenzen auf diese Instanzwerte zugeordnet. Vorzugsweise wird die Existenz von Positionsnummern mit Hilfe einer Schemadefinition ermittelt, wobei es sich hier bevorzugt um eine XML-Schema-Definition handelt, die zur Codierung von strukturierten XML-Dokumenten verwendet wird.By linking entries in the indexing tree or in the indexing list with item numbers or item number sequences, quick queries for the content of the structured document can be carried out effectively. In a preferred embodiment, instance values assigned to the instances or references to these instance values are assigned to the instances in the indexing tree or the indexing list. The existence of position numbers is preferably determined with the aid of a schema definition, which is preferably an XML schema definition that is used for coding structured XML documents.
In einer bevorzugten Ausgestaltung des erfindungsgemäßen Ver- fahrens ist der Indizierungsbaum ein B-Baum, mit dem eine logarithmische Suche nach Inhalten im Dokument ermöglicht wird.In a preferred embodiment of the method according to the invention, the indexing tree is a B-tree, with which a logarithmic search for contents in the document is made possible.
Das für die Indizierung herangezogene strukturierte Dokument ist in einer besonders bevorzugten Ausführungsform der Erfin- d ng ein XML-Dokument.In a particularly preferred embodiment of the invention, the structured document used for the indexing is an XML document.
Die Erfindung betrifft neben einem Indizierungsverfahren auch ein Verfahren zur Codierung eines strukturierten Dokuments, wobei das Dokument mit dem erfindungsgemäßen Indizierungsver- fahren indiziert wird und anschließend mit einem Codierverfahren, insbesondere mit einem MPEG7-Verfahren codiert wird, wodurch ein codierter Datenstrom erzeugt wird. Der codierte Datenstrom enthält hierbei vorzugsweise Offsets, mit denen die Positionen von Einträgen des Indizierungsbaums oder ier Indizierungsliste im Datenstrom signalisiert werden. Eine spezielle Ausgestaltung solcher Offsets findet sich in der deutschen Patentanmeldung 102 53 275.3, wobei mit diesen Off- sets erreicht wird, dass bei einer Suche nach Inhalten nicht alle codierten Informationen aus dem Datenstrom ausgelesen werden müssen.In addition to an indexing method, the invention also relates to a method for coding a structured document, the document being indexed using the indexing method according to the invention and then being coded using a coding method, in particular an MPEG7 method, which produces an encoded data stream. The coded data stream preferably contains offsets with which the positions of entries in the indexing tree or indexing list in the data stream are signaled. A special embodiment of such offsets can be found in German patent application 102 53 275.3, with these offsets ensuring that when searching for content, not all coded information has to be read from the data stream.
Neben den oben beschriebenen Codierverfahren umfasst die Erfindung ferner ein Decodierverfahren zur Decodierung eines strukturierten Dokuments, wobei das Verfahren derart ausges- taltet ist, dass ein gemäß dem erfindungsgemäßen Codierverfahren codiertes Dokument decodiert wird. Darüber hinaus betrifft die Erfindung ein Verfahren zur Codierung und Decodierung eines strukturierten Dokuments, welches die oben beschriebenen erfindungsgemäßen Codier- und De- codierverfahren umfasst.In addition to the coding methods described above, the invention further comprises a decoding method for decoding a structured document, the method being designed in such a way that a document coded according to the coding method according to the invention is decoded. Furthermore, the invention relates to a method for coding and decoding a structured document, which comprises the coding and decoding methods according to the invention described above.
Die Erfindung betrifft ferner eine Codiervorrichtung bzw. eine Decodiervorrichtung, mit dem das erfindungsgemäße Codierverfahren bzw. Decodierverfahren durchführbar sind. Ferner betrifft die Erfindung eine Kombination aus dieser Codiervor- richtung und dieser Decodiervorrichtung.The invention further relates to a coding device or a decoding device with which the coding method or decoding method according to the invention can be carried out. The invention further relates to a combination of this coding device and this decoding device.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der Zeichnung dargestellt und erläutert.Exemplary embodiments of the invention are illustrated and explained below with reference to the drawing.
Es zeigt:It shows:
Fig.l ein Beispiel des schematischen Aufbaus eines strukturierten XML-Dokuments, das mit dem erfindungsgemäßen Verfahren indiziert werden kann.Fig.l an example of the schematic structure of a structured XML document that can be indexed with the inventive method.
In der nachfolgend beschriebenen Ausführungsform der Erfindung wird die Indizierung und Codierung eines XML-Dokuments beschrieben. Ein XML-Dokument wird durch einen Dokumentenbaum beschrieben, wie er in Fig. 1 dargestellt ist. Ein solcher Baum enthält eine Vielzahl von Knoten, wobei in den Blattknoten, die im folgenden als Instanzen bezeichnet werden, die Inhalte des Dokuments abgelegt sind. Die restlichen Knoten sind die textuellen Beschreibung des Pfades zu den einzelnen Instanzen, wobei unterschiedliche Pfade die gleiche texuelle Beschreibung aufweisen können. Der Dokumentenbaum der Fig. 1 betrifft die Informationen in einer Bibliothek. Darin sind zwei Artikel abgelegt, für die u.a. der Titel, die Autoren und das Erscheinungsjahr festgelegt sind. Aus der Fig. 1 ist ersichtlich, dass zu jedem Blattknoten ein eindeutiger Pfad führt, der in der hier beschriebenen Ausführungsform mit dem MPEG-7-Codierverfahren codiert wird. Zur Erstellung binärer codierter Pfade werden sog. XML- Schema-Definitionen verwendet, wobei solche Schema- Definitionen dem Fachmann hinlänglich bekannt sind und vom Encoder und vom Decoder zum Codieren bzw. Decodieren des XML- Dokuments verwendet werden. Die dem Baum der Fig. 1 zugrunde liegende Schema-Definition lautet wie folgt: In der Bibliothek können mehrere Artikel vorkommen. Jeder Artikel hat genau einen Titel und mindestens einen Autor. Eventuell wird die Konferenz, wo der Artikel eingereicht wurde, eingetragen. Ferner wird noch das Erscheinungsjahr mit angegeben. Ein Autor hat genau einen Nachnamen und er kann maximal drei Vornamen haben. Ein Vorname muss aber nicht notwendiger Weise angegeben werden .In the embodiment of the invention described below, the indexing and coding of an XML document is described. An XML document is described by a document tree as shown in FIG. 1. Such a tree contains a large number of nodes, the contents of the document being stored in the leaf nodes, which are referred to below as instances. The remaining nodes are the textual description of the path to the individual instances, although different paths can have the same textual description. 1 relates to the information in a library. It contains two articles for which the title, the authors and the year of publication are specified. 1 that a unique path leads to each leaf node, which is encoded in the embodiment described here using the MPEG-7 coding method. So-called XML schema definitions are used to create binary coded paths, such schema definitions being well known to the person skilled in the art and being used by the encoder and decoder to encode or decode the XML document. The schema definition on which the tree of FIG. 1 is based is as follows: There may be several articles in the library. Each article has exactly one title and at least one author. The conference where the article was submitted may be registered. The year of publication is also given. An author has exactly one last name and can have a maximum of three first names. A first name does not necessarily have to be specified.
Auf eine genaue Ausführung der Erzeugung der codierten Pfade wird hier verzichtet, da diese Codierung nicht wesentlich für das Verständnis der Erfindung ist.A precise execution of the generation of the coded paths is omitted here, since this coding is not essential for understanding the invention.
Ein mit dem erfindungsgemäßen Verfahren codierter binärer Pfad enthält für jeden Knoten im Pfad ein binäres Codewort, welches von den Schemainformationen abgeleitet wird. Für Knoten, die häufiger auftreten können, wird am Ende eine Positionsnummer bzw. eine Positionsnummernfolge mit codiert, die als Unterscheidungsmerkmal für Instanzen mit unterschiedli- chen Pfaden und gleichen textuellen Pfadbeschreibungen dienen. Ähnlich wie bei der Lösung von Bremer und Gertz werden diese Nummern zum Zusammenführen von Teillisten verwendet.A binary path coded with the method according to the invention contains a binary code word for each node in the path, which code word is derived from the schema information. For nodes that can occur more frequently, a position number or a sequence of position numbers is also coded at the end, which serve as a distinguishing feature for instances with different paths and the same textual path descriptions. Similar to the Bremer and Gertz solution, these numbers are used to merge partial lists.
Damit die weiteren Ausführungen verständlich sind, wird zu- nächst das Konzept der binären Pfade erklärt.So that the further explanations are understandable, the concept of binary paths is explained first.
Zur Erstellung eines binären Pfades werden die Schema- Informationen verwendet und somit für jedes Element ein Codewort bestimmt, welches durch eine möglichst kleine Binärzahl dargestellt wird. Auf genauere Ausführungen bezüglich dieser Bestimmung wird hier verzichtet, da dies nicht Bestandteil der Erfindung ist. Die Codewörter erhalten in der hier beschriebenen Ausführungsform Bezeichner wie Cbibiiothek oder Carti- ei usw.. Nachdem alle Codewörter eines Pfades bestimmt wurden, werden hinten die Positionen der Knoten der Pfades im Dokumentenbaum an den binären Pfad angefügt. Positionen werden nur für jene Knoten codiert, welche öfters vorkommen können. Die Binärcodierung von Pfaden soll mit folgendem Bei- spiel veranschaulicht werden.The schema information is used to create a binary path and thus a code word is determined for each element, which is given by the smallest possible binary number is pictured. More precise explanations regarding this determination are omitted here since this is not part of the invention. The code words obtained in the embodiment described herein identifier as Cbibiiothek or C ar ti egg, etc .. After all the code words in a path determined, the positions of the nodes of the path to be added back in the document tree of the binary path. Positions are only coded for those nodes that can occur more often. The binary coding of paths is to be illustrated with the following example.
Aus dem Dokumentenbaum der Fig. 1 wird eine Teilliste der vollständigen Pfade angeführt, welche sich aus dem Dokument generieren lassen: bibliothek[l] /artikel [1] /titel [1] bibliothek [1] /artikel [1] /autor [1] /Vorname [1] bibliothek[l] /artikel [1] /autor [1] /nachname [1] bibliothe [1] /artikel [1] /autor [2] /vorname [1]A partial list of the complete paths that can be generated from the document is given from the document tree of FIG. 1: library [l] / article [1] / title [1] library [1] / article [1] / author [1 ] / First name [1] library [l] / article [1] / author [1] / last name [1] library [1] / article [1] / author [2] / first name [1]
bibliothek [1] /artikel [2 ]/year[l]library [1] / article [2] / year [l]
Die Zahlen in den eckigen Klammern stellen die Positionen der Knoten dar, d. h. sie bezeichnen Geschwisterknoten mit demselben Namen in der gleichen Hierarchieebene des Dokumenten- baums und dienen somit als Unterscheidungsmerkmal von Instanzen mit gleicher textueller Pfadbeschreibung.The numbers in the square brackets represent the positions of the nodes, i. H. they designate sibling nodes with the same name in the same hierarchy level of the document tree and thus serve as a distinguishing feature of instances with the same textual path description.
Bei der Übersetzung der textuellen Pfade ins Binäre, werden zunächst alle nötigen Codewörter bestimmt und anschließend die Positionen in Form von Positionsnummern codiert. Der Pfad bibliothek[l] /artikel [1] /titel [1] würde binär in etwa so aussehen: Cbia.i.otek/Cartikei/CtiteiAl- Dabei wird nur für den Knotennamen "artikel" eine Positionsnummer verwendet, da die anderen beiden Knotennamen in diesem Kontext nur einmal auftreten können . Es wird schließlich ein Indizierungsbaum erzeugt, wobei dessen Einträge, d.h. die Schlüsselwerte, nach denen im Baum gesucht werden kann, nicht hinsichtlich der Positionsnummern bzw. beim Auftreten von mehreren Positionsnummern im Pfad hinsichtlich der Positionsnummernfolgen unterscheidbar sind. Dadurch gibt es für Pfade, die sich nur aufgrund ihrer Positionsnummer bzw. Positionsnummernfolge unterscheiden, nur einen Eintrag im Indizierungsbaum. Wird nach diesem Eintrag gesucht, erhält man gegebenenfalls eine Liste von Instanzen be- stehend aus Positionsnummern und Wert zurück. Zum Beispiel würde die Suche nach dem Schlüsselwert "Cbibi-Lo- tek/Cartikei/Cautor/Cvoraame" folgende Ergebnisse liefern: 1,1,1 = Brain W. (1. Artikel, 1. Autor, 1. Vorname) 1,2,1 = Christopher (1. Artikel, 2. Autor, 1. Vorname)When translating the textual paths into binary, all necessary code words are first determined and then the positions are coded in the form of position numbers. The path library [l] / article [1] / title [1] would look something like binary: C b ia.i.otek / Cartikei / CtiteiAl- A position number is only used for the node name "article", since the other two node names can only occur once in this context. Finally, an indexing tree is created, and its entries, ie the key values that can be searched for in the tree, cannot be differentiated with regard to the position numbers or if several position numbers occur in the path with regard to the position number sequences. As a result, there is only one entry in the indexing tree for paths that differ only on the basis of their position number or position number sequence. If you search for this entry, a list of instances consisting of position numbers and values may be returned. For example, the search for the key value "Cbibi-Lotek / C ar tikei / Cautor / Cvoraame" would yield the following results: 1,1,1 = Brain W. (1st article, 1st author, 1st first name) 1 , 2,1 = Christopher (1st article, 2nd author, 1st first name)
Die Erfindung wird an einem einfachen Beispiel erläutert. Gesucht werden alle Artikel, die im Jahre 1996 erschienen sind und die zumindest von dem Autor mit dem Nachnamen Kaufmann mitverfasst wurden. Da nur vollständige Pfade indiziert wer- den, wird zunächst für jede Bedingung eine Abfrage in Form eines vollständigen Pfades generiert. Für das konkrete Beispiel werden folgende zwei Abfragen erstellt: Cbιbiio- thek/Cartikel/Cjar = 1996 Und Cbibliotek/Cartikel/Cautor/Cnachname = Kaufmann. Die erste Abfrage sucht nach dem Suchbegriff "Artikel" und die zweite Abfrage sucht nach dem Suchbegriff "Autor".The invention is explained using a simple example. We are looking for all articles that appeared in 1996 and that were at least co-written by the author with the last name Kaufmann. Since only complete paths are indexed, a query in the form of a complete path is first generated for each condition. The following two queries are created for the specific example: C b ιbiio- thek / Cartikel / Cjar = 1996 and Cbibliotek / Cartikel / Cautor / Cnachname = Kaufmann. The first query searches for the search term "article" and the second query searches for the search term "author".
Die Abfragen werden getrennt ausgeführt, wobei von den beiden Abfragen jeweils die Positionsnummern bzw. Positionsnummernfolgen der jeweiligen Suchbegriffe in Form von zwei Teillisten (Listejahr und Listenachnaπ.e) ausgegeben werden: 1. Abfrage:The queries are executed separately, with each of the item numbers or position number sequences of the respective keywords in the form of two sub-lists (list year and list na chnaπ.e) are output from the two queries: 1. Scan:
Listejahr = {1/ 2;} (1. Artikel und 2. Artikel -> 2 Einträge)List year = {1/2;} (1st article and 2nd article -> 2 entries)
2. Abfrage :2nd query:
ListenaChname = {2», 3;} (3. Autor des 2 Artikels -> 1 Eintrag) Hierbei sind die grau hinterlegten Positionsnummern jeweils eine einzelne gefundene Positionsnummer bzw. die erste Positionsnummer einer gefundenen Positionsnummernfolge. Als Suchergebnis soll ein bestimmter Artikel aufgefunden werden. Des- halb müssen die Positionsnummern für die Artikel in den Einträge der Teillisten übereinstimmen. Eine Vergleichsoperation der obigen Teillisten ergibt, dass als übereinstimmende Positionsnummern für die Artikel lediglich die Nummer "2" gefunden wird. Das endgültige Ergebnis besteht also nur aus dem zweiten Artikel.List naC hname = {2 », 3;} (3rd author of the 2 article -> 1 entry) The position numbers with a gray background are each a single position number found or the first position number of a position number sequence found. A certain article should be found as the search result. Therefore, the item numbers for the items in the entries in the partial lists must match. A comparison operation of the above partial lists shows that only the number "2" is found as the corresponding item numbers for the articles. The final result is only the second article.
Die beschriebene Lösung hat im Vergleich zu den Systemen nach dem Stand der Technik mehrere Vorteile. Diese Systeme weisen zwar eine hinreichende Funktionalität auf, der Index benötigt aber ein beträchtliches Datenvolumen und kann oft nur durch erheblichen Aufwand erstellt werden. XISS beispielsweise benötigt einen B-Baum für Element- und Attributnamen und einen weiteren B-Baum, mit dem Werte indiziert werden. Zusätzlich muss das Numbering-Scheme generiert und übertragen werden. Die von Bremer und Gertz vorgestellte Lösung erfordert zunächst die Generierung eines Data-Guides. Zusätzlich muss der T-Index und der P-Index erstellt und gegebenenfalls übertragen werden.The solution described has several advantages over the systems according to the prior art. Although these systems have sufficient functionality, the index requires a considerable amount of data and can often only be created with considerable effort. XISS, for example, needs a B-tree for element and attribute names and another B-tree with which values are indexed. In addition, the numbering scheme must be generated and transferred. The solution presented by Bremer and Gertz first requires the generation of a data guide. In addition, the T index and the P index must be created and, if necessary, transferred.
Bei der erfindungsgemäßen Lösung wird nur der B-Baum, der alle nötigen Informationen enthält, übertragen. Durch die Verwendung von Byte-Offsets werden auch nur jene Knoten, die eine Suche beeinflussen, aus dem Strom ausgelesen.In the solution according to the invention, only the B-tree, which contains all the necessary information, is transmitted. By using byte offsets, only those nodes that influence a search are read from the stream.
Das PID-Schema benötigt für die Angabe der Positionen zwar unter Umständen weniger Bits als die hier beschriebene Lösung, weil nur tatsächlich im Dokument vorhandene Elemente berücksichtigt werden, während bei der erfindungsgemäßen Lösung die Länge der Positionen von der potentiell möglichen Anzahl an Elementen abhängt . So genügt für die Darstellung der PID für das Element "artikel" ein Bit für die Angabe der Positionsnummer, weil nur zwei Elemente vorhanden sind. In der Erfindung werden dafür mindestens fünf Bits verwendet, weil das Element laut Schemadefinition beliebig oft auftreten kann. Da eine MPEG-7-Beschreibung vor dem Versenden aber in AccessUnits aufgeteilt wird, würde das im Falle des PID- Schemas bedeuten, dass die gesamten Informationen zuerst übertragen und decodiert werden müssen, um die Positionsnummern korrekt auslesen zu können. Dadurch wäre ein Index über- flüssig, weil dieser einen wahlfreien Zugriff auf gewünschte Informationen bieten sollte und es ermöglichen sollte, nur diese zu decodieren, während uninteressante Teile ignoriert werden. In MPEG-7 kommt es auch häufig vor, dass nicht ein gesamtes Dokument übertragen wird, sondern nur Teilbäume des Dokumentenbaumes. In diesem Falle ist es unmöglich, die Positionsnummern des PID-Schemas vollständig zu decodieren, weil nicht alle benötigten Informationen übertragen wurden. Bei der erfindungsgemäßen Lösung muss dem Decoder das Schema auf jeden Fall zur Verfügung stehen, da es auch für das Decodie- ren der Beschreibung benötigt wird. Mit Hilfe des Schemas können alle Positionsnummern eindeutig den jeweiligen Elementen zugeordnet werden. The PID scheme may need fewer bits than the solution described here for specifying the positions because only elements actually present in the document are taken into account, while in the solution according to the invention the length of the positions depends on the potentially possible number of elements. So is enough for the presentation the PID for the "item" element is a bit for specifying the position number because there are only two elements. In the invention, at least five bits are used for this, because the element can occur as often as the schema definition says. However, since an MPEG-7 description is divided into AccessUnits before sending, in the case of the PID scheme this would mean that the entire information must first be transmitted and decoded in order to be able to read out the position numbers correctly. This would make an index superfluous because it should offer random access to the desired information and should make it possible to decode only this while ignoring uninteresting parts. In MPEG-7 it often happens that not an entire document is transmitted, but only subtrees of the document tree. In this case it is impossible to completely decode the position numbers of the PID scheme because not all the required information has been transmitted. In the solution according to the invention, the scheme must be available to the decoder in any case, since it is also required for decoding the description. With the help of the scheme, all position numbers can be clearly assigned to the respective elements.
Literaturverzeichnis :Bibliography :
[1] ISO/IEC 15938 "Multimedia Content Description Interface", Genf 2001-2003; [1] ISO / IEC 15938 "Multimedia Content Description Interface", Geneva 2001-2003;

Claims

Patentansprüche claims
1. Verfahren zur Indizierung eines strukturierten Dokuments, das eine Vielzahl von Instanzen enthält, wobei mindestens einer Instanz im Dokument ein Pfad und eine textuelle Pfadbeschreibung zugeordnet wird und mindestens ein Pfad eine Positionsnu mer oder eine mehrere Positionsnummern umfassende Positionsnummernfolge als Unterscheidungsmerkmal für Instanzen mit unterschiedlichen Pfaden und gleichen textuellen Pfadbeschreibungen umfasst, bei dem - ein Indizierungsbaum oder eine Indizierungsliste umfassend eine Vielzahl von Einträgen derart erzeugt wird, dass Instanzen, denen Pfade zugeordnet sind, die sich ausschließlich in ihren Positionsnummern oder Positions- nummernfolgen unterscheiden, dem gleichen Eintrag zugeordnet werden und die Einträge jeweils die Positionsnummern oder Positionsnummernfolgen der den Instanzen zugeordneten Pfade umfassen; der Indizierungsbaum oder die Indizierungsliste mit ei- nem das stukturierte Dokument enthaltenden Datenstrom verknüpft wird, insbesondere in den Datenstrom eingefügt wird oder dem Datenstrom zugewiesen und separat übertragen oder gespeichert wird.1. Method for indexing a structured document that contains a large number of instances, wherein at least one instance in the document is assigned a path and a textual path description and at least one path has a position number or a position number sequence comprising several position numbers as a distinguishing feature for instances with different paths and same textual path descriptions, in which an indexing tree or an indexing list comprising a large number of entries is generated in such a way that instances to which paths are assigned which differ only in their position numbers or position number sequences are assigned to the same entry and Entries each comprise the item numbers or item number sequences of the paths assigned to the instances; the indexing tree or the indexing list is linked to a data stream containing the structured document, in particular inserted into the data stream or assigned to the data stream and transmitted or stored separately.
2. Verfahren nach Anspruch 1, bei dem den Einträgen in dem Indizierungsbaum oder der Indizierungsliste den Instanzen zugewiesene Instanzwerte oder Referenzen auf diese Instanzwerte zugeordnet werden.2. The method according to claim 1, in which the entries in the indexing tree or the indexing list are assigned instance values or references to these instance values.
3. Verfahren nach Anspruch 1 oder 2, bei dem die Existenz von Positionsnummern mit Hilfe einer Schemadefinition bestimmt wird.3. The method of claim 1 or 2, wherein the existence of position numbers is determined with the help of a schema definition.
4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem der Indizierungsbaum ein B-Baum ist. 4. The method according to any one of the preceding claims, wherein the indexing tree is a B tree.
5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das strukturierte Dokument ein XML-Dokument ist.5. The method according to any one of the preceding claims, wherein the structured document is an XML document.
6. Verfahren zur Codierung eines strukturierten Dokuments, bei dem das strukturierte Dokument mit einem Verfahren nach einem der vorhergehenden Ansprüche indiziert wird und mit einem Codierverfahren, insbesondere einem MPEG-7 Verfahren codiert wird, wodurch ein codierter Datenstrom erzeugt wird.6. A method for encoding a structured document, in which the structured document is indexed with a method according to one of the preceding claims and is encoded with a coding method, in particular an MPEG-7 method, whereby an encoded data stream is generated.
7. Verfahren nach Anspruch 6, bei dem der codierte Datenstrom Offsets enthält, mit denen die Positionen von Einträgen des Indizierungsbaums oder der Indizierungsliste im Datenstrom signalisiert werden.7. The method according to claim 6, wherein the coded data stream contains offsets with which the positions of entries of the indexing tree or the indexing list in the data stream are signaled.
8. Verfahren zum Decodieren eines strukturierten Dokuments, wobei das Verfahren derart ausgestaltet ist, dass das nach Anspruch 6 oder Anspruch 7 codierte Dokument decodiert wird.8. A method for decoding a structured document, the method being designed such that the document encoded according to claim 6 or claim 7 is decoded.
9. Verfahren zum Codieren und Decodieren eines strukturierten Dokuments, umfassend ein Verfahren nach Anspruch 6 oder 7 und das Verfahren nach Anspruch 8.9. A method for encoding and decoding a structured document, comprising a method according to claim 6 or 7 and the method according to claim 8.
10. Codiervorrichtung, mit der ein Verfahren nach Anspruch 6 oder 7 durchführbar ist.10. Coding device with which a method according to claim 6 or 7 can be carried out.
11. Decodiervorrichtung, mit der ein Verfahren nach Anspruch 8 durchführbar ist.11. Decoding device with which a method according to claim 8 can be carried out.
12. Vorrichtung zum Codieren und Decodieren eines strukturierten Dokuments, mit der ein Verfahren nach Anspruch 9 durchführbar ist. 12. Device for coding and decoding a structured document, with which a method according to claim 9 can be carried out.
PCT/EP2004/051346 2003-07-15 2004-07-02 Method for the indexation of structured documents WO2005008521A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
DE10332055.5 2003-07-15
DE10332055 2003-07-15
DE10351896A DE10351896A1 (en) 2003-07-15 2003-11-06 Method for indexing structured documents
DE10351896.7 2003-11-06

Publications (1)

Publication Number Publication Date
WO2005008521A1 true WO2005008521A1 (en) 2005-01-27

Family

ID=34081648

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2004/051346 WO2005008521A1 (en) 2003-07-15 2004-07-02 Method for the indexation of structured documents

Country Status (1)

Country Link
WO (1) WO2005008521A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747558B2 (en) 2007-06-07 2010-06-29 Motorola, Inc. Method and apparatus to bind media with metadata using standard metadata headers
EP2264626A1 (en) * 2009-06-19 2010-12-22 Siemens Aktiengesellschaft Method and device for efficient searching for at least one query data element
CN102207945A (en) * 2010-05-11 2011-10-05 天津海量信息技术有限公司 Knowledge network-based text indexing system and method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240407B1 (en) * 1998-04-29 2001-05-29 International Business Machines Corp. Method and apparatus for creating an index in a database system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240407B1 (en) * 1998-04-29 2001-05-29 International Business Machines Corp. Method and apparatus for creating an index in a database system

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
COOPER B F ET AL: "A fast index for semistructured data", PROCEEDINGS OF THE 27TH INTERNATIONAL CONFERENCE ON VERY LARGE DATA BASES MORGAN KAUFMANN PUBLISHING ORLANDO, FL, USA, 2001, pages 341 - 350, XP002303292, ISBN: 1-55860-804-4 *
JOSÉ M MARTINEZ: "MPEG-7 OVERVIEW", March 2003 (2003-03-01), PATTAYA, XP002303291, Retrieved from the Internet <URL:http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm> [retrieved on 20041029] *
LEE K ET AL: "MANAGEMENT OF MULTI-STRUCTURED HYPERMEDIA DOCUMENTS: DATA MODEL, QUERY LANGUAGE, AND INDEXING SCHEME", MULTIMEDIA TOOLS AND APPLICATIONS, KLUWER ACADEMIC PUBLISHERS, BOSTON, US, vol. 4, no. 2, March 1997 (1997-03-01), pages 199 - 223, XP001001459, ISSN: 1380-7501 *
NIEDERMEIER U ET AL: "MPEG-7 binary format for XML data", PROCEEDINGS DCC 2002. DATA COMPRESSION CONFERENCE IEEE COMPUT. SOC LOS ALAMITOS, CA, USA, 2002, pages 467, XP002303293, ISBN: 0-7695-1477-4 *
SACKS-DAVIS R ET AL: "INDEXING DOCUMENTS FOR QUERIES ON STRUCTURE, CONTENT AND ATTRIBUTES", PROCEEDINGS OF THE INTERNATIONAL SYMPOSIUM ON DIGITAL MEDIA INFORMATION BASE, XX, XX, 26 November 1997 (1997-11-26), pages 236 - 245, XP000998611 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747558B2 (en) 2007-06-07 2010-06-29 Motorola, Inc. Method and apparatus to bind media with metadata using standard metadata headers
EP2264626A1 (en) * 2009-06-19 2010-12-22 Siemens Aktiengesellschaft Method and device for efficient searching for at least one query data element
US8788483B2 (en) 2009-06-19 2014-07-22 Siemens Aktiengesellschaft Method and apparatus for searching in a memory-efficient manner for at least one query data element
CN102207945A (en) * 2010-05-11 2011-10-05 天津海量信息技术有限公司 Knowledge network-based text indexing system and method

Similar Documents

Publication Publication Date Title
EP1766982B1 (en) Method for encoding an xml document, decoding method, encoding and decoding method, coding device, and encoding and decoding device
DE69530595T2 (en) SYSTEM AND METHOD FOR THE X.500 DATABASE STANDARD
EP0910829B1 (en) Database system
EP0855062B1 (en) Information system and process for storing data therein
DE10134229A1 (en) Computer supported method for automatic determination of differences in a data table comprising a large number of records and columns without having to have prior knowledge of the contents of the database table
DE60118973T2 (en) METHOD FOR INQUIRING A STRUCTURE OF COMPRESSED DATA
EP1561281B1 (en) Method for the creation of a bit stream from an indexing tree
AT518805A1 (en) A method for detecting abnormal conditions in a computer network
EP1276056B1 (en) Method for managing a Database
EP1166228A2 (en) Method for using fractal semantic networks for all kinds of data base appliances
EP1400124B1 (en) Method for improving the functions of the binary representation of mpeg-7 and other xml-based content descriptions
EP1616274B1 (en) Method for encoding a structured document
WO2005008521A1 (en) Method for the indexation of structured documents
DE10351896A1 (en) Method for indexing structured documents
EP1399857B1 (en) Method for rapidly searching elements or attributes or for rapidly filtering fragments in binary representations of structured documents
EP3411803B1 (en) Device and method for processing a binary-coded structure document
EP1160688A2 (en) Method and system to automatically link data records from at least one data source and system to retrieve linked data records
EP1787474A1 (en) Method for encoding an xml-based document
EP2530604B1 (en) Computer-implemented method and device for producing a structure tree
DE102010061280A1 (en) Method for technically realizable restructuring of data, involves storing contents of two components of tuples in memory as nodes of trees to be built, respectively, and outputting data structure formed from trees
DE102018129138A1 (en) Method and system for determining a pair of table columns for linking
DE10206215A1 (en) Method and device for automatically creating a data warehouse
WO2011044864A1 (en) Method and system for classifying objects
EP1655676A1 (en) Databasesystem
DE10339697A1 (en) Search request processing method e.g. for search engine and index service, involves dividing retrieval query using dismantling function for search machine inquiry and listing service inquiry

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
122 Ep: pct application non-entry in european phase