DE60224763T2 - Verfahren und Gerät zur Dateisuche, und Verfahren und Vorrichtung zur Erzeugung von Indexdateien - Google Patents

Verfahren und Gerät zur Dateisuche, und Verfahren und Vorrichtung zur Erzeugung von Indexdateien Download PDF

Info

Publication number
DE60224763T2
DE60224763T2 DE60224763T DE60224763T DE60224763T2 DE 60224763 T2 DE60224763 T2 DE 60224763T2 DE 60224763 T DE60224763 T DE 60224763T DE 60224763 T DE60224763 T DE 60224763T DE 60224763 T2 DE60224763 T2 DE 60224763T2
Authority
DE
Germany
Prior art keywords
file
records
management information
information
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60224763T
Other languages
English (en)
Other versions
DE60224763D1 (de
Inventor
Kenichiro Oita-shi Miyamoto
Yumiko Oita-shi Kitagawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of DE60224763D1 publication Critical patent/DE60224763D1/de
Application granted granted Critical
Publication of DE60224763T2 publication Critical patent/DE60224763T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

  • Die vorliegende Erfindung betrifft ein Verfahren und eine Einrichtung zum sofortigen Heraussuchen und Extrahieren von Daten aus einer zu durchsuchenden Datei wie beispielsweise einer CSV-Datei (Comma Separated Value File: kommagetrennte Datei) mit einer umfangreichen Dateigröße.
  • Das Ausgeben der herausgesuchten Daten von einer Datenbank in Form einer CSV-Datei ist wohlbekannt. Wenn herkömmlicherweise die Daten als CSV-Datei verwendet werden, ist es üblich gewesen, eine Datenbank mit höchstens ungefähr mehreren hundert KB zu verarbeiten.
  • Wenn herkömmlicherweise die Daten der CSV-Datei verwendet werden, besteht somit die Voraussetzung, da das von der Datenbank zuvor akkumulierte Resultat als Inhalt der Daten verwendet wird, dass die Größe der Datei ungefähr mehrere KB betragen muss.
  • Jedoch ist im Falle eines modernen großen DWH (Data Warehouse) mit vielen GB von Daten die akkumulierte CSV-Datei selbst eine gigantische Datei von mehreren hundert MB, und es dauert lange, Daten herauszusuchen und zu extrahieren.
  • In "Use of Tree Structures for Processing Files" von Sussenguth E H, Communications of the ACM, Bd. 26, Nr. 1, Januar 1983, XP009007879, wird die Verwendung von Baumstrukturen zur Suche in einer Datei und zum Ändern von Elementen in einer Datei diskutiert. Die Verwendung von solchen Strukturen wird mit Binärsuchtechniken und mit der Zuordnung einer verketteten Datei verglichen.
  • "Doubly-chained tree database organization analysis and design strategies" von Cardenas A F et al, The Computer Journal, Bd. 20, Nr. 1, Februar 1977, Seiten 15 bis 26, XP009007272, sieht eine Analyse und die Modellierung von doppelt verketteten Baumdatenbankstrukturen unter Verwendung von implementierungsorientierten Faktoren vor. Formulierungen werden für die durchschnittliche Zugriffszeit und Speicheranforderungen abgeleitet, wobei die Auswirkung von solchen Faktoren wie dem Wesen der vorgenommenen Abfrage auf die Leistung demonstriert wird.
  • "Use of Doubly-chained Tree Structures in File Organisation for Optimal Searching" von Suraweera F, Computer Journal, Oxford University Press, Surrey, GB, Bd. 29, Nr. 1, 1. Februar 1986, Seiten 52 bis 59, XP000743476, leitet einen Algorithmus zum Optimieren der doppelt verketteten Baumstruktur, die als statische Datenstruktur verwendet wird, zum Minimieren der Suchzeit ab. Die Dateipflege und Verfahren zum Ändern einer doppelt verketteten Baumdateistruktur sind auch offenbart.
  • "Triply-chained tree: an enhancement of doubly chained tree" von Famelis G M et al, Angewandte Informatik: Applied Informatics, Vieweg und Sohn Verlag GmbH, Braunschweig, Deutschland, Bd. 31, Nr. 1, 1989, Seiten 19 bis 25, XP000026622, untersucht eine Primärdatei, die Datensätze enthält, und verschiedenartige Abfragen zum Heraussuchen von Informationen aus diesen Datensätzen. Die Vorteile und Nachteile der Verwendung von doppelt verketteten Bäumen werden diskutiert, bevor eine dreifach verkettete Baumstruktur vorgestellt wird. Die relativen Vorzüge von doppelt verketteten Bäumen und kombinierten Indizes werden zusammengefasst.
  • Deshalb ist es wünschenswert, ein Dateidurchsuchungsverfahren und eine Dateidurchsuchungseinrichtung vorzusehen, mit denen Daten mit hoher Geschwindigkeit effektiv extrahiert werden können, auch wenn eine zu durchsuchende Datei (CSV-Datei) eine Datei mit einer Größe von mehreren hundert MB ist.
  • Es ist auch wünschenswert, ein Indexdateierstellungsverfahren und eine Indexdateierstellungsvorrichtung zum Erstellen einer Indexdatei zum effektiven Durchsuchen einer zu durchsuchenden Datei (CSV-Datei) vorzusehen.
  • Des weiteren ist es wünschenswert, ein Computerprogramm zum Realisieren der Dateidurchsuchungseinrichtung oder der Indexdateierstellungsvorrichtung vorzusehen, sowie ein Speicherprodukt (wie etwa ein Speichermedium), das dieses Computerprogramm speichert.
  • Aspekte der Erfindung sehen ein durch einen Computer ausführbares Indexdateierstellungsverfahren vor, eine Indexdateierstellungsvorrichtung sowie ein Programm zum Erstellen einer Indexdatei, wie sie in den unabhängigen Ansprüchen definiert sind. Ausführungsformen zum Durchsuchen einer Datei sind in den abhängigen Ansprüchen definiert.
  • Lediglich beispielhaft wird nun Bezug auf die beiliegenden Zeichnungen genommen, in denen:
  • 1 ein Blockdiagramm ist, das die Struktur einer Ausführungsform der vorliegenden Erfindung zeigt;
  • 2 ein Flussdiagramm zum Erläutern des Gesamtprozesses in der Ausführungsform von 1 ist;
  • 3 ein Beispiel für eine CSV-Datei und eine Indexdatei in dieser Ausführungsform zeigt;
  • 4 die rekursive Struktur der Indexdatei zeigt;
  • 5 ein Flussdiagramm ist, das einen Indexdateierstellungsprozess zeigt;
  • 6 die Verwaltungsstruktur unter Verwendung einer Indexdatei zeigt;
  • 7 ein Beispiel für die Bestimmung einer Unterbrechung einer Klassifikation zeigt;
  • 8A und 8B Beispiele für die Anzeige der Ausgabe von der CSV-Datei unter Verwendung der Indexdatei zeigen; und 9 die Effekte der vorliegenden Erfindung zeigt.
  • (1) Gesamtstruktur und Überblick über Prozesse der Ausführungsform
  • Die Gesamtstruktur und ein Überblick über die Prozesse einer Ausführungsform der vorliegenden Erfindung werden unter Verwendung des Blockdiagramms von 1 erläutert, das die Struktur dieser Ausführungsform zeigt.
  • Zuerst wird eine CSV-Datei 3 als zu durchsuchende Datei durch Extrahieren von Daten aus einer großen Datenbank 1, deren Größe zwischen mehreren Gigabyte und mehreren Terabyte liegt, durch eine Extraktionsverarbeitungseinheit 2 auf der Basis einer gegebenen Bedingung erstellt. Diese CSV-Datei rangiert zwischen mehreren hundert Megabyte und mehreren Gigabyte. Da die Erstellung einer CSV-Datei durch das Extrahieren von Daten aus einer Datenbank eine allgemein bekannte Technik ist, sei erwähnt, dass eine detaillierte Erläuterung der Extraktionsverarbeitungseinheit 2 weggelassen wird.
  • Um als Nächstes Daten aus der CSV-Datei 3 effektiv herauszusuchen und zu extrahieren, wird eine Indexdatei 5 durch eine Indexerstellungsverarbeitungseinheit 4 erstellt. In dieser Indexerstellungsverarbeitungseinheit 4 wird die Hierarchie der CSV-Datei 3 durch eine Hierarchieerkennungsverarbeitungseinheit 41 erkannt, und Knotenverwaltungsinformationen, die die Indexdatei 5 bilden, werden durch eine Knotenverwaltungsinformationserstellungsverarbeitungseinheit 42 erstellt.
  • Unter Verwendung dieser Indexdatei 5 sucht eine Dateidurchsuchungsverarbeitungseinheit 6 Daten aus der CSV-Datei 3 heraus, extrahiert sie und gibt die erhaltenen Daten aus. Wenn deshalb eine Aufforderung zum Durchsuchen durch eine Eingabeverarbeitungseinheit 61 empfangen wird, werden Daten durch eine Extraktionsverarbeitungseinheit 62 extrahiert und wird ein Ausgaberesultat 7 durch eine Ausgabeverarbeitungseinheit 63 ausgegeben. Es ist wünschenswert, wie es in den später beschriebenen 8A und 8B gezeigt ist, dass sich der Extraktionsmodus verändern lässt, indem ein Display für die Ausgabeverarbeitungseinheit 63 verwendet wird und indem ferner die Eingabeverarbeitungseinheit 61 dadurch realisiert wird, dass eine Angabe mit einer Zeigevorrichtung (wie zum Beispiel eine Angabe mit einem Mauskursor) auf dem Bildschirm des Displays erfolgt. Dies schließt jedoch eine Ausführungsform nicht aus, in der Daten als Druckmaterial ausgegeben werden.
  • Es sei erwähnt, dass die Extraktionsverarbeitungseinheit 2, die Indexerstellungsverarbeitungseinheit 4 und die Dateidurchsuchungsverarbeitungseinheit 6 durch das Installieren von Programmen zum Ausführen der jeweiligen Prozesse in jeweilig separater Hardware (Prozessoren, Computer) realisiert werden können und dass zwei oder alle der Prozesse durch dieselbe Hardware realisiert werden können (indem die Programme zum Ausführen der jeweiligen Prozesse in derselben Hardware installiert werden). Übrigens können die Programme, die bewirken, dass die Hardware ihre Verarbeitungsfunktionen ausführt (als Verarbeitungseinheit fungiert), durch Herunterladen der Programme von einem Speicherprodukt oder von Kommunikationsmedien in der Hardware installiert werden.
  • Unter Verwendung des Flussdiagramms von 2 zusätzlich zu 1 wird die folgende Beschreibung den Gesamtablauf der Prozesse dieser Ausführungsform erläutern, die durch solche Strukturen implementiert werden.
  • Zuerst akkumuliert die Extraktionsverarbeitungseinheit 2 detaillierte Daten von der Datenbank 1 (S1 von 2). Das akkumulierte Resultat wird in Form einer normalen CSV-Datei 3 erstellt (S2 von 2). Als Nächstes wird eine Analyse auf der Basis der CSV-Datei 3 ausgeführt, und die Indexerstellungsverarbeitungseinheit 4 erstellt eine Indexdatei 5, die zum Durchsuchen der CSV-Datei 3 verwendet wird (S3 von 2). Dieser Indexdateierstellungsprozess wird später unter Verwendung von 5 eingehend erläutert.
  • In dem Zustand, wenn die CSV-Datei 3 und die Indexdatei 5 durch die oben beschriebenen Prozesse erstellt worden sind, extrahiert die Dateidurchsuchungsverarbeitungseinheit 6, wenn durch den Nutzer eine Extraktionsbedingung spezifiziert wird, Daten aus der CSV-Datei 3 auf der Basis der Indexdatei 5 und zeigt die extrahierten Daten an (S4–S14 von 2). Dieser Datenextraktionsprozess wird später auch eingehend erläutert.
  • (2) Beispiel für die Struktur der CSV-Datei und der Indexdatei
  • 3 zeigt ein Beispiel für die CSV-Datei 3, die in dieser Ausführungsform extrahiert wird (die Prozesse von S1 und S2 von 2), und ein Beispiel für die Indexdatei 5, die durch Analysieren der CSV-Datei 3 erstellt wird (Prozess von S3 von 2). Zusätzlich ist ein Beispiel für die rekursive Struktur der Indexdatei in 4 gezeigt.
  • In der CSV-Datei 3 (der zu durchsuchenden Datei) dieser Ausführungsform sind, wie in 3 gezeigt, in der ersten Reihe die Attribute der Felder von nachfolgenden Reihen (Datensätze) eingetragen, und Daten, die zu verarbeiten sind, sind in den zweiten und nachfolgenden Reihen eingetragen. Ferner hat die CSV-Datei 3 die folgende Datenstruktur. In den Feldern von jeder Reihe (Datensatz) ist das erste Feld das oberste hierarchische Niveau, und nachfolgende Felder sind in dem vorhergehenden Feld enthalten (wobei sie niedrigere hierarchische Niveaus bilden). Mit anderen Worten: die Datenstruktur ist eine Baumstruktur.
  • Ferner hält die zu erstellende Indexdatei 5 die Informationen über Knoten eines niedrigeren Niveaus für jede Kategorie (Schlüsselzeichenkette) rekursiv. Jedes Element von Verwaltungsinformationen umfasst die folgenden Informationen.
    • • Eine Kategorie, die in einem Knoten enthalten ist (bei dem Beispiel von 3 "Kühlung und Heizung" und "Hausarbeit").
    • • Die oberste Datensatzposition und die Anzahl von Reihen bei Reihen (Datensätzen), die die Kategorie enthalten, bei der CSV-Datei 3.
    • • Einen Zeiger, der die Startposition der Knotenverwaltungsinformationen eines niedrigeren hierarchischen Niveaus bei der Indexdatei 5 angibt.
  • Da bei dem Beispiel von 3 das hierarchische Niveau von Produkthauptklassifikation – Produktunterklassifikation – Maschinenname in den Tabellenüberschriften der CSV-Datei 3 vorhanden ist, stellt die Tabellenüberschrift 1 in 4 die Produkthauptklassifikation dar, stellt die Tabellenüberschrift 2 die Produktunterklassifikation dar und stellt die Tabellenüberschrift 3 den Maschinennamen dar. Daher lauten die Verwaltungsinformationen bei der Tabellenüberschrift 1 3 – ➀, lauten die Verwaltungsinformationen bei der Tabellenüberschrift 2 3 – ➁ und lauten die Verwaltungsinformationen bei der Tabellenüberschrift 3 3 – ➂.
  • Ferner ist unter Bezugnahme auf das Beispiel von 3 gezeigt, dass die Verwaltungsinformationen bei Produkthauptklassifikation (3 – ➀) die Kategorien "Kühlung und Heizung" und "Hausarbeit" enthalten und die oberste Datensatzposition sowie die Anzahl von Reihen (Anzahlinformationen) bezüglich jeder der Kategorien "Kühlung und Heizung" und "Hausarbeit" bei der CSV-Datei 3 und einen Zeiger, der die Startposition des nächsten hierarchischen Niveaus von jeder der Kategorien "Kühlung und Heizung" und "Hausarbeit" angibt, in der Indexdatei 5 speichern.
  • Ähnlich ist bei den Verwaltungsinformationen bei der Kategorie "Kühlung und Heizung" (3 – ➁) gezeigt, dass "Klimaanlage" und "Lüfter" auf einem niedrigeren hierarchischen Niveau liegen und die oberste Datensatzposition und die Anzahl von Reihen bei den Reihen bezüglich jeder der Kategorien "Klimaanlage" und "Lüfter" bei der CSV-Datei 3 sowie ein Zeiger, der die Startposition des nächsten hierarchischen Niveaus von jeder der Kategorien "Klimaanlage" und "Lüfter" angibt, in der Indexdatei 5 gespeichert sind.
  • Zusätzlich ist bei der Kategorie "Klimaanlage" (3 – ➂) gezeigt, dass "AIR01" und "AIR02" auf einem niedrige ren hierarchischen Niveau liegen und die oberste Datensatzposition und die Anzahl von Reihen bei der Kategorie in dem niedrigeren hierarchischen Niveau bei der CSV-Datei 3 sowie ein Zeiger, der die Startposition des niedrigeren hierarchischen Niveaus angibt, in der Indexdatei 5 gespeichert sind.
  • Somit speichert die Indexdatei 5 die obersten Datensatzpositionen, die Anzahl von Objektreihen, etc. entsprechend der Anzahl von Tabellenüberschriften rekursiv. In einem DBMS sind Datenreiheninformationen innerhalb eines Datenverwaltungsbereiches zum Zweck einer Suche unter Verwendung eines Index gespeichert. Demgegenüber werden mit der Technik dieser Ausführungsform die Startposition von Daten und die Anzahl von Objektreihen durch das Analysieren der Inhaltsdaten der CSV-Datei 3 bei jeder Kategorie im Voraus herausgesucht und als externe Datei gespeichert.
  • (3) Indexdateierstellungsprozess
  • Die Indexdatei 5 wird erstellt, indem die Informationen über die oberste Datensatzposition und die Anzahl von Reihen bei der CSV-Datei 3 in einer Indexdatei auf der Basis jeder Kategorie in der Tabellenüberschrift der CSV-Datei 3 gespeichert werden. Dieser Erstellungsprozess wird unter Verwendung des Flussdiagramms von 5, der Erläuterungsansicht der Verwaltungsstruktur von 6 und der Erläuterungsansicht des Unterbrechungsbestimmungsprozesses von 7 erklärt.
  • Zuerst wird die Anzahl von Tabellenüberschriften der CSV-Datei 3 (der zu durchsuchenden Datei), die den ersten Eintrag darzustellen hat, erhalten (S21 von 5). Diese Anzahl von Tabellenüberschriften wird als Eingangsparameter zusammen mit der CSV-Datei 3 von dem Nutzer dem Verarbeitungsprogramm zugeführt, wenn ein Index erstellt wird. Bei dem Beispiel von 4 beträgt die Anzahl von Tabellenüberschriften drei, und zwar Produkthauptklassifikation – Produktunterklassifikation – Maschinenname.
  • Als Nächstes wird eine Reihe der CSV-Datei 3 gelesen (S22 von 5). Dabei ist die oberste Datensatzposition (Versetzung vom obersten Ende der CSV-Datei 3) bei jeder Kategorie bereits erhalten worden. Durch das Lesen der ersten Reihe wird eine Verwaltungsstruktur in einer horizontalen Richtung erzeugt, die mit Kühlung und Heizung – Klimaanlage – AIR01 verkettet ist (6).
  • Ab der zweiten Reihe werden die Etiketten der Kategorien sequentiell verglichen, indem die CSV-Datei 3 gelesen wird (S23 von 5). Bei dem Vergleichsverfahren wird ausgehend von einer Tabellenüberschrift mit höherem Niveau sequentiell bestimmt, ob die Kategorie unterbrochen ist (was auf eine Kategorieveränderung hindeutet) (S24 von 5). Wenn die Kategorie nicht unterbrochen ist, da der entsprechende Knoten derselbe wie jener der vorhergehenden Reihe ist, wird die Anzahl der Reihen um eins inkrementiert (S25 von 5).
  • Wenn die Kategorie unterbrochen ist, wird eine Kette in vertikaler Richtung hinzugefügt. Falls dabei ein Knoten mit einem Niveau, das höher als jenes des entsprechenden Knotens ist, unterbrochen ist, wird bestimmt, dass die Kategorie unterbrochen ist, und es wird eine niedrigere Kategorie hinzugefügt (S26 von 5).
  • Nach der Verarbeitung wird bestimmt, ob keine weitere Tabellenüberschrift vorhanden ist, d. h., ob die Verarbeitung für die Anzahl von Knoten entsprechend der eingegebenen Anzahl von Tabellenüberschriften wiederholt worden ist (im Falle von 3, ob die Verarbeitung für drei Knoten wie derholt wurde) (S27 von 5). Wenn die Verarbeitung für die Anzahl von Tabellenüberschriften nicht wiederholt worden ist, wird die Verarbeitung wiederholt, um das Kategorie-Etikett eines Knotens mit niedrigerem Niveau zu vergleichen.
  • Nachdem die Vergleiche für die Knoten der Tabellenüberschriften erfolgt sind, wird bestimmt, ob die CSV-Datei 3 zu Ende ist (S28 von 5). Wenn die CSV-Datei 3 nicht zu Ende ist, wird der Prozess zum Lesen der nächsten Reihe für die Anzahl von Reihen in der CSV-Datei 3 wiederholt. Falls zum Beispiel, wie in 7 gezeigt, die zuvor gelesenen Tabellenkategorien in der CSV-Datei 3 "Kühlung und Heizung" – "Klimaanlage" – "Zwischensumme" lauten und die in diesem Fall gelesene Reihe "Kühlung und Heizung" – "Lüfter" – "FAN01" lautet, werden die jeweiligen Kategorien hinsichtlich der Anzahl von Tabellenüberschriften sequentiell verglichen.
  • Da als Resultat die Produkthauptklassifikation nicht unterbrochen ist, wird die Anzahl von Reihen um eins inkrementiert. Da die Produktunterklassifikation unterbrochen ist, wird dann eine Kette für Lüfter in einer vertikalen Richtung von Klimaanlage hinzugefügt. Da darüber hinaus eine Unterbrechung bei Lüfter vorhanden ist, wird eine Kette für FAN01 in horizontaler Richtung von Lüfter hinzugefügt (wenn ein Knoten mit höherem Niveau unterbrochen ist, ist auch das niedrigere Niveau unterbrochen) (der Teil, der in 6 mit * gekennzeichnet ist). Indem diese Verarbeitung wiederholt wird, werden die Beziehung von Knoten und die Anzahl von Reihen in den Tabellenüberschriftskategorien in dem Speicher alle erweitert (gespeichert). Schließlich werden die Verwaltungsinformationen zu diesen Elementen in eine Datei als Indexdatei 5 geschrieben (S29 von 5).
  • Genauer gesagt: bei dem obersten hierarchischen Niveau als Ursprung werden die Kategorien "Kühlung und Heizung" und "Hausarbeit", die als dieses hierarchische Niveau erkannt wurden, als die Titel von Kategorien registriert, die in den Verwaltungsinformationen der Tabellenüberschrift 1 enthalten sind, werden anschließend die oberste Datensatzposition und die Anzahl von Reihen bei der CSV-Datei 3 sowohl für "Kühlung und Heizung" als auch für "Hausarbeit" registriert und wird schließlich ein Zeiger, der eine Startposition in der Indexdatei 5 angibt, für Verwaltungsinformationen eines niedrigeren hierarchischen Niveaus registriert, das in jeder der Kategorien "Kühlung und Heizung" und "Hausarbeit" enthalten ist (3 – ➀).
  • Danach werden durch sequentielles Registrieren der Titel von Kategorien für jedes hierarchische Niveau, der obersten Datensatzposition und der Anzahl von Reihen von jeder der Kategorien in der CSV-Datei 3 sowie eines Zeigers, der die Startposition von Verwaltungsinformationen eines niedrigeren hierarchischen Niveaus angibt, das in jeder der Kategorien in der Indexdatei 5 in derselben Weise enthalten ist, die Verwaltungsinformationen erstellt.
  • (4) Prozess zum Extrahieren von Daten aus der CSV-Datei unter Verwendung der Indexdatei
  • Unter Bezugnahme auf das Flussdiagramm von 2 erläutert die folgende Beschreibung einen Prozess zum Extrahieren von Daten aus der CSV-Datei 3 unter Verwendung der Indexdatei 5.
  • Zuerst selektiert der Endnutzer ein Anzeigeverfahren (S4 von 2). Dies bedeutet, dass entweder die Anzeige der Datenextraktion selektiert wird, die in 8A gezeigt ist (S5–S8 von 2), oder die Anzeige in der Drill- Down-Vorgehensweise, die in 8B gezeigt ist (S10–S14 von 2).
  • Wenn der Datenextraktionsprozess selektiert wird (S5 von 2), werden anschließend Extraktionsbedingungen spezifiziert (S6 von 2). Die Extraktionsbedingungen sind zum Beispiel solche Bedingungen wie Produkthauptklassifikation = "Kühlung und Heizung" und Produktunterklassifikation = "Klimaanlage". Die Aufzeichnungsstartposition und die Anzahl von Objektreihen bei der CSV-Datei 3, die diesen Extraktionsbedingungen entsprechen, werden von der Indexdatei 5 erhalten (S7 von 2). Da die Indexdatei 5 eine rekursive Struktur hat, ist es möglich, die Aufzeichnungsstartposition und die Anzahl von Objektreihen auf der Basis der Extraktionsbedingungen direkt herauszusuchen. Auf der Basis der Aufzeichnungsstartposition und der Anzahl von Objektreihen werden Anzeigedaten aus der CSV-Datei 3 extrahiert (S8 von 2). Die Extraktion selbst erfolgt durch Öffnen, Lesen und Schließen der Datei in üblicher Weise. Die extrahierten Daten umfassen mehrere Reihen und werden auf dem Bildschirm angezeigt, auf dem der Endnutzer die Informationen nutzt (S9 von 2). Obwohl die Extraktion und die Anzeige von Daten durch den Endnutzer wiederholt werden, ist es möglich, Daten, die der Endnutzer anzeigen lassen möchte, aus der CSV-Datei 3 unter Verwendung der Indexdatei 5 sofort zu extrahieren. Ein Beispiel für das in solch einer Weise angezeigte Ausgaberesultat ist in 8A gezeigt.
  • Wenn andererseits die Ausgabe nach der Drill-Down-Vorgehensweise selektiert wird (S10 von 2), werden Drill-Down-Bedingungen durch die Eingabe spezifiziert (S11 von 2). Ein Knoten einer Kategorie mit niedrigerem Niveau, der den Drill-Down-Bedingungen entspricht, wird herausge sucht (S12 von 2), die Datensatzstartposition der Kategorie wird von der Indexdatei 5 erhalten (S13 von 2), und dann werden Daten von der CSV-Datei 3 extrahiert (S14 von 2). Dies wird für die Anzahl von spezifizierten Kategorien wiederholt.
  • Wenn zum Beispiel die Kategorie "Kühlung und Heizung" angeklickt wird, wie in 3 gezeigt, wird dann, da die Kategorie (Schlüsselzeichenkette) "Kühlung und Heizung" in dem obersten hierarchischen Niveau "Produkthauptklassifikation" existiert, die Startposition von Daten mit einem hierarchischen Niveau, das niedriger als jenes der Kategorie "Kühlung und Heizung" ist, erkannt, und die Verwaltungsinformationen zum Knoten bezüglich "Kühlung und Heizung" werden gelesen. Da "Klimaanlage" und "Lüfter" in den Verwaltungsinformationen existieren, werden die obersten Datensatzpositionen bezüglich dieser Kategorien bei der CSV-Datei 3 herausgesucht, und Daten werden auf der Basis der obersten Datensatzpositionen extrahiert. Da bei diesem Beispiel eine Einstellung erfolgt, um einen Datensatz einer Kategorie, die ein Zwischensumme sein soll, zu extrahieren, werden die Informationen "Klimaanlage", "Lüfter" und "Zwischensumme" in einem niedrigeren hierarchischen Niveau bezüglich "Kühlung und Heizung" angezeigt (8B).
  • Wie oben beschrieben, ist es gemäß dieser Ausführungsform unter Einsatz der Indexdatei 5 möglich, die Geschwindigkeit der Datenextraktion aus der großen CSV-Datei 3 signifikant zu erhöhen. Ein Beispiel für diesen vorteilhaften Effekt ist in 9 gezeigt.
  • Übrigens ist es zusätzlich zur Datenextraktion auch möglich, die Indexdatei 5 als Drill-Funktion für einen anderen Zweck zu verwenden.
  • Da darüber hinaus die Indexdatei 5 eine separate Datei ist, die von der CSV-Datei 3 unabhängig ist, hat sie keinen Einfluss auf die ursprüngliche CSV-Datei 3. Anders als bei einer herkömmlichen Datenbank, in der Daten und ein Index vereinigt sind, steht die CSV-Datei 3 zur Verwendung als eingegebener Ursprung zur Verfügung.

Claims (7)

  1. Indexdateierstellungsverfahren, das durch einen Computer ausführbar ist, zum Erstellen einer Indexdatei (5) zum Durchsuchen einer zu durchsuchenden Datei (3), welche zu durchsuchende Datei (3) Aufzeichnungen mit Feldern enthält, die jedem von einer Vielzahl von hierarchischen Niveaus zugeordnet sind, und so strukturiert ist, dass Aufzeichnungen mit derselben Schlüsselzeichenkette in einem Feld auf demselben hierarchischen Niveau seriell angeordnet sind, und bei der bei jeder Aufzeichnung das erste Feld das oberste hierarchische Niveau hat und nachfolgende Felder niedrigere hierarchische Niveaus bilden, wobei die Indexdatei (5) Verwaltungsinformationen für jeden der Knoten in einer Baumstruktur enthält, die durch Klassifizieren der Aufzeichnungen in der zu durchsuchenden Datei (3) unter Verwendung der Vielzahl von hierarchischen Niveaus erhalten wird, welche Verwaltungsinformationen einen Titel einer in jedem Knoten enthaltenen Schlüsselzeichenkette umfassen, wobei das Verfahren die Schritte umfasst, die durch einen Computer ausgeführt werden: Erhalten (S21) der Anzahl von hierarchischen Niveaus; und Ausführen (S23–S26), für jeden Knoten von allen von der erkannten Anzahl von hierarchischen Niveaus, eines Knotenverwaltungsinformationserstellungsprozesses, um Knotenverwaltungsinformationen zu erstellen, die für jeden Knoten vorgesehen sind; welcher Knotenverwaltungsinformationserstellungsprozess enthält: das Erhalten einer Position einer obersten Aufzeichnung von Aufzeichnungen, die eine Schlüsselzeichenkette haben, die in dem hierarchischen Niveau enthalten ist, von jedem Knoten in der zu durchsuchenden Datei (3), Detektieren der Anzahl von Aufzeichnungen, die dieselbe Schlüsselzeichenkette wie in der obersten Aufzeichnung haben, durch das Lesen von Aufzeichnungen, die der obersten Aufzeichnung folgen, und Schreiben von Informationen über die Position der obersten Aufzeichnung und Informationen über die Anzahl der Aufzeichnungen in die Knotenverwaltungsinformationen als Startpositionsinformationen und Anzahlinformationen zusammen mit einem Zeiger, der eine Position in der Indexdatei der Knotenverwaltungsinformationen eines niedrigeren hierarchischen Niveaus angibt.
  2. Dateidurchsuchungsverfahren, das durch einen Computer ausführbar ist, zum Durchsuchen einer zu durchsuchenden Datei (3), welche zu durchsuchende Datei (3) Aufzeichnungen mit Feldern enthält, die jedem von einer Vielzahl von hierarchischen Niveaus zugeordnet sind, und so strukturiert ist, dass Aufzeichnungen mit derselben Schlüsselzeichenkette in einem Feld auf demselben hierarchischen Niveau seriell angeordnet sind, und bei der bei jeder Aufzeichnung das erste Feld das oberste hierarchische Niveau hat und nachfolgende Felder niedrigere hierarchische Niveaus bilden, welches Verfahren die Schritte umfasst, die durch einen Computer ausgeführt werden: Erstellen (S3) einer Indexdatei (5) unter Verwendung des Verfahrens von Anspruch 1; Akzeptieren (S5, S6; S10, S11) einer Instruktion zum Suchen nach Daten bezüglich einer spezifizierten Schlüsselzeichenkette in der zu durchsuchenden Datei (3), welche Instruktion die Selektion entweder einer Datenextraktions ausgabe oder einer Ausgabe nach der Drill-down-Vorgehensweise enthält; Heraussuchen (S7; S12, S13), aus der Indexdatei (5), von Verwaltungsinformationen über eine oder mehrere Aufzeichnungen bezüglich der spezifizierten Schlüsselzeichenkette in der zu durchsuchenden Datei; Extrahieren (S8; S14) von Daten von der einen oder den mehreren Aufzeichnungen aus der zu durchsuchenden Datei (3); und Ausgeben (S9) der extrahierten Daten; bei dem die Schritte des Heraussuchens und des Extrahierens bei Selektion der Datenextraktionsausgabe umfassen: Heraussuchen (S7) von Startpositionsinformationen und Anzahlinformationen als Verwaltungsinformationen über Aufzeichnungen bezüglich der spezifizierten Schlüsselzeichenkette und Extrahieren (S8) von Daten einer Anzahl von Aufzeichnungen, die durch die Anzahlinformationen spezifiziert ist, aus einer Position, die durch die Startpositionsinformationen spezifiziert ist; und bei Selektion der Ausgabe nach der Drill-down-Vorgehensweise umfassen: Heraussuchen (S12, S13), auf der Basis eines Zeigers, einer Startposition einer Aufzeichnung der Knotenverwaltungsinformationen des niedrigeren hierarchischen Niveaus und Extrahieren (S14) von Daten der Aufzeichnung auf der Basis der herausgesuchten Startposition der Aufzeichnung.
  3. Indexdateierstellungsvorrichtung, die durch ein Computerprogramm realisiert wird, das in Hardware installiert ist, zum Erstellen einer Indexdatei (5) zum Durchsuchen einer zu durchsuchenden Datei (3), welche zu durch suchende Datei (3) Aufzeichnungen mit Feldern enthält, die jedem von einer Vielzahl von hierarchischen Niveaus zugeordnet sind, und so strukturiert ist, dass Aufzeichnungen mit derselben Schlüsselzeichenkette in einem Feld auf demselben hierarchischen Niveau seriell angeordnet sind, und bei der bei jeder Aufzeichnung das erste Feld das oberste hierarchische Niveau hat und nachfolgende Felder niedrigere hierarchische Niveaus bilden, wobei die Indexdatei (5) Verwaltungsinformationen für jeden der Knoten in einer Baumstruktur enthält, die durch Klassifizieren der Aufzeichnungen in der zu durchsuchenden Datei (3) unter Verwendung der Vielzahl von hierarchischen Niveaus erhalten wird, welche Verwaltungsinformationen einen Titel einer in jedem Knoten enthaltenen Schlüsselzeichenkette umfassen, wobei die Vorrichtung umfasst: eine Erkennungsverarbeitungseinheit der hierarchischen Anzahl (41) zum Erhalten der Anzahl von hierarchischen Niveaus; und eine Knotenverwaltungsinformationserstellungseinheit (42) zum Ausführen, für Knoten von allen von der Anzahl von hierarchischen Niveaus, die durch die Erkennungsverarbeitungseinheit der hierarchischen Anzahl (41) erkannt wurde, eines Knotenverwaltungsinformationserstellungsprozesses, um Knotenverwaltungsinformationen zu erstellen, die für jeden Knoten vorgesehen sind; bei der die Knotenverwaltungsinformationserstellungsdatei (42) eine Position einer obersten Aufzeichnung von Aufzeichnungen, die eine Schlüsselzeichenkette haben, die in dem hierarchischen Niveau enthalten ist, von jedem Knoten in der zu durchsuchenden Datei (3) erhält, die Anzahl von Aufzeichnungen detektiert, die dieselbe Schlüsselzeichenkette wie in der obersten Aufzeichnung haben, indem Aufzeichnungen gelesen werden, die der obersten Aufzeichnung folgen, und Informationen über die Position der obersten Aufzeichnung und Informationen über die Anzahl der Aufzeichnungen in die Knotenverwaltungsinformationen als Startpositionsinformationen und Anzahlinformationen zusammen mit einem Zeiger schreibt, der eine Position in der Indexdatei der Knotenverwaltungsinformationen mit einem niedrigeren hierarchischen Niveau angibt.
  4. Vorrichtung nach Anspruch 3, ferner mit: einer Eingabeeinheit (61) zum Erteilen einer Instruktion zum Suchen nach Daten bezüglich einer spezifizierten Schlüsselzeichenkette in der zu durchsuchenden Datei (3), welche Instruktion die Selektion entweder einer Datenextraktionsausgabe oder einer Ausgabe nach der Drill-down-Vorgehensweise enthält; einer Sucheinheit (62) zum Heraussuchen, aus der Indexdatei (5), von Verwaltungsinformationen über eine oder mehrere Aufzeichnungen bezüglich der spezifizierten Schlüsselzeichenkette in der zu durchsuchenden Datei; einer Extraktionseinheit (62) zum Extrahieren von Daten von der einen oder den mehreren Aufzeichnungen aus der zu durchsuchenden Datei (3); und einer Ausgabeeinheit (63) zum Ausgeben der extrahierten Daten; bei der bei Selektion der Datenextraktionsausgabe die Sucheinheit (62) Startpositionsinformationen und Anzahlinformationen als Verwaltungsinformationen über Aufzeichnungen bezüglich der spezifizierten Schlüsselzeichenkette heraussucht und die Extraktionseinheit (62) Daten einer Anzahl von Aufzeichnungen, die durch die Anzahlinformationen spezifiziert ist, aus einer Position extrahiert, die durch die Startpositionsinformationen spezifiziert ist; und bei Selektion der Ausgabe nach der Drill-down-Vorgehensweise die Sucheinheit (62), auf der Basis des Zeigers, eine Startposition einer Aufzeichnung der Knotenverwaltungsinformationen des niedrigeren hierarchischen Niveaus heraussucht und die Extraktionseinheit (62) Daten der Aufzeichnung auf der Basis der herausgesuchten Startposition der Aufzeichnung extrahiert.
  5. Computerprogramm zum Instruieren eines Computers, eine Indexdatei (5) zum Durchsuchen einer zu durchsuchenden Datei (3) zu erstellen, welche zu durchsuchende Datei (3) Aufzeichnungen mit Feldern enthält, die jedem von einer Vielzahl von hierarchischen Niveaus zugeordnet sind, und so strukturiert ist, dass Aufzeichnungen mit derselben Schlüsselzeichenkette in einem Feld auf demselben hierarchischen Niveau seriell angeordnet sind, und bei der bei jeder Aufzeichnung das erste Feld das oberste hierarchische Niveau hat und nachfolgende Felder niedrigere hierarchische Niveaus bilden, wobei die Indexdatei (5) Verwaltungsinformationen für jeden der Knoten in einer Baumstruktur enthält, die durch Klassifizieren der Aufzeichnungen in der zu durchsuchenden Datei (3) unter Verwendung der Vielzahl von hierarchischen Niveaus erhalten wird, welche Verwaltungsinformationen einen Titel einer in jedem Knoten enthaltenen Schlüsselzeichenkette umfassen, wobei das Programm den Computer instruiert zum Erhalten (S21) der Anzahl von hierarchischen Niveaus; und Ausführen (S23–S26), für jeden Knoten von allen von der erkannten Anzahl von hierarchischen Niveaus, eines Knotenverwaltungsinformationserstellungsprozesses, um Knotenverwaltungsinformationen zu erstellen, die für jeden Knoten vorgesehen sind; bei dem der Knotenverwaltungsinformationserstellungsprozess enthält: das Erhalten einer Position einer obersten Aufzeichnung von Aufzeichnungen, die eine Schlüsselzeichenkette haben, die in dem hierarchischen Niveau enthalten ist, von jedem Knoten in der zu durchsuchenden Datei (3), Detektieren der Anzahl von Aufzeichnungen, die dieselbe Schlüsselzeichenkette wie in der obersten Aufzeichnung haben, durch das Lesen von Aufzeichnungen, die der obersten Aufzeichnung folgen, und Schreiben von Informationen über die Position der obersten Aufzeichnung und Informationen über die Anzahl der Aufzeichnungen in die Knotenverwaltungsinformationen als Startpositionsinformationen und Anzahlinformationen zusammen mit einem Zeiger, der eine Position in der Indexdatei der Knotenverwaltungsinformationen eines niedrigeren hierarchischen Niveaus angibt.
  6. Computerprogramm zum Instruieren eines Computers, eine zu durchsuchende Datei (3) unter Verwendung der durch das Computerprogramm von Anspruch 5 erstellten Indexdatei (5) zu durchsuchen, welche zu durchsuchende Datei (3) Aufzeichnungen mit Feldern enthält, die jedem von einer Vielzahl von hierarchischen Niveaus zugeordnet sind, und so strukturiert ist, dass Aufzeichnungen mit derselben Schlüsselzeichenkette in einem Feld auf demselben hierarchischen Niveau seriell angeordnet sind, und bei der bei jeder Aufzeichnung das erste Feld das oberste hierarchische Niveau hat und nachfolgende Felder niedrigere hierarchische Niveaus bilden, welches Programm den Computer instruiert, die Schritte auszuführen: Akzeptieren (S5, S6) einer Instruktion zum Suchen nach Daten bezüglich einer spezifizierten Schlüsselzeichenkette in der zu durchsuchenden Datei (3), welche Instruktion die Selektion entweder einer Datenextraktionsausgabe oder einer Ausgabe nach der Drill-down-Vorgehensweise enthält; Heraussuchen (S7; S12, S13), aus der Indexdatei (5), von Verwaltungsinformationen über eine oder mehrere Aufzeichnungen bezüglich der spezifizierten Schlüsselzeichenkette; Extrahieren (S8; S14) von Daten von der einen oder den mehreren Aufzeichnungen aus der zu durchsuchenden Datei (3); und Ausgeben (S9) der extrahierten Daten; bei dem die Schritte des Heraussuchens und des Extrahierens bei Selektion der Datenextraktionsausgabe umfassen: Heraussuchen (S7) von Startpositionsinformationen und Anzahlinformationen als Verwaltungsinformationen über Aufzeichnungen bezüglich der spezifizierten Schlüsselzeichenkette und Extrahieren (S8) von Daten einer Anzahl von Aufzeichnungen, die durch die Anzahlinformationen spezifiziert ist, aus einer Position, die durch die Startpositionsinformationen spezifiziert ist; und bei Selektion der Ausgabe nach der Drill-down-Vorgehensweise umfassen: Heraussuchen (S12, S13), auf der Basis des Zeigers, einer Startposition einer Aufzeichnung der Knotenverwaltungsinformationen des niedrigeren hierarchi schen Niveaus und Extrahieren (S14) von Daten der Aufzeichnung auf der Basis der herausgesuchten Startposition der Aufzeichnung.
  7. Computerlesbares Speicherprodukt, das ein Computerprogramm nach Anspruch 5 oder 6 speichert.
DE60224763T 2001-11-26 2002-11-25 Verfahren und Gerät zur Dateisuche, und Verfahren und Vorrichtung zur Erzeugung von Indexdateien Expired - Lifetime DE60224763T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001359788A JP4490012B2 (ja) 2001-11-26 2001-11-26 ファイル検索装置、ファイル検索プログラム
JP2001359788 2001-11-26

Publications (2)

Publication Number Publication Date
DE60224763D1 DE60224763D1 (de) 2008-03-13
DE60224763T2 true DE60224763T2 (de) 2009-01-22

Family

ID=19170730

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60224763T Expired - Lifetime DE60224763T2 (de) 2001-11-26 2002-11-25 Verfahren und Gerät zur Dateisuche, und Verfahren und Vorrichtung zur Erzeugung von Indexdateien

Country Status (4)

Country Link
US (1) US7143086B2 (de)
EP (1) EP1315103B1 (de)
JP (1) JP4490012B2 (de)
DE (1) DE60224763T2 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010044796A1 (en) * 2000-05-19 2001-11-22 Hiroyasu Fujiwara Totalization system and recording medium
US20050251716A1 (en) * 2004-05-07 2005-11-10 International Business Machines Corporation Software to test a storage device connected to a high availability cluster of computers
US7783615B1 (en) * 2005-09-30 2010-08-24 Emc Corporation Apparatus and method for building a file system index
JP4328762B2 (ja) * 2005-12-06 2009-09-09 キヤノン株式会社 情報処理装置、情報処理方法、プログラム及び記憶媒体
US7747628B2 (en) * 2006-04-05 2010-06-29 Computer Associates Think, Inc. System and method for automated construction, retrieval and display of multiple level visual indexes
JP4193863B2 (ja) * 2006-04-18 2008-12-10 セイコーエプソン株式会社 インデックス作成機能付き携帯機器、その制御方法及びそのプログラム
JP4861078B2 (ja) * 2006-06-30 2012-01-25 富士通株式会社 索引作成プログラム、索引作成装置および索引作成方法
SG140510A1 (en) * 2006-09-01 2008-03-28 Yokogawa Electric Corp System and method for database indexing, searching and data retrieval
US7873625B2 (en) * 2006-09-18 2011-01-18 International Business Machines Corporation File indexing framework and symbolic name maintenance framework
US9009655B2 (en) * 2008-09-28 2015-04-14 KOUSOKUYA, Inc. Code string search apparatus, search method, and program
JP5544118B2 (ja) * 2009-06-30 2014-07-09 株式会社日立製作所 データ処理装置、及び処理方法
CA2772746C (en) * 2009-08-31 2019-06-11 Exalead Trusted query system and method
JP2011065546A (ja) 2009-09-18 2011-03-31 Hitachi Solutions Ltd ファイル検索システム及びプログラム
US8407588B1 (en) 2009-10-22 2013-03-26 The Boeing Company Large columnar text file editor
JP5190898B2 (ja) * 2010-01-18 2013-04-24 株式会社高速屋 コード列検索装置、検索方法及びプログラム
JP5337745B2 (ja) 2010-03-08 2013-11-06 株式会社日立製作所 データ処理装置
US8965921B2 (en) * 2012-06-06 2015-02-24 Rackspace Us, Inc. Data management and indexing across a distributed database
JP6044377B2 (ja) * 2013-02-07 2016-12-14 株式会社デンソー 地点検索装置
US9946743B2 (en) * 2015-01-12 2018-04-17 Cisco Technology, Inc. Order encoded manifests in a content centric network
JP6863006B2 (ja) * 2017-03-30 2021-04-21 富士通株式会社 ファイル生成プログラム、ファイル生成方法およびファイル生成装置
CN110019019B (zh) * 2019-03-21 2023-08-22 广东瑞恩科技有限公司 数据文件管理方法、装置、设备及计算机可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5257365A (en) * 1990-03-16 1993-10-26 Powers Frederick A Database system with multi-dimensional summary search tree nodes for reducing the necessity to access records
US5497485A (en) * 1993-05-21 1996-03-05 Amalgamated Software Of North America, Inc. Method and apparatus for implementing Q-trees
CA2117846C (en) * 1993-10-20 2001-02-20 Allen Reiter Computer method and storage structure for storing and accessing multidimensional data
JP2001167087A (ja) * 1999-12-14 2001-06-22 Fujitsu Ltd 構造化文書検索装置,構造化文書検索方法,構造化文書検索用プログラム記録媒体および構造化文書検索用インデックス作成方法
SG103289A1 (en) * 2001-05-25 2004-04-29 Meng Soon Cheo System for indexing textual and non-textual files

Also Published As

Publication number Publication date
EP1315103A1 (de) 2003-05-28
US20030101171A1 (en) 2003-05-29
JP4490012B2 (ja) 2010-06-23
DE60224763D1 (de) 2008-03-13
JP2003162545A (ja) 2003-06-06
EP1315103B1 (de) 2008-01-23
US7143086B2 (en) 2006-11-28

Similar Documents

Publication Publication Date Title
DE60224763T2 (de) Verfahren und Gerät zur Dateisuche, und Verfahren und Vorrichtung zur Erzeugung von Indexdateien
DE69809964T2 (de) Online-datenbank ausbeutung
DE112020002600T5 (de) Entdecken einer semantischen bedeutung von datenfeldern anhand von profildaten der datenfelder
DE60121231T2 (de) Datenverarbeitungsverfahren
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE69131941T2 (de) System und verfahren für informationsauffindung
DE60209572T2 (de) Verfahren und vorrichtung zur automatischen erkennung von datentypen für die datentypenabhängige verarbeitung
DE69526168T2 (de) Verfahren und Gerät zur Klassifikation von Dokumentinformationen
DE10028688B4 (de) Methode, System und Programm für eine Verbindungsoperation in einer mehrspaltigen Tabelle sowie in Satellitentabellen mit doppelten Werten
DE69636761T2 (de) Speichern und wiederauffinden von geordneten schlüsselmengen in einem kompakten 0-kompletten baum
DE60004687T2 (de) Verfahren zur thematischen klassifikation von dokumenten, modul zur thematischen klassifikation und ein derartiges modul beinhaltende suchmaschine
DE69112694T2 (de) Verfahren zum Betrieb eines Datenverarbeitungssystems zur Ausführung von Datenbanktransaktionen.
DE69431351T2 (de) Verfahren und gerät zum indexieren, suchen und anzeigen von daten
DE69530595T2 (de) System und verfahren für die x.500-datenbanknorm
DE3780807T2 (de) Verfahren zum schnellen oeffnen von mit pfadnamen identifizierten plattendateien.
DE3856055T2 (de) Verfahren und Einrichtung, um gleichzeitigen Zugriff zu indizierten sequentiellen Dateien zu ermöglichen
DE69130883T2 (de) Informationsverarbeitungssystem und Verfahren für die Verarbeitung von Dokumenten mit strukturierten Schlüsselwörtern
DE69024932T2 (de) Verfahren um Dokumente, die ein bestimmtes Attribut haben, mit Hilfe eines vektorrelationalen charakteristischen Objektes zu identifizieren
DE19983528B3 (de) Multi-Linearisierungs-Datenstruktur zum Bild-Browsing
DE60035432T2 (de) System zur verwaltung der rdbm fragmentierungen
DE102007037646B4 (de) Computerspeichersystem und Verfahren zum Indizieren, Durchsuchen und zur Datenwiedergewinnung von Datenbanken
DE19959765B4 (de) Datei-Editor für mehrere Datenuntermengen
EP0910829A1 (de) Datenbanksystem
EP1276056B1 (de) Verfahren zum Verwalten einer Datenbank
DE69130350T2 (de) Verfahren und Gerät, um Daten von vereinten Tabellen in einer Rechnerdatenbank aufzufinden

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: SEEGER SEEGER LINDNER PARTNERSCHAFT PATENTANWAELTE