DE60224763T2 - Verfahren und Gerät zur Dateisuche, und Verfahren und Vorrichtung zur Erzeugung von Indexdateien - Google Patents
Verfahren und Gerät zur Dateisuche, und Verfahren und Vorrichtung zur Erzeugung von Indexdateien Download PDFInfo
- Publication number
- DE60224763T2 DE60224763T2 DE60224763T DE60224763T DE60224763T2 DE 60224763 T2 DE60224763 T2 DE 60224763T2 DE 60224763 T DE60224763 T DE 60224763T DE 60224763 T DE60224763 T DE 60224763T DE 60224763 T2 DE60224763 T2 DE 60224763T2
- Authority
- DE
- Germany
- Prior art keywords
- file
- records
- management information
- information
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
- Die vorliegende Erfindung betrifft ein Verfahren und eine Einrichtung zum sofortigen Heraussuchen und Extrahieren von Daten aus einer zu durchsuchenden Datei wie beispielsweise einer CSV-Datei (Comma Separated Value File: kommagetrennte Datei) mit einer umfangreichen Dateigröße.
- Das Ausgeben der herausgesuchten Daten von einer Datenbank in Form einer CSV-Datei ist wohlbekannt. Wenn herkömmlicherweise die Daten als CSV-Datei verwendet werden, ist es üblich gewesen, eine Datenbank mit höchstens ungefähr mehreren hundert KB zu verarbeiten.
- Wenn herkömmlicherweise die Daten der CSV-Datei verwendet werden, besteht somit die Voraussetzung, da das von der Datenbank zuvor akkumulierte Resultat als Inhalt der Daten verwendet wird, dass die Größe der Datei ungefähr mehrere KB betragen muss.
- Jedoch ist im Falle eines modernen großen DWH (Data Warehouse) mit vielen GB von Daten die akkumulierte CSV-Datei selbst eine gigantische Datei von mehreren hundert MB, und es dauert lange, Daten herauszusuchen und zu extrahieren.
- In "Use of Tree Structures for Processing Files" von Sussenguth E H, Communications of the ACM, Bd. 26, Nr. 1, Januar 1983, XP009007879, wird die Verwendung von Baumstrukturen zur Suche in einer Datei und zum Ändern von Elementen in einer Datei diskutiert. Die Verwendung von solchen Strukturen wird mit Binärsuchtechniken und mit der Zuordnung einer verketteten Datei verglichen.
- "Doubly-chained tree database organization analysis and design strategies" von Cardenas A F et al, The Computer Journal, Bd. 20, Nr. 1, Februar 1977, Seiten 15 bis 26, XP009007272, sieht eine Analyse und die Modellierung von doppelt verketteten Baumdatenbankstrukturen unter Verwendung von implementierungsorientierten Faktoren vor. Formulierungen werden für die durchschnittliche Zugriffszeit und Speicheranforderungen abgeleitet, wobei die Auswirkung von solchen Faktoren wie dem Wesen der vorgenommenen Abfrage auf die Leistung demonstriert wird.
- "Use of Doubly-chained Tree Structures in File Organisation for Optimal Searching" von Suraweera F, Computer Journal, Oxford University Press, Surrey, GB, Bd. 29, Nr. 1, 1. Februar 1986, Seiten 52 bis 59, XP000743476, leitet einen Algorithmus zum Optimieren der doppelt verketteten Baumstruktur, die als statische Datenstruktur verwendet wird, zum Minimieren der Suchzeit ab. Die Dateipflege und Verfahren zum Ändern einer doppelt verketteten Baumdateistruktur sind auch offenbart.
- "Triply-chained tree: an enhancement of doubly chained tree" von Famelis G M et al, Angewandte Informatik: Applied Informatics, Vieweg und Sohn Verlag GmbH, Braunschweig, Deutschland, Bd. 31, Nr. 1, 1989, Seiten 19 bis 25, XP000026622, untersucht eine Primärdatei, die Datensätze enthält, und verschiedenartige Abfragen zum Heraussuchen von Informationen aus diesen Datensätzen. Die Vorteile und Nachteile der Verwendung von doppelt verketteten Bäumen werden diskutiert, bevor eine dreifach verkettete Baumstruktur vorgestellt wird. Die relativen Vorzüge von doppelt verketteten Bäumen und kombinierten Indizes werden zusammengefasst.
- Deshalb ist es wünschenswert, ein Dateidurchsuchungsverfahren und eine Dateidurchsuchungseinrichtung vorzusehen, mit denen Daten mit hoher Geschwindigkeit effektiv extrahiert werden können, auch wenn eine zu durchsuchende Datei (CSV-Datei) eine Datei mit einer Größe von mehreren hundert MB ist.
- Es ist auch wünschenswert, ein Indexdateierstellungsverfahren und eine Indexdateierstellungsvorrichtung zum Erstellen einer Indexdatei zum effektiven Durchsuchen einer zu durchsuchenden Datei (CSV-Datei) vorzusehen.
- Des weiteren ist es wünschenswert, ein Computerprogramm zum Realisieren der Dateidurchsuchungseinrichtung oder der Indexdateierstellungsvorrichtung vorzusehen, sowie ein Speicherprodukt (wie etwa ein Speichermedium), das dieses Computerprogramm speichert.
- Aspekte der Erfindung sehen ein durch einen Computer ausführbares Indexdateierstellungsverfahren vor, eine Indexdateierstellungsvorrichtung sowie ein Programm zum Erstellen einer Indexdatei, wie sie in den unabhängigen Ansprüchen definiert sind. Ausführungsformen zum Durchsuchen einer Datei sind in den abhängigen Ansprüchen definiert.
- Lediglich beispielhaft wird nun Bezug auf die beiliegenden Zeichnungen genommen, in denen:
-
1 ein Blockdiagramm ist, das die Struktur einer Ausführungsform der vorliegenden Erfindung zeigt; -
2 ein Flussdiagramm zum Erläutern des Gesamtprozesses in der Ausführungsform von1 ist; -
3 ein Beispiel für eine CSV-Datei und eine Indexdatei in dieser Ausführungsform zeigt; -
4 die rekursive Struktur der Indexdatei zeigt; -
5 ein Flussdiagramm ist, das einen Indexdateierstellungsprozess zeigt; -
6 die Verwaltungsstruktur unter Verwendung einer Indexdatei zeigt; -
7 ein Beispiel für die Bestimmung einer Unterbrechung einer Klassifikation zeigt; -
8A und8B Beispiele für die Anzeige der Ausgabe von der CSV-Datei unter Verwendung der Indexdatei zeigen; und9 die Effekte der vorliegenden Erfindung zeigt. - (1) Gesamtstruktur und Überblick über Prozesse der Ausführungsform
- Die Gesamtstruktur und ein Überblick über die Prozesse einer Ausführungsform der vorliegenden Erfindung werden unter Verwendung des Blockdiagramms von
1 erläutert, das die Struktur dieser Ausführungsform zeigt. - Zuerst wird eine CSV-Datei
3 als zu durchsuchende Datei durch Extrahieren von Daten aus einer großen Datenbank1 , deren Größe zwischen mehreren Gigabyte und mehreren Terabyte liegt, durch eine Extraktionsverarbeitungseinheit2 auf der Basis einer gegebenen Bedingung erstellt. Diese CSV-Datei rangiert zwischen mehreren hundert Megabyte und mehreren Gigabyte. Da die Erstellung einer CSV-Datei durch das Extrahieren von Daten aus einer Datenbank eine allgemein bekannte Technik ist, sei erwähnt, dass eine detaillierte Erläuterung der Extraktionsverarbeitungseinheit2 weggelassen wird. - Um als Nächstes Daten aus der CSV-Datei
3 effektiv herauszusuchen und zu extrahieren, wird eine Indexdatei5 durch eine Indexerstellungsverarbeitungseinheit4 erstellt. In dieser Indexerstellungsverarbeitungseinheit4 wird die Hierarchie der CSV-Datei3 durch eine Hierarchieerkennungsverarbeitungseinheit41 erkannt, und Knotenverwaltungsinformationen, die die Indexdatei5 bilden, werden durch eine Knotenverwaltungsinformationserstellungsverarbeitungseinheit42 erstellt. - Unter Verwendung dieser Indexdatei
5 sucht eine Dateidurchsuchungsverarbeitungseinheit6 Daten aus der CSV-Datei3 heraus, extrahiert sie und gibt die erhaltenen Daten aus. Wenn deshalb eine Aufforderung zum Durchsuchen durch eine Eingabeverarbeitungseinheit61 empfangen wird, werden Daten durch eine Extraktionsverarbeitungseinheit62 extrahiert und wird ein Ausgaberesultat7 durch eine Ausgabeverarbeitungseinheit63 ausgegeben. Es ist wünschenswert, wie es in den später beschriebenen8A und8B gezeigt ist, dass sich der Extraktionsmodus verändern lässt, indem ein Display für die Ausgabeverarbeitungseinheit63 verwendet wird und indem ferner die Eingabeverarbeitungseinheit61 dadurch realisiert wird, dass eine Angabe mit einer Zeigevorrichtung (wie zum Beispiel eine Angabe mit einem Mauskursor) auf dem Bildschirm des Displays erfolgt. Dies schließt jedoch eine Ausführungsform nicht aus, in der Daten als Druckmaterial ausgegeben werden. - Es sei erwähnt, dass die Extraktionsverarbeitungseinheit
2 , die Indexerstellungsverarbeitungseinheit4 und die Dateidurchsuchungsverarbeitungseinheit6 durch das Installieren von Programmen zum Ausführen der jeweiligen Prozesse in jeweilig separater Hardware (Prozessoren, Computer) realisiert werden können und dass zwei oder alle der Prozesse durch dieselbe Hardware realisiert werden können (indem die Programme zum Ausführen der jeweiligen Prozesse in derselben Hardware installiert werden). Übrigens können die Programme, die bewirken, dass die Hardware ihre Verarbeitungsfunktionen ausführt (als Verarbeitungseinheit fungiert), durch Herunterladen der Programme von einem Speicherprodukt oder von Kommunikationsmedien in der Hardware installiert werden. - Unter Verwendung des Flussdiagramms von
2 zusätzlich zu1 wird die folgende Beschreibung den Gesamtablauf der Prozesse dieser Ausführungsform erläutern, die durch solche Strukturen implementiert werden. - Zuerst akkumuliert die Extraktionsverarbeitungseinheit
2 detaillierte Daten von der Datenbank1 (S1 von2 ). Das akkumulierte Resultat wird in Form einer normalen CSV-Datei3 erstellt (S2 von2 ). Als Nächstes wird eine Analyse auf der Basis der CSV-Datei3 ausgeführt, und die Indexerstellungsverarbeitungseinheit4 erstellt eine Indexdatei5 , die zum Durchsuchen der CSV-Datei3 verwendet wird (S3 von2 ). Dieser Indexdateierstellungsprozess wird später unter Verwendung von5 eingehend erläutert. - In dem Zustand, wenn die CSV-Datei
3 und die Indexdatei5 durch die oben beschriebenen Prozesse erstellt worden sind, extrahiert die Dateidurchsuchungsverarbeitungseinheit6 , wenn durch den Nutzer eine Extraktionsbedingung spezifiziert wird, Daten aus der CSV-Datei3 auf der Basis der Indexdatei5 und zeigt die extrahierten Daten an (S4–S14 von2 ). Dieser Datenextraktionsprozess wird später auch eingehend erläutert. - (2) Beispiel für die Struktur der CSV-Datei und der Indexdatei
-
3 zeigt ein Beispiel für die CSV-Datei3 , die in dieser Ausführungsform extrahiert wird (die Prozesse von S1 und S2 von2 ), und ein Beispiel für die Indexdatei5 , die durch Analysieren der CSV-Datei3 erstellt wird (Prozess von S3 von2 ). Zusätzlich ist ein Beispiel für die rekursive Struktur der Indexdatei in4 gezeigt. - In der CSV-Datei
3 (der zu durchsuchenden Datei) dieser Ausführungsform sind, wie in3 gezeigt, in der ersten Reihe die Attribute der Felder von nachfolgenden Reihen (Datensätze) eingetragen, und Daten, die zu verarbeiten sind, sind in den zweiten und nachfolgenden Reihen eingetragen. Ferner hat die CSV-Datei3 die folgende Datenstruktur. In den Feldern von jeder Reihe (Datensatz) ist das erste Feld das oberste hierarchische Niveau, und nachfolgende Felder sind in dem vorhergehenden Feld enthalten (wobei sie niedrigere hierarchische Niveaus bilden). Mit anderen Worten: die Datenstruktur ist eine Baumstruktur. - Ferner hält die zu erstellende Indexdatei
5 die Informationen über Knoten eines niedrigeren Niveaus für jede Kategorie (Schlüsselzeichenkette) rekursiv. Jedes Element von Verwaltungsinformationen umfasst die folgenden Informationen. - • Eine Kategorie, die in einem
Knoten enthalten ist (bei dem Beispiel von
3 "Kühlung und Heizung" und "Hausarbeit"). - • Die
oberste Datensatzposition und die Anzahl von Reihen bei Reihen (Datensätzen), die
die Kategorie enthalten, bei der CSV-Datei
3 . - • Einen
Zeiger, der die Startposition der Knotenverwaltungsinformationen
eines niedrigeren hierarchischen Niveaus bei der Indexdatei
5 angibt. - Da bei dem Beispiel von
3 das hierarchische Niveau von Produkthauptklassifikation – Produktunterklassifikation – Maschinenname in den Tabellenüberschriften der CSV-Datei3 vorhanden ist, stellt die Tabellenüberschrift1 in4 die Produkthauptklassifikation dar, stellt die Tabellenüberschrift2 die Produktunterklassifikation dar und stellt die Tabellenüberschrift3 den Maschinennamen dar. Daher lauten die Verwaltungsinformationen bei der Tabellenüberschrift1 3 – ➀, lauten die Verwaltungsinformationen bei der Tabellenüberschrift2 3 – ➁ und lauten die Verwaltungsinformationen bei der Tabellenüberschrift3 3 – ➂. - Ferner ist unter Bezugnahme auf das Beispiel von
3 gezeigt, dass die Verwaltungsinformationen bei Produkthauptklassifikation (3 – ➀) die Kategorien "Kühlung und Heizung" und "Hausarbeit" enthalten und die oberste Datensatzposition sowie die Anzahl von Reihen (Anzahlinformationen) bezüglich jeder der Kategorien "Kühlung und Heizung" und "Hausarbeit" bei der CSV-Datei3 und einen Zeiger, der die Startposition des nächsten hierarchischen Niveaus von jeder der Kategorien "Kühlung und Heizung" und "Hausarbeit" angibt, in der Indexdatei5 speichern. - Ähnlich ist bei den Verwaltungsinformationen bei der Kategorie "Kühlung und Heizung" (
3 – ➁) gezeigt, dass "Klimaanlage" und "Lüfter" auf einem niedrigeren hierarchischen Niveau liegen und die oberste Datensatzposition und die Anzahl von Reihen bei den Reihen bezüglich jeder der Kategorien "Klimaanlage" und "Lüfter" bei der CSV-Datei3 sowie ein Zeiger, der die Startposition des nächsten hierarchischen Niveaus von jeder der Kategorien "Klimaanlage" und "Lüfter" angibt, in der Indexdatei5 gespeichert sind. - Zusätzlich ist bei der Kategorie "Klimaanlage" (
3 – ➂) gezeigt, dass "AIR01" und "AIR02" auf einem niedrige ren hierarchischen Niveau liegen und die oberste Datensatzposition und die Anzahl von Reihen bei der Kategorie in dem niedrigeren hierarchischen Niveau bei der CSV-Datei3 sowie ein Zeiger, der die Startposition des niedrigeren hierarchischen Niveaus angibt, in der Indexdatei5 gespeichert sind. - Somit speichert die Indexdatei
5 die obersten Datensatzpositionen, die Anzahl von Objektreihen, etc. entsprechend der Anzahl von Tabellenüberschriften rekursiv. In einem DBMS sind Datenreiheninformationen innerhalb eines Datenverwaltungsbereiches zum Zweck einer Suche unter Verwendung eines Index gespeichert. Demgegenüber werden mit der Technik dieser Ausführungsform die Startposition von Daten und die Anzahl von Objektreihen durch das Analysieren der Inhaltsdaten der CSV-Datei3 bei jeder Kategorie im Voraus herausgesucht und als externe Datei gespeichert. - (3) Indexdateierstellungsprozess
- Die Indexdatei
5 wird erstellt, indem die Informationen über die oberste Datensatzposition und die Anzahl von Reihen bei der CSV-Datei3 in einer Indexdatei auf der Basis jeder Kategorie in der Tabellenüberschrift der CSV-Datei3 gespeichert werden. Dieser Erstellungsprozess wird unter Verwendung des Flussdiagramms von5 , der Erläuterungsansicht der Verwaltungsstruktur von6 und der Erläuterungsansicht des Unterbrechungsbestimmungsprozesses von7 erklärt. - Zuerst wird die Anzahl von Tabellenüberschriften der CSV-Datei
3 (der zu durchsuchenden Datei), die den ersten Eintrag darzustellen hat, erhalten (S21 von5 ). Diese Anzahl von Tabellenüberschriften wird als Eingangsparameter zusammen mit der CSV-Datei3 von dem Nutzer dem Verarbeitungsprogramm zugeführt, wenn ein Index erstellt wird. Bei dem Beispiel von4 beträgt die Anzahl von Tabellenüberschriften drei, und zwar Produkthauptklassifikation – Produktunterklassifikation – Maschinenname. - Als Nächstes wird eine Reihe der CSV-Datei
3 gelesen (S22 von5 ). Dabei ist die oberste Datensatzposition (Versetzung vom obersten Ende der CSV-Datei3 ) bei jeder Kategorie bereits erhalten worden. Durch das Lesen der ersten Reihe wird eine Verwaltungsstruktur in einer horizontalen Richtung erzeugt, die mit Kühlung und Heizung – Klimaanlage – AIR01 verkettet ist (6 ). - Ab der zweiten Reihe werden die Etiketten der Kategorien sequentiell verglichen, indem die CSV-Datei
3 gelesen wird (S23 von5 ). Bei dem Vergleichsverfahren wird ausgehend von einer Tabellenüberschrift mit höherem Niveau sequentiell bestimmt, ob die Kategorie unterbrochen ist (was auf eine Kategorieveränderung hindeutet) (S24 von5 ). Wenn die Kategorie nicht unterbrochen ist, da der entsprechende Knoten derselbe wie jener der vorhergehenden Reihe ist, wird die Anzahl der Reihen um eins inkrementiert (S25 von5 ). - Wenn die Kategorie unterbrochen ist, wird eine Kette in vertikaler Richtung hinzugefügt. Falls dabei ein Knoten mit einem Niveau, das höher als jenes des entsprechenden Knotens ist, unterbrochen ist, wird bestimmt, dass die Kategorie unterbrochen ist, und es wird eine niedrigere Kategorie hinzugefügt (S26 von
5 ). - Nach der Verarbeitung wird bestimmt, ob keine weitere Tabellenüberschrift vorhanden ist, d. h., ob die Verarbeitung für die Anzahl von Knoten entsprechend der eingegebenen Anzahl von Tabellenüberschriften wiederholt worden ist (im Falle von
3 , ob die Verarbeitung für drei Knoten wie derholt wurde) (S27 von5 ). Wenn die Verarbeitung für die Anzahl von Tabellenüberschriften nicht wiederholt worden ist, wird die Verarbeitung wiederholt, um das Kategorie-Etikett eines Knotens mit niedrigerem Niveau zu vergleichen. - Nachdem die Vergleiche für die Knoten der Tabellenüberschriften erfolgt sind, wird bestimmt, ob die CSV-Datei
3 zu Ende ist (S28 von5 ). Wenn die CSV-Datei3 nicht zu Ende ist, wird der Prozess zum Lesen der nächsten Reihe für die Anzahl von Reihen in der CSV-Datei3 wiederholt. Falls zum Beispiel, wie in7 gezeigt, die zuvor gelesenen Tabellenkategorien in der CSV-Datei3 "Kühlung und Heizung" – "Klimaanlage" – "Zwischensumme" lauten und die in diesem Fall gelesene Reihe "Kühlung und Heizung" – "Lüfter" – "FAN01" lautet, werden die jeweiligen Kategorien hinsichtlich der Anzahl von Tabellenüberschriften sequentiell verglichen. - Da als Resultat die Produkthauptklassifikation nicht unterbrochen ist, wird die Anzahl von Reihen um eins inkrementiert. Da die Produktunterklassifikation unterbrochen ist, wird dann eine Kette für Lüfter in einer vertikalen Richtung von Klimaanlage hinzugefügt. Da darüber hinaus eine Unterbrechung bei Lüfter vorhanden ist, wird eine Kette für FAN01 in horizontaler Richtung von Lüfter hinzugefügt (wenn ein Knoten mit höherem Niveau unterbrochen ist, ist auch das niedrigere Niveau unterbrochen) (der Teil, der in
6 mit * gekennzeichnet ist). Indem diese Verarbeitung wiederholt wird, werden die Beziehung von Knoten und die Anzahl von Reihen in den Tabellenüberschriftskategorien in dem Speicher alle erweitert (gespeichert). Schließlich werden die Verwaltungsinformationen zu diesen Elementen in eine Datei als Indexdatei5 geschrieben (S29 von5 ). - Genauer gesagt: bei dem obersten hierarchischen Niveau als Ursprung werden die Kategorien "Kühlung und Heizung" und "Hausarbeit", die als dieses hierarchische Niveau erkannt wurden, als die Titel von Kategorien registriert, die in den Verwaltungsinformationen der Tabellenüberschrift
1 enthalten sind, werden anschließend die oberste Datensatzposition und die Anzahl von Reihen bei der CSV-Datei3 sowohl für "Kühlung und Heizung" als auch für "Hausarbeit" registriert und wird schließlich ein Zeiger, der eine Startposition in der Indexdatei5 angibt, für Verwaltungsinformationen eines niedrigeren hierarchischen Niveaus registriert, das in jeder der Kategorien "Kühlung und Heizung" und "Hausarbeit" enthalten ist (3 – ➀). - Danach werden durch sequentielles Registrieren der Titel von Kategorien für jedes hierarchische Niveau, der obersten Datensatzposition und der Anzahl von Reihen von jeder der Kategorien in der CSV-Datei
3 sowie eines Zeigers, der die Startposition von Verwaltungsinformationen eines niedrigeren hierarchischen Niveaus angibt, das in jeder der Kategorien in der Indexdatei5 in derselben Weise enthalten ist, die Verwaltungsinformationen erstellt. - (4) Prozess zum Extrahieren von Daten aus der CSV-Datei unter Verwendung der Indexdatei
- Unter Bezugnahme auf das Flussdiagramm von
2 erläutert die folgende Beschreibung einen Prozess zum Extrahieren von Daten aus der CSV-Datei3 unter Verwendung der Indexdatei5 . - Zuerst selektiert der Endnutzer ein Anzeigeverfahren (S4 von
2 ). Dies bedeutet, dass entweder die Anzeige der Datenextraktion selektiert wird, die in8A gezeigt ist (S5–S8 von2 ), oder die Anzeige in der Drill- Down-Vorgehensweise, die in8B gezeigt ist (S10–S14 von2 ). - Wenn der Datenextraktionsprozess selektiert wird (S5 von
2 ), werden anschließend Extraktionsbedingungen spezifiziert (S6 von2 ). Die Extraktionsbedingungen sind zum Beispiel solche Bedingungen wie Produkthauptklassifikation = "Kühlung und Heizung" und Produktunterklassifikation = "Klimaanlage". Die Aufzeichnungsstartposition und die Anzahl von Objektreihen bei der CSV-Datei3 , die diesen Extraktionsbedingungen entsprechen, werden von der Indexdatei5 erhalten (S7 von2 ). Da die Indexdatei5 eine rekursive Struktur hat, ist es möglich, die Aufzeichnungsstartposition und die Anzahl von Objektreihen auf der Basis der Extraktionsbedingungen direkt herauszusuchen. Auf der Basis der Aufzeichnungsstartposition und der Anzahl von Objektreihen werden Anzeigedaten aus der CSV-Datei3 extrahiert (S8 von2 ). Die Extraktion selbst erfolgt durch Öffnen, Lesen und Schließen der Datei in üblicher Weise. Die extrahierten Daten umfassen mehrere Reihen und werden auf dem Bildschirm angezeigt, auf dem der Endnutzer die Informationen nutzt (S9 von2 ). Obwohl die Extraktion und die Anzeige von Daten durch den Endnutzer wiederholt werden, ist es möglich, Daten, die der Endnutzer anzeigen lassen möchte, aus der CSV-Datei3 unter Verwendung der Indexdatei5 sofort zu extrahieren. Ein Beispiel für das in solch einer Weise angezeigte Ausgaberesultat ist in8A gezeigt. - Wenn andererseits die Ausgabe nach der Drill-Down-Vorgehensweise selektiert wird (S10 von
2 ), werden Drill-Down-Bedingungen durch die Eingabe spezifiziert (S11 von2 ). Ein Knoten einer Kategorie mit niedrigerem Niveau, der den Drill-Down-Bedingungen entspricht, wird herausge sucht (S12 von2 ), die Datensatzstartposition der Kategorie wird von der Indexdatei5 erhalten (S13 von2 ), und dann werden Daten von der CSV-Datei3 extrahiert (S14 von2 ). Dies wird für die Anzahl von spezifizierten Kategorien wiederholt. - Wenn zum Beispiel die Kategorie "Kühlung und Heizung" angeklickt wird, wie in
3 gezeigt, wird dann, da die Kategorie (Schlüsselzeichenkette) "Kühlung und Heizung" in dem obersten hierarchischen Niveau "Produkthauptklassifikation" existiert, die Startposition von Daten mit einem hierarchischen Niveau, das niedriger als jenes der Kategorie "Kühlung und Heizung" ist, erkannt, und die Verwaltungsinformationen zum Knoten bezüglich "Kühlung und Heizung" werden gelesen. Da "Klimaanlage" und "Lüfter" in den Verwaltungsinformationen existieren, werden die obersten Datensatzpositionen bezüglich dieser Kategorien bei der CSV-Datei3 herausgesucht, und Daten werden auf der Basis der obersten Datensatzpositionen extrahiert. Da bei diesem Beispiel eine Einstellung erfolgt, um einen Datensatz einer Kategorie, die ein Zwischensumme sein soll, zu extrahieren, werden die Informationen "Klimaanlage", "Lüfter" und "Zwischensumme" in einem niedrigeren hierarchischen Niveau bezüglich "Kühlung und Heizung" angezeigt (8B ). - Wie oben beschrieben, ist es gemäß dieser Ausführungsform unter Einsatz der Indexdatei
5 möglich, die Geschwindigkeit der Datenextraktion aus der großen CSV-Datei3 signifikant zu erhöhen. Ein Beispiel für diesen vorteilhaften Effekt ist in9 gezeigt. - Übrigens ist es zusätzlich zur Datenextraktion auch möglich, die Indexdatei
5 als Drill-Funktion für einen anderen Zweck zu verwenden. - Da darüber hinaus die Indexdatei
5 eine separate Datei ist, die von der CSV-Datei3 unabhängig ist, hat sie keinen Einfluss auf die ursprüngliche CSV-Datei3 . Anders als bei einer herkömmlichen Datenbank, in der Daten und ein Index vereinigt sind, steht die CSV-Datei3 zur Verwendung als eingegebener Ursprung zur Verfügung.
Claims (7)
- Indexdateierstellungsverfahren, das durch einen Computer ausführbar ist, zum Erstellen einer Indexdatei (
5 ) zum Durchsuchen einer zu durchsuchenden Datei (3 ), welche zu durchsuchende Datei (3 ) Aufzeichnungen mit Feldern enthält, die jedem von einer Vielzahl von hierarchischen Niveaus zugeordnet sind, und so strukturiert ist, dass Aufzeichnungen mit derselben Schlüsselzeichenkette in einem Feld auf demselben hierarchischen Niveau seriell angeordnet sind, und bei der bei jeder Aufzeichnung das erste Feld das oberste hierarchische Niveau hat und nachfolgende Felder niedrigere hierarchische Niveaus bilden, wobei die Indexdatei (5 ) Verwaltungsinformationen für jeden der Knoten in einer Baumstruktur enthält, die durch Klassifizieren der Aufzeichnungen in der zu durchsuchenden Datei (3 ) unter Verwendung der Vielzahl von hierarchischen Niveaus erhalten wird, welche Verwaltungsinformationen einen Titel einer in jedem Knoten enthaltenen Schlüsselzeichenkette umfassen, wobei das Verfahren die Schritte umfasst, die durch einen Computer ausgeführt werden: Erhalten (S21) der Anzahl von hierarchischen Niveaus; und Ausführen (S23–S26), für jeden Knoten von allen von der erkannten Anzahl von hierarchischen Niveaus, eines Knotenverwaltungsinformationserstellungsprozesses, um Knotenverwaltungsinformationen zu erstellen, die für jeden Knoten vorgesehen sind; welcher Knotenverwaltungsinformationserstellungsprozess enthält: das Erhalten einer Position einer obersten Aufzeichnung von Aufzeichnungen, die eine Schlüsselzeichenkette haben, die in dem hierarchischen Niveau enthalten ist, von jedem Knoten in der zu durchsuchenden Datei (3 ), Detektieren der Anzahl von Aufzeichnungen, die dieselbe Schlüsselzeichenkette wie in der obersten Aufzeichnung haben, durch das Lesen von Aufzeichnungen, die der obersten Aufzeichnung folgen, und Schreiben von Informationen über die Position der obersten Aufzeichnung und Informationen über die Anzahl der Aufzeichnungen in die Knotenverwaltungsinformationen als Startpositionsinformationen und Anzahlinformationen zusammen mit einem Zeiger, der eine Position in der Indexdatei der Knotenverwaltungsinformationen eines niedrigeren hierarchischen Niveaus angibt. - Dateidurchsuchungsverfahren, das durch einen Computer ausführbar ist, zum Durchsuchen einer zu durchsuchenden Datei (
3 ), welche zu durchsuchende Datei (3 ) Aufzeichnungen mit Feldern enthält, die jedem von einer Vielzahl von hierarchischen Niveaus zugeordnet sind, und so strukturiert ist, dass Aufzeichnungen mit derselben Schlüsselzeichenkette in einem Feld auf demselben hierarchischen Niveau seriell angeordnet sind, und bei der bei jeder Aufzeichnung das erste Feld das oberste hierarchische Niveau hat und nachfolgende Felder niedrigere hierarchische Niveaus bilden, welches Verfahren die Schritte umfasst, die durch einen Computer ausgeführt werden: Erstellen (S3) einer Indexdatei (5 ) unter Verwendung des Verfahrens von Anspruch 1; Akzeptieren (S5, S6; S10, S11) einer Instruktion zum Suchen nach Daten bezüglich einer spezifizierten Schlüsselzeichenkette in der zu durchsuchenden Datei (3 ), welche Instruktion die Selektion entweder einer Datenextraktions ausgabe oder einer Ausgabe nach der Drill-down-Vorgehensweise enthält; Heraussuchen (S7; S12, S13), aus der Indexdatei (5 ), von Verwaltungsinformationen über eine oder mehrere Aufzeichnungen bezüglich der spezifizierten Schlüsselzeichenkette in der zu durchsuchenden Datei; Extrahieren (S8; S14) von Daten von der einen oder den mehreren Aufzeichnungen aus der zu durchsuchenden Datei (3 ); und Ausgeben (S9) der extrahierten Daten; bei dem die Schritte des Heraussuchens und des Extrahierens bei Selektion der Datenextraktionsausgabe umfassen: Heraussuchen (S7) von Startpositionsinformationen und Anzahlinformationen als Verwaltungsinformationen über Aufzeichnungen bezüglich der spezifizierten Schlüsselzeichenkette und Extrahieren (S8) von Daten einer Anzahl von Aufzeichnungen, die durch die Anzahlinformationen spezifiziert ist, aus einer Position, die durch die Startpositionsinformationen spezifiziert ist; und bei Selektion der Ausgabe nach der Drill-down-Vorgehensweise umfassen: Heraussuchen (S12, S13), auf der Basis eines Zeigers, einer Startposition einer Aufzeichnung der Knotenverwaltungsinformationen des niedrigeren hierarchischen Niveaus und Extrahieren (S14) von Daten der Aufzeichnung auf der Basis der herausgesuchten Startposition der Aufzeichnung. - Indexdateierstellungsvorrichtung, die durch ein Computerprogramm realisiert wird, das in Hardware installiert ist, zum Erstellen einer Indexdatei (
5 ) zum Durchsuchen einer zu durchsuchenden Datei (3 ), welche zu durch suchende Datei (3 ) Aufzeichnungen mit Feldern enthält, die jedem von einer Vielzahl von hierarchischen Niveaus zugeordnet sind, und so strukturiert ist, dass Aufzeichnungen mit derselben Schlüsselzeichenkette in einem Feld auf demselben hierarchischen Niveau seriell angeordnet sind, und bei der bei jeder Aufzeichnung das erste Feld das oberste hierarchische Niveau hat und nachfolgende Felder niedrigere hierarchische Niveaus bilden, wobei die Indexdatei (5 ) Verwaltungsinformationen für jeden der Knoten in einer Baumstruktur enthält, die durch Klassifizieren der Aufzeichnungen in der zu durchsuchenden Datei (3 ) unter Verwendung der Vielzahl von hierarchischen Niveaus erhalten wird, welche Verwaltungsinformationen einen Titel einer in jedem Knoten enthaltenen Schlüsselzeichenkette umfassen, wobei die Vorrichtung umfasst: eine Erkennungsverarbeitungseinheit der hierarchischen Anzahl (41 ) zum Erhalten der Anzahl von hierarchischen Niveaus; und eine Knotenverwaltungsinformationserstellungseinheit (42 ) zum Ausführen, für Knoten von allen von der Anzahl von hierarchischen Niveaus, die durch die Erkennungsverarbeitungseinheit der hierarchischen Anzahl (41 ) erkannt wurde, eines Knotenverwaltungsinformationserstellungsprozesses, um Knotenverwaltungsinformationen zu erstellen, die für jeden Knoten vorgesehen sind; bei der die Knotenverwaltungsinformationserstellungsdatei (42 ) eine Position einer obersten Aufzeichnung von Aufzeichnungen, die eine Schlüsselzeichenkette haben, die in dem hierarchischen Niveau enthalten ist, von jedem Knoten in der zu durchsuchenden Datei (3 ) erhält, die Anzahl von Aufzeichnungen detektiert, die dieselbe Schlüsselzeichenkette wie in der obersten Aufzeichnung haben, indem Aufzeichnungen gelesen werden, die der obersten Aufzeichnung folgen, und Informationen über die Position der obersten Aufzeichnung und Informationen über die Anzahl der Aufzeichnungen in die Knotenverwaltungsinformationen als Startpositionsinformationen und Anzahlinformationen zusammen mit einem Zeiger schreibt, der eine Position in der Indexdatei der Knotenverwaltungsinformationen mit einem niedrigeren hierarchischen Niveau angibt. - Vorrichtung nach Anspruch 3, ferner mit: einer Eingabeeinheit (
61 ) zum Erteilen einer Instruktion zum Suchen nach Daten bezüglich einer spezifizierten Schlüsselzeichenkette in der zu durchsuchenden Datei (3 ), welche Instruktion die Selektion entweder einer Datenextraktionsausgabe oder einer Ausgabe nach der Drill-down-Vorgehensweise enthält; einer Sucheinheit (62 ) zum Heraussuchen, aus der Indexdatei (5 ), von Verwaltungsinformationen über eine oder mehrere Aufzeichnungen bezüglich der spezifizierten Schlüsselzeichenkette in der zu durchsuchenden Datei; einer Extraktionseinheit (62 ) zum Extrahieren von Daten von der einen oder den mehreren Aufzeichnungen aus der zu durchsuchenden Datei (3 ); und einer Ausgabeeinheit (63 ) zum Ausgeben der extrahierten Daten; bei der bei Selektion der Datenextraktionsausgabe die Sucheinheit (62 ) Startpositionsinformationen und Anzahlinformationen als Verwaltungsinformationen über Aufzeichnungen bezüglich der spezifizierten Schlüsselzeichenkette heraussucht und die Extraktionseinheit (62 ) Daten einer Anzahl von Aufzeichnungen, die durch die Anzahlinformationen spezifiziert ist, aus einer Position extrahiert, die durch die Startpositionsinformationen spezifiziert ist; und bei Selektion der Ausgabe nach der Drill-down-Vorgehensweise die Sucheinheit (62 ), auf der Basis des Zeigers, eine Startposition einer Aufzeichnung der Knotenverwaltungsinformationen des niedrigeren hierarchischen Niveaus heraussucht und die Extraktionseinheit (62 ) Daten der Aufzeichnung auf der Basis der herausgesuchten Startposition der Aufzeichnung extrahiert. - Computerprogramm zum Instruieren eines Computers, eine Indexdatei (
5 ) zum Durchsuchen einer zu durchsuchenden Datei (3 ) zu erstellen, welche zu durchsuchende Datei (3 ) Aufzeichnungen mit Feldern enthält, die jedem von einer Vielzahl von hierarchischen Niveaus zugeordnet sind, und so strukturiert ist, dass Aufzeichnungen mit derselben Schlüsselzeichenkette in einem Feld auf demselben hierarchischen Niveau seriell angeordnet sind, und bei der bei jeder Aufzeichnung das erste Feld das oberste hierarchische Niveau hat und nachfolgende Felder niedrigere hierarchische Niveaus bilden, wobei die Indexdatei (5 ) Verwaltungsinformationen für jeden der Knoten in einer Baumstruktur enthält, die durch Klassifizieren der Aufzeichnungen in der zu durchsuchenden Datei (3 ) unter Verwendung der Vielzahl von hierarchischen Niveaus erhalten wird, welche Verwaltungsinformationen einen Titel einer in jedem Knoten enthaltenen Schlüsselzeichenkette umfassen, wobei das Programm den Computer instruiert zum Erhalten (S21) der Anzahl von hierarchischen Niveaus; und Ausführen (S23–S26), für jeden Knoten von allen von der erkannten Anzahl von hierarchischen Niveaus, eines Knotenverwaltungsinformationserstellungsprozesses, um Knotenverwaltungsinformationen zu erstellen, die für jeden Knoten vorgesehen sind; bei dem der Knotenverwaltungsinformationserstellungsprozess enthält: das Erhalten einer Position einer obersten Aufzeichnung von Aufzeichnungen, die eine Schlüsselzeichenkette haben, die in dem hierarchischen Niveau enthalten ist, von jedem Knoten in der zu durchsuchenden Datei (3 ), Detektieren der Anzahl von Aufzeichnungen, die dieselbe Schlüsselzeichenkette wie in der obersten Aufzeichnung haben, durch das Lesen von Aufzeichnungen, die der obersten Aufzeichnung folgen, und Schreiben von Informationen über die Position der obersten Aufzeichnung und Informationen über die Anzahl der Aufzeichnungen in die Knotenverwaltungsinformationen als Startpositionsinformationen und Anzahlinformationen zusammen mit einem Zeiger, der eine Position in der Indexdatei der Knotenverwaltungsinformationen eines niedrigeren hierarchischen Niveaus angibt. - Computerprogramm zum Instruieren eines Computers, eine zu durchsuchende Datei (
3 ) unter Verwendung der durch das Computerprogramm von Anspruch 5 erstellten Indexdatei (5 ) zu durchsuchen, welche zu durchsuchende Datei (3 ) Aufzeichnungen mit Feldern enthält, die jedem von einer Vielzahl von hierarchischen Niveaus zugeordnet sind, und so strukturiert ist, dass Aufzeichnungen mit derselben Schlüsselzeichenkette in einem Feld auf demselben hierarchischen Niveau seriell angeordnet sind, und bei der bei jeder Aufzeichnung das erste Feld das oberste hierarchische Niveau hat und nachfolgende Felder niedrigere hierarchische Niveaus bilden, welches Programm den Computer instruiert, die Schritte auszuführen: Akzeptieren (S5, S6) einer Instruktion zum Suchen nach Daten bezüglich einer spezifizierten Schlüsselzeichenkette in der zu durchsuchenden Datei (3 ), welche Instruktion die Selektion entweder einer Datenextraktionsausgabe oder einer Ausgabe nach der Drill-down-Vorgehensweise enthält; Heraussuchen (S7; S12, S13), aus der Indexdatei (5 ), von Verwaltungsinformationen über eine oder mehrere Aufzeichnungen bezüglich der spezifizierten Schlüsselzeichenkette; Extrahieren (S8; S14) von Daten von der einen oder den mehreren Aufzeichnungen aus der zu durchsuchenden Datei (3 ); und Ausgeben (S9) der extrahierten Daten; bei dem die Schritte des Heraussuchens und des Extrahierens bei Selektion der Datenextraktionsausgabe umfassen: Heraussuchen (S7) von Startpositionsinformationen und Anzahlinformationen als Verwaltungsinformationen über Aufzeichnungen bezüglich der spezifizierten Schlüsselzeichenkette und Extrahieren (S8) von Daten einer Anzahl von Aufzeichnungen, die durch die Anzahlinformationen spezifiziert ist, aus einer Position, die durch die Startpositionsinformationen spezifiziert ist; und bei Selektion der Ausgabe nach der Drill-down-Vorgehensweise umfassen: Heraussuchen (S12, S13), auf der Basis des Zeigers, einer Startposition einer Aufzeichnung der Knotenverwaltungsinformationen des niedrigeren hierarchi schen Niveaus und Extrahieren (S14) von Daten der Aufzeichnung auf der Basis der herausgesuchten Startposition der Aufzeichnung. - Computerlesbares Speicherprodukt, das ein Computerprogramm nach Anspruch 5 oder 6 speichert.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001359788A JP4490012B2 (ja) | 2001-11-26 | 2001-11-26 | ファイル検索装置、ファイル検索プログラム |
JP2001359788 | 2001-11-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60224763D1 DE60224763D1 (de) | 2008-03-13 |
DE60224763T2 true DE60224763T2 (de) | 2009-01-22 |
Family
ID=19170730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60224763T Expired - Lifetime DE60224763T2 (de) | 2001-11-26 | 2002-11-25 | Verfahren und Gerät zur Dateisuche, und Verfahren und Vorrichtung zur Erzeugung von Indexdateien |
Country Status (4)
Country | Link |
---|---|
US (1) | US7143086B2 (de) |
EP (1) | EP1315103B1 (de) |
JP (1) | JP4490012B2 (de) |
DE (1) | DE60224763T2 (de) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20010044796A1 (en) * | 2000-05-19 | 2001-11-22 | Hiroyasu Fujiwara | Totalization system and recording medium |
US20050251716A1 (en) * | 2004-05-07 | 2005-11-10 | International Business Machines Corporation | Software to test a storage device connected to a high availability cluster of computers |
US7783615B1 (en) * | 2005-09-30 | 2010-08-24 | Emc Corporation | Apparatus and method for building a file system index |
JP4328762B2 (ja) * | 2005-12-06 | 2009-09-09 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム及び記憶媒体 |
US7747628B2 (en) * | 2006-04-05 | 2010-06-29 | Computer Associates Think, Inc. | System and method for automated construction, retrieval and display of multiple level visual indexes |
JP4193863B2 (ja) * | 2006-04-18 | 2008-12-10 | セイコーエプソン株式会社 | インデックス作成機能付き携帯機器、その制御方法及びそのプログラム |
JP4861078B2 (ja) * | 2006-06-30 | 2012-01-25 | 富士通株式会社 | 索引作成プログラム、索引作成装置および索引作成方法 |
SG140510A1 (en) * | 2006-09-01 | 2008-03-28 | Yokogawa Electric Corp | System and method for database indexing, searching and data retrieval |
US7873625B2 (en) * | 2006-09-18 | 2011-01-18 | International Business Machines Corporation | File indexing framework and symbolic name maintenance framework |
US9009655B2 (en) * | 2008-09-28 | 2015-04-14 | KOUSOKUYA, Inc. | Code string search apparatus, search method, and program |
JP5544118B2 (ja) * | 2009-06-30 | 2014-07-09 | 株式会社日立製作所 | データ処理装置、及び処理方法 |
CA2772746C (en) * | 2009-08-31 | 2019-06-11 | Exalead | Trusted query system and method |
JP2011065546A (ja) | 2009-09-18 | 2011-03-31 | Hitachi Solutions Ltd | ファイル検索システム及びプログラム |
US8407588B1 (en) | 2009-10-22 | 2013-03-26 | The Boeing Company | Large columnar text file editor |
JP5190898B2 (ja) * | 2010-01-18 | 2013-04-24 | 株式会社高速屋 | コード列検索装置、検索方法及びプログラム |
JP5337745B2 (ja) | 2010-03-08 | 2013-11-06 | 株式会社日立製作所 | データ処理装置 |
US8965921B2 (en) * | 2012-06-06 | 2015-02-24 | Rackspace Us, Inc. | Data management and indexing across a distributed database |
JP6044377B2 (ja) * | 2013-02-07 | 2016-12-14 | 株式会社デンソー | 地点検索装置 |
US9946743B2 (en) * | 2015-01-12 | 2018-04-17 | Cisco Technology, Inc. | Order encoded manifests in a content centric network |
JP6863006B2 (ja) * | 2017-03-30 | 2021-04-21 | 富士通株式会社 | ファイル生成プログラム、ファイル生成方法およびファイル生成装置 |
CN110019019B (zh) * | 2019-03-21 | 2023-08-22 | 广东瑞恩科技有限公司 | 数据文件管理方法、装置、设备及计算机可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5257365A (en) * | 1990-03-16 | 1993-10-26 | Powers Frederick A | Database system with multi-dimensional summary search tree nodes for reducing the necessity to access records |
US5497485A (en) * | 1993-05-21 | 1996-03-05 | Amalgamated Software Of North America, Inc. | Method and apparatus for implementing Q-trees |
CA2117846C (en) * | 1993-10-20 | 2001-02-20 | Allen Reiter | Computer method and storage structure for storing and accessing multidimensional data |
JP2001167087A (ja) * | 1999-12-14 | 2001-06-22 | Fujitsu Ltd | 構造化文書検索装置,構造化文書検索方法,構造化文書検索用プログラム記録媒体および構造化文書検索用インデックス作成方法 |
SG103289A1 (en) * | 2001-05-25 | 2004-04-29 | Meng Soon Cheo | System for indexing textual and non-textual files |
-
2001
- 2001-11-26 JP JP2001359788A patent/JP4490012B2/ja not_active Expired - Lifetime
-
2002
- 2002-11-22 US US10/301,635 patent/US7143086B2/en not_active Expired - Lifetime
- 2002-11-25 DE DE60224763T patent/DE60224763T2/de not_active Expired - Lifetime
- 2002-11-25 EP EP02258100A patent/EP1315103B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1315103A1 (de) | 2003-05-28 |
US20030101171A1 (en) | 2003-05-29 |
JP4490012B2 (ja) | 2010-06-23 |
DE60224763D1 (de) | 2008-03-13 |
JP2003162545A (ja) | 2003-06-06 |
EP1315103B1 (de) | 2008-01-23 |
US7143086B2 (en) | 2006-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60224763T2 (de) | Verfahren und Gerät zur Dateisuche, und Verfahren und Vorrichtung zur Erzeugung von Indexdateien | |
DE69809964T2 (de) | Online-datenbank ausbeutung | |
DE112020002600T5 (de) | Entdecken einer semantischen bedeutung von datenfeldern anhand von profildaten der datenfelder | |
DE60121231T2 (de) | Datenverarbeitungsverfahren | |
DE602004003361T2 (de) | System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen | |
DE69131941T2 (de) | System und verfahren für informationsauffindung | |
DE60209572T2 (de) | Verfahren und vorrichtung zur automatischen erkennung von datentypen für die datentypenabhängige verarbeitung | |
DE69526168T2 (de) | Verfahren und Gerät zur Klassifikation von Dokumentinformationen | |
DE10028688B4 (de) | Methode, System und Programm für eine Verbindungsoperation in einer mehrspaltigen Tabelle sowie in Satellitentabellen mit doppelten Werten | |
DE69636761T2 (de) | Speichern und wiederauffinden von geordneten schlüsselmengen in einem kompakten 0-kompletten baum | |
DE60004687T2 (de) | Verfahren zur thematischen klassifikation von dokumenten, modul zur thematischen klassifikation und ein derartiges modul beinhaltende suchmaschine | |
DE69112694T2 (de) | Verfahren zum Betrieb eines Datenverarbeitungssystems zur Ausführung von Datenbanktransaktionen. | |
DE69431351T2 (de) | Verfahren und gerät zum indexieren, suchen und anzeigen von daten | |
DE69530595T2 (de) | System und verfahren für die x.500-datenbanknorm | |
DE3780807T2 (de) | Verfahren zum schnellen oeffnen von mit pfadnamen identifizierten plattendateien. | |
DE3856055T2 (de) | Verfahren und Einrichtung, um gleichzeitigen Zugriff zu indizierten sequentiellen Dateien zu ermöglichen | |
DE69130883T2 (de) | Informationsverarbeitungssystem und Verfahren für die Verarbeitung von Dokumenten mit strukturierten Schlüsselwörtern | |
DE69024932T2 (de) | Verfahren um Dokumente, die ein bestimmtes Attribut haben, mit Hilfe eines vektorrelationalen charakteristischen Objektes zu identifizieren | |
DE19983528B3 (de) | Multi-Linearisierungs-Datenstruktur zum Bild-Browsing | |
DE60035432T2 (de) | System zur verwaltung der rdbm fragmentierungen | |
DE102007037646B4 (de) | Computerspeichersystem und Verfahren zum Indizieren, Durchsuchen und zur Datenwiedergewinnung von Datenbanken | |
DE19959765B4 (de) | Datei-Editor für mehrere Datenuntermengen | |
EP0910829A1 (de) | Datenbanksystem | |
EP1276056B1 (de) | Verfahren zum Verwalten einer Datenbank | |
DE69130350T2 (de) | Verfahren und Gerät, um Daten von vereinten Tabellen in einer Rechnerdatenbank aufzufinden |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8328 | Change in the person/name/address of the agent |
Representative=s name: SEEGER SEEGER LINDNER PARTNERSCHAFT PATENTANWAELTE |