DE112010004914T5

DE112010004914T5 - Indexieren von Dokumenten

Info

Publication number: DE112010004914T5
Application number: DE112010004914T
Authority: DE
Inventors: Paula Jean Muir; Gregory Scott Felderman; Brian Keith Hoyt
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-12-21
Filing date: 2010-12-10
Publication date: 2012-11-22
Anticipated expiration: 2030-12-11
Also published as: WO2011076585A1; GB201212805D0; GB201815543D0; CN102959538A; GB2563366A; US8572062B2; DE112010004914B4; CN102959538B; GB2489863A; US20110153640A1

Abstract

Bereitgestellt werden Methoden für das Abrufen eines Dokuments, das für jede Seite einen Bereich enthält, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht. Danach wird für jede Seite des Dokuments ermittelt, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, werden ein oder mehrere Namen-Wert-Paare aus dem internen Indexsatz gewonnen, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.

Description

HINTERGRUND
Gebiet
Die vorliegende Erfindung bezieht sich auf das Indexieren und Abrufen von Dokumenten. Insbesondere bezieht sich die vorliegende Erfindung auf die Verwendung von internen Indexsätzen.
Beschreibung der verwandten Technik
Dokumenten wie beispielsweise WORD^®- und EXCEL^®-Dokumenten können Dokumenten-Metadaten (z. B. Verfasser des Dokuments und Erstellungsdatum) zugehörig sein, die zum Indexieren von Dokumenten verwendet werden können (WORD und EXCEL sind Handelsmarken der Microsoft Corporation in den Vereinigten Staaten und/oder anderen Ländern). Die verfügbaren Metadaten sind allerdings begrenzt, und es wäre für einen Benutzer nützlich, Bedingungen für das Indexieren dieser Dokumente anpassen zu können.
Zusätzlich hierzu stellt das ADOBE^® Portable Document Format (PDF) eine Dokumentenarchitektur von Adobe Systems Incorporated aus dem Jahr 1993 dar (ADOBE ist eine Handelsmarke der Adobe Systems Incorporated in den Vereinigten Staaten und/oder anderen Ländern). Obwohl ursprünglich zum Drucken erstellt, finden sich PDF-Dokumente heute auch in großer Zahl im Internet. Tatsächlich hat sich PDF zum faktischen Standard für im Internet bereitgestellte Dokumente entwickelt.
Aufgrund des explosionsartigen Internet-Wachstums findet in den Unternehmen ein schneller Wechsel von älteren, herstellerspezifischen Druckformaten zum PDF-Format statt. Durch diesen Wechsel können sie gedruckte Kopien von Schriftstücken (z. B. Rechnungen) erzeugen und dieselbe Version des Schriftstücks zur Anzeige im Web (auch als World Wide Web oder WWW geläufig) bereitstellen. Vor diesem Wechsel wurden Dokumente aus dem herstellerspezifischen Datentyp in das PDF-Format umgewandelt. Im Zuge dieses Wechsels stoßen die Unternehmen auf architektonische Probleme des PDF-Formats, soweit sich dieses auf sehr große, einzelne PDF-Dokumente bezieht, die mehrere Schriftstücke enthalten. Diese Art von PDF-Dokument wird als PDF-Berichtsdokument bezeichnet.
Um beispielsweise auf ein einziges Schriftstück innerhalb eines PDF-Berichtsdokuments zuzugreifen, werden eindeutige Einzelinformationen (d. h. Indizes, mitunter auch als Metadaten bezeichnet) gewonnen, so dass ein Benutzer nach einem bestimmten Dokument suchen kann. Diese Methode, bei der das PDF-Berichtsdokument in einzelne Dokumente unterteilt wird und für jedes der einzelnen Dokumente Indizes gewonnen werden, wird als Indexierung bezeichnet. Die übliche Methode für das Gewinnen von Indizes aus einem PDF-Berichtsdokument besteht darin, den PDF-Bericht nach Text an bestimmten, vorgegebenen Stellen des PDF-Berichtsdokuments zu durchsuchen, wobei diese vorgegebenen Stellen als die Objektrahmen des Textes in PDF-Dokumenten bezeichnet werden.
Um den Text zu gewinnen, wird zunächst jede Seite des PDF-Dokuments grafisch dargestellt. Danach wird jedes Wort auf jeder PDF-Seite daraufhin untersucht, ob sich das Wort innerhalb eines Objektrahmens befindet. Diese Methode erfordert zahlreiche Grafik-, Schriftart- und Fließkomma-Operationen bzw -Anweisungen, die sie – insbesondere aufgrund der zunehmenden Größe von PDF-Dokumenten – langsam machen. Bekannte Indexierungsprogramme verwenden also grafische Methoden für die Datengewinnung, was (aufgrund von Schriftarteneigenschaften, Objektrahmen mit Rundungsfehlern usw.) einen hohen Ressourcenbedarf mit sich bringt und fehleranfällig ist.
Es besteht daher Bedarf an der Indexierung von Dokumenten unter Verwendung interner Indexsätze.
KURZDARSTELLUNG
Die vorliegende Erfindung soll ein Verfahren, Computerprogrammprodukt und System für das Abrufen eines Dokuments bereitstellen, das für jede Seite einen Bereich enthält, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht. Danach wird für jede Seite des Dokuments ermittelt, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, werden ein oder mehrere Namen-Wert-Paare aus dem internen Indexsatz gewonnen, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.
KURZE BESCHREIBUNG DER VERSCHIEDENEN ANSICHTEN DER ZEICHNUNGEN
Im Folgenden werden in Bezug auf die beigefügten Zeichnungen Ausführungsformen der Erfindung beschrieben, die lediglich als Beispiel zu verstehen sind, wobei:
1 in einem Blockschaubild eine Datenverarbeitungsumgebung gemäß bestimmten Ausführungsformen der Erfindung darstellt;
2 in einem Ablaufplan die Erzeugung interner Indexsätze gemäß bestimmten Ausführungsformen darstellt;
3 in einem Ablaufplan die Verwendung interner Indexsätze für das Erstellen einer Datenbank interner Indexsätze gemäß bestimmten Ausführungsformen darstellt;
4 ein Beispiel eines seitenbezogenen Verzeichnisses (Page-Piece Dictionary) gemäß bestimmten Ausführungsformen darstellt;
5 in einem Ablaufplan die von einem Programm für die Gewinnung bzw. Extrahieren interner Indexsätze gemäß bestimmten Ausführungsformen durchgeführten Verarbeitungsschritte darstellt;
6 eine Beispieltabelle in einer Datenbank darstellt, die Indizes aus einem oder mehreren internen Indexsätzen gemäß bestimmten Ausführungsformen speichert;
7 in einem Ablaufplan die Verwendung einer Datenbank interner Indexsätze gemäß bestimmten Ausführungsformen darstellt und
8 eine Computerarchitektur darstellt, die gemäß bestimmten Ausführungsformen verwendet werden kann.
AUSFÜHRLICHE BESCHREIBUNG
In der folgenden Beschreibung wird auf die beigefügten Zeichnungen Bezug genommen, die einen Bestandteil hiervon bilden und mehrere Ausführungsformen der Erfindung darstellen. Dabei dürfte offensichtlich sein, dass auch andere Ausführungsformen verwendet und Änderungen an der Struktur und Funktion vorgenommen werden können, ohne vom Geltungsumfang der Erfindung abzuweichen.
1 stellt in einem Blockschaubild eine Datenverarbeitungsumgebung gemäß bestimmten Ausführungsformen der Erfindung dar. Eine Datenverarbeitungseinheit 100 ist mit einem Datenarchiv 160 verbunden. Der Computer 100 beinhaltet ein Dokumenten-Verarbeitungsprogramm 110, ein Indexierungssystem 120, ein Suchsystem 130 und Abbildungen 140. Das Indexierungssystem 120 beinhaltet ein Programm 122 für die Gewinnung bez. Extraktion interner Indexsätze. Das Datenarchiv 160 beinhaltet Dokumente 170 und eine Datenbank von Indizes 180 (im Folgenden „Datenbank”). Bei bestimmten Ausführungsformen beinhalten die Dokumente 170 PDF-Berichtsdokumente, WORD^®- und EXCEL^®-Dokumente. Bei bestimmten Ausführungsformen erzeugt das Dokumenten-Verarbeitungsprogramm 110 Dokumente im PDF-, WORD^®- oder EXCEL^®-Format.
Bei bestimmten Ausführungsformen befinden sich die internen Indexsätze in einer vorgegebenen Struktur. Bei bestimmten Ausführungsformen sind die internen Indexsätze nicht-grafische Strukturen. Bei bestimmten Ausführungsformen weist jeder interne Indexsatz die folgenden Merkmale für ein Dokument auf:
Merkmale

1) Der interne Indexsatz befindet sich in einer Struktur, die einem Bereich einer Seite eines Dokuments zugehörig ist. Jede Seite des Dokuments beinhaltet einen Bereich, der von Anwendungen, die das Dokument verarbeiten, z. B. von Dokumenten-Leseprogrammen, Dokumenten-Umwandlungsprogrammen oder von anderweitigen Werkzeugen/Anwendungen, die das Dokument verarbeiten, ignoriert (d. h. nicht beachtet) wird, und der interne Indexsatz ist in diesem Bereich gespeichert. In den internen Indexsätzen sind Indizes gespeichert. Bei bestimmten Ausführungsformen besteht jeder Index aus einem Namen-Wert-Paar (z. B. „AccountNo”/„7558-1”). Das Namen-Wert-Paar kann später dazu verwendet werden, nach Dokumenten zu suchen, die dieses Namen-Wert-Paar enthalten. Das heißt, das Namen-Wert-Paar stellt spezifische Informationen zu einem Dokument bereit, mit denen das Dokument als Reaktion auf eine Suchanfrage ermittelt werden kann. So weisen z. B. PDF-, WORD^®- und EXCEL^®-Dokumente jeweils einen derartigen Bereich auf, der den hier beschriebenen internen Indexsatz enthalten könnte.
2) Die Struktur, in welcher der interne Indexsatz gespeichert ist, ist einer oder mehreren Seiten des Dokuments zugehörig. Das heißt, ein einer Seite eines Dokuments zugehöriger interner Indexsatz ist so lange relevant für diese Seite und für alle darauffolgenden Seiten, bis ein anderer interner Indexsatz innerhalb des Dokuments gesetzt ist oder das Ende des Dokuments erreicht ist. So ist in einem zehnseitigen Dokument mit zwei internen Indexsätzen z. B. ein erster interner Indexsatz, der Seite 1 zugehörig ist, auf die Seiten 2 bis 5 des Dokuments anwendbar, und ein zweiter, Seite 6 zugehöriger interner Indexsatz ist auf die Seiten 6 bis 10 des Dokuments anwendbar. Bei PDF-, WORD^®- und EXCEL^®-Dokumenten kann eine derartige Struktur z. B. einer beliebigen Seite des Dokuments zugehörig sein.
3) Der interne Indexsatz kann sich in dem Dokument befinden, ohne die Unversehrtheit des Dokuments zu beeinträchtigen oder in Konflikt mit einer wie auch immer gearteten Anwendung zu geraten, die das Dokument unter Umständen verarbeitet (z. B. Dokumenten-Leseprogramme und Dokumenten-Umwandlungsprogramme). Dies trifft z. B. auf PDF-, WORD^®- und EXCEL^®-Dokumente zu.

Bei bestimmten Ausführungsformen, in denen das Dokument 170 ein PDF-Dokument ist, kann auf einen internen Indexsatz zugegriffen werden, ohne dass auf einen Objektrahmen zugegriffen wird. Bei bestimmten Ausführungsformen sind Indizes in den internen Indexsätzen gespeichert und stehen zudem in Objektrahmen zur Verfügung.
2 stellt in einem Ablaufplan die Erzeugung interner Indexsätze gemäß bestimmten Ausführungsformen dar. Die Steuerung beginnt mit Block 200. In Block 200 erstellt das Dokumenten-Verarbeitungsprogramm 110 als Reaktion auf eine Benutzereingabe ein Dokument 170, in dem ein oder mehrere interne Indexsätze vorhanden sind. In Block 202 speichert das Dokumenten-Verarbeitungsprogramm 110 das Dokument 170 in dem Datenarchiv 160. Bei bestimmten Ausführungsformen beinhaltet der Vorgang des Speicherns des Dokuments 170 das Indexieren des Dokuments unter Verwendung des Indexierungssystems 120.
Bei den Ausführungsformen werden die Indizes für das Dokument 170 in einem oder mehreren Bereichen innerhalb des Dokuments 170 gespeichert, wenn das Dokument 170 erstellt wird. Dokumentenersteller wissen, welche Daten innerhalb eines Dokuments 170 nützlich sind, und können daher in einem oder mehreren Bereichen innerhalb des Dokuments 170 einen oder mehrere interne Indexsätze mit Indizes (d. h. Namen-Wert-Paaren) erzeugen und die Indexwerte zudem in den Datenstrom des Dokuments einfügen.
3 stellt in einem Ablaufplan die Verwendung interner Indexsätze für das Erstellen einer Datenbank interner Indexsätze gemäß bestimmten Ausführungsformen dar. Die Steuerung beginnt mit Block 300, indem das Indexierungssystem 120 ein Dokument 170 abruft, das für jede Seite einen Bereich enthält, der von den Anwendungen, die das Dokument 170 verarbeiten, ignoriert wird, und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments 170 zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht. In Block 302 gewinnt bzw. extrahiert das Programm 122 für die Gewinnung bzw. Extraktion interner Indexsätze Indizes (d. h. Namen-Wert-Paare) aus den unterschiedlichen internen Indexsätzen. Bei bestimmten Ausführungsformen verwendet das Programm 122 für die Gewinnung bzw. das Extrahieren interner Indexsätze Anwendungsprogrammierschnittstellen (Application Programming Interfaces, APIs), um die Indizes zu gewinnen.
In Block 304 speichert das Indexierungssystem 120 die Indizes (d. h. Namen-Wert-Paare) in einer Tabelle der Datenbank 180. Bei bestimmten Ausführungsformen gibt es für jeden internen Indexsatz eine Zeile in der Datenbank 180 und darüber hinaus Spalten, die den Namen der einzelnen Indizes entsprechen. Das heißt, bei einem Namen-Wert-Paar entspricht der Indexname einem Spaltennamen in der Tabelle, während der Indexwert einem Wert entspricht, der in einer Zeile für eine Spalte mit dem Namen gespeichert ist. Bei bestimmten Ausführungsformen liegen die Indexwerte in Zeichenformat vor, und das Indexierungssystem 120 verwendet Abbildungen 140, um die Indexwerte in andere Formate umzuwandeln, wie dies benötigt wird, um die Indexwerte in der Datenbank 180 zu speichern. So kann das Indexierungssystem 120 z. B. eine Kontonummer aus dem Zeichenformat in das Ganzzahlenformat umwandeln und das Ganzzahlenformat in der Datenbank 180 speichern.
Auf diese Weise beseitigen die Ausführungsformen die Notwendigkeit des Suchens nach Text, des Ermittelns von Objektrahmen und des Durchführens von Gleitkomma-Berechnungen. Das Indexierungssystem 120 muss zudem nicht wissen, wie viele Namen-Wert-Paare innerhalb des Dokuments 170 enthalten sind. Ohne die Notwendigkeit dieser Aufgaben ist das Indexierungssystem 120 weniger komplex und die Leistung bei der Indexierung des Dokuments 170 erhöht sich.
Darüber hinaus ermöglichen die Ausführungsformen für alle Arten von Dokumenten das Anpassen von Bedingungen für die Indexierung dieser Dokumente.
Bei bestimmten Ausführungsformen ist ein interner Indexsatz, der die drei oben beschriebenen Merkmale aufweist, ein seitenbezogenes Verzeichnis.
Bei Ausführungsformen, bei denen das Dokument 170 ein PDF-Dokument ist, kann ein seitenbezogenes Verzeichnis zum Speichern von Indizes verwendet werden. Das heißt, das seitenbezogene Verzeichnis ist die Struktur, die einen oder mehrere interne Datensätze speichert.
4 stellt ein Beispiel eines seitenbezogenen Verzeichnisses 400 gemäß bestimmten Ausführungsformen dar. Das seitenbezogene Verzeichnis enthält ein Anwendungsdatenverzeichnis, wobei ein Anwendungsdatenverzeichnis eine PDF-Struktur sein kann, welche die Namen-Wert-Paare mit den Indexnamen und Indexwerten speichert, die als Indizes gewonnen werden.
Das Schlüsselwort „PieceInfo” kennzeichnet dieses Objekt als ein seitenbezogenes Verzeichnis. In dem Beispiel aus 4 kennzeichnet das Schlüsselwort „ODIndexes” einen Eintrag, der die Indizes für das Dokument enthält. Dasselbe Schlüsselwort wird von dem Indexierungssystem 120, das die Indizes erzeugt, sowie von dem Programm 122 für die Gewinnung interner Indexsätze verwendet, das die Indizes gewinnt. Durch die Verwendung derselben Schlüsselwort-Zuordnung kann das Programm 122 für die Gewinnung interner Indexsätze den richtigen Eintrag in dem seitenbezogenen Verzeichnis, das die Indizes enthält, finden.
Bei bestimmten Ausführungsformen werden die Schlüsselwörter „Private” und „LastModified” von der PDF-Architektur für das Anwendungsdatenverzeichnis angegeben. Dabei sind die Wörter „AccountNo”, „Name” und „RunDate” die Indexnamen. Der Text „7558-1”, „David Smith” und „03 AUG 2004” bildet die Indexwerte. Die Indexnamen und Indexwerte sind so strukturiert, dass klar ist, welcher Indexname welchem Indexwert zugehörig ist. Das Schlüsselwort „AnotherEntry” enthält einen anderen Eintrag in dem seitenbezogenen Verzeichnis, der für das Gewinnen von Indizes nicht von Belang ist, jedoch verdeutlicht, dass das seitenbezogene Verzeichnis mehrere Einträge aufweisen kann, die von verschiedenen Anwendungen für unterschiedliche Zwecke genutzt werden. So verwendet das Indexierungssystem 120 beispielsweise den internen Indexsatz, während eine andere Anwendung die Daten von „AnotherEntry” verwenden kann.
Das seitenbezogene Verzeichnis kann als Teil eines Seitenobjekts erstellt werden. Dabei kann ein beliebiges Seitenobjekt ein einziges seitenbezogenes Verzeichnis beinhalten. Ein Seitenobjekt kann als ein Verzeichnis beschrieben werden, das die Attribute einer einzigen Seite eines Dokuments angibt.
5 stellt in einem Ablaufplan die von einem Programm 122 für die Gewinnung interner Indexsätze gemäß bestimmten Ausführungsformen durchgeführten Verarbeitungsschritte dar. Die Steuerung beginnt mit Block 500, indem das Programm 122 für die Gewinnung interner Indexsätze eine nächste Seite des Dokuments 170 auswählt. In Block 502 ermittelt das Programm 122 für die Gewinnung interner Indexsätze, ob der Seite ein interner Indexsatz zugehörig ist. Bei bestimmten Ausführungsformen können mehrere interne Indexsätze in dem Bereich einer Seite enthalten sein (z. B. kann in 4 anstelle von „AnotherEntry” ein Eintrag „ODIndexes2” vorhanden sein). Wenn dies der Fall ist, fährt die Verarbeitung mit Blick 504 fort, andernfalls fährt die Verarbeitung mit Block 506 fort. In Block 502 kann das Programm 122 für die Gewinnung interner Indexsätze z. B. eine API verwenden, um in dem Bereich der Seite, der nicht berücksichtigt wird, nach einem Schlüsselwort zu suchen, das einen internen Indexsatz angibt (z. B. „ODIndexes”).
In Block 504 gewinnt das Programm 122 für die Gewinnung interner Indexsätze Namen-Wert-Paare aus dem internen Indexsatz. Das Programm 122 für die Gewinnung interner Indexsätze kann z. B. eine API verwenden, um jedes Namen-Wert-Paar abzurufen und kann dann APIs verwenden, um den Namen und Wert eines jeden Namen-Wert-Paars zu gewinnen. Wenn z. B. das Namen-Wert-Paar „AccountNo”/„7558-1” abgerufen wird, werden „AccountNo” und „7558-1” gewonnen. Von Block 504 fährt die Verarbeitung mit Block 506 fort.
In Block 506 ermittelt das Programm für die Gewinnung interner Indexsätze, ob alle Seiten des Dokuments 170 ausgewählt wurden. Wenn dies der Fall ist, erfolgt die Verarbeitung, andernfalls kehrt die Verarbeitung zu Block 500 zurück, um eine weitere Seite des Dokuments 170 auszuwählen.
Somit ermöglichen die Ausführungsformen, dass Indizes einer Seite in einem Dokument 170 an einer nicht-grafischen Stelle zugeordnet werden können. Die Ausführungsformen gewinnen Textinformationen aus Dokumenten 170, die nicht zwangsläufig auf Indizes beschränkt sein müssen. Bei den Ausführungsformen sind Indexwerte in Dokumente 170 eingebettet.
6 stellt eine Beispieltabelle 600 in der Datenbank 180 dar, die Namen-Wert-Paare aus einem oder mehreren internen Indexsätzen gemäß bestimmten Ausführungsformen speichert. In 6 speichert die Tabelle 600 Indexnamen und Indexwerte aus dem in 4 dargestellten Eintrag „ODIndexes”. Jede Zeile in der Tabelle 600 verfügt über eine Spalte für einen Dokumentenbezeichner (Document Identifier) (für das Dokument 170, das die Indizes in dieser Zeile speichert) und über eine Spalte für jeden in 4 beschriebenen Indexnamen. Für ein Dokument 170 mit zehn internen Indexsätzen würde die Tabelle 600 z. B. zehn Zeilen beinhalten, wobei einem jeden der internen Indexsätze eine Zeile entsprechen würde.
7 stellt in einem Ablaufplan die Verwendung der Datenbank interner Indexsätze 170 gemäß bestimmten Ausführungsformen dar. Die Steuerung beginnt bei Block 700, indem ein Suchsystem 130 eine Suchanfrage mit einem oder mehreren Suchschlüsseln empfängt. In Block 702 vergleicht das Suchsystem 130 den einen oder die mehreren Suchschlüssel mit den Indexwerten in der Datenbank interner Indexsätze 170. In Block 704 stellt das Suchsystem 130 als Reaktion auf die Feststellung, dass einer oder mehrere der Suchschlüssel mit mindestens einem Indexwert übereinstimmen, ein oder mehrere Dokumente 170 bereit, die einen oder mehrere Indexsätze beinhalten, welche mit dem mindestens einen Indexwert übereinstimmen. Wenn ein Suchschlüssel z. B. „7558-1” lautet, würde (z. B. einem Benutzer) ein Dokument mit einem internen Indexsatz bereitgestellt werden, der mit dem Indexwert „7558-1” übereinstimmt.
Somit stellen bestimmte Ausführungsformen eine einzigartige Art und Weise bereit, wie eine schnellere und genauere Indexierung von Dokumenten 170 erreicht werden kann. Dabei vereinen bestimmte Ausführungsformen mehrere Ideen zur Verwendung interner Indexsätze. Eine Idee besteht darin, dass die Dokumentenersteller die Indizes in Gestalt von internen Indexsätzen vervielfältigen. Zusätzlich zur oder anstelle der Anordnung der Indizes auf der sichtbaren Seite, die sich in einem Datenstrom befindet, werden die Indizes also in einen vorgegebenen (z. B. dem Indexierungssystem 120 bekannten) Bereich auf einer Seite eines Dokuments 170 kopiert, der keine grafischen Operationen für den Abruf benötigt.
Zusätzliche Einzelheiten zu den Ausführungsformen
Der Fachmann weiß, dass Aspekte der vorliegenden Erfindung als ein System, Verfahren oder Computerprogrammprodukt ausgeführt werden können. Entsprechend können Aspekte der vorliegenden Erfindung in Form einer vollständig in Hardware realisierten Ausführungsform, einer vollständig in Software realisierten Ausführungsform (z. B. Firmware, residente Software, Mikrocode usw.) oder in Form einer Ausführungsform vorliegen, die Software- und Hardware-Aspekte, die zusammenfassend als „Schaltung”, „Modul” oder „System” bezeichnet werden können, miteinander vereint. Zudem können Aspekte der vorliegenden Erfindung in Form eines Computerprogrammprodukts vorliegen, das in einem oder mehreren computerlesbaren Medien ausgeführt ist, auf denen computerlesbarer Programmcode enthalten ist.
Es kann eine beliebige Kombination aus einem oder mehreren computerlesbaren Medien genutzt werden. Dabei kann das computerlesbare Medium ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein. Ein computerlesbares Speichermedium kann z. B. ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem bzw. eine entsprechende Vorrichtung oder Einheit oder aber eine beliebige geeignete Kombination der vorgenannten Elemente sein, ohne jedoch auf diese beschränkt zu sein. Konkretere Beispiele des computerlesbaren Speichermediums würden Folgendes beinhalten (wobei dies eine nicht vollständige Liste darstellt): eine elektrische Verbindung mit einem oder mehreren Leitern, eine tragbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM), einen Festwertspeicher (ROM), einen löschbaren, programmierbaren Nur-Lese-Speicher (EPROM- oder Flash-Speicher), einen Lichtwellenleiter, eine tragbare CD-ROM, eine optische Speichereinheit, eine magnetische Speichereinheit oder eine beliebige geeignete Kombination der vorgenannten Elemente. In Verbindung mit diesem Dokument kann ein computerlesbares Speichermedium ein beliebiges physisches Medium sein, das ein Programm enthalten oder speichern kann, welches von oder in Zusammenhang mit einem System zur Befehlsausführung, das Befehle ausführt oder ablaufen lässt, einer entsprechenden Vorrichtung oder Einheit verwendet wird.
Ein computerlesbares Signalmedium kann ein weitergeleitetes Datensignal mit darin enthaltenem computerlesbarem Programmcode beinhalten, z. B. als Basisband oder als Teil einer Trägerwelle. Ein derartiges weitergeleitetes Signal kann eine beliebige Form von unterschiedlichen Formen annehmen, darunter, ohne darauf beschränkt zu sein, eine elektromagnetische Form, eine optische Form oder auch jede geeignete Kombination hiervon. Ein computerlesbares Signalmedium kann ein beliebiges computerlesbares Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm austauschen, weiterleiten oder übertragen kann, welches für die Nutzung durch oder in Verbindung mit einem System, einer Vorrichtung oder Einheit zur Befehlsausführung vorgesehen ist.
Auf einem computerlesbaren Medium enthaltener Programmcode kann unter Verwendung eines beliebigen geeigneten Mediums übertragen werden, darunter, ohne darauf beschränkt zu sein, drahtlose, drahtgebundene, Lichtwellenleiterkabel-, Funk- und andere Medien oder eine beliebige Kombination der vorgenannten Medien.
Computerprogrammcode für das Ausführen der Arbeitsschritte für Aspekte der vorliegenden Erfindung kann in einer beliebigen Kombination von einer oder mehreren Programmiersprachen geschrieben sein, darunter eine objektorientierte Programmiersprache wie Java, Smalltalk, C++ oder ähnliche sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C” oder ähnliche Programmiersprachen. Der Programmcode kann vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder aber vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. Im letztgenannten Szenario kann der entfernt angeordnete Computer über eine beliebige Art von Netzwerk, darunter ein lokales Netz (LAN) oder ein Weitverkehrsnetz (WAN), mit dem Computer des Benutzers verbunden sein, oder die Verbindung kann mit einem externen Computer (z. B. über das Internet unter Verwendung eines Internet-Dienstanbieters) hergestellt werden.
Im Folgenden werden Aspekte der vorliegenden Erfindung unter Bezugnahme auf Darstellungen von Ablaufplänen und/oder Blockschaubildern von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Dabei dürfte klar sein, dass jeder Block der Ablaufplan-Darstellungen und/oder Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplan-Darstellungen und/oder Blockschaubildern durch Computerprogrammbefehle realisiert werden können. Diese Computerprogrammbefehle können einem Prozessor eines Universalcomputers, Spezialcomputers oder einer anderweitigen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die Befehle, die über den Prozessor des Computers oder der anderweitigen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, ein Mittel erzeugen, mit dem die Funktionen/Handlungen realisiert werden können, die in dem Block bzw. den Blöcken des Ablaufplans und/oder Blockschaubilds angegeben sind.
Diese Computerprogrammbefehle können auch auf einem computerlesbaren Medium gespeichert sein, das einen Computer, eine anderweitige programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten anweisen kann, auf eine bestimmte Art und Weise zu funktionieren, so dass die auf dem computerlesbaren Medium gespeicherten Befehle einen Herstellungsartikel hervorbringen, der Befehle enthält, mit denen die Funktion/Handlung, die in dem Block bzw. den Blöcken des Ablaufplans und/oder Blockschaubilds angegeben ist, realisiert wird.
Die Computerprogrammbefehle können zudem in einen Computer, eine anderweitige programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten geladen werden, um zu veranlassen, dass eine Reihe von Betriebsschritten auf dem Computer, der anderweitigen programmierbaren Datenvorrichtung oder den anderen Einheiten ausgeführt werden, so dass die Befehle, die auf dem Computer oder der anderweitigen Datenverarbeitungsvorrichtung ausgeführt werden, Prozesse bereitstellen, mit denen die Funktionen/Handlungen, die in dem Block bzw. den Blöcken des Ablaufplans und/oder Blockschaubilds angegeben sind, realisiert werden.
Der Code, welcher die beschriebenen Operationen bzw. Anweisungen realisiert, kann ferner in Hardware-Logik oder als Schaltung (z. B. als integrierte Schaltung, als programmierbares Gatterfeld (Programmable Gate Array, PGA), als anwendungsspezifische integrierte Schaltung (Application Specific Integrated Circuit, ASIC) usw.) realisiert sein.
8 stellt eine Computerarchitektur 800 dar, die gemäß bestimmten Ausführungsformen verwendet werden kann. Die Datenverarbeitungseinheit 100 kann eine Computerarchitektur 800 realisieren. Die Computerarchitektur 800 ist für das Speichern und/oder Ausführen von Programmcode geeignet und enthält mindestens einen Prozessor 802, der über einen Systembus 820 direkt oder indirekt mit den Speicherelementen 804 verbunden ist. Die Speicherelemente 804 können einen Lokalspeicher, der während der tatsächlichen Ausführung des Programmcodes verwendet wird, einen Massenspeicher und Cachespeicher beinhalten, die eine vorübergehende Speicherung von mindestens einem Teil des Programmcodes bereitstellen, um die Häufigkeit, mit welcher der Code während der Ausführung aus dem Massenspeicher abgerufen werden muss, zu verringern. Die Speicherelemente 804 beinhalten ein Betriebssystem 805 und ein oder mehrere Computerprogramme 806.
Ein-/Ausgabeeinheiten (E/A-Einheiten) 812, 814 (darunter, ohne darauf beschränkt zu sein, Tastaturen, Zeigeeinheiten usw.) können entweder direkt oder über die dazwischen geschalteten E/A-Steuereinheiten 810 mit dem System verbunden sein.
Die Netzwerkadapter 808 können ebenfalls mit dem System verbunden sein, um die Verbindung des Datenverarbeitungssystems mit anderen Datenverarbeitungssystemen oder mit entfernt angeordneten Druckern oder Speichereinheiten über dazwischen geschaltete Netzwerke zu ermöglichen. Modems, Kabelmodems und Ethernet-Karten sind nur einige der momentan verfügbaren Arten von Netzwerkadaptern 808.
Die Computerarchitektur 800 kann mit dem Speicher 816 (z. B. einem nicht flüchtigen Speicherbereich wie beispielsweise Magnetplattenlaufwerken, optischen Plattenlaufwerken, einem Bandlaufwerk usw.) verbunden sein. Der Speicher 816 kann eine interne Speichereinheit oder einen verbundenen oder über ein Netzwerk zugänglichen Speicher umfassen. In dem Speicher 816 gespeicherte Computerprogramme 806 können in die Speicherelemente 804 geladen und von einem Prozessor 802 auf eine bekannte Art und Weise ausgeführt werden.
Die Computerarchitektur 800 kann weniger Komponenten als abgebildet, zusätzliche, hier nicht abgebildete Komponenten oder eine Kombination der abgebildeten und zusätzlicher Komponenten enthalten. Die Computerarchitektur 800 kann eine beliebige Datenverarbeitungseinheit nach dem Stand der Technik umfassen, z. B. einen Großrechner, einen Server, einen Personalcomputer, einen Arbeitsplatzrechner, einen Aktentaschen-Computer, einen Taschen-Computer, eine Telefonie-Einheit, eine Netzwerkeinrichtung, eine Virtualisierungseinheit, eine Speichersteuereinheit usw.
Der Ablaufplan und die Blockschaubilder in den Figuren stellen die Architektur, Funktionalität und den Betrieb möglicher Realisierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung bereit. In dieser Hinsicht kann jeder Block des Ablaufplans oder der Blockschaubilder ein Modul, Segment oder einen Code-Teil darstellen, das bzw. der einen oder mehrere Befehle umfasst, mit denen sich die angegebene(n) logische(n) Funktion(en) realisieren lässt/lassen. Zu beachten ist ferner, dass bei manchen alternativen Ausführungsformen die in dem Block erwähnten Funktionen in einer anderen Reihenfolge als der in den Figuren genannten auftreten können. So können beispielsweise zwei aufeinanderfolgend dargestellte Blöcke tatsächlich im Wesentlichen gleichzeitig stattfinden, oder die Blöcke können mitunter in umgekehrter Reihenfolge ausgeführt werden, wobei dies abhängig von der betreffenden Funktionalität ist. Ebenfalls zu beachten ist, dass jeder Block der Blockschaubilder und/oder der Ablaufplan-Darstellung sowie Kombinationen von Blöcken in den Blockschaubildern und/oder der Ablaufplan-Darstellung durch hardwaregestützte Spezialsysteme, welche die angegebenen Funktionen oder Handlungen ausführen, oder durch Kombinationen von Spezial-Hardware und Computerbefehlen realisiert werden kann/können.
Die obige Beschreibung von Ausführungsformen der Erfindung dient zur Veranschaulichung und Beschreibung. Sie erhebt nicht den Anspruch, vollständig zu sein oder die Ausführungsformen auf die präzise Form, wie sie hier offenbart wird, zu beschränken. In Zusammenhang mit den obigen Ausführungen sind zahlreiche Änderungen und Anpassungen möglich. Der Geltungsumfang der Ausführungsformen soll nicht durch diese ausführliche Beschreibung, sondern vielmehr durch die hier beigefügten Ansprüche beschränkt sein. Die obigen Angaben, Beispiele und Daten stellen eine umfassende Beschreibung der Herstellung und Verwendung der Gesamtheit der Ausführungsformen bereit. Da viele Ausführungsformen möglich sind, ohne vom Geist und Geltungsumfang der Ausführungsformen abzuweichen, betreffen die Ausführungsformen die im Folgenden angefügten Ansprüche oder etwaige später eingereichte Ansprüche sowie deren Entsprechungen.

Claims

Computerrealisiertes Verfahren, aufweisend: Abrufen eines mindestens eine Seite umfassenden Dokuments, das für jede Seite einen Bereich aufweist, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht; und für jede Seite in dem Dokument Ermitteln, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, Extrahieren von einem oder mehreren Namen-Wert-Paaren aus dem internen Indexsatz, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.
Verfahren nach Anspruch 1, wobei das Extrahieren ferner ein Verwenden von Anwendungsprogrammierschnittstellen (APIs) umfasst, um das eine oder die mehreren Namen-Wert-Paare zu extrahieren.
Verfahren nach Anspruch 1 oder Anspruch 2, wobei die Anwendungen Dokumenten-Leseprogramme und Dokumenten-Umwandlungsprogramme umfassen.
Verfahren nach einem der vorangegangenen Ansprüche, ferner aufweisend: Speichern des einen oder der mehreren Namen-Werte-Paare eines jeden internen Indexsatzes in einer Tabelle in einer Datenbank, wobei bei einem Namen-Wert-Paar der Name einem Spaltennamen in der Tabelle entspricht und der Wert einem Wert entspricht, der in einer Zeile für eine Spalte mit dem Namen gespeichert ist.
Verfahren nach Anspruch 4, ferner aufweisend: als Reaktion auf ein Empfangen einer Suchanfrage mit einem oder mehreren Suchschlüsseln Vergleichen des einen oder der mehreren Suchschlüssel mit Werten in der Datenbank und als Reaktion auf die Feststellung, dass einer oder mehrere der Suchschlüssel mit mindestens einem Wert übereinstimmen, Bereitstellen von einem oder mehreren Dokumenten, die einem oder mehreren internen Indexsätzen zugehörig sind, welche mit dem mindestens einen Indexwert übereinstimmen.
Verfahren nach einem der vorangegangenen Ansprüche, wobei einem Bereich mehrere interne Indexsätze zugehörig sind.
Verfahren nach einem der vorangegangenen Ansprüche, wobei ein interner Indexsatz, der einer Seite eines Dokuments zugehörig ist, so lange für die Seite und für darauffolgende Seiten relevant ist, bis ein anderer interner Indexsatz innerhalb des Dokuments gesetzt ist oder bis das Ende des Dokuments erreicht ist.
System, das Folgendes umfasst: Hardware-Logik zum Ausführen von Anweisungen, wobei die Anweisungen Folgendes aufweisen: Abrufen eines mindestens eine Seite umfassenden Dokuments, das für jede Seite einen Bereich enthält, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht; und für jede Seite in dem Dokument Ermitteln, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, Gewinnen von einem oder mehreren Namen-Wert-Paaren aus dem internen Indexsatz, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.
Verfahren nach Anspruch 8, wobei die Operationen für das Gewinnen ferner das Verwenden von Anwendungsprogrammierschnittstellen (APIs) umfassen, um das eine oder die mehreren Namen-Wert-Paare zu gewinnen.
System nach Anspruch 8 oder Anspruch 9, wobei der interne Indexsatz in einem Bereich der Seite gespeichert ist, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird, wobei die Anwendungen Dokumenten-Leseprogramme und Dokumenten-Umwandlungsprogramme beinhalten.
System nach einem der Ansprüche 8 bis 10, wobei die Anweisungen ferner Folgendes aufweisen: Speichern des einen oder der mehreren Namen-Werte-Paare eines jeden internen Indexsatzes in einer Tabelle in einer Datenbank, wobei bei einem Namen-Wert-Paar der Name einem Spaltennamen in der Tabelle entspricht und der Wert einem Wert entspricht, der in einer Zeile für eine Spalte mit dem Namen gespeichert ist.
System nach Anspruch 11, wobei die Anweidungen ferner aufweisen: als Reaktion auf ein Empfangen einer Suchanfrage mit einem oder mehreren Suchschlüsseln Vergleichen des einen oder der mehreren Suchschlüssel mit Werten in der Datenbank und als Reaktion auf ein Feststellung, dass einer oder mehrere der Suchschlüssel mit mindestens einem Wert übereinstimmen, Bereitstellen von einem oder mehreren Dokumenten, die einem oder mehreren internen Indexsätzen zugehörig sind, welche mit dem mindestens einen Indexwert übereinstimmen.
System nach einem der Ansprüche 8 bis 12, wobei einem Bereich mehrere interne Indexsätze zugehörig sind.
System nach einem der Ansprüche 8 bis 13, wobei ein interner Indexsatz, der einer Seite eines Dokuments zugehörig ist, so lange für die Seite und für darauffolgende Seiten relevant ist, bis ein anderer interner Indexsatz innerhalb des Dokuments gesetzt ist oder bis das Ende des Dokuments erreicht ist.
Computerprogrammprodukt, das ein computerlesbares Speichermedium aufweist, welches ein computerlesbares Programm umfasst, wobei das computerlesbare Programm bei Ausführung durch einen Prozessor auf einem Computer den Computer dazu veranlasst: ein Dokument abzurufen, das für jede Seite einen Bereich enthält, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht; und für jede Seite in dem Dokument zu ermitteln, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, ein oder mehrere Namen-Wert-Paare aus dem internen Indexsatz zu extrahieren, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.
Computerprogrammprodukt nach Anspruch 15, wobei das Extrahieren ferner ein Verwenden von Anwendungsprogrammierschnittstellen (APIs) aufweist, um das eine oder die mehreren Namen-Wert-Paare zu gewinnen.
Computerprogrammprodukt nach Anspruch 15, wobei der interne Indexsatz in einem Bereich der Seite gespeichert ist, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird, wobei die Anwendungen Dokumenten-Leseprogramme und Dokumenten-Umwandlungsprogramme umfassen.
Computerprogrammprodukt nach Anspruch 15, wobei das computerlesbare Programm bei Ausführung durch den Prozessor auf dem Computer den Computer dazu veranlasst: das eine oder die mehreren Namen-Werte-Paare eines jeden internen Indexsatzes in einer Tabelle in einer Datenbank zu speichern, wobei bei einem Namen-Wert-Paar der Name einem Spaltennamen in der Tabelle entspricht und der Wert einem Wert entspricht, der in einer Zeile für eine Spalte mit dem Namen gespeichert ist.
Computerprogrammprodukt nach Anspruch 18, wobei das computerlesbare Programm bei Ausführung durch den Prozessor auf dem Computer den Computer dazu veranlasst: als Reaktion auf das Empfangen einer Suchanfrage mit einem oder mehreren Suchschlüsseln den einen oder die mehreren Suchschlüssel mit Werten in der Datenbank zu vergleichen und als Reaktion auf eine Feststellung, dass einer oder mehrere der Suchschlüssel mit mindestens einem Wert übereinstimmen, ein oder mehrere Dokumente bereitzustellen, die einem oder mehreren internen Indexsätzen zugehörig sind, welche mit dem mindestens einen Indexwert übereinstimmen.
Computerprogrammprodukt nach Anspruch 15, wobei einem Bereich mehrere interne Indexsätze zugehörig sind.
Computerprogrammprodukt nach Anspruch 15, wobei ein Indexsatz, der einer Seite eines Dokuments zugehörig ist, so lange für die Seite und für darauffolgende Seiten relevant ist, bis ein anderer interner Indexsatz innerhalb des Dokuments gesetzt ist oder bis das Ende des Dokuments erreicht ist.
Computerprogramm, das ein Programmcodemittel umfasst, welches so gestaltet ist, dass es alle Schritte der Ansprüche 1 bis 7 durchführt, wenn das Programm auf einem Computer ausgeführt wird.