DE112010004914T5 - Indexieren von Dokumenten - Google Patents

Indexieren von Dokumenten Download PDF

Info

Publication number
DE112010004914T5
DE112010004914T5 DE112010004914T DE112010004914T DE112010004914T5 DE 112010004914 T5 DE112010004914 T5 DE 112010004914T5 DE 112010004914 T DE112010004914 T DE 112010004914T DE 112010004914 T DE112010004914 T DE 112010004914T DE 112010004914 T5 DE112010004914 T5 DE 112010004914T5
Authority
DE
Germany
Prior art keywords
document
name
page
internal index
index set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112010004914T
Other languages
English (en)
Other versions
DE112010004914B4 (de
Inventor
Paula Jean Muir
Gregory Scott Felderman
Brian Keith Hoyt
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112010004914T5 publication Critical patent/DE112010004914T5/de
Application granted granted Critical
Publication of DE112010004914B4 publication Critical patent/DE112010004914B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Abstract

Bereitgestellt werden Methoden für das Abrufen eines Dokuments, das für jede Seite einen Bereich enthält, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht. Danach wird für jede Seite des Dokuments ermittelt, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, werden ein oder mehrere Namen-Wert-Paare aus dem internen Indexsatz gewonnen, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.

Description

  • HINTERGRUND
  • Gebiet
  • Die vorliegende Erfindung bezieht sich auf das Indexieren und Abrufen von Dokumenten. Insbesondere bezieht sich die vorliegende Erfindung auf die Verwendung von internen Indexsätzen.
  • Beschreibung der verwandten Technik
  • Dokumenten wie beispielsweise WORD®- und EXCEL®-Dokumenten können Dokumenten-Metadaten (z. B. Verfasser des Dokuments und Erstellungsdatum) zugehörig sein, die zum Indexieren von Dokumenten verwendet werden können (WORD und EXCEL sind Handelsmarken der Microsoft Corporation in den Vereinigten Staaten und/oder anderen Ländern). Die verfügbaren Metadaten sind allerdings begrenzt, und es wäre für einen Benutzer nützlich, Bedingungen für das Indexieren dieser Dokumente anpassen zu können.
  • Zusätzlich hierzu stellt das ADOBE® Portable Document Format (PDF) eine Dokumentenarchitektur von Adobe Systems Incorporated aus dem Jahr 1993 dar (ADOBE ist eine Handelsmarke der Adobe Systems Incorporated in den Vereinigten Staaten und/oder anderen Ländern). Obwohl ursprünglich zum Drucken erstellt, finden sich PDF-Dokumente heute auch in großer Zahl im Internet. Tatsächlich hat sich PDF zum faktischen Standard für im Internet bereitgestellte Dokumente entwickelt.
  • Aufgrund des explosionsartigen Internet-Wachstums findet in den Unternehmen ein schneller Wechsel von älteren, herstellerspezifischen Druckformaten zum PDF-Format statt. Durch diesen Wechsel können sie gedruckte Kopien von Schriftstücken (z. B. Rechnungen) erzeugen und dieselbe Version des Schriftstücks zur Anzeige im Web (auch als World Wide Web oder WWW geläufig) bereitstellen. Vor diesem Wechsel wurden Dokumente aus dem herstellerspezifischen Datentyp in das PDF-Format umgewandelt. Im Zuge dieses Wechsels stoßen die Unternehmen auf architektonische Probleme des PDF-Formats, soweit sich dieses auf sehr große, einzelne PDF-Dokumente bezieht, die mehrere Schriftstücke enthalten. Diese Art von PDF-Dokument wird als PDF-Berichtsdokument bezeichnet.
  • Um beispielsweise auf ein einziges Schriftstück innerhalb eines PDF-Berichtsdokuments zuzugreifen, werden eindeutige Einzelinformationen (d. h. Indizes, mitunter auch als Metadaten bezeichnet) gewonnen, so dass ein Benutzer nach einem bestimmten Dokument suchen kann. Diese Methode, bei der das PDF-Berichtsdokument in einzelne Dokumente unterteilt wird und für jedes der einzelnen Dokumente Indizes gewonnen werden, wird als Indexierung bezeichnet. Die übliche Methode für das Gewinnen von Indizes aus einem PDF-Berichtsdokument besteht darin, den PDF-Bericht nach Text an bestimmten, vorgegebenen Stellen des PDF-Berichtsdokuments zu durchsuchen, wobei diese vorgegebenen Stellen als die Objektrahmen des Textes in PDF-Dokumenten bezeichnet werden.
  • Um den Text zu gewinnen, wird zunächst jede Seite des PDF-Dokuments grafisch dargestellt. Danach wird jedes Wort auf jeder PDF-Seite daraufhin untersucht, ob sich das Wort innerhalb eines Objektrahmens befindet. Diese Methode erfordert zahlreiche Grafik-, Schriftart- und Fließkomma-Operationen bzw -Anweisungen, die sie – insbesondere aufgrund der zunehmenden Größe von PDF-Dokumenten – langsam machen. Bekannte Indexierungsprogramme verwenden also grafische Methoden für die Datengewinnung, was (aufgrund von Schriftarteneigenschaften, Objektrahmen mit Rundungsfehlern usw.) einen hohen Ressourcenbedarf mit sich bringt und fehleranfällig ist.
  • Es besteht daher Bedarf an der Indexierung von Dokumenten unter Verwendung interner Indexsätze.
  • KURZDARSTELLUNG
  • Die vorliegende Erfindung soll ein Verfahren, Computerprogrammprodukt und System für das Abrufen eines Dokuments bereitstellen, das für jede Seite einen Bereich enthält, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht. Danach wird für jede Seite des Dokuments ermittelt, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, werden ein oder mehrere Namen-Wert-Paare aus dem internen Indexsatz gewonnen, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.
  • KURZE BESCHREIBUNG DER VERSCHIEDENEN ANSICHTEN DER ZEICHNUNGEN
  • Im Folgenden werden in Bezug auf die beigefügten Zeichnungen Ausführungsformen der Erfindung beschrieben, die lediglich als Beispiel zu verstehen sind, wobei:
  • 1 in einem Blockschaubild eine Datenverarbeitungsumgebung gemäß bestimmten Ausführungsformen der Erfindung darstellt;
  • 2 in einem Ablaufplan die Erzeugung interner Indexsätze gemäß bestimmten Ausführungsformen darstellt;
  • 3 in einem Ablaufplan die Verwendung interner Indexsätze für das Erstellen einer Datenbank interner Indexsätze gemäß bestimmten Ausführungsformen darstellt;
  • 4 ein Beispiel eines seitenbezogenen Verzeichnisses (Page-Piece Dictionary) gemäß bestimmten Ausführungsformen darstellt;
  • 5 in einem Ablaufplan die von einem Programm für die Gewinnung bzw. Extrahieren interner Indexsätze gemäß bestimmten Ausführungsformen durchgeführten Verarbeitungsschritte darstellt;
  • 6 eine Beispieltabelle in einer Datenbank darstellt, die Indizes aus einem oder mehreren internen Indexsätzen gemäß bestimmten Ausführungsformen speichert;
  • 7 in einem Ablaufplan die Verwendung einer Datenbank interner Indexsätze gemäß bestimmten Ausführungsformen darstellt und
  • 8 eine Computerarchitektur darstellt, die gemäß bestimmten Ausführungsformen verwendet werden kann.
  • AUSFÜHRLICHE BESCHREIBUNG
  • In der folgenden Beschreibung wird auf die beigefügten Zeichnungen Bezug genommen, die einen Bestandteil hiervon bilden und mehrere Ausführungsformen der Erfindung darstellen. Dabei dürfte offensichtlich sein, dass auch andere Ausführungsformen verwendet und Änderungen an der Struktur und Funktion vorgenommen werden können, ohne vom Geltungsumfang der Erfindung abzuweichen.
  • 1 stellt in einem Blockschaubild eine Datenverarbeitungsumgebung gemäß bestimmten Ausführungsformen der Erfindung dar. Eine Datenverarbeitungseinheit 100 ist mit einem Datenarchiv 160 verbunden. Der Computer 100 beinhaltet ein Dokumenten-Verarbeitungsprogramm 110, ein Indexierungssystem 120, ein Suchsystem 130 und Abbildungen 140. Das Indexierungssystem 120 beinhaltet ein Programm 122 für die Gewinnung bez. Extraktion interner Indexsätze. Das Datenarchiv 160 beinhaltet Dokumente 170 und eine Datenbank von Indizes 180 (im Folgenden „Datenbank”). Bei bestimmten Ausführungsformen beinhalten die Dokumente 170 PDF-Berichtsdokumente, WORD®- und EXCEL®-Dokumente. Bei bestimmten Ausführungsformen erzeugt das Dokumenten-Verarbeitungsprogramm 110 Dokumente im PDF-, WORD®- oder EXCEL®-Format.
  • Bei bestimmten Ausführungsformen befinden sich die internen Indexsätze in einer vorgegebenen Struktur. Bei bestimmten Ausführungsformen sind die internen Indexsätze nicht-grafische Strukturen. Bei bestimmten Ausführungsformen weist jeder interne Indexsatz die folgenden Merkmale für ein Dokument auf:
  • Merkmale
    • 1) Der interne Indexsatz befindet sich in einer Struktur, die einem Bereich einer Seite eines Dokuments zugehörig ist. Jede Seite des Dokuments beinhaltet einen Bereich, der von Anwendungen, die das Dokument verarbeiten, z. B. von Dokumenten-Leseprogrammen, Dokumenten-Umwandlungsprogrammen oder von anderweitigen Werkzeugen/Anwendungen, die das Dokument verarbeiten, ignoriert (d. h. nicht beachtet) wird, und der interne Indexsatz ist in diesem Bereich gespeichert. In den internen Indexsätzen sind Indizes gespeichert. Bei bestimmten Ausführungsformen besteht jeder Index aus einem Namen-Wert-Paar (z. B. „AccountNo”/„7558-1”). Das Namen-Wert-Paar kann später dazu verwendet werden, nach Dokumenten zu suchen, die dieses Namen-Wert-Paar enthalten. Das heißt, das Namen-Wert-Paar stellt spezifische Informationen zu einem Dokument bereit, mit denen das Dokument als Reaktion auf eine Suchanfrage ermittelt werden kann. So weisen z. B. PDF-, WORD®- und EXCEL®-Dokumente jeweils einen derartigen Bereich auf, der den hier beschriebenen internen Indexsatz enthalten könnte.
    • 2) Die Struktur, in welcher der interne Indexsatz gespeichert ist, ist einer oder mehreren Seiten des Dokuments zugehörig. Das heißt, ein einer Seite eines Dokuments zugehöriger interner Indexsatz ist so lange relevant für diese Seite und für alle darauffolgenden Seiten, bis ein anderer interner Indexsatz innerhalb des Dokuments gesetzt ist oder das Ende des Dokuments erreicht ist. So ist in einem zehnseitigen Dokument mit zwei internen Indexsätzen z. B. ein erster interner Indexsatz, der Seite 1 zugehörig ist, auf die Seiten 2 bis 5 des Dokuments anwendbar, und ein zweiter, Seite 6 zugehöriger interner Indexsatz ist auf die Seiten 6 bis 10 des Dokuments anwendbar. Bei PDF-, WORD®- und EXCEL®-Dokumenten kann eine derartige Struktur z. B. einer beliebigen Seite des Dokuments zugehörig sein.
    • 3) Der interne Indexsatz kann sich in dem Dokument befinden, ohne die Unversehrtheit des Dokuments zu beeinträchtigen oder in Konflikt mit einer wie auch immer gearteten Anwendung zu geraten, die das Dokument unter Umständen verarbeitet (z. B. Dokumenten-Leseprogramme und Dokumenten-Umwandlungsprogramme). Dies trifft z. B. auf PDF-, WORD®- und EXCEL®-Dokumente zu.
  • Bei bestimmten Ausführungsformen, in denen das Dokument 170 ein PDF-Dokument ist, kann auf einen internen Indexsatz zugegriffen werden, ohne dass auf einen Objektrahmen zugegriffen wird. Bei bestimmten Ausführungsformen sind Indizes in den internen Indexsätzen gespeichert und stehen zudem in Objektrahmen zur Verfügung.
  • 2 stellt in einem Ablaufplan die Erzeugung interner Indexsätze gemäß bestimmten Ausführungsformen dar. Die Steuerung beginnt mit Block 200. In Block 200 erstellt das Dokumenten-Verarbeitungsprogramm 110 als Reaktion auf eine Benutzereingabe ein Dokument 170, in dem ein oder mehrere interne Indexsätze vorhanden sind. In Block 202 speichert das Dokumenten-Verarbeitungsprogramm 110 das Dokument 170 in dem Datenarchiv 160. Bei bestimmten Ausführungsformen beinhaltet der Vorgang des Speicherns des Dokuments 170 das Indexieren des Dokuments unter Verwendung des Indexierungssystems 120.
  • Bei den Ausführungsformen werden die Indizes für das Dokument 170 in einem oder mehreren Bereichen innerhalb des Dokuments 170 gespeichert, wenn das Dokument 170 erstellt wird. Dokumentenersteller wissen, welche Daten innerhalb eines Dokuments 170 nützlich sind, und können daher in einem oder mehreren Bereichen innerhalb des Dokuments 170 einen oder mehrere interne Indexsätze mit Indizes (d. h. Namen-Wert-Paaren) erzeugen und die Indexwerte zudem in den Datenstrom des Dokuments einfügen.
  • 3 stellt in einem Ablaufplan die Verwendung interner Indexsätze für das Erstellen einer Datenbank interner Indexsätze gemäß bestimmten Ausführungsformen dar. Die Steuerung beginnt mit Block 300, indem das Indexierungssystem 120 ein Dokument 170 abruft, das für jede Seite einen Bereich enthält, der von den Anwendungen, die das Dokument 170 verarbeiten, ignoriert wird, und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments 170 zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht. In Block 302 gewinnt bzw. extrahiert das Programm 122 für die Gewinnung bzw. Extraktion interner Indexsätze Indizes (d. h. Namen-Wert-Paare) aus den unterschiedlichen internen Indexsätzen. Bei bestimmten Ausführungsformen verwendet das Programm 122 für die Gewinnung bzw. das Extrahieren interner Indexsätze Anwendungsprogrammierschnittstellen (Application Programming Interfaces, APIs), um die Indizes zu gewinnen.
  • In Block 304 speichert das Indexierungssystem 120 die Indizes (d. h. Namen-Wert-Paare) in einer Tabelle der Datenbank 180. Bei bestimmten Ausführungsformen gibt es für jeden internen Indexsatz eine Zeile in der Datenbank 180 und darüber hinaus Spalten, die den Namen der einzelnen Indizes entsprechen. Das heißt, bei einem Namen-Wert-Paar entspricht der Indexname einem Spaltennamen in der Tabelle, während der Indexwert einem Wert entspricht, der in einer Zeile für eine Spalte mit dem Namen gespeichert ist. Bei bestimmten Ausführungsformen liegen die Indexwerte in Zeichenformat vor, und das Indexierungssystem 120 verwendet Abbildungen 140, um die Indexwerte in andere Formate umzuwandeln, wie dies benötigt wird, um die Indexwerte in der Datenbank 180 zu speichern. So kann das Indexierungssystem 120 z. B. eine Kontonummer aus dem Zeichenformat in das Ganzzahlenformat umwandeln und das Ganzzahlenformat in der Datenbank 180 speichern.
  • Auf diese Weise beseitigen die Ausführungsformen die Notwendigkeit des Suchens nach Text, des Ermittelns von Objektrahmen und des Durchführens von Gleitkomma-Berechnungen. Das Indexierungssystem 120 muss zudem nicht wissen, wie viele Namen-Wert-Paare innerhalb des Dokuments 170 enthalten sind. Ohne die Notwendigkeit dieser Aufgaben ist das Indexierungssystem 120 weniger komplex und die Leistung bei der Indexierung des Dokuments 170 erhöht sich.
  • Darüber hinaus ermöglichen die Ausführungsformen für alle Arten von Dokumenten das Anpassen von Bedingungen für die Indexierung dieser Dokumente.
  • Bei bestimmten Ausführungsformen ist ein interner Indexsatz, der die drei oben beschriebenen Merkmale aufweist, ein seitenbezogenes Verzeichnis.
  • Bei Ausführungsformen, bei denen das Dokument 170 ein PDF-Dokument ist, kann ein seitenbezogenes Verzeichnis zum Speichern von Indizes verwendet werden. Das heißt, das seitenbezogene Verzeichnis ist die Struktur, die einen oder mehrere interne Datensätze speichert.
  • 4 stellt ein Beispiel eines seitenbezogenen Verzeichnisses 400 gemäß bestimmten Ausführungsformen dar. Das seitenbezogene Verzeichnis enthält ein Anwendungsdatenverzeichnis, wobei ein Anwendungsdatenverzeichnis eine PDF-Struktur sein kann, welche die Namen-Wert-Paare mit den Indexnamen und Indexwerten speichert, die als Indizes gewonnen werden.
  • Das Schlüsselwort „PieceInfo” kennzeichnet dieses Objekt als ein seitenbezogenes Verzeichnis. In dem Beispiel aus 4 kennzeichnet das Schlüsselwort „ODIndexes” einen Eintrag, der die Indizes für das Dokument enthält. Dasselbe Schlüsselwort wird von dem Indexierungssystem 120, das die Indizes erzeugt, sowie von dem Programm 122 für die Gewinnung interner Indexsätze verwendet, das die Indizes gewinnt. Durch die Verwendung derselben Schlüsselwort-Zuordnung kann das Programm 122 für die Gewinnung interner Indexsätze den richtigen Eintrag in dem seitenbezogenen Verzeichnis, das die Indizes enthält, finden.
  • Bei bestimmten Ausführungsformen werden die Schlüsselwörter „Private” und „LastModified” von der PDF-Architektur für das Anwendungsdatenverzeichnis angegeben. Dabei sind die Wörter „AccountNo”, „Name” und „RunDate” die Indexnamen. Der Text „7558-1”, „David Smith” und „03 AUG 2004” bildet die Indexwerte. Die Indexnamen und Indexwerte sind so strukturiert, dass klar ist, welcher Indexname welchem Indexwert zugehörig ist. Das Schlüsselwort „AnotherEntry” enthält einen anderen Eintrag in dem seitenbezogenen Verzeichnis, der für das Gewinnen von Indizes nicht von Belang ist, jedoch verdeutlicht, dass das seitenbezogene Verzeichnis mehrere Einträge aufweisen kann, die von verschiedenen Anwendungen für unterschiedliche Zwecke genutzt werden. So verwendet das Indexierungssystem 120 beispielsweise den internen Indexsatz, während eine andere Anwendung die Daten von „AnotherEntry” verwenden kann.
  • Das seitenbezogene Verzeichnis kann als Teil eines Seitenobjekts erstellt werden. Dabei kann ein beliebiges Seitenobjekt ein einziges seitenbezogenes Verzeichnis beinhalten. Ein Seitenobjekt kann als ein Verzeichnis beschrieben werden, das die Attribute einer einzigen Seite eines Dokuments angibt.
  • 5 stellt in einem Ablaufplan die von einem Programm 122 für die Gewinnung interner Indexsätze gemäß bestimmten Ausführungsformen durchgeführten Verarbeitungsschritte dar. Die Steuerung beginnt mit Block 500, indem das Programm 122 für die Gewinnung interner Indexsätze eine nächste Seite des Dokuments 170 auswählt. In Block 502 ermittelt das Programm 122 für die Gewinnung interner Indexsätze, ob der Seite ein interner Indexsatz zugehörig ist. Bei bestimmten Ausführungsformen können mehrere interne Indexsätze in dem Bereich einer Seite enthalten sein (z. B. kann in 4 anstelle von „AnotherEntry” ein Eintrag „ODIndexes2” vorhanden sein). Wenn dies der Fall ist, fährt die Verarbeitung mit Blick 504 fort, andernfalls fährt die Verarbeitung mit Block 506 fort. In Block 502 kann das Programm 122 für die Gewinnung interner Indexsätze z. B. eine API verwenden, um in dem Bereich der Seite, der nicht berücksichtigt wird, nach einem Schlüsselwort zu suchen, das einen internen Indexsatz angibt (z. B. „ODIndexes”).
  • In Block 504 gewinnt das Programm 122 für die Gewinnung interner Indexsätze Namen-Wert-Paare aus dem internen Indexsatz. Das Programm 122 für die Gewinnung interner Indexsätze kann z. B. eine API verwenden, um jedes Namen-Wert-Paar abzurufen und kann dann APIs verwenden, um den Namen und Wert eines jeden Namen-Wert-Paars zu gewinnen. Wenn z. B. das Namen-Wert-Paar „AccountNo”/„7558-1” abgerufen wird, werden „AccountNo” und „7558-1” gewonnen. Von Block 504 fährt die Verarbeitung mit Block 506 fort.
  • In Block 506 ermittelt das Programm für die Gewinnung interner Indexsätze, ob alle Seiten des Dokuments 170 ausgewählt wurden. Wenn dies der Fall ist, erfolgt die Verarbeitung, andernfalls kehrt die Verarbeitung zu Block 500 zurück, um eine weitere Seite des Dokuments 170 auszuwählen.
  • Somit ermöglichen die Ausführungsformen, dass Indizes einer Seite in einem Dokument 170 an einer nicht-grafischen Stelle zugeordnet werden können. Die Ausführungsformen gewinnen Textinformationen aus Dokumenten 170, die nicht zwangsläufig auf Indizes beschränkt sein müssen. Bei den Ausführungsformen sind Indexwerte in Dokumente 170 eingebettet.
  • 6 stellt eine Beispieltabelle 600 in der Datenbank 180 dar, die Namen-Wert-Paare aus einem oder mehreren internen Indexsätzen gemäß bestimmten Ausführungsformen speichert. In 6 speichert die Tabelle 600 Indexnamen und Indexwerte aus dem in 4 dargestellten Eintrag „ODIndexes”. Jede Zeile in der Tabelle 600 verfügt über eine Spalte für einen Dokumentenbezeichner (Document Identifier) (für das Dokument 170, das die Indizes in dieser Zeile speichert) und über eine Spalte für jeden in 4 beschriebenen Indexnamen. Für ein Dokument 170 mit zehn internen Indexsätzen würde die Tabelle 600 z. B. zehn Zeilen beinhalten, wobei einem jeden der internen Indexsätze eine Zeile entsprechen würde.
  • 7 stellt in einem Ablaufplan die Verwendung der Datenbank interner Indexsätze 170 gemäß bestimmten Ausführungsformen dar. Die Steuerung beginnt bei Block 700, indem ein Suchsystem 130 eine Suchanfrage mit einem oder mehreren Suchschlüsseln empfängt. In Block 702 vergleicht das Suchsystem 130 den einen oder die mehreren Suchschlüssel mit den Indexwerten in der Datenbank interner Indexsätze 170. In Block 704 stellt das Suchsystem 130 als Reaktion auf die Feststellung, dass einer oder mehrere der Suchschlüssel mit mindestens einem Indexwert übereinstimmen, ein oder mehrere Dokumente 170 bereit, die einen oder mehrere Indexsätze beinhalten, welche mit dem mindestens einen Indexwert übereinstimmen. Wenn ein Suchschlüssel z. B. „7558-1” lautet, würde (z. B. einem Benutzer) ein Dokument mit einem internen Indexsatz bereitgestellt werden, der mit dem Indexwert „7558-1” übereinstimmt.
  • Somit stellen bestimmte Ausführungsformen eine einzigartige Art und Weise bereit, wie eine schnellere und genauere Indexierung von Dokumenten 170 erreicht werden kann. Dabei vereinen bestimmte Ausführungsformen mehrere Ideen zur Verwendung interner Indexsätze. Eine Idee besteht darin, dass die Dokumentenersteller die Indizes in Gestalt von internen Indexsätzen vervielfältigen. Zusätzlich zur oder anstelle der Anordnung der Indizes auf der sichtbaren Seite, die sich in einem Datenstrom befindet, werden die Indizes also in einen vorgegebenen (z. B. dem Indexierungssystem 120 bekannten) Bereich auf einer Seite eines Dokuments 170 kopiert, der keine grafischen Operationen für den Abruf benötigt.
  • Zusätzliche Einzelheiten zu den Ausführungsformen
  • Der Fachmann weiß, dass Aspekte der vorliegenden Erfindung als ein System, Verfahren oder Computerprogrammprodukt ausgeführt werden können. Entsprechend können Aspekte der vorliegenden Erfindung in Form einer vollständig in Hardware realisierten Ausführungsform, einer vollständig in Software realisierten Ausführungsform (z. B. Firmware, residente Software, Mikrocode usw.) oder in Form einer Ausführungsform vorliegen, die Software- und Hardware-Aspekte, die zusammenfassend als „Schaltung”, „Modul” oder „System” bezeichnet werden können, miteinander vereint. Zudem können Aspekte der vorliegenden Erfindung in Form eines Computerprogrammprodukts vorliegen, das in einem oder mehreren computerlesbaren Medien ausgeführt ist, auf denen computerlesbarer Programmcode enthalten ist.
  • Es kann eine beliebige Kombination aus einem oder mehreren computerlesbaren Medien genutzt werden. Dabei kann das computerlesbare Medium ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein. Ein computerlesbares Speichermedium kann z. B. ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem bzw. eine entsprechende Vorrichtung oder Einheit oder aber eine beliebige geeignete Kombination der vorgenannten Elemente sein, ohne jedoch auf diese beschränkt zu sein. Konkretere Beispiele des computerlesbaren Speichermediums würden Folgendes beinhalten (wobei dies eine nicht vollständige Liste darstellt): eine elektrische Verbindung mit einem oder mehreren Leitern, eine tragbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM), einen Festwertspeicher (ROM), einen löschbaren, programmierbaren Nur-Lese-Speicher (EPROM- oder Flash-Speicher), einen Lichtwellenleiter, eine tragbare CD-ROM, eine optische Speichereinheit, eine magnetische Speichereinheit oder eine beliebige geeignete Kombination der vorgenannten Elemente. In Verbindung mit diesem Dokument kann ein computerlesbares Speichermedium ein beliebiges physisches Medium sein, das ein Programm enthalten oder speichern kann, welches von oder in Zusammenhang mit einem System zur Befehlsausführung, das Befehle ausführt oder ablaufen lässt, einer entsprechenden Vorrichtung oder Einheit verwendet wird.
  • Ein computerlesbares Signalmedium kann ein weitergeleitetes Datensignal mit darin enthaltenem computerlesbarem Programmcode beinhalten, z. B. als Basisband oder als Teil einer Trägerwelle. Ein derartiges weitergeleitetes Signal kann eine beliebige Form von unterschiedlichen Formen annehmen, darunter, ohne darauf beschränkt zu sein, eine elektromagnetische Form, eine optische Form oder auch jede geeignete Kombination hiervon. Ein computerlesbares Signalmedium kann ein beliebiges computerlesbares Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm austauschen, weiterleiten oder übertragen kann, welches für die Nutzung durch oder in Verbindung mit einem System, einer Vorrichtung oder Einheit zur Befehlsausführung vorgesehen ist.
  • Auf einem computerlesbaren Medium enthaltener Programmcode kann unter Verwendung eines beliebigen geeigneten Mediums übertragen werden, darunter, ohne darauf beschränkt zu sein, drahtlose, drahtgebundene, Lichtwellenleiterkabel-, Funk- und andere Medien oder eine beliebige Kombination der vorgenannten Medien.
  • Computerprogrammcode für das Ausführen der Arbeitsschritte für Aspekte der vorliegenden Erfindung kann in einer beliebigen Kombination von einer oder mehreren Programmiersprachen geschrieben sein, darunter eine objektorientierte Programmiersprache wie Java, Smalltalk, C++ oder ähnliche sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C” oder ähnliche Programmiersprachen. Der Programmcode kann vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder aber vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. Im letztgenannten Szenario kann der entfernt angeordnete Computer über eine beliebige Art von Netzwerk, darunter ein lokales Netz (LAN) oder ein Weitverkehrsnetz (WAN), mit dem Computer des Benutzers verbunden sein, oder die Verbindung kann mit einem externen Computer (z. B. über das Internet unter Verwendung eines Internet-Dienstanbieters) hergestellt werden.
  • Im Folgenden werden Aspekte der vorliegenden Erfindung unter Bezugnahme auf Darstellungen von Ablaufplänen und/oder Blockschaubildern von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Dabei dürfte klar sein, dass jeder Block der Ablaufplan-Darstellungen und/oder Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplan-Darstellungen und/oder Blockschaubildern durch Computerprogrammbefehle realisiert werden können. Diese Computerprogrammbefehle können einem Prozessor eines Universalcomputers, Spezialcomputers oder einer anderweitigen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die Befehle, die über den Prozessor des Computers oder der anderweitigen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, ein Mittel erzeugen, mit dem die Funktionen/Handlungen realisiert werden können, die in dem Block bzw. den Blöcken des Ablaufplans und/oder Blockschaubilds angegeben sind.
  • Diese Computerprogrammbefehle können auch auf einem computerlesbaren Medium gespeichert sein, das einen Computer, eine anderweitige programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten anweisen kann, auf eine bestimmte Art und Weise zu funktionieren, so dass die auf dem computerlesbaren Medium gespeicherten Befehle einen Herstellungsartikel hervorbringen, der Befehle enthält, mit denen die Funktion/Handlung, die in dem Block bzw. den Blöcken des Ablaufplans und/oder Blockschaubilds angegeben ist, realisiert wird.
  • Die Computerprogrammbefehle können zudem in einen Computer, eine anderweitige programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten geladen werden, um zu veranlassen, dass eine Reihe von Betriebsschritten auf dem Computer, der anderweitigen programmierbaren Datenvorrichtung oder den anderen Einheiten ausgeführt werden, so dass die Befehle, die auf dem Computer oder der anderweitigen Datenverarbeitungsvorrichtung ausgeführt werden, Prozesse bereitstellen, mit denen die Funktionen/Handlungen, die in dem Block bzw. den Blöcken des Ablaufplans und/oder Blockschaubilds angegeben sind, realisiert werden.
  • Der Code, welcher die beschriebenen Operationen bzw. Anweisungen realisiert, kann ferner in Hardware-Logik oder als Schaltung (z. B. als integrierte Schaltung, als programmierbares Gatterfeld (Programmable Gate Array, PGA), als anwendungsspezifische integrierte Schaltung (Application Specific Integrated Circuit, ASIC) usw.) realisiert sein.
  • 8 stellt eine Computerarchitektur 800 dar, die gemäß bestimmten Ausführungsformen verwendet werden kann. Die Datenverarbeitungseinheit 100 kann eine Computerarchitektur 800 realisieren. Die Computerarchitektur 800 ist für das Speichern und/oder Ausführen von Programmcode geeignet und enthält mindestens einen Prozessor 802, der über einen Systembus 820 direkt oder indirekt mit den Speicherelementen 804 verbunden ist. Die Speicherelemente 804 können einen Lokalspeicher, der während der tatsächlichen Ausführung des Programmcodes verwendet wird, einen Massenspeicher und Cachespeicher beinhalten, die eine vorübergehende Speicherung von mindestens einem Teil des Programmcodes bereitstellen, um die Häufigkeit, mit welcher der Code während der Ausführung aus dem Massenspeicher abgerufen werden muss, zu verringern. Die Speicherelemente 804 beinhalten ein Betriebssystem 805 und ein oder mehrere Computerprogramme 806.
  • Ein-/Ausgabeeinheiten (E/A-Einheiten) 812, 814 (darunter, ohne darauf beschränkt zu sein, Tastaturen, Zeigeeinheiten usw.) können entweder direkt oder über die dazwischen geschalteten E/A-Steuereinheiten 810 mit dem System verbunden sein.
  • Die Netzwerkadapter 808 können ebenfalls mit dem System verbunden sein, um die Verbindung des Datenverarbeitungssystems mit anderen Datenverarbeitungssystemen oder mit entfernt angeordneten Druckern oder Speichereinheiten über dazwischen geschaltete Netzwerke zu ermöglichen. Modems, Kabelmodems und Ethernet-Karten sind nur einige der momentan verfügbaren Arten von Netzwerkadaptern 808.
  • Die Computerarchitektur 800 kann mit dem Speicher 816 (z. B. einem nicht flüchtigen Speicherbereich wie beispielsweise Magnetplattenlaufwerken, optischen Plattenlaufwerken, einem Bandlaufwerk usw.) verbunden sein. Der Speicher 816 kann eine interne Speichereinheit oder einen verbundenen oder über ein Netzwerk zugänglichen Speicher umfassen. In dem Speicher 816 gespeicherte Computerprogramme 806 können in die Speicherelemente 804 geladen und von einem Prozessor 802 auf eine bekannte Art und Weise ausgeführt werden.
  • Die Computerarchitektur 800 kann weniger Komponenten als abgebildet, zusätzliche, hier nicht abgebildete Komponenten oder eine Kombination der abgebildeten und zusätzlicher Komponenten enthalten. Die Computerarchitektur 800 kann eine beliebige Datenverarbeitungseinheit nach dem Stand der Technik umfassen, z. B. einen Großrechner, einen Server, einen Personalcomputer, einen Arbeitsplatzrechner, einen Aktentaschen-Computer, einen Taschen-Computer, eine Telefonie-Einheit, eine Netzwerkeinrichtung, eine Virtualisierungseinheit, eine Speichersteuereinheit usw.
  • Der Ablaufplan und die Blockschaubilder in den Figuren stellen die Architektur, Funktionalität und den Betrieb möglicher Realisierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung bereit. In dieser Hinsicht kann jeder Block des Ablaufplans oder der Blockschaubilder ein Modul, Segment oder einen Code-Teil darstellen, das bzw. der einen oder mehrere Befehle umfasst, mit denen sich die angegebene(n) logische(n) Funktion(en) realisieren lässt/lassen. Zu beachten ist ferner, dass bei manchen alternativen Ausführungsformen die in dem Block erwähnten Funktionen in einer anderen Reihenfolge als der in den Figuren genannten auftreten können. So können beispielsweise zwei aufeinanderfolgend dargestellte Blöcke tatsächlich im Wesentlichen gleichzeitig stattfinden, oder die Blöcke können mitunter in umgekehrter Reihenfolge ausgeführt werden, wobei dies abhängig von der betreffenden Funktionalität ist. Ebenfalls zu beachten ist, dass jeder Block der Blockschaubilder und/oder der Ablaufplan-Darstellung sowie Kombinationen von Blöcken in den Blockschaubildern und/oder der Ablaufplan-Darstellung durch hardwaregestützte Spezialsysteme, welche die angegebenen Funktionen oder Handlungen ausführen, oder durch Kombinationen von Spezial-Hardware und Computerbefehlen realisiert werden kann/können.
  • Die obige Beschreibung von Ausführungsformen der Erfindung dient zur Veranschaulichung und Beschreibung. Sie erhebt nicht den Anspruch, vollständig zu sein oder die Ausführungsformen auf die präzise Form, wie sie hier offenbart wird, zu beschränken. In Zusammenhang mit den obigen Ausführungen sind zahlreiche Änderungen und Anpassungen möglich. Der Geltungsumfang der Ausführungsformen soll nicht durch diese ausführliche Beschreibung, sondern vielmehr durch die hier beigefügten Ansprüche beschränkt sein. Die obigen Angaben, Beispiele und Daten stellen eine umfassende Beschreibung der Herstellung und Verwendung der Gesamtheit der Ausführungsformen bereit. Da viele Ausführungsformen möglich sind, ohne vom Geist und Geltungsumfang der Ausführungsformen abzuweichen, betreffen die Ausführungsformen die im Folgenden angefügten Ansprüche oder etwaige später eingereichte Ansprüche sowie deren Entsprechungen.

Claims (22)

  1. Computerrealisiertes Verfahren, aufweisend: Abrufen eines mindestens eine Seite umfassenden Dokuments, das für jede Seite einen Bereich aufweist, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht; und für jede Seite in dem Dokument Ermitteln, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, Extrahieren von einem oder mehreren Namen-Wert-Paaren aus dem internen Indexsatz, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.
  2. Verfahren nach Anspruch 1, wobei das Extrahieren ferner ein Verwenden von Anwendungsprogrammierschnittstellen (APIs) umfasst, um das eine oder die mehreren Namen-Wert-Paare zu extrahieren.
  3. Verfahren nach Anspruch 1 oder Anspruch 2, wobei die Anwendungen Dokumenten-Leseprogramme und Dokumenten-Umwandlungsprogramme umfassen.
  4. Verfahren nach einem der vorangegangenen Ansprüche, ferner aufweisend: Speichern des einen oder der mehreren Namen-Werte-Paare eines jeden internen Indexsatzes in einer Tabelle in einer Datenbank, wobei bei einem Namen-Wert-Paar der Name einem Spaltennamen in der Tabelle entspricht und der Wert einem Wert entspricht, der in einer Zeile für eine Spalte mit dem Namen gespeichert ist.
  5. Verfahren nach Anspruch 4, ferner aufweisend: als Reaktion auf ein Empfangen einer Suchanfrage mit einem oder mehreren Suchschlüsseln Vergleichen des einen oder der mehreren Suchschlüssel mit Werten in der Datenbank und als Reaktion auf die Feststellung, dass einer oder mehrere der Suchschlüssel mit mindestens einem Wert übereinstimmen, Bereitstellen von einem oder mehreren Dokumenten, die einem oder mehreren internen Indexsätzen zugehörig sind, welche mit dem mindestens einen Indexwert übereinstimmen.
  6. Verfahren nach einem der vorangegangenen Ansprüche, wobei einem Bereich mehrere interne Indexsätze zugehörig sind.
  7. Verfahren nach einem der vorangegangenen Ansprüche, wobei ein interner Indexsatz, der einer Seite eines Dokuments zugehörig ist, so lange für die Seite und für darauffolgende Seiten relevant ist, bis ein anderer interner Indexsatz innerhalb des Dokuments gesetzt ist oder bis das Ende des Dokuments erreicht ist.
  8. System, das Folgendes umfasst: Hardware-Logik zum Ausführen von Anweisungen, wobei die Anweisungen Folgendes aufweisen: Abrufen eines mindestens eine Seite umfassenden Dokuments, das für jede Seite einen Bereich enthält, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht; und für jede Seite in dem Dokument Ermitteln, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, Gewinnen von einem oder mehreren Namen-Wert-Paaren aus dem internen Indexsatz, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.
  9. Verfahren nach Anspruch 8, wobei die Operationen für das Gewinnen ferner das Verwenden von Anwendungsprogrammierschnittstellen (APIs) umfassen, um das eine oder die mehreren Namen-Wert-Paare zu gewinnen.
  10. System nach Anspruch 8 oder Anspruch 9, wobei der interne Indexsatz in einem Bereich der Seite gespeichert ist, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird, wobei die Anwendungen Dokumenten-Leseprogramme und Dokumenten-Umwandlungsprogramme beinhalten.
  11. System nach einem der Ansprüche 8 bis 10, wobei die Anweisungen ferner Folgendes aufweisen: Speichern des einen oder der mehreren Namen-Werte-Paare eines jeden internen Indexsatzes in einer Tabelle in einer Datenbank, wobei bei einem Namen-Wert-Paar der Name einem Spaltennamen in der Tabelle entspricht und der Wert einem Wert entspricht, der in einer Zeile für eine Spalte mit dem Namen gespeichert ist.
  12. System nach Anspruch 11, wobei die Anweidungen ferner aufweisen: als Reaktion auf ein Empfangen einer Suchanfrage mit einem oder mehreren Suchschlüsseln Vergleichen des einen oder der mehreren Suchschlüssel mit Werten in der Datenbank und als Reaktion auf ein Feststellung, dass einer oder mehrere der Suchschlüssel mit mindestens einem Wert übereinstimmen, Bereitstellen von einem oder mehreren Dokumenten, die einem oder mehreren internen Indexsätzen zugehörig sind, welche mit dem mindestens einen Indexwert übereinstimmen.
  13. System nach einem der Ansprüche 8 bis 12, wobei einem Bereich mehrere interne Indexsätze zugehörig sind.
  14. System nach einem der Ansprüche 8 bis 13, wobei ein interner Indexsatz, der einer Seite eines Dokuments zugehörig ist, so lange für die Seite und für darauffolgende Seiten relevant ist, bis ein anderer interner Indexsatz innerhalb des Dokuments gesetzt ist oder bis das Ende des Dokuments erreicht ist.
  15. Computerprogrammprodukt, das ein computerlesbares Speichermedium aufweist, welches ein computerlesbares Programm umfasst, wobei das computerlesbare Programm bei Ausführung durch einen Prozessor auf einem Computer den Computer dazu veranlasst: ein Dokument abzurufen, das für jede Seite einen Bereich enthält, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht; und für jede Seite in dem Dokument zu ermitteln, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, ein oder mehrere Namen-Wert-Paare aus dem internen Indexsatz zu extrahieren, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.
  16. Computerprogrammprodukt nach Anspruch 15, wobei das Extrahieren ferner ein Verwenden von Anwendungsprogrammierschnittstellen (APIs) aufweist, um das eine oder die mehreren Namen-Wert-Paare zu gewinnen.
  17. Computerprogrammprodukt nach Anspruch 15, wobei der interne Indexsatz in einem Bereich der Seite gespeichert ist, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird, wobei die Anwendungen Dokumenten-Leseprogramme und Dokumenten-Umwandlungsprogramme umfassen.
  18. Computerprogrammprodukt nach Anspruch 15, wobei das computerlesbare Programm bei Ausführung durch den Prozessor auf dem Computer den Computer dazu veranlasst: das eine oder die mehreren Namen-Werte-Paare eines jeden internen Indexsatzes in einer Tabelle in einer Datenbank zu speichern, wobei bei einem Namen-Wert-Paar der Name einem Spaltennamen in der Tabelle entspricht und der Wert einem Wert entspricht, der in einer Zeile für eine Spalte mit dem Namen gespeichert ist.
  19. Computerprogrammprodukt nach Anspruch 18, wobei das computerlesbare Programm bei Ausführung durch den Prozessor auf dem Computer den Computer dazu veranlasst: als Reaktion auf das Empfangen einer Suchanfrage mit einem oder mehreren Suchschlüsseln den einen oder die mehreren Suchschlüssel mit Werten in der Datenbank zu vergleichen und als Reaktion auf eine Feststellung, dass einer oder mehrere der Suchschlüssel mit mindestens einem Wert übereinstimmen, ein oder mehrere Dokumente bereitzustellen, die einem oder mehreren internen Indexsätzen zugehörig sind, welche mit dem mindestens einen Indexwert übereinstimmen.
  20. Computerprogrammprodukt nach Anspruch 15, wobei einem Bereich mehrere interne Indexsätze zugehörig sind.
  21. Computerprogrammprodukt nach Anspruch 15, wobei ein Indexsatz, der einer Seite eines Dokuments zugehörig ist, so lange für die Seite und für darauffolgende Seiten relevant ist, bis ein anderer interner Indexsatz innerhalb des Dokuments gesetzt ist oder bis das Ende des Dokuments erreicht ist.
  22. Computerprogramm, das ein Programmcodemittel umfasst, welches so gestaltet ist, dass es alle Schritte der Ansprüche 1 bis 7 durchführt, wenn das Programm auf einem Computer ausgeführt wird.
DE112010004914.9T 2009-12-21 2010-12-10 Indexieren von Dokumenten Active DE112010004914B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/643,343 2009-12-21
US12/643,343 US8572062B2 (en) 2009-12-21 2009-12-21 Indexing documents using internal index sets
PCT/EP2010/069329 WO2011076585A1 (en) 2009-12-21 2010-12-10 Indexing documents

Publications (2)

Publication Number Publication Date
DE112010004914T5 true DE112010004914T5 (de) 2012-11-22
DE112010004914B4 DE112010004914B4 (de) 2022-12-08

Family

ID=43558138

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112010004914.9T Active DE112010004914B4 (de) 2009-12-21 2010-12-10 Indexieren von Dokumenten

Country Status (5)

Country Link
US (1) US8572062B2 (de)
CN (1) CN102959538B (de)
DE (1) DE112010004914B4 (de)
GB (2) GB2563366A (de)
WO (1) WO2011076585A1 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129010B2 (en) * 2011-05-16 2015-09-08 Argo Data Resource Corporation System and method of partitioned lexicographic search
US9385746B1 (en) * 2015-07-28 2016-07-05 Avago Technologies General Ip (Singapore) Pte. Ltd. Dynamic offset cancellation in sigma-delta converter
GB2547467A (en) 2016-02-19 2017-08-23 Rockley Photonics Ltd Tunable laser
US11699892B2 (en) 2016-02-19 2023-07-11 Rockley Photonics Limited Discrete wavelength tunable laser
US10296745B2 (en) * 2016-06-23 2019-05-21 International Business Machines Corporation Detecting vulnerable applications
US11151108B2 (en) 2016-11-21 2021-10-19 International Business Machines Corporation Indexing and archiving multiple statements using a single statement dictionary
CN112579727B (zh) * 2020-12-16 2022-03-22 北京百度网讯科技有限公司 文档内容的提取方法、装置、电子设备及存储介质
CN114416670B (zh) * 2022-04-01 2022-07-26 天津联想协同科技有限公司 适用于网盘文档的索引创建方法、装置、网盘及存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963205A (en) * 1995-05-26 1999-10-05 Iconovex Corporation Automatic index creation for a word processor
US7062707B1 (en) * 1998-12-08 2006-06-13 Inceptor, Inc. System and method of providing multiple items of index information for a single data object
US6981217B1 (en) * 1998-12-08 2005-12-27 Inceptor, Inc. System and method of obfuscating data
US8589777B1 (en) * 2000-01-21 2013-11-19 International Business Machines Corporation Method and system for calculating cost of a compilation of content
US7613993B1 (en) * 2000-01-21 2009-11-03 International Business Machines Corporation Prerequisite checking in a system for creating compilations of content
US7284199B2 (en) * 2000-03-29 2007-10-16 Microsoft Corporation Process of localizing objects in markup language documents
US7178099B2 (en) * 2001-01-23 2007-02-13 Inxight Software, Inc. Meta-content analysis and annotation of email and other electronic documents
CA2451208A1 (en) * 2001-06-21 2003-01-03 Paul P. Vagnozzi Database indexing method and apparatus
US7139756B2 (en) 2002-01-22 2006-11-21 International Business Machines Corporation System and method for detecting duplicate and similar documents
US7254587B2 (en) * 2004-01-12 2007-08-07 International Business Machines Corporation Method and apparatus for determining relative relevance between portions of large electronic documents
US8156123B2 (en) * 2004-06-25 2012-04-10 Apple Inc. Method and apparatus for processing metadata
US7475336B2 (en) * 2004-08-11 2009-01-06 Kabushiki Kaisha Toshiba Document information processing apparatus and document information processing program
JP2006270303A (ja) * 2005-03-23 2006-10-05 Hitachi Ltd 通信制御方法、通信制御装置および通信制御プログラムを記録した記憶媒体
WO2006108162A2 (en) 2005-04-06 2006-10-12 Getty Images, Inc. Digital asset management system, including customizable metadata model for asset cataloging and permissioning of digital assets, such as for use with digital images and songs
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
US7818668B2 (en) * 2005-04-19 2010-10-19 Microsoft Corporation Determining fields for presentable files
KR100661173B1 (ko) 2005-10-18 2006-12-26 삼성전자주식회사 다이렉트 프린팅 기능을 갖는 프린터 및 그 인쇄방법
US7797638B2 (en) * 2006-01-05 2010-09-14 Microsoft Corporation Application of metadata to documents and document objects via a software application user interface
JP2007257308A (ja) * 2006-03-23 2007-10-04 Canon Inc 文書管理装置、文書管理システム、及びその制御方法、プログラム、記憶媒体
JP2007304982A (ja) 2006-05-12 2007-11-22 Canon Inc 電子文書管理装置、電子文書管理方法、及びコンピュータプログラム
US20080104542A1 (en) * 2006-10-27 2008-05-01 Information Builders, Inc. Apparatus and Method for Conducting Searches with a Search Engine for Unstructured Data to Retrieve Records Enriched with Structured Data and Generate Reports Based Thereon
US8823970B2 (en) 2006-12-21 2014-09-02 Xerox Corporation PS to PDF conversion with embedded job ticketing preservation
US8504553B2 (en) * 2007-04-19 2013-08-06 Barnesandnoble.Com Llc Unstructured and semistructured document processing and searching
US20080270381A1 (en) * 2007-04-24 2008-10-30 Interse A/S Enterprise-Wide Information Management System for Enhancing Search Queries to Improve Search Result Quality
JP5033724B2 (ja) * 2007-07-12 2012-09-26 株式会社沖データ 文書検索装置及び画像形成装置、文書検索システム
US20090024414A1 (en) * 2007-07-17 2009-01-22 Eclipsys Corporation Analytical methods and software product for automated health care information systems
JP4902451B2 (ja) 2007-07-18 2012-03-21 キヤノン株式会社 文書出力装置及びその制御方法とプログラム
US7849065B2 (en) * 2007-07-20 2010-12-07 Microsoft Corporation Heterogeneous content indexing and searching
US8601361B2 (en) * 2007-08-06 2013-12-03 Apple Inc. Automatically populating and/or generating tables using data extracted from files
US8228542B2 (en) * 2009-03-31 2012-07-24 1st Management Services, Inc. Systems and methods for storing multiple records using identifiers, storage locations, and attributes associated with electronic documents

Also Published As

Publication number Publication date
WO2011076585A1 (en) 2011-06-30
GB201212805D0 (en) 2012-09-05
GB201815543D0 (en) 2018-11-07
CN102959538A (zh) 2013-03-06
GB2563366A (en) 2018-12-12
US8572062B2 (en) 2013-10-29
DE112010004914B4 (de) 2022-12-08
CN102959538B (zh) 2016-10-12
GB2489863A (en) 2012-10-10
US20110153640A1 (en) 2011-06-23

Similar Documents

Publication Publication Date Title
DE112010004914B4 (de) Indexieren von Dokumenten
DE69631457T2 (de) Vorrichtung und verfahren zum übertragbaren indexieren von dokumenten gemäss einer n-gram-wortzerlegung
DE102014113870A1 (de) Identifizieren und Anzeigen von Beziehungen zwischen Kandidatenantworten
DE102018007060A1 (de) Hervorheben von Schlüsselabschnitten eines Texts innerhalb eines Dokuments
DE112018005616T5 (de) Blockweise extraktion von dokumentmetadaten
DE102016014798A1 (de) Genaues Vorhersagen einer Etikettrelevanz bei einer Bildabfrage
DE102013215661A1 (de) Kontextbezogene Suche nach einer gespeicherten Datei, die einem Graphenknoten zugehörig ist
DE202012013462U1 (de) Datenverarbeitung in einem Mapreduce-Framework
DE112018006345T5 (de) Abrufen von unterstützenden belegen für komplexe antworten
DE112015002695T5 (de) Systeme und Verfahren zum Bearbeiten einer Datei in einer nicht nativen Anwendung unter Verwendung einer Anwendungs-Engine
DE102018005611A1 (de) Automatische Paarbildung von Fonts unter Verwendung des asymmetrischen Metriklernens
DE112013000987T5 (de) Erzeugen von Visualisierungen einer Anzeigegruppe von Tags, die Inhaltsinstanzen in Suchkriterien erfüllenden Objekten darstellen
DE102013209868A1 (de) Abfragen und Integrieren strukturierter und unstrukturierter Daten
DE102013202365A1 (de) Herausziehen von informationen aus krankenakten
DE112018005418T5 (de) Kognitive dokumentbild-digitalisierung
DE102013200355A1 (de) Zusammenfügen von Dokumenten aud der Grundlage der Kenntnis eines Dokumentenschemas
DE102018007165A1 (de) Vorhersage von stilbrüchen innerhalb eines textinhalts
DE102014112983A1 (de) Aktive Wissenslenkung beruhend auf Dokumententiefenanalyse
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE102012221251A1 (de) Semantisches und kontextbezogenes Durchsuchen von Wissensspeichern
DE112018001165T5 (de) Automatisierte dokumentenanalyse für unterschiedliche natürliche sprachen
DE112020005268T5 (de) Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache
DE112015002101T5 (de) Systeme und Verfahren für einen verbesserten Datenstrukturspeicher
DE112016002275T5 (de) Koordinierte benutzerwortauswahl zum übersetzen und erhalten von kontextinformtionen für das ausgewählte wort
DE102021202469A1 (de) System und verfahren zur generativen textzusammenfassung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: LIFETECH IP SPIES DANNER & PARTNER PATENTANWAE, DE

Representative=s name: LIFETECH IP SPIES & BEHRNDT PATENTANWAELTE PAR, DE

Representative=s name: SPIES & BEHRNDT PATENTANWAELTE PARTG MBB, DE

R082 Change of representative

Representative=s name: LIFETECH IP SPIES DANNER & PARTNER PATENTANWAE, DE

Representative=s name: LIFETECH IP SPIES & BEHRNDT PATENTANWAELTE PAR, DE

Representative=s name: SPIES & BEHRNDT PATENTANWAELTE PARTG MBB, DE

R082 Change of representative

Representative=s name: LIFETECH IP SPIES & BEHRNDT PATENTANWAELTE PAR, DE

Representative=s name: SPIES & BEHRNDT PATENTANWAELTE PARTG MBB, DE

R082 Change of representative

Representative=s name: SPIES & BEHRNDT PATENTANWAELTE PARTG MBB, DE

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017300000

Ipc: G06F0016000000

R016 Response to examination communication
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final