DE112010004914T5 - Indexieren von Dokumenten - Google Patents
Indexieren von Dokumenten Download PDFInfo
- Publication number
- DE112010004914T5 DE112010004914T5 DE112010004914T DE112010004914T DE112010004914T5 DE 112010004914 T5 DE112010004914 T5 DE 112010004914T5 DE 112010004914 T DE112010004914 T DE 112010004914T DE 112010004914 T DE112010004914 T DE 112010004914T DE 112010004914 T5 DE112010004914 T5 DE 112010004914T5
- Authority
- DE
- Germany
- Prior art keywords
- document
- name
- page
- internal index
- index set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Abstract
Description
- HINTERGRUND
- Gebiet
- Die vorliegende Erfindung bezieht sich auf das Indexieren und Abrufen von Dokumenten. Insbesondere bezieht sich die vorliegende Erfindung auf die Verwendung von internen Indexsätzen.
- Beschreibung der verwandten Technik
- Dokumenten wie beispielsweise WORD®- und EXCEL®-Dokumenten können Dokumenten-Metadaten (z. B. Verfasser des Dokuments und Erstellungsdatum) zugehörig sein, die zum Indexieren von Dokumenten verwendet werden können (WORD und EXCEL sind Handelsmarken der Microsoft Corporation in den Vereinigten Staaten und/oder anderen Ländern). Die verfügbaren Metadaten sind allerdings begrenzt, und es wäre für einen Benutzer nützlich, Bedingungen für das Indexieren dieser Dokumente anpassen zu können.
- Zusätzlich hierzu stellt das ADOBE® Portable Document Format (PDF) eine Dokumentenarchitektur von Adobe Systems Incorporated aus dem Jahr 1993 dar (ADOBE ist eine Handelsmarke der Adobe Systems Incorporated in den Vereinigten Staaten und/oder anderen Ländern). Obwohl ursprünglich zum Drucken erstellt, finden sich PDF-Dokumente heute auch in großer Zahl im Internet. Tatsächlich hat sich PDF zum faktischen Standard für im Internet bereitgestellte Dokumente entwickelt.
- Aufgrund des explosionsartigen Internet-Wachstums findet in den Unternehmen ein schneller Wechsel von älteren, herstellerspezifischen Druckformaten zum PDF-Format statt. Durch diesen Wechsel können sie gedruckte Kopien von Schriftstücken (z. B. Rechnungen) erzeugen und dieselbe Version des Schriftstücks zur Anzeige im Web (auch als World Wide Web oder WWW geläufig) bereitstellen. Vor diesem Wechsel wurden Dokumente aus dem herstellerspezifischen Datentyp in das PDF-Format umgewandelt. Im Zuge dieses Wechsels stoßen die Unternehmen auf architektonische Probleme des PDF-Formats, soweit sich dieses auf sehr große, einzelne PDF-Dokumente bezieht, die mehrere Schriftstücke enthalten. Diese Art von PDF-Dokument wird als PDF-Berichtsdokument bezeichnet.
- Um beispielsweise auf ein einziges Schriftstück innerhalb eines PDF-Berichtsdokuments zuzugreifen, werden eindeutige Einzelinformationen (d. h. Indizes, mitunter auch als Metadaten bezeichnet) gewonnen, so dass ein Benutzer nach einem bestimmten Dokument suchen kann. Diese Methode, bei der das PDF-Berichtsdokument in einzelne Dokumente unterteilt wird und für jedes der einzelnen Dokumente Indizes gewonnen werden, wird als Indexierung bezeichnet. Die übliche Methode für das Gewinnen von Indizes aus einem PDF-Berichtsdokument besteht darin, den PDF-Bericht nach Text an bestimmten, vorgegebenen Stellen des PDF-Berichtsdokuments zu durchsuchen, wobei diese vorgegebenen Stellen als die Objektrahmen des Textes in PDF-Dokumenten bezeichnet werden.
- Um den Text zu gewinnen, wird zunächst jede Seite des PDF-Dokuments grafisch dargestellt. Danach wird jedes Wort auf jeder PDF-Seite daraufhin untersucht, ob sich das Wort innerhalb eines Objektrahmens befindet. Diese Methode erfordert zahlreiche Grafik-, Schriftart- und Fließkomma-Operationen bzw -Anweisungen, die sie – insbesondere aufgrund der zunehmenden Größe von PDF-Dokumenten – langsam machen. Bekannte Indexierungsprogramme verwenden also grafische Methoden für die Datengewinnung, was (aufgrund von Schriftarteneigenschaften, Objektrahmen mit Rundungsfehlern usw.) einen hohen Ressourcenbedarf mit sich bringt und fehleranfällig ist.
- Es besteht daher Bedarf an der Indexierung von Dokumenten unter Verwendung interner Indexsätze.
- KURZDARSTELLUNG
- Die vorliegende Erfindung soll ein Verfahren, Computerprogrammprodukt und System für das Abrufen eines Dokuments bereitstellen, das für jede Seite einen Bereich enthält, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht. Danach wird für jede Seite des Dokuments ermittelt, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, werden ein oder mehrere Namen-Wert-Paare aus dem internen Indexsatz gewonnen, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.
- KURZE BESCHREIBUNG DER VERSCHIEDENEN ANSICHTEN DER ZEICHNUNGEN
- Im Folgenden werden in Bezug auf die beigefügten Zeichnungen Ausführungsformen der Erfindung beschrieben, die lediglich als Beispiel zu verstehen sind, wobei:
-
1 in einem Blockschaubild eine Datenverarbeitungsumgebung gemäß bestimmten Ausführungsformen der Erfindung darstellt; -
2 in einem Ablaufplan die Erzeugung interner Indexsätze gemäß bestimmten Ausführungsformen darstellt; -
3 in einem Ablaufplan die Verwendung interner Indexsätze für das Erstellen einer Datenbank interner Indexsätze gemäß bestimmten Ausführungsformen darstellt; -
4 ein Beispiel eines seitenbezogenen Verzeichnisses (Page-Piece Dictionary) gemäß bestimmten Ausführungsformen darstellt; -
5 in einem Ablaufplan die von einem Programm für die Gewinnung bzw. Extrahieren interner Indexsätze gemäß bestimmten Ausführungsformen durchgeführten Verarbeitungsschritte darstellt; -
6 eine Beispieltabelle in einer Datenbank darstellt, die Indizes aus einem oder mehreren internen Indexsätzen gemäß bestimmten Ausführungsformen speichert; -
7 in einem Ablaufplan die Verwendung einer Datenbank interner Indexsätze gemäß bestimmten Ausführungsformen darstellt und -
8 eine Computerarchitektur darstellt, die gemäß bestimmten Ausführungsformen verwendet werden kann. - AUSFÜHRLICHE BESCHREIBUNG
- In der folgenden Beschreibung wird auf die beigefügten Zeichnungen Bezug genommen, die einen Bestandteil hiervon bilden und mehrere Ausführungsformen der Erfindung darstellen. Dabei dürfte offensichtlich sein, dass auch andere Ausführungsformen verwendet und Änderungen an der Struktur und Funktion vorgenommen werden können, ohne vom Geltungsumfang der Erfindung abzuweichen.
-
1 stellt in einem Blockschaubild eine Datenverarbeitungsumgebung gemäß bestimmten Ausführungsformen der Erfindung dar. Eine Datenverarbeitungseinheit100 ist mit einem Datenarchiv160 verbunden. Der Computer100 beinhaltet ein Dokumenten-Verarbeitungsprogramm110 , ein Indexierungssystem120 , ein Suchsystem130 und Abbildungen140 . Das Indexierungssystem120 beinhaltet ein Programm122 für die Gewinnung bez. Extraktion interner Indexsätze. Das Datenarchiv160 beinhaltet Dokumente170 und eine Datenbank von Indizes180 (im Folgenden „Datenbank”). Bei bestimmten Ausführungsformen beinhalten die Dokumente170 PDF-Berichtsdokumente, WORD®- und EXCEL®-Dokumente. Bei bestimmten Ausführungsformen erzeugt das Dokumenten-Verarbeitungsprogramm110 Dokumente im PDF-, WORD®- oder EXCEL®-Format. - Bei bestimmten Ausführungsformen befinden sich die internen Indexsätze in einer vorgegebenen Struktur. Bei bestimmten Ausführungsformen sind die internen Indexsätze nicht-grafische Strukturen. Bei bestimmten Ausführungsformen weist jeder interne Indexsatz die folgenden Merkmale für ein Dokument auf:
- Merkmale
-
- 1) Der interne Indexsatz befindet sich in einer Struktur, die einem Bereich einer Seite eines Dokuments zugehörig ist. Jede Seite des Dokuments beinhaltet einen Bereich, der von Anwendungen, die das Dokument verarbeiten, z. B. von Dokumenten-Leseprogrammen, Dokumenten-Umwandlungsprogrammen oder von anderweitigen Werkzeugen/Anwendungen, die das Dokument verarbeiten, ignoriert (d. h. nicht beachtet) wird, und der interne Indexsatz ist in diesem Bereich gespeichert. In den internen Indexsätzen sind Indizes gespeichert. Bei bestimmten Ausführungsformen besteht jeder Index aus einem Namen-Wert-Paar (z. B. „AccountNo”/„7558-1”). Das Namen-Wert-Paar kann später dazu verwendet werden, nach Dokumenten zu suchen, die dieses Namen-Wert-Paar enthalten. Das heißt, das Namen-Wert-Paar stellt spezifische Informationen zu einem Dokument bereit, mit denen das Dokument als Reaktion auf eine Suchanfrage ermittelt werden kann. So weisen z. B. PDF-, WORD®- und EXCEL®-Dokumente jeweils einen derartigen Bereich auf, der den hier beschriebenen internen Indexsatz enthalten könnte.
- 2) Die Struktur, in welcher der interne Indexsatz gespeichert ist, ist einer oder mehreren Seiten des Dokuments zugehörig. Das heißt, ein einer Seite eines Dokuments zugehöriger interner Indexsatz ist so lange relevant für diese Seite und für alle darauffolgenden Seiten, bis ein anderer interner Indexsatz innerhalb des Dokuments gesetzt ist oder das Ende des Dokuments erreicht ist. So ist in einem zehnseitigen Dokument mit zwei internen Indexsätzen z. B. ein erster interner Indexsatz, der Seite 1 zugehörig ist, auf die Seiten 2 bis 5 des Dokuments anwendbar, und ein zweiter, Seite 6 zugehöriger interner Indexsatz ist auf die Seiten 6 bis 10 des Dokuments anwendbar. Bei PDF-, WORD®- und EXCEL®-Dokumenten kann eine derartige Struktur z. B. einer beliebigen Seite des Dokuments zugehörig sein.
- 3) Der interne Indexsatz kann sich in dem Dokument befinden, ohne die Unversehrtheit des Dokuments zu beeinträchtigen oder in Konflikt mit einer wie auch immer gearteten Anwendung zu geraten, die das Dokument unter Umständen verarbeitet (z. B. Dokumenten-Leseprogramme und Dokumenten-Umwandlungsprogramme). Dies trifft z. B. auf PDF-, WORD®- und EXCEL®-Dokumente zu.
- Bei bestimmten Ausführungsformen, in denen das Dokument
170 ein PDF-Dokument ist, kann auf einen internen Indexsatz zugegriffen werden, ohne dass auf einen Objektrahmen zugegriffen wird. Bei bestimmten Ausführungsformen sind Indizes in den internen Indexsätzen gespeichert und stehen zudem in Objektrahmen zur Verfügung. -
2 stellt in einem Ablaufplan die Erzeugung interner Indexsätze gemäß bestimmten Ausführungsformen dar. Die Steuerung beginnt mit Block200 . In Block200 erstellt das Dokumenten-Verarbeitungsprogramm110 als Reaktion auf eine Benutzereingabe ein Dokument170 , in dem ein oder mehrere interne Indexsätze vorhanden sind. In Block202 speichert das Dokumenten-Verarbeitungsprogramm110 das Dokument170 in dem Datenarchiv160 . Bei bestimmten Ausführungsformen beinhaltet der Vorgang des Speicherns des Dokuments170 das Indexieren des Dokuments unter Verwendung des Indexierungssystems120 . - Bei den Ausführungsformen werden die Indizes für das Dokument
170 in einem oder mehreren Bereichen innerhalb des Dokuments170 gespeichert, wenn das Dokument170 erstellt wird. Dokumentenersteller wissen, welche Daten innerhalb eines Dokuments170 nützlich sind, und können daher in einem oder mehreren Bereichen innerhalb des Dokuments170 einen oder mehrere interne Indexsätze mit Indizes (d. h. Namen-Wert-Paaren) erzeugen und die Indexwerte zudem in den Datenstrom des Dokuments einfügen. -
3 stellt in einem Ablaufplan die Verwendung interner Indexsätze für das Erstellen einer Datenbank interner Indexsätze gemäß bestimmten Ausführungsformen dar. Die Steuerung beginnt mit Block300 , indem das Indexierungssystem120 ein Dokument170 abruft, das für jede Seite einen Bereich enthält, der von den Anwendungen, die das Dokument170 verarbeiten, ignoriert wird, und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments170 zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht. In Block302 gewinnt bzw. extrahiert das Programm122 für die Gewinnung bzw. Extraktion interner Indexsätze Indizes (d. h. Namen-Wert-Paare) aus den unterschiedlichen internen Indexsätzen. Bei bestimmten Ausführungsformen verwendet das Programm122 für die Gewinnung bzw. das Extrahieren interner Indexsätze Anwendungsprogrammierschnittstellen (Application Programming Interfaces, APIs), um die Indizes zu gewinnen. - In Block
304 speichert das Indexierungssystem120 die Indizes (d. h. Namen-Wert-Paare) in einer Tabelle der Datenbank180 . Bei bestimmten Ausführungsformen gibt es für jeden internen Indexsatz eine Zeile in der Datenbank180 und darüber hinaus Spalten, die den Namen der einzelnen Indizes entsprechen. Das heißt, bei einem Namen-Wert-Paar entspricht der Indexname einem Spaltennamen in der Tabelle, während der Indexwert einem Wert entspricht, der in einer Zeile für eine Spalte mit dem Namen gespeichert ist. Bei bestimmten Ausführungsformen liegen die Indexwerte in Zeichenformat vor, und das Indexierungssystem120 verwendet Abbildungen140 , um die Indexwerte in andere Formate umzuwandeln, wie dies benötigt wird, um die Indexwerte in der Datenbank180 zu speichern. So kann das Indexierungssystem120 z. B. eine Kontonummer aus dem Zeichenformat in das Ganzzahlenformat umwandeln und das Ganzzahlenformat in der Datenbank180 speichern. - Auf diese Weise beseitigen die Ausführungsformen die Notwendigkeit des Suchens nach Text, des Ermittelns von Objektrahmen und des Durchführens von Gleitkomma-Berechnungen. Das Indexierungssystem
120 muss zudem nicht wissen, wie viele Namen-Wert-Paare innerhalb des Dokuments170 enthalten sind. Ohne die Notwendigkeit dieser Aufgaben ist das Indexierungssystem120 weniger komplex und die Leistung bei der Indexierung des Dokuments170 erhöht sich. - Darüber hinaus ermöglichen die Ausführungsformen für alle Arten von Dokumenten das Anpassen von Bedingungen für die Indexierung dieser Dokumente.
- Bei bestimmten Ausführungsformen ist ein interner Indexsatz, der die drei oben beschriebenen Merkmale aufweist, ein seitenbezogenes Verzeichnis.
- Bei Ausführungsformen, bei denen das Dokument
170 ein PDF-Dokument ist, kann ein seitenbezogenes Verzeichnis zum Speichern von Indizes verwendet werden. Das heißt, das seitenbezogene Verzeichnis ist die Struktur, die einen oder mehrere interne Datensätze speichert. -
4 stellt ein Beispiel eines seitenbezogenen Verzeichnisses400 gemäß bestimmten Ausführungsformen dar. Das seitenbezogene Verzeichnis enthält ein Anwendungsdatenverzeichnis, wobei ein Anwendungsdatenverzeichnis eine PDF-Struktur sein kann, welche die Namen-Wert-Paare mit den Indexnamen und Indexwerten speichert, die als Indizes gewonnen werden. - Das Schlüsselwort „PieceInfo” kennzeichnet dieses Objekt als ein seitenbezogenes Verzeichnis. In dem Beispiel aus
4 kennzeichnet das Schlüsselwort „ODIndexes” einen Eintrag, der die Indizes für das Dokument enthält. Dasselbe Schlüsselwort wird von dem Indexierungssystem120 , das die Indizes erzeugt, sowie von dem Programm122 für die Gewinnung interner Indexsätze verwendet, das die Indizes gewinnt. Durch die Verwendung derselben Schlüsselwort-Zuordnung kann das Programm122 für die Gewinnung interner Indexsätze den richtigen Eintrag in dem seitenbezogenen Verzeichnis, das die Indizes enthält, finden. - Bei bestimmten Ausführungsformen werden die Schlüsselwörter „Private” und „LastModified” von der PDF-Architektur für das Anwendungsdatenverzeichnis angegeben. Dabei sind die Wörter „AccountNo”, „Name” und „RunDate” die Indexnamen. Der Text „7558-1”, „David Smith” und „03 AUG 2004” bildet die Indexwerte. Die Indexnamen und Indexwerte sind so strukturiert, dass klar ist, welcher Indexname welchem Indexwert zugehörig ist. Das Schlüsselwort „AnotherEntry” enthält einen anderen Eintrag in dem seitenbezogenen Verzeichnis, der für das Gewinnen von Indizes nicht von Belang ist, jedoch verdeutlicht, dass das seitenbezogene Verzeichnis mehrere Einträge aufweisen kann, die von verschiedenen Anwendungen für unterschiedliche Zwecke genutzt werden. So verwendet das Indexierungssystem
120 beispielsweise den internen Indexsatz, während eine andere Anwendung die Daten von „AnotherEntry” verwenden kann. - Das seitenbezogene Verzeichnis kann als Teil eines Seitenobjekts erstellt werden. Dabei kann ein beliebiges Seitenobjekt ein einziges seitenbezogenes Verzeichnis beinhalten. Ein Seitenobjekt kann als ein Verzeichnis beschrieben werden, das die Attribute einer einzigen Seite eines Dokuments angibt.
-
5 stellt in einem Ablaufplan die von einem Programm122 für die Gewinnung interner Indexsätze gemäß bestimmten Ausführungsformen durchgeführten Verarbeitungsschritte dar. Die Steuerung beginnt mit Block500 , indem das Programm122 für die Gewinnung interner Indexsätze eine nächste Seite des Dokuments170 auswählt. In Block502 ermittelt das Programm122 für die Gewinnung interner Indexsätze, ob der Seite ein interner Indexsatz zugehörig ist. Bei bestimmten Ausführungsformen können mehrere interne Indexsätze in dem Bereich einer Seite enthalten sein (z. B. kann in4 anstelle von „AnotherEntry” ein Eintrag „ODIndexes2” vorhanden sein). Wenn dies der Fall ist, fährt die Verarbeitung mit Blick504 fort, andernfalls fährt die Verarbeitung mit Block506 fort. In Block502 kann das Programm122 für die Gewinnung interner Indexsätze z. B. eine API verwenden, um in dem Bereich der Seite, der nicht berücksichtigt wird, nach einem Schlüsselwort zu suchen, das einen internen Indexsatz angibt (z. B. „ODIndexes”). - In Block
504 gewinnt das Programm122 für die Gewinnung interner Indexsätze Namen-Wert-Paare aus dem internen Indexsatz. Das Programm122 für die Gewinnung interner Indexsätze kann z. B. eine API verwenden, um jedes Namen-Wert-Paar abzurufen und kann dann APIs verwenden, um den Namen und Wert eines jeden Namen-Wert-Paars zu gewinnen. Wenn z. B. das Namen-Wert-Paar „AccountNo”/„7558-1” abgerufen wird, werden „AccountNo” und „7558-1” gewonnen. Von Block504 fährt die Verarbeitung mit Block506 fort. - In Block
506 ermittelt das Programm für die Gewinnung interner Indexsätze, ob alle Seiten des Dokuments170 ausgewählt wurden. Wenn dies der Fall ist, erfolgt die Verarbeitung, andernfalls kehrt die Verarbeitung zu Block500 zurück, um eine weitere Seite des Dokuments170 auszuwählen. - Somit ermöglichen die Ausführungsformen, dass Indizes einer Seite in einem Dokument
170 an einer nicht-grafischen Stelle zugeordnet werden können. Die Ausführungsformen gewinnen Textinformationen aus Dokumenten170 , die nicht zwangsläufig auf Indizes beschränkt sein müssen. Bei den Ausführungsformen sind Indexwerte in Dokumente170 eingebettet. -
6 stellt eine Beispieltabelle600 in der Datenbank180 dar, die Namen-Wert-Paare aus einem oder mehreren internen Indexsätzen gemäß bestimmten Ausführungsformen speichert. In6 speichert die Tabelle600 Indexnamen und Indexwerte aus dem in4 dargestellten Eintrag „ODIndexes”. Jede Zeile in der Tabelle600 verfügt über eine Spalte für einen Dokumentenbezeichner (Document Identifier) (für das Dokument170 , das die Indizes in dieser Zeile speichert) und über eine Spalte für jeden in4 beschriebenen Indexnamen. Für ein Dokument170 mit zehn internen Indexsätzen würde die Tabelle600 z. B. zehn Zeilen beinhalten, wobei einem jeden der internen Indexsätze eine Zeile entsprechen würde. -
7 stellt in einem Ablaufplan die Verwendung der Datenbank interner Indexsätze170 gemäß bestimmten Ausführungsformen dar. Die Steuerung beginnt bei Block700 , indem ein Suchsystem130 eine Suchanfrage mit einem oder mehreren Suchschlüsseln empfängt. In Block702 vergleicht das Suchsystem130 den einen oder die mehreren Suchschlüssel mit den Indexwerten in der Datenbank interner Indexsätze170 . In Block704 stellt das Suchsystem130 als Reaktion auf die Feststellung, dass einer oder mehrere der Suchschlüssel mit mindestens einem Indexwert übereinstimmen, ein oder mehrere Dokumente170 bereit, die einen oder mehrere Indexsätze beinhalten, welche mit dem mindestens einen Indexwert übereinstimmen. Wenn ein Suchschlüssel z. B. „7558-1” lautet, würde (z. B. einem Benutzer) ein Dokument mit einem internen Indexsatz bereitgestellt werden, der mit dem Indexwert „7558-1” übereinstimmt. - Somit stellen bestimmte Ausführungsformen eine einzigartige Art und Weise bereit, wie eine schnellere und genauere Indexierung von Dokumenten
170 erreicht werden kann. Dabei vereinen bestimmte Ausführungsformen mehrere Ideen zur Verwendung interner Indexsätze. Eine Idee besteht darin, dass die Dokumentenersteller die Indizes in Gestalt von internen Indexsätzen vervielfältigen. Zusätzlich zur oder anstelle der Anordnung der Indizes auf der sichtbaren Seite, die sich in einem Datenstrom befindet, werden die Indizes also in einen vorgegebenen (z. B. dem Indexierungssystem120 bekannten) Bereich auf einer Seite eines Dokuments170 kopiert, der keine grafischen Operationen für den Abruf benötigt. - Zusätzliche Einzelheiten zu den Ausführungsformen
- Der Fachmann weiß, dass Aspekte der vorliegenden Erfindung als ein System, Verfahren oder Computerprogrammprodukt ausgeführt werden können. Entsprechend können Aspekte der vorliegenden Erfindung in Form einer vollständig in Hardware realisierten Ausführungsform, einer vollständig in Software realisierten Ausführungsform (z. B. Firmware, residente Software, Mikrocode usw.) oder in Form einer Ausführungsform vorliegen, die Software- und Hardware-Aspekte, die zusammenfassend als „Schaltung”, „Modul” oder „System” bezeichnet werden können, miteinander vereint. Zudem können Aspekte der vorliegenden Erfindung in Form eines Computerprogrammprodukts vorliegen, das in einem oder mehreren computerlesbaren Medien ausgeführt ist, auf denen computerlesbarer Programmcode enthalten ist.
- Es kann eine beliebige Kombination aus einem oder mehreren computerlesbaren Medien genutzt werden. Dabei kann das computerlesbare Medium ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein. Ein computerlesbares Speichermedium kann z. B. ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem bzw. eine entsprechende Vorrichtung oder Einheit oder aber eine beliebige geeignete Kombination der vorgenannten Elemente sein, ohne jedoch auf diese beschränkt zu sein. Konkretere Beispiele des computerlesbaren Speichermediums würden Folgendes beinhalten (wobei dies eine nicht vollständige Liste darstellt): eine elektrische Verbindung mit einem oder mehreren Leitern, eine tragbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM), einen Festwertspeicher (ROM), einen löschbaren, programmierbaren Nur-Lese-Speicher (EPROM- oder Flash-Speicher), einen Lichtwellenleiter, eine tragbare CD-ROM, eine optische Speichereinheit, eine magnetische Speichereinheit oder eine beliebige geeignete Kombination der vorgenannten Elemente. In Verbindung mit diesem Dokument kann ein computerlesbares Speichermedium ein beliebiges physisches Medium sein, das ein Programm enthalten oder speichern kann, welches von oder in Zusammenhang mit einem System zur Befehlsausführung, das Befehle ausführt oder ablaufen lässt, einer entsprechenden Vorrichtung oder Einheit verwendet wird.
- Ein computerlesbares Signalmedium kann ein weitergeleitetes Datensignal mit darin enthaltenem computerlesbarem Programmcode beinhalten, z. B. als Basisband oder als Teil einer Trägerwelle. Ein derartiges weitergeleitetes Signal kann eine beliebige Form von unterschiedlichen Formen annehmen, darunter, ohne darauf beschränkt zu sein, eine elektromagnetische Form, eine optische Form oder auch jede geeignete Kombination hiervon. Ein computerlesbares Signalmedium kann ein beliebiges computerlesbares Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm austauschen, weiterleiten oder übertragen kann, welches für die Nutzung durch oder in Verbindung mit einem System, einer Vorrichtung oder Einheit zur Befehlsausführung vorgesehen ist.
- Auf einem computerlesbaren Medium enthaltener Programmcode kann unter Verwendung eines beliebigen geeigneten Mediums übertragen werden, darunter, ohne darauf beschränkt zu sein, drahtlose, drahtgebundene, Lichtwellenleiterkabel-, Funk- und andere Medien oder eine beliebige Kombination der vorgenannten Medien.
- Computerprogrammcode für das Ausführen der Arbeitsschritte für Aspekte der vorliegenden Erfindung kann in einer beliebigen Kombination von einer oder mehreren Programmiersprachen geschrieben sein, darunter eine objektorientierte Programmiersprache wie Java, Smalltalk, C++ oder ähnliche sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C” oder ähnliche Programmiersprachen. Der Programmcode kann vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder aber vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. Im letztgenannten Szenario kann der entfernt angeordnete Computer über eine beliebige Art von Netzwerk, darunter ein lokales Netz (LAN) oder ein Weitverkehrsnetz (WAN), mit dem Computer des Benutzers verbunden sein, oder die Verbindung kann mit einem externen Computer (z. B. über das Internet unter Verwendung eines Internet-Dienstanbieters) hergestellt werden.
- Im Folgenden werden Aspekte der vorliegenden Erfindung unter Bezugnahme auf Darstellungen von Ablaufplänen und/oder Blockschaubildern von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Dabei dürfte klar sein, dass jeder Block der Ablaufplan-Darstellungen und/oder Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplan-Darstellungen und/oder Blockschaubildern durch Computerprogrammbefehle realisiert werden können. Diese Computerprogrammbefehle können einem Prozessor eines Universalcomputers, Spezialcomputers oder einer anderweitigen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die Befehle, die über den Prozessor des Computers oder der anderweitigen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, ein Mittel erzeugen, mit dem die Funktionen/Handlungen realisiert werden können, die in dem Block bzw. den Blöcken des Ablaufplans und/oder Blockschaubilds angegeben sind.
- Diese Computerprogrammbefehle können auch auf einem computerlesbaren Medium gespeichert sein, das einen Computer, eine anderweitige programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten anweisen kann, auf eine bestimmte Art und Weise zu funktionieren, so dass die auf dem computerlesbaren Medium gespeicherten Befehle einen Herstellungsartikel hervorbringen, der Befehle enthält, mit denen die Funktion/Handlung, die in dem Block bzw. den Blöcken des Ablaufplans und/oder Blockschaubilds angegeben ist, realisiert wird.
- Die Computerprogrammbefehle können zudem in einen Computer, eine anderweitige programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten geladen werden, um zu veranlassen, dass eine Reihe von Betriebsschritten auf dem Computer, der anderweitigen programmierbaren Datenvorrichtung oder den anderen Einheiten ausgeführt werden, so dass die Befehle, die auf dem Computer oder der anderweitigen Datenverarbeitungsvorrichtung ausgeführt werden, Prozesse bereitstellen, mit denen die Funktionen/Handlungen, die in dem Block bzw. den Blöcken des Ablaufplans und/oder Blockschaubilds angegeben sind, realisiert werden.
- Der Code, welcher die beschriebenen Operationen bzw. Anweisungen realisiert, kann ferner in Hardware-Logik oder als Schaltung (z. B. als integrierte Schaltung, als programmierbares Gatterfeld (Programmable Gate Array, PGA), als anwendungsspezifische integrierte Schaltung (Application Specific Integrated Circuit, ASIC) usw.) realisiert sein.
-
8 stellt eine Computerarchitektur800 dar, die gemäß bestimmten Ausführungsformen verwendet werden kann. Die Datenverarbeitungseinheit100 kann eine Computerarchitektur800 realisieren. Die Computerarchitektur800 ist für das Speichern und/oder Ausführen von Programmcode geeignet und enthält mindestens einen Prozessor802 , der über einen Systembus820 direkt oder indirekt mit den Speicherelementen804 verbunden ist. Die Speicherelemente804 können einen Lokalspeicher, der während der tatsächlichen Ausführung des Programmcodes verwendet wird, einen Massenspeicher und Cachespeicher beinhalten, die eine vorübergehende Speicherung von mindestens einem Teil des Programmcodes bereitstellen, um die Häufigkeit, mit welcher der Code während der Ausführung aus dem Massenspeicher abgerufen werden muss, zu verringern. Die Speicherelemente804 beinhalten ein Betriebssystem805 und ein oder mehrere Computerprogramme806 . - Ein-/Ausgabeeinheiten (E/A-Einheiten)
812 ,814 (darunter, ohne darauf beschränkt zu sein, Tastaturen, Zeigeeinheiten usw.) können entweder direkt oder über die dazwischen geschalteten E/A-Steuereinheiten810 mit dem System verbunden sein. - Die Netzwerkadapter
808 können ebenfalls mit dem System verbunden sein, um die Verbindung des Datenverarbeitungssystems mit anderen Datenverarbeitungssystemen oder mit entfernt angeordneten Druckern oder Speichereinheiten über dazwischen geschaltete Netzwerke zu ermöglichen. Modems, Kabelmodems und Ethernet-Karten sind nur einige der momentan verfügbaren Arten von Netzwerkadaptern808 . - Die Computerarchitektur
800 kann mit dem Speicher816 (z. B. einem nicht flüchtigen Speicherbereich wie beispielsweise Magnetplattenlaufwerken, optischen Plattenlaufwerken, einem Bandlaufwerk usw.) verbunden sein. Der Speicher816 kann eine interne Speichereinheit oder einen verbundenen oder über ein Netzwerk zugänglichen Speicher umfassen. In dem Speicher816 gespeicherte Computerprogramme806 können in die Speicherelemente804 geladen und von einem Prozessor802 auf eine bekannte Art und Weise ausgeführt werden. - Die Computerarchitektur
800 kann weniger Komponenten als abgebildet, zusätzliche, hier nicht abgebildete Komponenten oder eine Kombination der abgebildeten und zusätzlicher Komponenten enthalten. Die Computerarchitektur800 kann eine beliebige Datenverarbeitungseinheit nach dem Stand der Technik umfassen, z. B. einen Großrechner, einen Server, einen Personalcomputer, einen Arbeitsplatzrechner, einen Aktentaschen-Computer, einen Taschen-Computer, eine Telefonie-Einheit, eine Netzwerkeinrichtung, eine Virtualisierungseinheit, eine Speichersteuereinheit usw. - Der Ablaufplan und die Blockschaubilder in den Figuren stellen die Architektur, Funktionalität und den Betrieb möglicher Realisierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung bereit. In dieser Hinsicht kann jeder Block des Ablaufplans oder der Blockschaubilder ein Modul, Segment oder einen Code-Teil darstellen, das bzw. der einen oder mehrere Befehle umfasst, mit denen sich die angegebene(n) logische(n) Funktion(en) realisieren lässt/lassen. Zu beachten ist ferner, dass bei manchen alternativen Ausführungsformen die in dem Block erwähnten Funktionen in einer anderen Reihenfolge als der in den Figuren genannten auftreten können. So können beispielsweise zwei aufeinanderfolgend dargestellte Blöcke tatsächlich im Wesentlichen gleichzeitig stattfinden, oder die Blöcke können mitunter in umgekehrter Reihenfolge ausgeführt werden, wobei dies abhängig von der betreffenden Funktionalität ist. Ebenfalls zu beachten ist, dass jeder Block der Blockschaubilder und/oder der Ablaufplan-Darstellung sowie Kombinationen von Blöcken in den Blockschaubildern und/oder der Ablaufplan-Darstellung durch hardwaregestützte Spezialsysteme, welche die angegebenen Funktionen oder Handlungen ausführen, oder durch Kombinationen von Spezial-Hardware und Computerbefehlen realisiert werden kann/können.
- Die obige Beschreibung von Ausführungsformen der Erfindung dient zur Veranschaulichung und Beschreibung. Sie erhebt nicht den Anspruch, vollständig zu sein oder die Ausführungsformen auf die präzise Form, wie sie hier offenbart wird, zu beschränken. In Zusammenhang mit den obigen Ausführungen sind zahlreiche Änderungen und Anpassungen möglich. Der Geltungsumfang der Ausführungsformen soll nicht durch diese ausführliche Beschreibung, sondern vielmehr durch die hier beigefügten Ansprüche beschränkt sein. Die obigen Angaben, Beispiele und Daten stellen eine umfassende Beschreibung der Herstellung und Verwendung der Gesamtheit der Ausführungsformen bereit. Da viele Ausführungsformen möglich sind, ohne vom Geist und Geltungsumfang der Ausführungsformen abzuweichen, betreffen die Ausführungsformen die im Folgenden angefügten Ansprüche oder etwaige später eingereichte Ansprüche sowie deren Entsprechungen.
Claims (22)
- Computerrealisiertes Verfahren, aufweisend: Abrufen eines mindestens eine Seite umfassenden Dokuments, das für jede Seite einen Bereich aufweist, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht; und für jede Seite in dem Dokument Ermitteln, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, Extrahieren von einem oder mehreren Namen-Wert-Paaren aus dem internen Indexsatz, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.
- Verfahren nach Anspruch 1, wobei das Extrahieren ferner ein Verwenden von Anwendungsprogrammierschnittstellen (APIs) umfasst, um das eine oder die mehreren Namen-Wert-Paare zu extrahieren.
- Verfahren nach Anspruch 1 oder Anspruch 2, wobei die Anwendungen Dokumenten-Leseprogramme und Dokumenten-Umwandlungsprogramme umfassen.
- Verfahren nach einem der vorangegangenen Ansprüche, ferner aufweisend: Speichern des einen oder der mehreren Namen-Werte-Paare eines jeden internen Indexsatzes in einer Tabelle in einer Datenbank, wobei bei einem Namen-Wert-Paar der Name einem Spaltennamen in der Tabelle entspricht und der Wert einem Wert entspricht, der in einer Zeile für eine Spalte mit dem Namen gespeichert ist.
- Verfahren nach Anspruch 4, ferner aufweisend: als Reaktion auf ein Empfangen einer Suchanfrage mit einem oder mehreren Suchschlüsseln Vergleichen des einen oder der mehreren Suchschlüssel mit Werten in der Datenbank und als Reaktion auf die Feststellung, dass einer oder mehrere der Suchschlüssel mit mindestens einem Wert übereinstimmen, Bereitstellen von einem oder mehreren Dokumenten, die einem oder mehreren internen Indexsätzen zugehörig sind, welche mit dem mindestens einen Indexwert übereinstimmen.
- Verfahren nach einem der vorangegangenen Ansprüche, wobei einem Bereich mehrere interne Indexsätze zugehörig sind.
- Verfahren nach einem der vorangegangenen Ansprüche, wobei ein interner Indexsatz, der einer Seite eines Dokuments zugehörig ist, so lange für die Seite und für darauffolgende Seiten relevant ist, bis ein anderer interner Indexsatz innerhalb des Dokuments gesetzt ist oder bis das Ende des Dokuments erreicht ist.
- System, das Folgendes umfasst: Hardware-Logik zum Ausführen von Anweisungen, wobei die Anweisungen Folgendes aufweisen: Abrufen eines mindestens eine Seite umfassenden Dokuments, das für jede Seite einen Bereich enthält, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht; und für jede Seite in dem Dokument Ermitteln, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, Gewinnen von einem oder mehreren Namen-Wert-Paaren aus dem internen Indexsatz, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.
- Verfahren nach Anspruch 8, wobei die Operationen für das Gewinnen ferner das Verwenden von Anwendungsprogrammierschnittstellen (APIs) umfassen, um das eine oder die mehreren Namen-Wert-Paare zu gewinnen.
- System nach Anspruch 8 oder Anspruch 9, wobei der interne Indexsatz in einem Bereich der Seite gespeichert ist, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird, wobei die Anwendungen Dokumenten-Leseprogramme und Dokumenten-Umwandlungsprogramme beinhalten.
- System nach einem der Ansprüche 8 bis 10, wobei die Anweisungen ferner Folgendes aufweisen: Speichern des einen oder der mehreren Namen-Werte-Paare eines jeden internen Indexsatzes in einer Tabelle in einer Datenbank, wobei bei einem Namen-Wert-Paar der Name einem Spaltennamen in der Tabelle entspricht und der Wert einem Wert entspricht, der in einer Zeile für eine Spalte mit dem Namen gespeichert ist.
- System nach Anspruch 11, wobei die Anweidungen ferner aufweisen: als Reaktion auf ein Empfangen einer Suchanfrage mit einem oder mehreren Suchschlüsseln Vergleichen des einen oder der mehreren Suchschlüssel mit Werten in der Datenbank und als Reaktion auf ein Feststellung, dass einer oder mehrere der Suchschlüssel mit mindestens einem Wert übereinstimmen, Bereitstellen von einem oder mehreren Dokumenten, die einem oder mehreren internen Indexsätzen zugehörig sind, welche mit dem mindestens einen Indexwert übereinstimmen.
- System nach einem der Ansprüche 8 bis 12, wobei einem Bereich mehrere interne Indexsätze zugehörig sind.
- System nach einem der Ansprüche 8 bis 13, wobei ein interner Indexsatz, der einer Seite eines Dokuments zugehörig ist, so lange für die Seite und für darauffolgende Seiten relevant ist, bis ein anderer interner Indexsatz innerhalb des Dokuments gesetzt ist oder bis das Ende des Dokuments erreicht ist.
- Computerprogrammprodukt, das ein computerlesbares Speichermedium aufweist, welches ein computerlesbares Programm umfasst, wobei das computerlesbare Programm bei Ausführung durch einen Prozessor auf einem Computer den Computer dazu veranlasst: ein Dokument abzurufen, das für jede Seite einen Bereich enthält, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird und der einen unterschiedlichen internen Indexsatz enthält, welcher einem jeden Teilsatz von Seiten des Dokuments zugehörig ist, wobei jeder unterschiedliche interne Indexsatz einem Bereich zugehörig ist und Indizes speichert und wobei jeder der Indizes aus einem Namen-Wert-Paar besteht; und für jede Seite in dem Dokument zu ermitteln, ob die Seite einem internen Indexsatz zugehörig ist; und als Reaktion auf die Feststellung, dass die Seite einem internen Indexsatz zugehörig ist, ein oder mehrere Namen-Wert-Paare aus dem internen Indexsatz zu extrahieren, wobei jedes der ein oder mehreren Namen-Wert-Paare spezifische Informationen zu dem Dokument bereitstellt, die zum Erkennen des Dokuments verwendet werden.
- Computerprogrammprodukt nach Anspruch 15, wobei das Extrahieren ferner ein Verwenden von Anwendungsprogrammierschnittstellen (APIs) aufweist, um das eine oder die mehreren Namen-Wert-Paare zu gewinnen.
- Computerprogrammprodukt nach Anspruch 15, wobei der interne Indexsatz in einem Bereich der Seite gespeichert ist, der von Anwendungen, die das Dokument verarbeiten, ignoriert wird, wobei die Anwendungen Dokumenten-Leseprogramme und Dokumenten-Umwandlungsprogramme umfassen.
- Computerprogrammprodukt nach Anspruch 15, wobei das computerlesbare Programm bei Ausführung durch den Prozessor auf dem Computer den Computer dazu veranlasst: das eine oder die mehreren Namen-Werte-Paare eines jeden internen Indexsatzes in einer Tabelle in einer Datenbank zu speichern, wobei bei einem Namen-Wert-Paar der Name einem Spaltennamen in der Tabelle entspricht und der Wert einem Wert entspricht, der in einer Zeile für eine Spalte mit dem Namen gespeichert ist.
- Computerprogrammprodukt nach Anspruch 18, wobei das computerlesbare Programm bei Ausführung durch den Prozessor auf dem Computer den Computer dazu veranlasst: als Reaktion auf das Empfangen einer Suchanfrage mit einem oder mehreren Suchschlüsseln den einen oder die mehreren Suchschlüssel mit Werten in der Datenbank zu vergleichen und als Reaktion auf eine Feststellung, dass einer oder mehrere der Suchschlüssel mit mindestens einem Wert übereinstimmen, ein oder mehrere Dokumente bereitzustellen, die einem oder mehreren internen Indexsätzen zugehörig sind, welche mit dem mindestens einen Indexwert übereinstimmen.
- Computerprogrammprodukt nach Anspruch 15, wobei einem Bereich mehrere interne Indexsätze zugehörig sind.
- Computerprogrammprodukt nach Anspruch 15, wobei ein Indexsatz, der einer Seite eines Dokuments zugehörig ist, so lange für die Seite und für darauffolgende Seiten relevant ist, bis ein anderer interner Indexsatz innerhalb des Dokuments gesetzt ist oder bis das Ende des Dokuments erreicht ist.
- Computerprogramm, das ein Programmcodemittel umfasst, welches so gestaltet ist, dass es alle Schritte der Ansprüche 1 bis 7 durchführt, wenn das Programm auf einem Computer ausgeführt wird.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/643,343 | 2009-12-21 | ||
US12/643,343 US8572062B2 (en) | 2009-12-21 | 2009-12-21 | Indexing documents using internal index sets |
PCT/EP2010/069329 WO2011076585A1 (en) | 2009-12-21 | 2010-12-10 | Indexing documents |
Publications (2)
Publication Number | Publication Date |
---|---|
DE112010004914T5 true DE112010004914T5 (de) | 2012-11-22 |
DE112010004914B4 DE112010004914B4 (de) | 2022-12-08 |
Family
ID=43558138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112010004914.9T Active DE112010004914B4 (de) | 2009-12-21 | 2010-12-10 | Indexieren von Dokumenten |
Country Status (5)
Country | Link |
---|---|
US (1) | US8572062B2 (de) |
CN (1) | CN102959538B (de) |
DE (1) | DE112010004914B4 (de) |
GB (2) | GB2563366A (de) |
WO (1) | WO2011076585A1 (de) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9129010B2 (en) * | 2011-05-16 | 2015-09-08 | Argo Data Resource Corporation | System and method of partitioned lexicographic search |
US9385746B1 (en) * | 2015-07-28 | 2016-07-05 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Dynamic offset cancellation in sigma-delta converter |
GB2547467A (en) | 2016-02-19 | 2017-08-23 | Rockley Photonics Ltd | Tunable laser |
US11699892B2 (en) | 2016-02-19 | 2023-07-11 | Rockley Photonics Limited | Discrete wavelength tunable laser |
US10296745B2 (en) * | 2016-06-23 | 2019-05-21 | International Business Machines Corporation | Detecting vulnerable applications |
US11151108B2 (en) | 2016-11-21 | 2021-10-19 | International Business Machines Corporation | Indexing and archiving multiple statements using a single statement dictionary |
CN112579727B (zh) * | 2020-12-16 | 2022-03-22 | 北京百度网讯科技有限公司 | 文档内容的提取方法、装置、电子设备及存储介质 |
CN114416670B (zh) * | 2022-04-01 | 2022-07-26 | 天津联想协同科技有限公司 | 适用于网盘文档的索引创建方法、装置、网盘及存储介质 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963205A (en) * | 1995-05-26 | 1999-10-05 | Iconovex Corporation | Automatic index creation for a word processor |
US7062707B1 (en) * | 1998-12-08 | 2006-06-13 | Inceptor, Inc. | System and method of providing multiple items of index information for a single data object |
US6981217B1 (en) * | 1998-12-08 | 2005-12-27 | Inceptor, Inc. | System and method of obfuscating data |
US8589777B1 (en) * | 2000-01-21 | 2013-11-19 | International Business Machines Corporation | Method and system for calculating cost of a compilation of content |
US7613993B1 (en) * | 2000-01-21 | 2009-11-03 | International Business Machines Corporation | Prerequisite checking in a system for creating compilations of content |
US7284199B2 (en) * | 2000-03-29 | 2007-10-16 | Microsoft Corporation | Process of localizing objects in markup language documents |
US7178099B2 (en) * | 2001-01-23 | 2007-02-13 | Inxight Software, Inc. | Meta-content analysis and annotation of email and other electronic documents |
CA2451208A1 (en) * | 2001-06-21 | 2003-01-03 | Paul P. Vagnozzi | Database indexing method and apparatus |
US7139756B2 (en) | 2002-01-22 | 2006-11-21 | International Business Machines Corporation | System and method for detecting duplicate and similar documents |
US7254587B2 (en) * | 2004-01-12 | 2007-08-07 | International Business Machines Corporation | Method and apparatus for determining relative relevance between portions of large electronic documents |
US8156123B2 (en) * | 2004-06-25 | 2012-04-10 | Apple Inc. | Method and apparatus for processing metadata |
US7475336B2 (en) * | 2004-08-11 | 2009-01-06 | Kabushiki Kaisha Toshiba | Document information processing apparatus and document information processing program |
JP2006270303A (ja) * | 2005-03-23 | 2006-10-05 | Hitachi Ltd | 通信制御方法、通信制御装置および通信制御プログラムを記録した記憶媒体 |
WO2006108162A2 (en) | 2005-04-06 | 2006-10-12 | Getty Images, Inc. | Digital asset management system, including customizable metadata model for asset cataloging and permissioning of digital assets, such as for use with digital images and songs |
CN1687926A (zh) * | 2005-04-18 | 2005-10-26 | 福州大学 | 一种基于xml的pdf文档信息抽取系统的方法 |
US7818668B2 (en) * | 2005-04-19 | 2010-10-19 | Microsoft Corporation | Determining fields for presentable files |
KR100661173B1 (ko) | 2005-10-18 | 2006-12-26 | 삼성전자주식회사 | 다이렉트 프린팅 기능을 갖는 프린터 및 그 인쇄방법 |
US7797638B2 (en) * | 2006-01-05 | 2010-09-14 | Microsoft Corporation | Application of metadata to documents and document objects via a software application user interface |
JP2007257308A (ja) * | 2006-03-23 | 2007-10-04 | Canon Inc | 文書管理装置、文書管理システム、及びその制御方法、プログラム、記憶媒体 |
JP2007304982A (ja) | 2006-05-12 | 2007-11-22 | Canon Inc | 電子文書管理装置、電子文書管理方法、及びコンピュータプログラム |
US20080104542A1 (en) * | 2006-10-27 | 2008-05-01 | Information Builders, Inc. | Apparatus and Method for Conducting Searches with a Search Engine for Unstructured Data to Retrieve Records Enriched with Structured Data and Generate Reports Based Thereon |
US8823970B2 (en) | 2006-12-21 | 2014-09-02 | Xerox Corporation | PS to PDF conversion with embedded job ticketing preservation |
US8504553B2 (en) * | 2007-04-19 | 2013-08-06 | Barnesandnoble.Com Llc | Unstructured and semistructured document processing and searching |
US20080270381A1 (en) * | 2007-04-24 | 2008-10-30 | Interse A/S | Enterprise-Wide Information Management System for Enhancing Search Queries to Improve Search Result Quality |
JP5033724B2 (ja) * | 2007-07-12 | 2012-09-26 | 株式会社沖データ | 文書検索装置及び画像形成装置、文書検索システム |
US20090024414A1 (en) * | 2007-07-17 | 2009-01-22 | Eclipsys Corporation | Analytical methods and software product for automated health care information systems |
JP4902451B2 (ja) | 2007-07-18 | 2012-03-21 | キヤノン株式会社 | 文書出力装置及びその制御方法とプログラム |
US7849065B2 (en) * | 2007-07-20 | 2010-12-07 | Microsoft Corporation | Heterogeneous content indexing and searching |
US8601361B2 (en) * | 2007-08-06 | 2013-12-03 | Apple Inc. | Automatically populating and/or generating tables using data extracted from files |
US8228542B2 (en) * | 2009-03-31 | 2012-07-24 | 1st Management Services, Inc. | Systems and methods for storing multiple records using identifiers, storage locations, and attributes associated with electronic documents |
-
2009
- 2009-12-21 US US12/643,343 patent/US8572062B2/en not_active Expired - Fee Related
-
2010
- 2010-12-10 GB GB1815543.2A patent/GB2563366A/en not_active Withdrawn
- 2010-12-10 CN CN201080058410.1A patent/CN102959538B/zh active Active
- 2010-12-10 GB GB1212805.4A patent/GB2489863A/en not_active Withdrawn
- 2010-12-10 DE DE112010004914.9T patent/DE112010004914B4/de active Active
- 2010-12-10 WO PCT/EP2010/069329 patent/WO2011076585A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2011076585A1 (en) | 2011-06-30 |
GB201212805D0 (en) | 2012-09-05 |
GB201815543D0 (en) | 2018-11-07 |
CN102959538A (zh) | 2013-03-06 |
GB2563366A (en) | 2018-12-12 |
US8572062B2 (en) | 2013-10-29 |
DE112010004914B4 (de) | 2022-12-08 |
CN102959538B (zh) | 2016-10-12 |
GB2489863A (en) | 2012-10-10 |
US20110153640A1 (en) | 2011-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112010004914B4 (de) | Indexieren von Dokumenten | |
DE69631457T2 (de) | Vorrichtung und verfahren zum übertragbaren indexieren von dokumenten gemäss einer n-gram-wortzerlegung | |
DE102014113870A1 (de) | Identifizieren und Anzeigen von Beziehungen zwischen Kandidatenantworten | |
DE102018007060A1 (de) | Hervorheben von Schlüsselabschnitten eines Texts innerhalb eines Dokuments | |
DE112018005616T5 (de) | Blockweise extraktion von dokumentmetadaten | |
DE102016014798A1 (de) | Genaues Vorhersagen einer Etikettrelevanz bei einer Bildabfrage | |
DE102013215661A1 (de) | Kontextbezogene Suche nach einer gespeicherten Datei, die einem Graphenknoten zugehörig ist | |
DE202012013462U1 (de) | Datenverarbeitung in einem Mapreduce-Framework | |
DE112018006345T5 (de) | Abrufen von unterstützenden belegen für komplexe antworten | |
DE112015002695T5 (de) | Systeme und Verfahren zum Bearbeiten einer Datei in einer nicht nativen Anwendung unter Verwendung einer Anwendungs-Engine | |
DE102018005611A1 (de) | Automatische Paarbildung von Fonts unter Verwendung des asymmetrischen Metriklernens | |
DE112013000987T5 (de) | Erzeugen von Visualisierungen einer Anzeigegruppe von Tags, die Inhaltsinstanzen in Suchkriterien erfüllenden Objekten darstellen | |
DE102013209868A1 (de) | Abfragen und Integrieren strukturierter und unstrukturierter Daten | |
DE102013202365A1 (de) | Herausziehen von informationen aus krankenakten | |
DE112018005418T5 (de) | Kognitive dokumentbild-digitalisierung | |
DE102013200355A1 (de) | Zusammenfügen von Dokumenten aud der Grundlage der Kenntnis eines Dokumentenschemas | |
DE102018007165A1 (de) | Vorhersage von stilbrüchen innerhalb eines textinhalts | |
DE102014112983A1 (de) | Aktive Wissenslenkung beruhend auf Dokumententiefenanalyse | |
DE112018005272T5 (de) | Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur | |
DE102012221251A1 (de) | Semantisches und kontextbezogenes Durchsuchen von Wissensspeichern | |
DE112018001165T5 (de) | Automatisierte dokumentenanalyse für unterschiedliche natürliche sprachen | |
DE112020005268T5 (de) | Automatisches erzeugen von schema-annotationsdateien zum umwandeln von abfragen in natürlicher sprache in eine strukturierte abfragesprache | |
DE112015002101T5 (de) | Systeme und Verfahren für einen verbesserten Datenstrukturspeicher | |
DE112016002275T5 (de) | Koordinierte benutzerwortauswahl zum übersetzen und erhalten von kontextinformtionen für das ausgewählte wort | |
DE102021202469A1 (de) | System und verfahren zur generativen textzusammenfassung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R082 | Change of representative |
Representative=s name: LIFETECH IP SPIES DANNER & PARTNER PATENTANWAE, DE Representative=s name: LIFETECH IP SPIES & BEHRNDT PATENTANWAELTE PAR, DE Representative=s name: SPIES & BEHRNDT PATENTANWAELTE PARTG MBB, DE |
|
R082 | Change of representative |
Representative=s name: LIFETECH IP SPIES DANNER & PARTNER PATENTANWAE, DE Representative=s name: LIFETECH IP SPIES & BEHRNDT PATENTANWAELTE PAR, DE Representative=s name: SPIES & BEHRNDT PATENTANWAELTE PARTG MBB, DE |
|
R082 | Change of representative |
Representative=s name: LIFETECH IP SPIES & BEHRNDT PATENTANWAELTE PAR, DE Representative=s name: SPIES & BEHRNDT PATENTANWAELTE PARTG MBB, DE |
|
R082 | Change of representative |
Representative=s name: SPIES & BEHRNDT PATENTANWAELTE PARTG MBB, DE |
|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0017300000 Ipc: G06F0016000000 |
|
R016 | Response to examination communication | ||
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R020 | Patent grant now final |