DE10255128A1 - Computer-implementierte PDF-Dokumentenverwaltung - Google Patents

Computer-implementierte PDF-Dokumentenverwaltung

Info

Publication number
DE10255128A1
DE10255128A1 DE10255128A DE10255128A DE10255128A1 DE 10255128 A1 DE10255128 A1 DE 10255128A1 DE 10255128 A DE10255128 A DE 10255128A DE 10255128 A DE10255128 A DE 10255128A DE 10255128 A1 DE10255128 A1 DE 10255128A1
Authority
DE
Germany
Prior art keywords
document
received
pdf
file
pdf document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10255128A
Other languages
English (en)
Inventor
Virupaksha N Kanchirayappa
Natarajan Chandramouli
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
I2 Technologies Inc
Original Assignee
I2 Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by I2 Technologies Inc filed Critical I2 Technologies Inc
Publication of DE10255128A1 publication Critical patent/DE10255128A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Eine PDF-Datei wird von einer externen Anwendung empfangen, und Schlüssel-Information wird aus der PDF-Datei bezüglich eines in der PDF-Datei enthaltenen PDF-Dokuments extrahiert. Die extrahierte Schlüssel-Information wird mit analoger Referenz-Information verglichen, die für zuvor empfangene PDF-Dokumente gespeichert wurde, um einen Status für das empfangene PDF-Dokument zu bestimmen, der an die externe Anwendung geliefert wird, von der die PDF-Datei empfangen wurde. Das empfangene PDF-Dokument ist ein Duplikat, wenn die gesamte extrahierte Schlüssel-Information mit analoger Referenz-Information übereinstimmt, ist ein aktualisiertes Dokument, wenn ein Teil, jedoch nicht die gesamte extrahierte Schlüssel-Information mit analoger Referenz-Information übereinstimmt, oder ist ein neues Dokument, wenn mindestens bestimmt extrahierte Schlüssel-Informationen nicht mit analoger Referenz-Information übereinstimmt. Wenn das PDF-Dokument ein Duplikatdokument ist, wird die Verarbeitung der PDF-Datei an die Anwendung zurückgegeben, ohne dass dabei eine extrahierte Schlüssel-Information als Referenz-Information gespeichert wird. Wenn das PDF-Dokument ein aktualisiertes Dokument ist, wird bestimmte extrahierte Schlüssel-Information zum Aktualisieren der Referenz-Information gespeichert, und die Verarbeitung der PDF-Datei wird an die Anwendung zurückgegeben. Wenn das PDF-Dokument neu ist, wird alle extrahierte Schlüssel-Information als Referenz-Information gespeichert, und die ...

Description

  • Die vorliegende Erfindung bezieht sich allgemein auf Dokumentenverwaltung und insbesondere auf eine Verwaltung von Dokumenten im Portable Document Format (PDF).
  • Unter Portable Document Format (PDF) versteht man ein Dateiformat, das von ADOBE SYSTEMS INCORPORATED entwickelt wurde und das es erlaubt, dass in PDF formatierte Dokumente zur Online-Betrachtung zum Beispiel unter Verwendung eines Computerbildschirms in der gleichen Weise abgerufen werden können, wie Ausdrucke der Dokumente off-line betrachtet werden könnten. Zum Beispiel können PDF-Dokumente je nach den bestimmten Bedürfnissen des Benutzers Seite für Seite betrachtet und auch online gerollt werden. Zur Betrachtung von PDF-Dokumenten sind typischerweise Anwendungen wie zum Beispiel ADOBE ACROBAT EXCHANGE oder ADOBE ACROBAT READER erforderlich. Bei der Verwendung solcher Anwendungen in inhaltsbezogenen Dokumenten-Abrufoperationen, bei denen es sein kann, dass eine große Zahlen von PDF-Dokumenten ständig zur Betrachtung aufgerufen werden müssen, kann es sein, dass beträchtliche Zeit und Mühe dafür aufgewendet werden muss zu bestimmen, ob abgerufene PDF-Dokumente Duplikate (das gleiche Dokument wie schon vorher aufgerufen), Aktualisierungen (Änderungen an einem zuvor aufgerufenen Dokument) oder neu (Dokument wird zum ersten Mal aufgerufen) sind.
  • Erfindungsgemäß können Nachteile und Probleme im Zusammenhang mit bisherigen Verfahren zur Handhabung von PDF-Dokumenten verringert oder ausgeschlossen werden.
  • In einer Ausführungsform der vorliegenden Erfindung enthält ein Verfahren zur PDF- Dokumentenverwaltung die folgenden Schritte: Empfangen von Dateien von einer oder mehreren externen Anwendungen, Bestimmen, ob jede der empfangenen Datei eine PDF- Datei ist, und Extrahieren von Schlüssel-Information von jeder empfangenen PDF-Datei aus einem entsprechenden PDF-Dokument, das in der PDF-Datei enthalten ist. Die extrahierte Schlüssel-Information für jedes empfangene PDF-Dokument wird mit analoger Referenz-Information verglichen, die für zuvor empfangene PDF-Dokumente gespeichert wurde, um einen Überprüfungsstatus für jedes empfangene PDF-Dokument gemäß dem Vergleich zu bestimmen, der an die externe Anwendung geliefert wird, von welcher die PDF-Datei empfangen wurde. Der Überprüfungsstatus zeigt an, dass das empfangene PDF-Dokument ein Duplikatdokument ist, wenn die gesamte extrahierte Schlüssel-Information für das empfangene PDF-Dokument mit analoger Referenz- Information für ein vorher empfangenes PDF-Dokument übereinstimmt. Der Überprüfungsstatus zeigt an, dass das empfangene PDF-Dokument ein aktualisiertes Dokument ist, wenn bestimmte, jedoch nicht die gesamte extrahierte Schlüssel- Information für das empfangene PDF-Dokument mit analoger Referenz-Information für ein zuvor empfangenes PDF-Dokument übereinstimmt. Der Überprüfungsstatus zeigt an, dass das empfangene PDF-Dokument ein neues Dokument ist, wenn mindestens bestimmte extrahierte Schlüssel-Informationen für das empfangene PDF-Dokument nicht mit analoger Referenz-Information für ein zuvor empfangenes PDF-Dokument übereinstimmt. Wenn das empfangene PDF-Dokument ein Duplikatdokument ist, wird die Verarbeitung der empfangenen PDF-Datei an die externe Anwendung zurückgegeben, von der sie empfangen wurde, ohne dass extrahierte Schlüssel-Information für das empfangene PDF-Dokument als Referenz-Information gespeichert wird. Wenn das empfangene PDF- Dokument ein aktualisiertes Dokument ist, wird bestimmte extrahierte Schlüssel- Information für das empfangene PDF-Dokument zum Aktualisieren der Referenz- Information gespeichert, und die Verarbeitung der empfangenen PDF-Datei wird an die externe Anwendung zurückgegeben, von der sie empfangen wurde. Wenn das empfangene PDF-Dokument ein neues Dokument ist, wird alle extrahierte Schlüssel-Information für das empfangene PDF-Dokument als Referenz-Information gespeichert, und die Verarbeitung der empfangenen PDF-Datei wird an die externe Anwendung zurückgegeben, von der sie empfangen wurde.
  • Bestimmte Ausführungsformen der vorliegenden Erfindung können einen oder mehrere technische Vorteile bieten. Zum Beispiel können bestimmte Ausführungsformen der vorliegenden Erfindung ein computerimplementiertes Verfahren zum automatischen Bestimmen bereitstellen, ob empfangene PDF-Dokumente Duplikate (das gleiche Dokument wurde schon zuvor empfangen), Aktualisierungen (Veränderungen an zuvor empfangenen Dokumenten) oder neu (Dokument wird zum ersten Mal empfangen) sind, ohne dass Anwendungen, wie zum Beispiel ADOBE ACROBAT READER oder ADOBE ACROBAT EXCHANGE verwendet werden müssen. Das Ergebnis ist, dass nicht nur solche Anwendungen nicht angeschafft und unterhalten werden müssen, sondern dass erfindungsgemäß auch die Zeit und die Mühe beträchtlich verringert werden, die für inhaltsbezogene Dokumenten-Abrufvorgänge im Zusammenhang mit großen Anzahlen von PDF-Dokumenten beträchtlich verringert werden kann. Bestimmte Ausführungsformen der vorliegenden Erfindung können einige, alle oder keine dieser Vorteile bieten. Einer oder mehrere weitere technische Vorteile können einem Fachmann aus den hier vorliegenden Figuren, der Beschreibung und den Ansprüchen ersichtlich sein.
  • Zu einem vollständigeren Verständnis der vorliegenden Erfindung und seiner Vorteile folgt nun eine Beschreibung anhand der Zeichnungen. Es zeigt:
  • Fig. 1 ein computerimplementiertes Beispielsystem zur PDF-Dokumentenverwaltung; und
  • Fig. 2 ein computerimplementiertes Beispielverfahren zur PDF-Dokumentenverwaltung.
  • Ausführungsbeispiele der vorliegenden Erfindung und ihre Vorteile sind am besten unter Bezugnahme auf die Fig. 1 und 2 der Zeichnung verständlich, wobei gleiche Referenznummern für gleiche und entsprechende Teile der verschiedenen Zeichnungen verwendet werden.
  • Fig. 1 veranschaulicht ein computerimplementiertes Beispielsystem 10 zur PDF- Dokumentenverwaltung. Auch wenn das System 10 zur Angabe eines Beispiels des Typs der Umgebung beschrieben ist, in der eine PDF-Dokumentenverwaltung erfindungsgemäß implementiert werden kann, wird erfindungsgemäß eine beliebige geeignete PDF- Dokumentenverwaltung-Umgebung in Betracht gezogen, und sie soll nicht auf eine bestimmte Umgebung eingeschränkt sein, außer wie in den beiliegenden Ansprüchen angegeben. Allgemein wird bei einer PDF-Dokumentenverwaltung unter Verwendung des Systems 10 automatisch bestimmt, ob PDF-Dokumente Duplikate, Aktualisierungen oder neue PDF-Dokumente sind, ohne dass dabei Anwendungen, wie zum Beispiel ADOBE ACROBAT EXCHANGE oder ADOBE ACROBAT READER verwendet werden müssen. Als Ergebnis wird nicht nur die Notwendigkeit des Beschaffens und Unterhaltens von solchen Anwendungen überflüssig, sondern die vorliegende Erfindung kann auch die Zeit und Mühe beträchtlich verringern, die für inhaltsbezogene Dokumenten-Abrufvorgänge mit großen Anzahlen von PDF-Dokumenten aufgewendet wird.
  • In einer Ausführungsform weist das System 10 eine Dokumenten-Datenbank 12 auf, die als eine Ablage für Referenz-Information über PDF-Dokumente dient. Die Datenbank 12 kann ein beliebiges geeignetes Speichermedium an einem oder mehreren Standorten enthalten, und "Datenbank" soll hier alle solche Speichermedien und damit verbundene Datenspeicheranordnungen, wie sie geeignet sind, umfassen. Die Dokumenten- Informationsdatenbank 12 kann Referenz-Information für PDF-Dokumente enthalten, die das System 10 von einer oder mehreren entsprechenden Quellen empfangen hat, zum Beispiel PDF-Dokumente, die von einer oder mehreren Anwendungen empfangen wurden (die auf gleichen oder unterschiedlichen Computersystemen als Komponenten des Systems 10 ausgeführt werden), über einen oder mehrere Computerbusse, lokale Netze (LANs), Großstadtnetze (MANs), überregionale Netze (WANs), Teile des Internets oder beliebige andere geeignete Verbindungen. In der Dokumenten-Informationsdatenbank 12 für ein PDF-Dokument gespeicherte Referenz-Information kann zum Beispiel und ohne Einschränkung einen Dateinamen für das Dokument, einen Titel des Dokuments, ein Thema des Dokuments, einen Verfasser des Dokuments, einen Ersteller des Dokuments, einen Erzeuger des Dokuments, ein Erstellungsdatum für das Dokument, ein Datum der letzten Änderung für das Dokument, eine Seitenanzahl des Dokuments, ob das Dokument verschlüsselt ist oder nicht, und eine Dateigröße für das Dokument, einzeln oder in einer beliebigen geeigneten Kombination enthalten. Wie unten noch im Einzelnen beschrieben, kann ein Teil oder die gesamte gespeicherte Referenz-Information für zuvor empfangene PDF-Dokumente mit analoger-Information für ein empfangenes PDF-Dokument verglichen werden, um einen Überprüfungsstatus des empfangenen PDF-Dokuments zu bestimmen.
  • Das System 10 empfängt PDF-Dateien 14 zum Beispiel von einer oder mehreren Anwendungen (die auf dem gleichen oder unterschiedlichen Computersystemen als Komponenten des Systems 10 ausgeführt werden), die PDF-Dateien 14 aus einem lokalen oder entfernten Speicher zur Betrachtung auf der Grundlage von Anweisungen abrufen, die von einem oder mehreren Benutzern empfangen wurden. Wo erwähnt wird, dass das System 10 eine PDF-Datei 14 "empfängt", soll dies auch umfassen, dass das System 10 Zeiger-Information oder andere -Information empfängt, die den physischen Speicherplatz der PDF-Datei 14 anzeigt. Jede PDF-Datei 14 enthält ein entsprechendes PDF- Dokument 16 und einen entsprechenden Datei-Kopfteil 18, die entsprechende Information über das PDF-Dokument 16 enthält. In einer Ausführungsform kann nach dem Empfangen einer oder mehrerer PDF-Dateien 14 eine entsprechende Komponente des Systems 10 geeignete Parameter zum Konstruieren eines PDF-Dokumentenobjekts initialisieren (z. B. in objektorientierter Programmierung eine in sich abgeschlossene Entität, die sowohl Daten als auch Prozeduren zum Manipulieren der Daten aufweist) für jede empfangene PDF-Datei 14. Zum Beispiel wird der Inhalt eines PDF-Dokuments typischerweise als ein Baum von Objekten dargestellt, der zum Abrufen von Dokumenten- Information verwendet wird. Jedes Objekt kann eines der folgenden Typen sein: Array, Boolean, Dictionary, Name, Null, Number, Reference, Stream und String. Fünf dieser Typen sind einfache Typen, während der Rest (Array, Dictionary, Reference und Stream) andere Typen beinhaltet. Zum Beispiel enthält ein Array-Objekt eine Liste von Objekten, die von einem beliebigen Typ sein können.
  • Das System 10 enthält einen Dokumenten-Informations-Extraktor 20, der in einer Ausführungsform die jeweilige empfangene PDF-Datei 14 im binären Modus oder sonst wie öffnet, und das PDF-Dokument 16 und/oder den Datei-Kopfteil 18 nach einer PDF- Versionsnummer oder einem ähnlichen Identifikator durchsucht. Wenn keine PDF- Versionsnummer oder ein ähnlicher Identifikator gefunden wird, dann kann das PDF- Dokument 16 als ein Fehlerdokument 22 markiert werden, und dieser Status an eine andere entsprechende Komponente des Systems 10 berichtet werden. Zum Beispiel kann ein (nicht gezeigter) Dokumentenstatus-Aufzeichner den Status vom Dokumenten-Informations- Extraktor 20 empfangen und den Status in der Dokumenten-Informationsdatenbank 12 oder an einer anderen Stelle speichern. Wenn eine PDF-Versionsnummer oder ein ähnlicher Identifikator aufgefunden wird, durchsucht der Dokumenten-Informations- Extraktor 20 das PDF-Dokument 16 und/oder den Datei-Kopfteil 18 auch, um noch weitere-Information zu extrahieren, wie zum Beispiel, und nicht als Einschränkung zu verstehen, einen Titel eines PDF-Dokuments 16, ein Thema eines PDF-Dokuments 16, ein oder mehrere vordefinierte Schlüsselwörter, die im PDF-Dokument 16 enthalten sind, einen Verfasser eines PDF-Dokuments 16, einen Ersteller eines PDF-Dokuments 16, einen Erzeuger eines PDF-Dokuments 16, ein Erstellungsdatum eines PDF-Dokuments 16, ein Datum einer letzten Änderung eines PDF-Dokuments 16, eine Anzahl von Seiten im PDF-Dokument 16, ob das PDF-Dokument 16 verschlüsselt ist oder nicht und eine Dateigröße eines PDF-Dokuments 16, einzeln oder in einer beliebigen geeigneten Kombination. Extrahierte -Information über ein empfangenes PDF-Dokument 16 kann kollektiv als Dokumenten-Information 24 für das empfangene PDF-Dokument 16 bezeichnet werden.
  • Das System 10 kann einen Dokumenten-Informations-Vergleicher 26 enthalten, der Dokumenten-Information 24, die von der PDF-Datei 14 für das empfangene PDF- Dokument 16 extrahiert wurde, mit analoger Referenz-Information vergleichen, die in der Dokumenten-Informationsdatenbank 12 für zuvor empfangene PDF-Dokumente 16 gespeichert wurde, um einen Überprüfungsstatus für das empfangene PDF-Dokument 16 zu bestimmen. Auch wenn ein getrennter Dokumenten-Informations-Vergleicher 26 als Beispiel beschrieben wurde, kann diese Funktion in einer beliebigen geeigneten Weise durch eine beliebige geeignete Komponente des Systems 10 ausgeführt werden, zum Beispiel durch die gleiche Komponente, die zum Extrahieren der Dokumenten- Information 24 aus PDF-Dateien 14 verantwortlich ist. In einer Ausführungsform kann ein Überprüfungsstatus für ein empfangenes PDF-Dokument 16 wie folgt klassifiziert werden. Ein empfangenes PDF-Dokument 16 kann als ein "Duplikat"-Dokument 28 klassifiziert werden, wenn alle extrahierte Dokumenten-Information 24 exakt (z. B. Feld für Feld) mit analoger Referenz-Information übereinstimmt, die in der Dokumenten- Informationsdatenbank 12 für ein zuvor empfangenes PDF-Dokument 16 gespeichert wurde. Ein empfangenes PDF-Dokument 16 kann als ein "aktualisiertes" Dokument 30 klassifiziert werden, wenn alle extrahierte Dokumenten-Information 24 exakt (z. B. auf einer Feld für Feld Basis) mit analoger Referenz-Information übereinstimmt, die in der Dokumenten-Informationsdatenbank 12 für ein zuvor empfangenes PDF-Dokument 16 gespeichert wurde, außer dass eines oder mehrere aus den folgenden Daten verändert wurden: Datum der letzten Änderung, Anzahl der Seiten und die Dateigröße. Ein empfangenes PDF-Dokument 16 kann als ein "neues" Dokument 32 klassifiziert werden, wenn die extrahierte Dokumenten-Information 24 nicht mit analoger Referenz- Information übereinstimmt, die in der Dokumenten-Informationsdatenbank 12 für ein zuvor empfangenes PDF-Dokument 16 gespeichert wurde. Nach seiner Bestimmung kann der Überprüfungsstatus eines empfangenen PDF-Dokuments 16 in der Dokumenten- Informationsdatenbank 12 oder an einem anderen Ort aufgezeichnet werden, zum Beispiel durch einen (nicht gezeigten) Dokumentenstatus-Aufzeichner, wie das oben beschrieben ist. Auch wenn ein getrennter Dokumentenstatus-Aufzeichner hier als ein Beispiel beschrieben ist, kann diese Funktion in einer beliebigen geeigneten Weise durch eine beliebige geeignete Komponente des Systems 10 durchgeführt werden, zum Beispiel durch die selbe Komponente, die zum Extrahieren von Dokumenten-Information aus PDF- Dateien 14 verantwortlich ist.
  • Wenn festgestellt wird, dass ein empfangenes PDF-Dokument 16 ein Fehlerdokument 22 oder ein Duplikatdokument 28 ist, dann kann das PDF-Dokument 16 zum Beispiel (im Fall eines Fehlerdokuments 22) off-line für eine weitere Validation gespeichert oder (im Fall eines Duplikatdokuments 28) an die Anwendung, von der das PDF-Dokument 16 empfangen wurde, zur weiteren Verarbeitung zurückgeschickt werden. Wenn festgestellt wird, dass das empfangene PDF-Dokument 16 ein aktualisiertes Dokument 30 oder ein neues Dokument 32 ist, dann kann das empfangene PDF-Dokument 16 weiter im System 10 verarbeitet werden, wie das unten beschrieben ist, bevor es an die Anwendung zurückgeschickt wird, von der das PDF-Dokument 16 empfangen wurde.
  • Das System 10 kann einen Dokumenten-Information-Aktualisier 34 aufweisen. Wenn festgestellt wird, dass ein empfangenes PDF-Dokument 16 ein aktualisiertes Dokument 30 ist (d. h. bestimmte extrahierte Dokumenten-Information 24 stimmt mit analoger Referenz-Information überein), dann kann der Dokumenten-Information-Aktualisier 34 das Datum der letzten Änderung, die Anzahl der Seiten und/oder die Dateigröße aktualisieren, die in der Dokumenten-Informationsdatenbank 12 für das empfangene PDF-Dokument 16 gespeichert ist. Wenn festgestellt wird, dass ein empfangenes PDF-Dokument 16 ein neues Dokument 32 ist (d. h. keine extrahierte Dokumenten-Information 24 stimmt mit analoger Referenz-Information überein), dann kann der Dokumenten-Information- Aktualisier 34 alle extrahierte Dokumenten-Information 24 für das empfangene PDF- Dokument 16 in der Dokumenten-Informationsdatenbank 12 speichern. Nachdem ein Teil oder die gesamte extrahierte Dokumenten-Information 24 für das empfangene PDF- Dokument 16 in der Dokumenten-Informationsdatenbank 12 gespeichert wurde, kann die PDF-Datei 14 für das PDF-Dokument 16 und sein bestimmter Status (d. h. Duplikat, aktualisiert oder neu) an die Anwendung, von der sie empfangen wurde, zur weiteren Verarbeitung zurückgegeben werden.
  • Auch wenn dies hier nicht ausdrücklich gezeigt ist, können die oben beschriebenen Komponenten, Funktionen und Aufgaben computerimplementiert werden, unter Verwendung von Software, die auf einem oder mehreren geeigneten Computersystemen an einem oder mehreren Standorten ausgeführt wird. Jedes Computersystem kann eine oder mehrere geeignete Eingabevorrichtungen, Ausgabevorrichtungen, Massenspeichermedien, Prozessoren, Speicher oder andere Komponenten zum Empfangen, Verarbeiten, Speichern und Kommunizieren von -Information gemäß des Betriebs des Systems 10 aufweisen. Gegebenenfalls kann jedes Computersystem nach einer geeigneten Eingabe von einer beliebigen Anzahl entsprechender Benutzer betrieben werden. Je nach der Implementierung können Komponenten des Systems 10 ganz oder teilweise integriert, ganz oder teilweise verteilt oder in einer beliebigen anderen geeigneten Weise angeordnet sein. Komponenten des Systems 10 können physisch oder logisch miteinander in einer beliebigen geeigneten Weise verbunden sein, zum Beispiel unter Verwendung eines oder mehrerer Computerbusse, lokaler Netzwerke (LANs), Großstadtnetzwerke (MANs), überregionaler Netze (WANs), Teile des Internets oder durch andere geeignete Verbindungen.
  • Fig. 2 veranschaulicht ein computerimplementiertes Beispielverfahren 100 zur PDF- Dokumentenverwaltung. Bei Schritt 102 werden eine oder mehrere eintreffende Dateien empfangen (z. B. von einer oder mehreren Anwendungen, die auf dem gleichen oder anderen Computersystemen als Komponenten des Systems 10 ausgeführt werden), und bei Schritt 104 werden die empfangenen Dateien bewertet, um festzustellen, ob welche davon PDF-Dateien 14 sind. Wenn bei Schritt 106 festgestellt wird, dass keine der empfangenen Dateien PDF-Dateien 14 sind, dann wird bei Schritt 108 der Anwendung bzw. den Anwendungen, von denen die Dateien empfangen wurden, dies mitgeteilt, und die Verarbeitung der Dateien wird zurückgegeben, an welchem Punkt das Verfahren 100 endet. Wenn bei Schritt 106 festgestellt wird, dass eine oder mehrere der empfangenen Dateien PDF-Dateien 14 sind, dann werden bei Schritt 110 die PDF-Dateien 14 zur weiteren Verarbeitung innerhalb des Systems 10 ausgewählt. Bei Schritt 112 können geeignete Parameter zum Konstruieren eines PDF-Dokumentenobjekts für jede empfangene PDF- Datei 14 initialisiert werden.
  • Bei Schritt 114 wird eine erste PDF-Datei 14 (willkürlich oder sonst wie) ausgewählt, und bei Schritt 116 öffnet der Dokumenten-Informations-Extraktor 20 die PDF-Datei 14 und durchsucht die PDF-Datei 14 nach einer PDF-Versionsnummer oder einem ähnlichen Identifikator. Wenn keine PDF-Versionsnummer oder ein ähnlicher Identifikator gefunden werden kann, kann das entsprechende PDF-Dokument 16 bei Schritt 118 als Fehlerdokument 22 markiert, bei Schritt 120 zur weiteren Validation off-line gespeichert und sein Status bei Schritt 122 in der Dokumenten-Informationsdatenbank 12 oder an einem anderen Ort gespeichert werden. Wenn alternativ dazu eine PDF- Versionsnummer oder ein ähnlicher Identifikator gefunden wird, dann extrahiert bei Schritt 124 der Dokumenten-Informations-Extraktor 20 die entsprechende Dokumenten- Information 24 aus der PDF-Datei 14. Wie oben beschrieben, kann die Dokumenten- Information 24 aus dem entsprechenden PDF-Dokument 16 und/oder der Datei-Kopfteil 18 extrahiert werden und kann zum Beispiel und nicht als Einschränkung einen Titel, ein Thema, eines oder mehrere vordefinierte Schlüsselwörter, einen Verfasser, einen Ersteller, einen Erzeuger, ein Erstellungsdatum, ein Datum der letzten Änderung, eine Seitenzahl, ob es verschlüsselt ist oder nicht, und eine Dateigröße, allein oder in einer beliebigen geeigneten Kombination enthalten.
  • Bei Schritt 126 wird die für das empfangene PDF-Dokument 16 extrahierte Dokumenten- Information 24 mit analoger Referenz-Information verglichen, die in der Dokumenten- Informationsdatenbank 12 für zuvor empfangene PDF-Dokumente 16 gespeichert ist, um einen Überprüfungsstatus für das empfangene PDF-Dokument 16 zu bestimmen. Wenn bei Schritt 128 festgestellt wird, dass der Überprüfungsstatus "Duplikat" ist, wird keine Aktualisierung der Dokumenten-Informationsdatenbank 12 benötigt, und der Überprüfungsstatus kann bei Schritt 122 einfach in der Dokumenten- Informationsdatenbank 12 oder an einem anderen Ort aufgezeichnet werden. Wenn bei Schritt 128 festgestellt wird, dass stattdessen der Status "aktualisiert" oder "neu" (d. h. nicht "Duplikat") ist, dann kann bei Schritt 130 ein Teil der bzw. alle extrahierte Dokumenten- Information 24 für das empfangene PDF-Dokument 16 in der Dokumenten- Informationsdatenbank 12 gespeichert werden. Der Überprüfungsstatus kann bei Schritt 122 in der Dokumenten-Informationsdatenbank 12 oder an einem anderen Ort gespeichert werden.
  • Nachdem der Überprüfungsstatus für das empfangene PDF-Dokument 16 aufgezeichnet wurde, kann der Anwendung, von der das PDF-Dokument 16 empfangen wurde, der Status mitgeteilt werden, und bei Schritt 132 die Verarbeitung der PDF-Datei 14 für das PDF-Dokument 16 zurückgegeben werden. Wenn bei Schritt 134 eine weitere empfangene PDF-Datei vorhanden ist, wird die nächste PDF-Datei 14 bei Schritt 136 ausgewählt, und das Verfahren 100 kehrt zu Schritt 116 zurück. Wenn bei Schritt 134 keine weiteren empfangenen PDF-Dateien 14 vorhanden sind, endet das Verfahren 100.
  • Auch wenn Ausführungsbeispiel der vorliegenden Erfindung in den Zeichnungen veranschaulicht und in der vorhergehenden Beschreibung beschrieben sind, versteht es sich, dass die Erfindung nicht auf die offenbarte Ausführungsform eingeschränkt ist, sondern auf vielfache Weise umgeordnet, modifiziert und durch Austauschungen verändert werden kann, ohne dass dadurch vom Geist der Erfindung abgewichen wird, wie er durch die folgenden Ansprüche angeführt und definiert ist.

Claims (19)

1. System zur Verwaltung von Dokumenten im Portable Document Format (PDF), aufweisend:
eine Datenbank, die zum Speichern von Referenz-Information für mehrere zuvor empfangene PDF-Dokumente betrieben werden kann; und
eine oder mehrere Softwarekomponenten, die kollektiv dazu betrieben werden können:
mehrere Dateien von einer oder mehreren externen Anwendungen zu empfangen;
festzustellen, ob die jeweils empfangene Datei eine PDF-Datei ist;
Schlüssel-Information aus jeder empfangenen PDF-Datei bezüglich eines entsprechenden in der PDF-Datei enthaltenen PDF-Dokuments zu extrahieren;
die extrahierte Schlüssel-Information für jedes empfangene PDF-Dokument mit analoger Referenz-Information zu vergleichen, die für zuvor empfangene PDF-Dokumente in der Datenbank gespeichert ist;
einen Überprüfungsstatus für jedes empfangene PDF-Dokument entsprechend dem Vergleich zu bestimmen und den Überprüfungsstatus an die externe Anwendung zu liefern, von welcher die PDF-Datei empfangen wurde, wobei der Überprüfungsstatus anzeigt, dass das empfangene PDF-Dokument ein Duplikatdokument ist, wenn die gesamte extrahierte Schlüssel-Information für dieses empfangene PDF-Dokument mit analoger Referenz-Information für ein zuvor empfangenes PDF-Dokument übereinstimmt, wobei der Überprüfungsstatus anzeigt, dass das empfangene PDF-Dokument ein aktualisiertes Dokument ist, wenn bestimmte, jedoch nicht die gesamte extrahierte Schlüssel-Information für das empfangene PDF-Dokument mit analoger Referenz-Information für ein zuvor empfangenes PDF-Dokument übereinstimmt, wobei der Überprüfungsstatus anzeigt, dass das empfangene PDF-Dokument ein neues Dokument ist, wenn mindestens bestimmte extrahierte Schlüssel-Information für das empfangene PDF-Dokument nicht mit analoger Referenz-Information für ein zuvor empfangenes PDF- Dokument übereinstimmt;
wenn das empfangene PDF-Dokument ein Duplikatdokument ist, die Verarbeitung der empfangenen PDF-Datei an die externe Anwendung zurückzugeben, von der sie empfangen wurde, ohne dass extrahierte Schlüssel- Information für das empfangene PDF-Dokument als Referenz-Information in der Datenbank gespeichert wird;
wenn das empfangene PDF-Dokument ein aktualisiertes Dokument ist, bestimmte extrahierte Schlüssel-Information für das empfangene PDF- Dokument in der Datenbank zu speichern, um die Referenz-Information zu aktualisieren, und die Verarbeitung der empfangenen PDF-Datei an die externe Anwendung zurückzugeben, von der sie empfangen wurde; und
wenn das empfangene PDF-Dokument ein neues Dokument ist, alle extrahierte Schlüssel-Information für das empfangene PDF-Dokument als Referenz- Information in der Datenbank zu speichern, und die Verarbeitung der empfangenen PDF-Datei an die externe Anwendung zurückzugeben, von der sie empfangen wurde.
2. System nach Anspruch 1, bei dem die eine oder die mehreren Softwarekomponenten betrieben werden können um zu bestimmen, ob eine empfangene Datei eine PDF-Datei ist, je nachdem, ob die empfangene Datei eine PDF-Versionsnummer enthält.
3. System nach Anspruch 1, bei dem die eine oder die mehreren Softwarekomponenten dazu betrieben werden können um mindestens einen Teil der Schlüssel-Information für das empfangene PDF-Dokument aus einem Kopfteil der entsprechenden PDF-Datei zu extrahieren.
4. System nach Anspruch 1, bei dem die extrahierte Schlüssel-Information eine oder mehrere aus Titel, Thema, Schlüsselwort, Verfasser, Ersteller, Erzeuger, Erstellungsdatum, Datum der letzten Änderung, Seitenanzahl, ob verschlüsselt oder nicht, und Dateigrößen-Information aufweist.
5. System nach Anspruch 1, bei dem die eine oder die mehreren Softwarekomponenten dazu betrieben werden können, den für jedes empfangene PDF-Dokument festgestellten Überprüfungsstatus speichern.
6. System nach Anspruch 1, bei dem das System dazu betrieben werden kann, PDF- Dokumenten-Verwaltungsoperationen durchzuführen, ohne ADOBE ACROBAT EXCHANGE oder ADOBE ACROBAT READER Anwendungen zu verwenden.
7. Verfahren zur Verwaltung von Dokumenten im Portable Document Format (PDF), aufweisend:
Empfangen mehrerer Dateien von einer oder mehreren externen Anwendungen;
Feststellen, ob die jeweils empfangene Datei eine PDF-Datei ist;
Extrahieren von Schlüssel-Information aus jeder empfangenen PDF-Datei bezüglich eines entsprechenden in der PDF-Datei enthaltenen PDF-Dokuments;
Vergleichen der extrahierte Schlüssel-Information für jedes empfangene PDF- Dokument mit analoger Referenz-Information, die für mehrere zuvor empfangene PDF- Dokumente in der Datenbank gespeichert ist;
Bestimmen eines Überprüfungsstatus für jedes empfangene PDF-Dokument entsprechend dem Vergleich und Liefern des Überprüfungsstatus an die externe Anwendung, von welcher die PDF-Datei empfangen wurde, wobei der Überprüfungsstatus anzeigt, dass das empfangene PDF-Dokument ein Duplikatdokument ist, wenn die gesamte extrahierte Schlüssel-Information für dieses empfangene PDF-Dokument mit analoger Referenz-Information für ein zuvor empfangenes PDF-Dokument übereinstimmt, wobei der Überprüfungsstatus anzeigt, dass das empfangene PDF-Dokument ein aktualisiertes Dokument ist, wenn bestimmte, jedoch nicht die gesamte extrahierte Schlüssel-Information für das empfangene PDF-Dokument mit analoger Referenz-Information für ein zuvor empfangenes PDF-Dokument übereinstimmt, wobei der Überprüfungsstatus anzeigt, dass das empfangene PDF-Dokument ein neues Dokument ist, wenn mindestens bestimmte extrahierte Schlüssel-Information für das empfangene PDF-Dokument nicht mit analoger Referenz-Information für ein zuvor empfangenes PDF-Dokument übereinstimmt;
wenn das empfangene PDF-Dokument ein Duplikatdokument ist, Zurückgeben der Verarbeitung der empfangenen PDF-Datei an die externe Anwendung, von der sie empfangen wurde, ohne dass extrahierte Schlüssel-Information für das empfangene PDF-Dokument als Referenz-Information gespeichert wird;
wenn das empfangene PDF-Dokument ein aktualisiertes Dokument ist, Speichern bestimmter extrahierter Schlüssel-Information für das empfangene PDF-Dokument, um die Referenz-Information zu aktualisieren, und Zurückgeben der Verarbeitung der empfangenen PDF-Datei an die externe Anwendung, von der sie empfangen wurde; und
wenn das empfangene PDF-Dokument ein neues Dokument ist, Speichern aller extrahierter Schlüssel-Information für das empfangene PDF-Dokument als Referenz- Information, und Zurückgeben der Verarbeitung der empfangenen PDF-Datei an die externe Anwendung, von der sie empfangen wurde.
8. Verfahren nach Anspruch 7, bei dem das Bestimmen, ob eine empfangene Datei eine PDF-Datei ist, darauf beruht, ob die empfangene Datei eine PDF-Versionsnummer enthält.
9. Verfahren nach Anspruch 7, bei dem mindestens ein Teil der Schlüssel-Information für das empfangene PDF-Dokument aus einem Kopfteil der entsprechenden PDF- Datei extrahiert wird.
10. Verfahren nach Anspruch 7, bei dem die extrahierte Schlüssel-Information eine oder mehrere aus Titel, Thema, Schlüsselwort, Verfasser, Ersteller, Erzeuger, Erstellungsdatum, Datum der letzten Änderung, Seitenanzahl, ob verschlüsselt oder nicht, und Dateigrößen-Information aufweist.
11. Verfahren nach Anspruch 7, weiter aufweist Speichern des für jedes empfangene PDF- Dokument festgestellten Überprüfungsstatus.
12. System nach Anspruch 1, bei dem PDF-Dokumenten-Verwaltungsoperationen durchgeführt werden, ohne ADOBE ACROBAT EXCHANGE oder ADOBE ACROBAT READER Anwendungen zu verwenden.
13. Software zur Verwaltung von Dokumenten im Portable Document Format (PDF), wobei die Software auf einem computerlesbaren Medium verkörpert ist und bei ihrer Ausführung dazu betrieben wird:
mehrere Dateien von einer oder mehreren externen Anwendungen zu empfangen;
festzustellen, ob die jeweils empfangene Datei eine PDF-Datei ist;
Schlüssel-Information aus jeder empfangenen PDF-Datei bezüglich eines entsprechenden in der PDF-Datei enthaltenen PDF-Dokuments zu extrahieren;
die extrahierte Schlüssel-Information für jedes empfangene PDF-Dokument mit analoger Referenz-Information zu vergleichen, die für mehrere zuvor empfangene PDF- Dokumente in der Datenbank gespeichert ist;
für jedes empfangene PDF-Dokument entsprechend dem Vergleich einen Überprüfungsstatus zu bestimmen und den Überprüfungsstatus an die externe Anwendung zu liefern, von welcher die PDF-Datei empfangen wurde, wobei der Überprüfungsstatus anzeigt, dass das empfangene PDF-Dokument ein Duplikatdokument ist, wenn die gesamte extrahierte Schlüssel-Information für dieses empfangene PDF-Dokument mit analoger Referenz-Information für ein zuvor empfangenes PDF-Dokument übereinstimmt, wobei der Überprüfungsstatus anzeigt, dass das empfangene PDF-Dokument ein aktualisiertes Dokument ist, wenn bestimmte, jedoch nicht die gesamte extrahierte Schlüssel-Information für das empfangene PDF-Dokument mit analoger Referenz-Information für ein zuvor empfangenes PDF-Dokument übereinstimmt, wobei der Überprüfungsstatus anzeigt, dass das empfangene PDF-Dokument ein neues Dokument ist, wenn mindestens bestimmte extrahierte Schlüssel-Information für das empfangene PDF-Dokument nicht mit analoger Referenz-Information für ein zuvor empfangenes PDF-Dokument übereinstimmt;
wenn das empfangene PDF-Dokument ein Duplikatdokument ist, die Verarbeitung der empfangenen PDF-Datei an die externe Anwendung zurückzugeben, von der sie empfangen wurde, ohne dass extrahierte Schlüssel-Information für das empfangene PDF-Dokument als Referenz-Information gespeichert wird;
wenn das empfangene PDF-Dokument ein aktualisiertes Dokument ist, bestimmte extrahierte Schlüssel-Information für das empfangene PDF-Dokument zu speichern, um die Referenz-Information zu aktualisieren, und die Verarbeitung der empfangenen PDF-Datei an die externe Anwendung zurückzugeben, von der sie empfangen wurde; und
wenn das empfangene PDF-Dokument ein neues Dokument ist, alle extrahierte Schlüssel-Information für das empfangene PDF-Dokument als Referenz- Information zu speichern, und die Verarbeitung der empfangenen PDF-Datei an die externe Anwendung zurückzugeben, von der sie empfangen wurde.
14. Software nach Anspruch 13, die dazu betrieben wird zu bestimmen, ob eine empfangene Datei eine PDF-Datei ist, je nachdem, ob die empfangene Datei eine PDF- Versionsnummer enthält.
15. Software nach Anspruch 13, die dazu betrieben wird, mindestens einen Teil der Schlüssel-Information für das empfangene PDF-Dokument aus einem Kopfteil der entsprechenden PDF-Datei zu extrahieren.
16. Software nach Anspruch 13, bei der die extrahierte Schlüssel-Information eine oder mehrere aus Titel, Thema, Schlüsselwort, Verfasser, Ersteller, Erzeuger, Erstellungsdatum, Datum der letzten Änderung, Seitenanzahl, ob verschlüsselt oder nicht, und Dateigrößen-Information aufweist.
17. Software nach Anspruch 13, die dazu betrieben wird, den für jedes empfangene PDF- Dokument festgestellten Überprüfungsstatus zu speichern.
18. Software nach Anspruch 13, die dazu betrieben wird, PDF-Dokumenten- Verwaltungsoperationen durchzuführen, ohne ADOBE ACROBAT EXCHANGE oder ADOBE ACROBAT READER Anwendungen zu verwenden.
19. System zur Verwaltung von Dokumenten im Portable Document Format (PDF), aufweisend:
Mittel zum Empfangen mehrerer Dateien von einer oder mehreren externen Anwendungen;
Mittel zum Feststellen, ob die jeweils empfangene Datei eine PDF-Datei ist;
Mittel zum Extrahieren von Schlüssel-Information aus jeder empfangenen PDF-Datei bezüglich eines entsprechenden in der PDF-Datei enthaltenen PDF-Dokuments;
Mittel zum Vergleichen der extrahierte Schlüssel-Information für jedes empfangene PDF-Dokument mit analoger Referenz-Information, die für zuvor empfangene PDF- Dokumente in der Datenbank gespeichert ist;
Mittel zum Bestimmen eines Überprüfungsstatus für jedes empfangene PDF- Dokument entsprechend dem Vergleich und Liefern des Überprüfungsstatus an die externe Anwendung, von welcher die PDF-Datei empfangen wurde, wobei der Überprüfungsstatus anzeigt, dass das empfangene PDF-Dokument ein Duplikatdokument ist, wenn die gesamte extrahierte Schlüssel-Information für dieses empfangene PDF-Dokument mit analoger Referenz-Information für ein zuvor empfangenes PDF-Dokument übereinstimmt, wobei der Überprüfungsstatus anzeigt, dass das empfangene PDF-Dokument ein aktualisiertes Dokument ist, wenn bestimmte, jedoch nicht die gesamte extrahierte Schlüssel-Information für das empfangene PDF-Dokument mit analoger Referenz-Information für ein zuvor empfangenes PDF-Dokument übereinstimmt, wobei der Überprüfungsstatus anzeigt, dass das empfangene PDF-Dokument ein neues Dokument ist, wenn mindestens bestimmte extrahierte Schlüssel-Information für das empfangene PDF-Dokument nicht mit analoger Referenz-Information für ein zuvor empfangenes PDF-Dokument übereinstimmt;
Mittel zum, wenn das empfangene PDF-Dokument ein Duplikatdokument ist, Zurückgeben der Verarbeitung der empfangenen PDF-Datei an die externe Anwendung, von der sie empfangen wurde, ohne dass extrahierte Schlüssel- Information für das empfangene PDF-Dokument als Referenz-Information gespeichert wird;
Mittel zum, wenn das empfangene PDF-Dokument ein aktualisiertes Dokument ist, Speichern bestimmter extrahierter Schlüssel-Information für das empfangene PDF- Dokument, um die Referenz-Information zu aktualisieren, und die Verarbeitung der empfangenen PDF-Datei an die externe Anwendung zurückzugeben, von der sie empfangen wurde; und
Mittel zum, wenn das empfangene PDF-Dokument ein neues Dokument ist, Speichern aller extrahierter Schlüssel-Information für das empfangene PDF-Dokument als Referenz-Information, und Zurückgeben der Verarbeitung der empfangenen PDF- Datei an die externe Anwendung, von der sie empfangen wurde.
DE10255128A 2001-12-05 2002-11-26 Computer-implementierte PDF-Dokumentenverwaltung Withdrawn DE10255128A1 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/008,898 US6895550B2 (en) 2001-12-05 2001-12-05 Computer-implemented PDF document management

Publications (1)

Publication Number Publication Date
DE10255128A1 true DE10255128A1 (de) 2003-07-24

Family

ID=21734324

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10255128A Withdrawn DE10255128A1 (de) 2001-12-05 2002-11-26 Computer-implementierte PDF-Dokumentenverwaltung

Country Status (3)

Country Link
US (1) US6895550B2 (de)
DE (1) DE10255128A1 (de)
TW (1) TW591428B (de)

Families Citing this family (174)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8205237B2 (en) 2000-09-14 2012-06-19 Cox Ingemar J Identifying works, using a sub-linear time search, such as an approximate nearest neighbor search, for initiating a work-based action, such as an action on the internet
US8010988B2 (en) * 2000-09-14 2011-08-30 Cox Ingemar J Using features extracted from an audio and/or video work to obtain information about the work
US8566946B1 (en) 2006-04-20 2013-10-22 Fireeye, Inc. Malware containment on connection
US7587537B1 (en) 2007-11-30 2009-09-08 Altera Corporation Serializer-deserializer circuits formed from input-output circuit registers
US8793787B2 (en) 2004-04-01 2014-07-29 Fireeye, Inc. Detecting malicious network content using virtual environment components
US8375444B2 (en) 2006-04-20 2013-02-12 Fireeye, Inc. Dynamic signature creation and enforcement
US8881282B1 (en) 2004-04-01 2014-11-04 Fireeye, Inc. Systems and methods for malware attack detection and identification
US9106694B2 (en) 2004-04-01 2015-08-11 Fireeye, Inc. Electronic message analysis for malware detection
US8584239B2 (en) * 2004-04-01 2013-11-12 Fireeye, Inc. Virtual machine with dynamic data flow analysis
US9027135B1 (en) 2004-04-01 2015-05-05 Fireeye, Inc. Prospective client identification using malware attack detection
US8549638B2 (en) 2004-06-14 2013-10-01 Fireeye, Inc. System and method of containing computer worms
US8898788B1 (en) 2004-04-01 2014-11-25 Fireeye, Inc. Systems and methods for malware attack prevention
US8171553B2 (en) 2004-04-01 2012-05-01 Fireeye, Inc. Heuristic based capture with replay to virtual machine
US8528086B1 (en) 2004-04-01 2013-09-03 Fireeye, Inc. System and method of detecting computer worms
US8539582B1 (en) 2004-04-01 2013-09-17 Fireeye, Inc. Malware containment and security analysis on connection
JP4380400B2 (ja) * 2004-04-16 2009-12-09 キヤノン株式会社 文書処理装置及びその制御方法、並びにコンピュータプログラム
EP1741038A4 (de) * 2004-04-26 2011-06-15 Creo Inc Systeme und verfahren zum vergleichen von grafische elemente enthaltenden dokumenten
US20080201299A1 (en) * 2004-06-30 2008-08-21 Nokia Corporation Method and System for Managing Metadata
US20060047729A1 (en) * 2004-08-31 2006-03-02 Arizan Corporation Method for viewing document information on a mobile communication device
US7636891B2 (en) * 2004-08-31 2009-12-22 Research In Motion Limited Method for paginating a document structure of a document for viewing on a mobile communication device
US7712027B2 (en) * 2004-08-31 2010-05-04 Research In Motion Limited Method for document page delivery to a mobile communication device
US20060206541A1 (en) * 2005-03-10 2006-09-14 Kabushiki Kaisha Toshiba Document managing apparatus
JP2006344118A (ja) * 2005-06-10 2006-12-21 Fuji Xerox Co Ltd 利用状況通知システム
US8316292B1 (en) * 2005-11-18 2012-11-20 Google Inc. Identifying multiple versions of documents
US10089378B2 (en) 2006-01-30 2018-10-02 Adobe Systems Incorporated Automatic asset versioning
US8725830B2 (en) * 2006-06-22 2014-05-13 Linkedin Corporation Accepting third party content contributions
US7925620B1 (en) 2006-08-04 2011-04-12 Hyoungsoo Yoon Contact information management
US7698317B2 (en) * 2007-04-20 2010-04-13 Yahoo! Inc. Techniques for detecting duplicate web pages
JP5491860B2 (ja) * 2007-05-31 2014-05-14 株式会社Pfu 電子ドキュメント暗号化システム、プログラムおよび方法
US8161023B2 (en) * 2008-10-13 2012-04-17 Internatioanal Business Machines Corporation Inserting a PDF shared resource back into a PDF statement
US8850571B2 (en) 2008-11-03 2014-09-30 Fireeye, Inc. Systems and methods for detecting malicious network content
US8997219B2 (en) * 2008-11-03 2015-03-31 Fireeye, Inc. Systems and methods for detecting malicious PDF network content
US8099397B2 (en) * 2009-08-26 2012-01-17 International Business Machines Corporation Apparatus, system, and method for improved portable document format (“PDF”) document archiving
US8832829B2 (en) 2009-09-30 2014-09-09 Fireeye, Inc. Network-based binary file extraction and analysis for malware detection
US9519782B2 (en) 2012-02-24 2016-12-13 Fireeye, Inc. Detecting malicious network content
US10572665B2 (en) 2012-12-28 2020-02-25 Fireeye, Inc. System and method to create a number of breakpoints in a virtual machine via virtual machine trapping events
US9195829B1 (en) 2013-02-23 2015-11-24 Fireeye, Inc. User interface with real-time visual playback along with synchronous textual analysis log display and event/time index for anomalous behavior detection in applications
US9159035B1 (en) 2013-02-23 2015-10-13 Fireeye, Inc. Framework for computer application analysis of sensitive information tracking
US8990944B1 (en) 2013-02-23 2015-03-24 Fireeye, Inc. Systems and methods for automatically detecting backdoors
US9367681B1 (en) 2013-02-23 2016-06-14 Fireeye, Inc. Framework for efficient security coverage of mobile software applications using symbolic execution to reach regions of interest within an application
US9009822B1 (en) 2013-02-23 2015-04-14 Fireeye, Inc. Framework for multi-phase analysis of mobile applications
US9009823B1 (en) 2013-02-23 2015-04-14 Fireeye, Inc. Framework for efficient security coverage of mobile software applications installed on mobile devices
US9824209B1 (en) 2013-02-23 2017-11-21 Fireeye, Inc. Framework for efficient security coverage of mobile software applications that is usable to harden in the field code
US9176843B1 (en) 2013-02-23 2015-11-03 Fireeye, Inc. Framework for efficient security coverage of mobile software applications
US9104867B1 (en) 2013-03-13 2015-08-11 Fireeye, Inc. Malicious content analysis using simulated user interaction without user involvement
US9565202B1 (en) 2013-03-13 2017-02-07 Fireeye, Inc. System and method for detecting exfiltration content
US9626509B1 (en) 2013-03-13 2017-04-18 Fireeye, Inc. Malicious content analysis with multi-version application support within single operating environment
US9355247B1 (en) 2013-03-13 2016-05-31 Fireeye, Inc. File extraction from memory dump for malicious content analysis
US9311479B1 (en) 2013-03-14 2016-04-12 Fireeye, Inc. Correlation and consolidation of analytic data for holistic view of a malware attack
US9430646B1 (en) 2013-03-14 2016-08-30 Fireeye, Inc. Distributed systems and methods for automatically detecting unknown bots and botnets
WO2014145805A1 (en) 2013-03-15 2014-09-18 Mandiant, Llc System and method employing structured intelligence to verify and contain threats at endpoints
US10713358B2 (en) 2013-03-15 2020-07-14 Fireeye, Inc. System and method to extract and utilize disassembly features to classify software intent
US9251343B1 (en) 2013-03-15 2016-02-02 Fireeye, Inc. Detecting bootkits resident on compromised computers
US9495180B2 (en) 2013-05-10 2016-11-15 Fireeye, Inc. Optimized resource allocation for virtual machines within a malware content detection system
US9635039B1 (en) 2013-05-13 2017-04-25 Fireeye, Inc. Classifying sets of malicious indicators for detecting command and control communications associated with malware
US9536091B2 (en) 2013-06-24 2017-01-03 Fireeye, Inc. System and method for detecting time-bomb malware
US10133863B2 (en) 2013-06-24 2018-11-20 Fireeye, Inc. Zero-day discovery system
US9300686B2 (en) 2013-06-28 2016-03-29 Fireeye, Inc. System and method for detecting malicious links in electronic messages
US9888016B1 (en) 2013-06-28 2018-02-06 Fireeye, Inc. System and method for detecting phishing using password prediction
US9171160B2 (en) 2013-09-30 2015-10-27 Fireeye, Inc. Dynamically adaptive framework and method for classifying malware using intelligent static, emulation, and dynamic analyses
US10089461B1 (en) 2013-09-30 2018-10-02 Fireeye, Inc. Page replacement code injection
US9736179B2 (en) 2013-09-30 2017-08-15 Fireeye, Inc. System, apparatus and method for using malware analysis results to drive adaptive instrumentation of virtual machines to improve exploit detection
US9690936B1 (en) 2013-09-30 2017-06-27 Fireeye, Inc. Multistage system and method for analyzing obfuscated content for malware
US9628507B2 (en) 2013-09-30 2017-04-18 Fireeye, Inc. Advanced persistent threat (APT) detection center
US10515214B1 (en) 2013-09-30 2019-12-24 Fireeye, Inc. System and method for classifying malware within content created during analysis of a specimen
US9294501B2 (en) 2013-09-30 2016-03-22 Fireeye, Inc. Fuzzy hash of behavioral results
US10192052B1 (en) 2013-09-30 2019-01-29 Fireeye, Inc. System, apparatus and method for classifying a file as malicious using static scanning
US9921978B1 (en) 2013-11-08 2018-03-20 Fireeye, Inc. System and method for enhanced security of storage devices
US9189627B1 (en) 2013-11-21 2015-11-17 Fireeye, Inc. System, apparatus and method for conducting on-the-fly decryption of encrypted objects for malware detection
US9747446B1 (en) 2013-12-26 2017-08-29 Fireeye, Inc. System and method for run-time object classification
US9756074B2 (en) 2013-12-26 2017-09-05 Fireeye, Inc. System and method for IPS and VM-based detection of suspicious objects
US9292686B2 (en) 2014-01-16 2016-03-22 Fireeye, Inc. Micro-virtualization architecture for threat-aware microvisor deployment in a node of a network environment
US9262635B2 (en) 2014-02-05 2016-02-16 Fireeye, Inc. Detection efficacy of virtual machine-based analysis with application specific events
US9241010B1 (en) 2014-03-20 2016-01-19 Fireeye, Inc. System and method for network behavior detection
US10242185B1 (en) 2014-03-21 2019-03-26 Fireeye, Inc. Dynamic guest image creation and rollback
US9591015B1 (en) 2014-03-28 2017-03-07 Fireeye, Inc. System and method for offloading packet processing and static analysis operations
US9223972B1 (en) 2014-03-31 2015-12-29 Fireeye, Inc. Dynamically remote tuning of a malware content detection system
US9432389B1 (en) 2014-03-31 2016-08-30 Fireeye, Inc. System, apparatus and method for detecting a malicious attack based on static analysis of a multi-flow object
US9973531B1 (en) 2014-06-06 2018-05-15 Fireeye, Inc. Shellcode detection
US9438623B1 (en) 2014-06-06 2016-09-06 Fireeye, Inc. Computer exploit detection using heap spray pattern matching
US9594912B1 (en) 2014-06-06 2017-03-14 Fireeye, Inc. Return-oriented programming detection
US10084813B2 (en) 2014-06-24 2018-09-25 Fireeye, Inc. Intrusion prevention and remedy system
US10805340B1 (en) 2014-06-26 2020-10-13 Fireeye, Inc. Infection vector and malware tracking with an interactive user display
US9398028B1 (en) 2014-06-26 2016-07-19 Fireeye, Inc. System, device and method for detecting a malicious attack based on communcations between remotely hosted virtual machines and malicious web servers
US10002252B2 (en) 2014-07-01 2018-06-19 Fireeye, Inc. Verification of trusted threat-aware microvisor
US9363280B1 (en) 2014-08-22 2016-06-07 Fireeye, Inc. System and method of detecting delivery of malware using cross-customer data
US10671726B1 (en) 2014-09-22 2020-06-02 Fireeye Inc. System and method for malware analysis using thread-level event monitoring
US10027689B1 (en) 2014-09-29 2018-07-17 Fireeye, Inc. Interactive infection visualization for improved exploit detection and signature generation for malware and malware families
US9773112B1 (en) 2014-09-29 2017-09-26 Fireeye, Inc. Exploit detection of malware and malware families
US9690933B1 (en) 2014-12-22 2017-06-27 Fireeye, Inc. Framework for classifying an object as malicious with machine learning for deploying updated predictive models
US10075455B2 (en) 2014-12-26 2018-09-11 Fireeye, Inc. Zero-day rotating guest image profile
US9934376B1 (en) 2014-12-29 2018-04-03 Fireeye, Inc. Malware detection appliance architecture
US9838417B1 (en) 2014-12-30 2017-12-05 Fireeye, Inc. Intelligent context aware user interaction for malware detection
US9690606B1 (en) 2015-03-25 2017-06-27 Fireeye, Inc. Selective system call monitoring
US10148693B2 (en) 2015-03-25 2018-12-04 Fireeye, Inc. Exploit detection system
US9438613B1 (en) 2015-03-30 2016-09-06 Fireeye, Inc. Dynamic content activation for automated analysis of embedded objects
US10474813B1 (en) 2015-03-31 2019-11-12 Fireeye, Inc. Code injection technique for remediation at an endpoint of a network
US10417031B2 (en) 2015-03-31 2019-09-17 Fireeye, Inc. Selective virtualization for security threat detection
US9483644B1 (en) 2015-03-31 2016-11-01 Fireeye, Inc. Methods for detecting file altering malware in VM based analysis
US9654485B1 (en) 2015-04-13 2017-05-16 Fireeye, Inc. Analytics-based security monitoring system and method
US9594904B1 (en) 2015-04-23 2017-03-14 Fireeye, Inc. Detecting malware based on reflection
US10642753B1 (en) 2015-06-30 2020-05-05 Fireeye, Inc. System and method for protecting a software component running in virtual machine using a virtualization layer
US10726127B1 (en) 2015-06-30 2020-07-28 Fireeye, Inc. System and method for protecting a software component running in a virtual machine through virtual interrupts by the virtualization layer
US10454950B1 (en) 2015-06-30 2019-10-22 Fireeye, Inc. Centralized aggregation technique for detecting lateral movement of stealthy cyber-attacks
US11113086B1 (en) 2015-06-30 2021-09-07 Fireeye, Inc. Virtual system and method for securing external network connectivity
US10715542B1 (en) 2015-08-14 2020-07-14 Fireeye, Inc. Mobile application risk analysis
US10176321B2 (en) 2015-09-22 2019-01-08 Fireeye, Inc. Leveraging behavior-based rules for malware family classification
US10033747B1 (en) 2015-09-29 2018-07-24 Fireeye, Inc. System and method for detecting interpreter-based exploit attacks
US10817606B1 (en) 2015-09-30 2020-10-27 Fireeye, Inc. Detecting delayed activation malware using a run-time monitoring agent and time-dilation logic
US9825989B1 (en) 2015-09-30 2017-11-21 Fireeye, Inc. Cyber attack early warning system
US9825976B1 (en) 2015-09-30 2017-11-21 Fireeye, Inc. Detection and classification of exploit kits
US10706149B1 (en) 2015-09-30 2020-07-07 Fireeye, Inc. Detecting delayed activation malware using a primary controller and plural time controllers
US10210329B1 (en) 2015-09-30 2019-02-19 Fireeye, Inc. Method to detect application execution hijacking using memory protection
US10601865B1 (en) 2015-09-30 2020-03-24 Fireeye, Inc. Detection of credential spearphishing attacks using email analysis
US10284575B2 (en) 2015-11-10 2019-05-07 Fireeye, Inc. Launcher for setting analysis environment variations for malware detection
US10846117B1 (en) 2015-12-10 2020-11-24 Fireeye, Inc. Technique for establishing secure communication between host and guest processes of a virtualization architecture
US10447728B1 (en) 2015-12-10 2019-10-15 Fireeye, Inc. Technique for protecting guest processes using a layered virtualization architecture
US10108446B1 (en) 2015-12-11 2018-10-23 Fireeye, Inc. Late load technique for deploying a virtualization layer underneath a running operating system
US10621338B1 (en) 2015-12-30 2020-04-14 Fireeye, Inc. Method to detect forgery and exploits using last branch recording registers
US10050998B1 (en) 2015-12-30 2018-08-14 Fireeye, Inc. Malicious message analysis system
US10565378B1 (en) 2015-12-30 2020-02-18 Fireeye, Inc. Exploit of privilege detection framework
US10133866B1 (en) 2015-12-30 2018-11-20 Fireeye, Inc. System and method for triggering analysis of an object for malware in response to modification of that object
US11552986B1 (en) 2015-12-31 2023-01-10 Fireeye Security Holdings Us Llc Cyber-security framework for application of virtual features
US10581874B1 (en) 2015-12-31 2020-03-03 Fireeye, Inc. Malware detection system with contextual analysis
US9824216B1 (en) 2015-12-31 2017-11-21 Fireeye, Inc. Susceptible environment detection system
US10671721B1 (en) 2016-03-25 2020-06-02 Fireeye, Inc. Timeout management services
US10601863B1 (en) 2016-03-25 2020-03-24 Fireeye, Inc. System and method for managing sensor enrollment
US10785255B1 (en) 2016-03-25 2020-09-22 Fireeye, Inc. Cluster configuration within a scalable malware detection system
US10476906B1 (en) 2016-03-25 2019-11-12 Fireeye, Inc. System and method for managing formation and modification of a cluster within a malware detection system
US10893059B1 (en) 2016-03-31 2021-01-12 Fireeye, Inc. Verification and enhancement using detection systems located at the network periphery and endpoint devices
US10826933B1 (en) 2016-03-31 2020-11-03 Fireeye, Inc. Technique for verifying exploit/malware at malware detection appliance through correlation with endpoints
US10169585B1 (en) 2016-06-22 2019-01-01 Fireeye, Inc. System and methods for advanced malware detection through placement of transition events
US10462173B1 (en) 2016-06-30 2019-10-29 Fireeye, Inc. Malware detection verification and enhancement by coordinating endpoint and malware detection systems
US10592678B1 (en) 2016-09-09 2020-03-17 Fireeye, Inc. Secure communications between peers using a verified virtual trusted platform module
US10491627B1 (en) 2016-09-29 2019-11-26 Fireeye, Inc. Advanced malware detection using similarity analysis
US10795991B1 (en) 2016-11-08 2020-10-06 Fireeye, Inc. Enterprise search
US10587647B1 (en) 2016-11-22 2020-03-10 Fireeye, Inc. Technique for malware detection capability comparison of network security devices
US10552610B1 (en) 2016-12-22 2020-02-04 Fireeye, Inc. Adaptive virtual machine snapshot update framework for malware behavioral analysis
US10581879B1 (en) 2016-12-22 2020-03-03 Fireeye, Inc. Enhanced malware detection for generated objects
US10523609B1 (en) 2016-12-27 2019-12-31 Fireeye, Inc. Multi-vector malware detection and analysis
US10904286B1 (en) 2017-03-24 2021-01-26 Fireeye, Inc. Detection of phishing attacks using similarity analysis
US10554507B1 (en) 2017-03-30 2020-02-04 Fireeye, Inc. Multi-level control for enhanced resource and object evaluation management of malware detection system
US10798112B2 (en) 2017-03-30 2020-10-06 Fireeye, Inc. Attribute-controlled malware detection
US10791138B1 (en) 2017-03-30 2020-09-29 Fireeye, Inc. Subscription-based malware detection
US10902119B1 (en) 2017-03-30 2021-01-26 Fireeye, Inc. Data extraction system for malware analysis
US10601848B1 (en) 2017-06-29 2020-03-24 Fireeye, Inc. Cyber-security system and method for weak indicator detection and correlation to generate strong indicators
US10855700B1 (en) 2017-06-29 2020-12-01 Fireeye, Inc. Post-intrusion detection of cyber-attacks during lateral movement within networks
US10503904B1 (en) 2017-06-29 2019-12-10 Fireeye, Inc. Ransomware detection and mitigation
US10893068B1 (en) 2017-06-30 2021-01-12 Fireeye, Inc. Ransomware file modification prevention technique
US10747872B1 (en) 2017-09-27 2020-08-18 Fireeye, Inc. System and method for preventing malware evasion
US10805346B2 (en) 2017-10-01 2020-10-13 Fireeye, Inc. Phishing attack detection
US20190114323A1 (en) * 2017-10-13 2019-04-18 DataJaguar, Inc. System And Method For Storing Data Records In Key-Value Database
US11108809B2 (en) 2017-10-27 2021-08-31 Fireeye, Inc. System and method for analyzing binary code for malware classification using artificial neural network techniques
US11271955B2 (en) 2017-12-28 2022-03-08 Fireeye Security Holdings Us Llc Platform and method for retroactive reclassification employing a cybersecurity-based global data store
US11240275B1 (en) 2017-12-28 2022-02-01 Fireeye Security Holdings Us Llc Platform and method for performing cybersecurity analyses employing an intelligence hub with a modular architecture
US11005860B1 (en) 2017-12-28 2021-05-11 Fireeye, Inc. Method and system for efficient cybersecurity analysis of endpoint events
US10826931B1 (en) 2018-03-29 2020-11-03 Fireeye, Inc. System and method for predicting and mitigating cybersecurity system misconfigurations
US11558401B1 (en) 2018-03-30 2023-01-17 Fireeye Security Holdings Us Llc Multi-vector malware detection data sharing system for improved detection
US10956477B1 (en) 2018-03-30 2021-03-23 Fireeye, Inc. System and method for detecting malicious scripts through natural language processing modeling
US11003773B1 (en) 2018-03-30 2021-05-11 Fireeye, Inc. System and method for automatically generating malware detection rule recommendations
US11075930B1 (en) 2018-06-27 2021-07-27 Fireeye, Inc. System and method for detecting repetitive cybersecurity attacks constituting an email campaign
US11314859B1 (en) 2018-06-27 2022-04-26 FireEye Security Holdings, Inc. Cyber-security system and method for detecting escalation of privileges within an access token
US11228491B1 (en) 2018-06-28 2022-01-18 Fireeye Security Holdings Us Llc System and method for distributed cluster configuration monitoring and management
US11316900B1 (en) 2018-06-29 2022-04-26 FireEye Security Holdings Inc. System and method for automatically prioritizing rules for cyber-threat detection and mitigation
US11182473B1 (en) 2018-09-13 2021-11-23 Fireeye Security Holdings Us Llc System and method for mitigating cyberattacks against processor operability by a guest process
US11763004B1 (en) 2018-09-27 2023-09-19 Fireeye Security Holdings Us Llc System and method for bootkit detection
US11368475B1 (en) 2018-12-21 2022-06-21 Fireeye Security Holdings Us Llc System and method for scanning remote services to locate stored objects with malware
US11258806B1 (en) 2019-06-24 2022-02-22 Mandiant, Inc. System and method for automatically associating cybersecurity intelligence to cyberthreat actors
US11556640B1 (en) 2019-06-27 2023-01-17 Mandiant, Inc. Systems and methods for automated cybersecurity analysis of extracted binary string sets
US11392700B1 (en) 2019-06-28 2022-07-19 Fireeye Security Holdings Us Llc System and method for supporting cross-platform data verification
US11886585B1 (en) 2019-09-27 2024-01-30 Musarubra Us Llc System and method for identifying and mitigating cyberattacks through malicious position-independent code execution
US11637862B1 (en) 2019-09-30 2023-04-25 Mandiant, Inc. System and method for surfacing cyber-security threats with a self-learning recommendation engine
US11720541B2 (en) * 2021-01-05 2023-08-08 Morgan Stanley Services Group Inc. Document content extraction and regression testing
US11797486B2 (en) 2022-01-03 2023-10-24 Bank Of America Corporation File de-duplication for a distributed database

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3287679B2 (ja) * 1993-12-28 2002-06-04 キヤノン株式会社 文書処理装置及び方法
US5832263A (en) * 1996-03-15 1998-11-03 Digidox, Inc. System and method for in-place modification of information recorded in read-only storage using modifiable non-volatile storage associated with an agent
US6240409B1 (en) * 1998-07-31 2001-05-29 The Regents Of The University Of California Method and apparatus for detecting and summarizing document similarity within large document sets
US6658626B1 (en) * 1998-07-31 2003-12-02 The Regents Of The University Of California User interface for displaying document comparison information
US6324555B1 (en) * 1998-08-31 2001-11-27 Adobe Systems Incorporated Comparing contents of electronic documents
US6519557B1 (en) * 2000-06-06 2003-02-11 International Business Machines Corporation Software and method for recognizing similarity of documents written in different languages based on a quantitative measure of similarity
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files

Also Published As

Publication number Publication date
US20030106017A1 (en) 2003-06-05
US6895550B2 (en) 2005-05-17
TW200300889A (en) 2003-06-16
TW591428B (en) 2004-06-11

Similar Documents

Publication Publication Date Title
DE10255128A1 (de) Computer-implementierte PDF-Dokumentenverwaltung
EP0855062B1 (de) Informationssystem und verfahren zur speicherung von daten in einem informationssystem
DE60211489T2 (de) System und Verfahren zur Bearbeitung von in mehreren Nachrichtenspeichern gespeicherten Nachrichten
DE2554442C2 (de) Vorrichtung zum Vergleich logischer Größen mit einer Gruppe logischer Bezugsgrößen
DE69907631T2 (de) Netzzugang zu inhaltsadressierbaren daten
DE102008015662B4 (de) Beseitigung von Daten
DE60004507T2 (de) Schnelle gruppierung durch spärlich bestückte datensätze
DE10234736A1 (de) System und Verfahren zum Synchronisieren von Mediendaten
DE60118973T2 (de) Verfahren zum abfragen einer struktur komprimierter daten
DE112007003645T5 (de) Datenverarbeitungsvorrichtung und Verfahren zur Datenverarbeitung
DE69628374T2 (de) Datenverwaltungssystem
DE112017006106T5 (de) Erzeugen von, Zugreifen auf und Anzeigen von Abstammungsmetadaten
EP1975821A2 (de) Verfahren zur digitalen Speicherung von Daten auf einem Datenspeicher mit beschränktem verfügbarem Speicherplatz
DE10040987B4 (de) Verfahren und Vorrichtung für übereinstimmende Aktualisierungen von redundanten Daten in relationalen Datenbanken
EP3563261B1 (de) Bitsequenzbasiertes datenklassifikationssystem
WO2019091901A1 (de) Verfahren zum verknuepfen eines ersten datenblocks mit einem zweiten datenblock, verfahren zum ueberpruefen der integritaet einer blockchain-struktur, vorrichtung und computerprogrammprodukt
DE60315291T2 (de) Computersystem und Verfahren zum Betreiben eines Computersystems
DE69629540T2 (de) Verfahren und Gerät zum Sortieren von Elementen
EP1166228A2 (de) Verfahren zur nutzung von fraktalen semantischen netzen für alle arten von datenbank-anwendungen
DE102018219070B3 (de) Übertragen eines Datensatzes und Bereitstellen einer Datenübertragungsinformation
DE10110039A1 (de) Ein Verfahren zur generischen Beschreibung und Manipulation beliebiger Datenstrukturen
EP4002145B1 (de) Listenbasierte datenspeicherung zur datensuche
DE3511920A1 (de) Elektronischer ratgeber
WO2017178222A1 (de) Gerät und verfahren zur bearbeitung eines binärkodierten strukturdokuments
DE602004002450T2 (de) Ausgabedatenverwaltung

Legal Events

Date Code Title Description
8128 New person/name/address of the agent

Representative=s name: DF-MP, 80333 MUENCHEN

8139 Disposal/non-payment of the annual fee