-
Hintergrund
der Erfindung
-
1. Gebiet der Erfindung
-
Die
vorliegende Erfindung betrifft allgemein ein Speicherverwaltungssystem
für eine
Dokumentbild-Datenbank und betrifft insbesondere ein Verfahren zur
Speicherverwaltung in einer Dokumentbild-Datenbank, das eine Dokumentanalyse
dazu verwendet, um Dokumente in logische Bereiche zu unterteilen,
sowie ein Dokumentverkleinerungsmittel, um eine Speichergröße der Bereiche
in Entsprechung zu verschiedenen Speicher-Präferenzregeln zu verkleinern.
-
2. Diskussion
-
Eine
Speicherverwaltung stellt einen zentralen Gesichtspunkt in Dokumentbild-Datenbanksystemen
dar. Nutzer drücken
ein steigendes Interesse aus, weil sie in der Lage sein wollen,
Dokumente in Bildform abzuspeichern und auf diese zuzugreifen. Trotz
der zunehmenden Größe von Festplatten
und herausnehmbaren Speichermedien ist jedoch die aktuelle Speicherkapazität in Dokumentbild-Datenbanksystemen
zur Unterstützung
eines papierlosen Büros
unzureichend. Zur Erläuterung
des Problems würde
eine Standardseite von 8 ½ × 11 Seiten
(mit 1-Inch-Seitenrändern
auf sämtlichen
Seiten) eingescannt mit 300 dpi 1950 × 2700 = 5.265.000 Pixel messen.
In Graustufendarstellung erfordert jedes Pixel zur Darstellung ein
Byte und dies würde
etwa 5 Megabyte Speicherplatz erfordern. Die eingescannte Seite
in 24-Bit-Farbauflösung
würde 15
Megabyte erfordern und in Zweiton-Auflösung würde diese 658.125 Byte zum
Abspeichern erfordern. Folglich könnten 1.000 ähnliche
eingescannte Seiten zwischen 600 Megabyte und 15 Gigabyte zum Abspeichern
in einer Dokumentbild-Datenbank
erfordern. Weil das durchschnittliche Büro weit mehr als 1.000 Seiten
enthält,
sind gute Techniken erforderlich, um ein Abspeichern in einer Dokumentbild-Datenbank effizient
zu verwalten.
-
Innerhalb
einer Dokumentbild-Datenbank gibt es einen klassischen Kompromiss
zwischen der Qualität
eines Dokumentbilds und der Größe seiner gespeicherten
Datendatei. Im Allgemeinen erfordert eine Darstellung des Dokuments
mit hoher Qualität mehr
Platz zum Abspeichern. Um ein akzeptables Qualitätsniveau aufrechtzuerhalten,
ist eine Dokumentbild-Datenbank mit sehr großer Kapazität erforderlich. Durch Herabsetzen
der Anforderungen an die Datenspeicherung für die weniger wichtigen Abschnitte
von Dokumenten kann die Speicherkapazität verringert und gleichzeitig
die hohe Qualität
der wichtigen Aspekte von Dokumenten aufrechterhalten werden. Typischerweise
beginnt eine Speicherverwaltung mit dem Einscannen von jedem Dokument mit
derselben vorbestimmten Tiefe und Auflösung, so dass die mindestens
erforderlichen Einstellungen, die zur Aufrechterhaltung der Bildqualität in einem bestimmten
Dokument erforderlich sind, auf alle Dokumente angewendet werden.
Das Einscannen von jedem Abschnitt jedes Dokuments mit derselben
Tiefe und Auflösung
unabhängig
von dessen Inhalten erfordert zu viel Speicherplatz. Außerdem wird
die Speichergröße eines
Dokuments, wenn dieses einmal in das System eingegeben wurde, für eine mögliche Verkleinerung
nicht weiter analysiert. Alternativ kann eine Speicherverwaltung
mit einem System beginnen, bei dem ein Nutzer die Abtasttiefe und
-auflösung
für jedes
in das System eingegebene Dokument manuell spezifiziert. Auf diese
Weise können
die Scan-Parameter und Einzelheiten der Bilddarstellung für jede Situation
speziell gewählt
werden, jedoch nur zu den hohen Kosten einer nicht erforderlichen
Nutzerinteraktion. Außerdem
werden diese manuellen Speicherverwaltungsstrategien nur auf dem
Dokumentniveau und nur zum Zeitpunkt einer Eingabe eines Dokuments
in das System angewendet.
-
Folglich
besteht ein Bedürfnis
nach einem effizienten Verfahren zur Speicherverwaltung innerhalb einer
Dokumentbild-Datenbank. Fortschrittliche Dokumentanalyse- und Speicherverwaltungstechniken sollten
verwendet werden, um die Größe der Dokumentbild-Datenbank
zu verkleinern und gleichzeitig eine hohe Qualität des Dokumentbilds aufrechtzuerhalten.
Es ist weiter erstrebenswert, dass die Dokumentanalyseverfahren
Abschnitte in einem gescannten Dokumentbild automatisch lokalisieren
und identifizieren. Verschiedene Speicherverwaltungstechniken können auf
jeden Bereich angewendet werden, was so die Gesamtgröße eines
gespeicherten Dokumentbilds reduziert und gleichzeitig die Qualität von wichtigen
Bereichen innerhalb eines Dokuments aufrechterhält. Über die Zeit können Dokumente
erneut analysiert werden und können
Speicherverwaltungstechniken erneut angewendet werden, um eine Speichergröße von zuvor
gespeicherten Dokumentbildern zu verringern.
-
EP-A-0
597 571 offenbart ein Verfahren zur Speicherverwaltung von Dokumenten
in einem Dokumentbild-Datenbanksystem, bei dem die Dokumente in
eine digitale Datendatei gewandelt worden sind. Das Verfahren umfasst
die Schritte, dass die Datendateien analysiert werden, um zumindest
einen Bereich innerhalb des Dokuments in Entsprechung zu Identifikations-
bzw. Kennungsregeln zu identifizieren, und dass die Datendatei in
die Bereiche unterteilt wird; dass die Bereiche in Entsprechung
zu Speicher-Präferenzregeln
modifiziert werden; dass die reduzierten Bereiche in verkleinerte
Dateien übersetzt
werden, und dass, falls eine unzureichende Zielkomprimierung angewendet
worden ist, eine weitere Reduzierung der Speichergröße erfolgt,
bevor der Speichervorgang beendet oder eine weitere Verarbeitung
vorgenommen wird.
-
Zusammenfassung
der Erfindung
-
Die
vorliegende Erfindung besteht in einem Verfahren zur Speicherverwaltung
von Dokumenten in einem Dokumentbild-Datenbanksystem. Sobald ein
Dokument in eine digitale Datei innerhalb des Datenbanksystems gewandelt
worden ist, werden logische Bereiche innerhalb des Dokuments in
Entsprechung zu vorbestimmten Regeln identifiziert. Die digitale
Datei, die das Dokument repräsentiert,
kann in unterschiedliche Bereiche unterteilt und mittels eines Speicherverkleinerungsmittels
in Entsprechung zu Speicher-Präferenzregeln
modifiziert werden. Nach Reduzieren der Speichergröße von jedem
Bereich in einen kleineren verkleinerten Bereich werden die Bereiche
in eine verkleinerte Datei übersetzt
und in einem Datenbanksystem gespeichert. Erfindungsgemäß wird über die
Zeit später
eine Dokumentanalyse und -modifikation wiederholt, um die Speichergröße von zuvor
gespeicherten Dateien zu verkleinern.
-
Kurze Beschreibung
der Zeichnungen
-
Zusätzliche
Vorteile und Merkmale der vorliegenden Erfindung werden dem Fachmann
auf diesem Gebiet beim Lesen der nachfolgenden ausführlichen
Beschreibung und unter Bezugnahme auf die Zeichnungen ersichtlich
werden, worin:
-
1 ein
Diagramm ist, das geeignete Konfigurationen für Systemkomponenten zur Unterstützung einer
Speicherverwaltung in einem Dokumentbild-Datenbanksystem zeigt;
-
2 ein
Blockdiagramm ist, das die wichtigsten Komponenten einer erfindungsgemäßen Vorrichtung
zeigt;
-
3 ein
Blockdiagramm ist, das die Hauptfunktionen der vorliegenden Erfindung
zeigt;
-
4 ein
Funktionsdiagramm ist, das die Schritte des Verkleinerns der Speicherkapazität in einer
Dokumentbild-Datenbank unter Verwendung der erfindungsgemäßen Speicherverwaltungstechniken zeigt;
-
5A ein
Graustufenhistogramm für
einen Fotobereich eines Dokuments ist;
-
5B ein
Graustufendiagramm für
einen Textbereich eines Dokuments ist;
-
6A–6C Textbilder
sind, die die Lesbarkeit von unterschiedlichen Fontgrößen von
Probetexten mit unterschiedlichen Auflösungen zeigen;
-
6D–6F Textbilder
sind, welche die Ausgabe einer optischen Zeichenerkennung von einem
Eingabetext in unterschiedlichen Fontgrößen zeigen, die mit variierenden
Auflösungen
abgetastet wurden;
-
7A–7D Graustufenbilder
eines Fischerboots sind, die die Verschlechterung eines verlustbehafteten
komprimierten Bildes unter Verwendung von zunehmend aggressiven
JPEG-Einstellungen zeigen;
-
8 eine
Kurve ist, die die Effekte von drei unterschiedlichen Speicherverwaltungsstrategien darstellt,
die auf eine hypothetische Dokumentbild-Datenbank über einen Zeitraum von drei
Jahren angewendet werden;
-
9 ein
Funktionsdiagramm ist, das die Schritte einer Verkleinerung der
Speicherkapazität
in einer Dokumentbild-Datenbank auf der Grundlage von Nutzeranmerkungen
und unter Verwendung der erfindungsgemäßen Speicherverwaltungstechniken zeigt;
-
10A und 10B beispielhafte
Dokumente sind, die Nutzeranmerkungen zum Auslösen einer vorbestimmten Speicher-Präferenzregel
darstellen;
-
11 eine
Dialogbox einer Nutzerschnittstelle ist, die zum Aufbau von Speicher-Präferenzregeln
in einem Dokumentbild-Datenbanksystem verwendet wird; und
-
12A und 12B beispielhafte
Dokumente sind, die Nutzeranmerkungen zur Einkapselung einer Speicher-Präferenzregel
darstellen;
-
13 ein
Blockdiagramm ist, das die Komponenten einer Vorrichtung gemäß einem
bevorzugten Ausführungsbeispiel
zeigt.
-
Ausführliche
Beschreibung des bevorzugten Ausführungsbeispiels
-
Die
nachfolgende Beschreibung eines bevorzugten Ausführungsbeispiels erfolgt nur
in beispielhafter Weise und soll die Erfindung oder deren Anwendung
oder Nutzen nicht beschränken.
-
Die 1 zeigt
geeignete Systemkomponenten zur Unterstützung von Speicherverwaltungsstrategien
in einem Dokumentbild-Datenbanksystem 10. Erfindungsgemäß können eine
Vielzahl von Eingabegeräten
zur Eingabe eines Dokuments 12 in ein Dokumentbild-Datenbanksystem 10 verwendet
werden. Beispielsweise kann ein Dokument 12 unmittelbar
in ein Dokumentbild-Datenbanksystem 10 unter Verwendung
eines Digitalkopierers 17 oder eines Dokumentenscanners 18 eingegeben
werden. Alternativ kann ein zuvor digitalisiertes Dokument 12 in
dem Dokumentbild-Datenbanksystem 10 von
einem entfernten Ort empfangen werden. Beispielsweise kann ein Dokument
aus dem Internet heruntergeladen oder von einem Faxgerät 19 von
einem entfernten Terminal aus gesendet werden. Unabhängig davon wird
ein Dokument 12 in eine digitale Dokumentdatei gewandelt
und in einer Dokumentbild-Datenbank 14 gespeichert.
Jede der Systemkomponenten ist entlang einem Netzwerk 22 verbunden.
Eine Computer-Nutzerschnittstelle 20 ermöglicht,
dass ein Nutzer des Systems gespeicherte Dokumente betrachten und
Speicher-Präferenzregeln
zum Verwalten des Datenbanksystems 10 aufbauen kann. Außerdem kann
ein elektronischer Stift 21 an der Nutzerschnittstelle 20 angebracht
sein, um eine Identifizierung von Speicher-Präferenzen durch den Nutzer zu
erleichtern. Beispielsweise kann ein Nutzer, wenn ein Dokument einmal
in das System eingegeben worden ist, den Stift 21 dazu
verwenden, um wichtige Bereiche innerhalb eines gespeicherten Dokuments
zu "markieren". Schließlich dienen
verschiedene entfernte Computer, die an das Netzwerk 22 angeschlossen sind,
als Ausgabegeräte 24,
damit Nutzer Dokumentbilder, die in dem Dokumentbild-Datenbanksystem 10 abgespeichert
sind, betrachten können.
Der Fachmann auf dem Gebiet wird es zu schätzen wissen, dass eine Vielzahl
von Dokumentverwaltungskomponenten dazu verwendet werden können, um
unterschiedliche Konfigurationen für ein Dokumentbild-Datenbanksystem 10 zu
erzeugen.
-
Eine
Vorrichtung 26 zur Unterstützung der Speicherverwaltung
von Dokumenten in einer Dokumentbild-Datenbank ist in der 2 dargestellt.
Die wichtigsten Komponenten der Vorrichtung 26 beinhalten
ein Dokument-Analysemodul 27, das mit der Dokumentbild-Datenbank 14 verbunden
ist, sowie ein Dokument-Modifiziermodul 28, das mit dem
Dokument-Analysemodul 27 und/oder der Datenbank 14 verbunden
ist. Außerdem
sind ein Eingabegerät 16 und
ein Nutzerschnittstellenmodul 20 mit der Dokumentbild-Datenbank 14 verbunden.
-
Die
wichtigsten Schritt zur Speicherverwaltung von Dokumenten in einem
Dokumentbild-Datenbanksystem 10 sind in der 3 dargestellt.
Wenn ein Dokument 12 einmal in das Dokumentbild-Datenbanksystem
eingegeben worden ist, 30, kann die Datei 31,
die das Dokument repräsentiert,
analysiert werden, 32. Die Dokumentanalyse 32 beinhaltet
ein Identifizieren von logischen Bereichen innerhalb des Dokuments
und eine Unterteilung der Datei in identifizierte Bereiche. Jeder
logische Bereich kann durch Verkleinern seiner Speichergröße in Entsprechung zu
Speicher-Präferenzregeln
modifiziert werden, 34. Speicher-Präferenzregeln können individuell
maßgeschneidert
an die jeweiligen Eigenschaften jedes Bereichs angepasst werden.
Individuelle Bereiche werden erneut in eine Datei 35 übersetzt,
bevor diese als gespeicherte Datei 37 in der Datenbank 14 gespeichert
werden. Über
die Zeit kann eine Trigger-Nachricht 38 in dem Dokumentbild-Datenbanksystem 10 erzeugt
werden, um eine Dokumentmodifikation entweder für ein bestimmtes Dokument oder
für sämtliche
in dem System gespeicherte Dokumente erneut auszulösen.
-
Insbesondere
zeigt die 4 ein Funktionsdiagramm, das
Speicherverwaltungsstrategien auf ein Beispieldokument anwendet.
Das Originaldokument 42 erfordert zum Abspeichern des gescannten Dokuments
als Datei in dem Datenbanksystem 7.648 Kilobyte. Durch Analysieren
und Modifizieren der Datei nach dem erfindungsgemäßen Verfahren,
kann jedoch die gespeicherte Datei 54 auf 528 Kilobyte
reduziert werden.
-
Die
Dokumentanalyse beginnt mit dem Identifizieren von logischen Bereichen
innerhalb des Dokuments und dem anschließenden Unterteilen von identifizierten
Bereichen zur weiteren Speicherhandhabung. Eine effiziente Speicherverwaltung
erfordert, dass man in der Lage ist, logische Bereiche innerhalb
eines Dokuments automatisch zu lokalisieren und zu identifizieren.
Regeln zur Identifizierung von logischen Bereichen können in
dem System basierend auf verschiedenen Kriterien eingerichtet werden.
Beispielsweise stellen eine Graustufenhistogramm-Analyse oder eine
Verbindungskomponenten-Analyse (connected component analysis) Techniken
dar, die zur Identifizierung von Bereichen in Entsprechung zu dem
Datentyp (beispielsweise Text, Illustrationen, Fotografie etc.),
die in dem Dokument aufgefunden wurden, verwendet werden. Das Graustufenhistogramm
für ein
Foto sieht deutlich anders aus als das Graustu fenhistogramm für den Textbereich.
Das Histogramm für
einen Fotobereich, wie in der 5A gezeigt,
besteht aus einem viel breiteren Bereich von Graustufenwerten, während das
Histogramm für
den Text, wie in der 5B gezeigt, aus vielen weißen Pixeln
(dem Hintergrund) und einem niedrigen Bereich von Graustufenpixeln
besteht, die in einer sehr kleinen Spitze nahe der Farbe schwarz (den
Buchstaben) ihren Höhepunkt
finden. Diese Besonderheiten können
ausgenutzt werden, um die Seite basierend auf dem Datentyp in logische
Bereiche aufzubrechen.
-
Die
Verbindungskomponenten-Analyse stellt ein weiteres Identifikationsverfahren
dar. Die Bitmuster-Bilddaten werden mit Hilfe einer Verbindungskomponenten-Extraktion
analysiert, um Komponenten oder verbundene Komponenten zu identifizieren, die
entweder einzelne Zeichen oder Buchstaben oder Bereiche mit Bildern
ohne Text repräsentieren. Insbesondere
werden erfindungsgemäß Titel,
Kopfzeilen und Fotografien aus Dokumentbildern unter Verwendung
einer Dokumentanalyse und mit Hilfe von geometrischen Berechnungsverfahren
extrahiert. Das Bild wird in einem Bitmuster-Pufferspeicher gespeichert, der dann
unter Verwendung einer Verbindungskomponenten-Analyse analysiert
wird, um gewisse geometrische Daten, die sich auf die verbundenen
Komponenten oder Tintenflecke beziehen, die auf der Bildseite erscheinen,
zu extrahieren. Diese geometrischen Daten oder Verbindungskomponenten-Daten
werden in einer Datenstruktur gespeichert, die dann mit Hilfe eines
Klassifikationsprozesses analysiert wird, der die Daten basierend
darauf markiert oder sortiert, ob jede verbundene Komponente die
geometrischen Eigenschaften eines Zeichens oder die geometrischen
Eigenschaften eines Bildabschnittes, wie beispielsweise eine Bitmuster-Rasterung einer Fotografie,
aufweisen.
-
Nach
der Klassifizierung nach Textkomponenten verwendet das System dann
eine Nächste-Nachbar-Analyse
der Verbindungskomponentendaten, um Graphen für nächste Nachbarn zu erzeugen.
Diese werden dann in einer Nächste-Nachbar-Graph-Datenstruktur gespeichert,
die eine Liste von untereinander verbundenen Listen repräsentiert, die
dem nächsten
Nachbarn von jeder Verbindungskomponente entsprechen. Die Nächste-Nachbar-Graphen
definieren Begrenzungsrahmen um diese Verbindungskomponenten von
Daten herum, die beispielsweise einer Textzeile in einer Kopfzeile
entsprechen. Die Nächste-Nachbar-Graphen
werden dann als horizontal oder vertikal klassifiziert, was davon
abhängt,
ob die Verbindungen, welche die Mittelpunkte von Begrenzungsrahmen
von nächsten Nachbarn
verbinden, überwiegend
horizontal oder vertikal verlaufen. Vertikale Textlinien sind, obwohl diese
ziemlich selten in der eng lischen Sprache sind, in anderen Sprachen,
beispielsweise im Chinesischen oder Japanischen, ziemlich üblich.
-
Als
Nächstes
analysiert ein Filtermodul die Daten, um die mittlere Fonthöhe von sämtlichen
horizontalen Daten sowie eine mittlere Fonthöhe von allen vertikalen Daten
zu bestimmen. Dann wird jede Kette von horizontalen Daten mit dem
Mittelwert verglichen; und jede Kette von vertikalen Daten wird
mit dem Mittelwert verglichen, um diejenigen Ketten auszuwählen, die
oberhalb der mittleren Höhe
liegen, oder von denjenigen Ketten zu bestimmen, deren Höhe einen
vorbestimmten Schwellenwert übersteigt.
Falls dies gewünscht
ist, kann eine weitere Verfeinerung der Analyse unter Verwendung
von anderen geometrischen Merkmalen vorgenommen werden, beispielsweise
dahingehend, ob die Fonts fett geschrieben sind, oder dadurch, dass
festgestellt wird, welche Daten Ketten repräsentieren, die auf der Seite
zentriert sind.
-
Nachdem
die Titelkandidaten ausgewählt worden
sind, werden die Kandidaten auf die ursprünglichen Bitmusterdaten zurück referenziert.
Im Wesentlichen werden die Begrenzungsrahmen der Verbindungskomponenten
in einem einzigen Begrenzungsrahmen zusammengefasst, welcher dem
extrahierten Titel zugeordnet ist, und dieser einzelne Begrenzungsrahmen
wird dann zurück
auf die Bitmusterdaten referenziert, so dass jegliche Bitmusterdaten,
die in dem Begrenzungsrahmen auftreten, als extrahierter Titel ausgewählt werden
können.
Falls dies gewünscht
ist, kann der extrahierte Titel weiter unter Verwendung einer Software
zur optischen Zeichenerkennung verarbeitet werden, um das Titelbild in
einen Titeltext umzuwandeln.
-
In ähnlicher
Weise werden, nachdem die Fotokandidaten ausgewählt worden sind, die Kandidaten
erneut zurück
auf die ursprünglichen
Bitmusterdaten zurück
referenziert. Die Begrenzungsrahmen von Fotokandidaten, die miteinander überlappen, werden
in einem einzigen Begrenzungsrahmen zusammengefasst, so dass diejenigen
Bitmuster, die in dem Begrenzungsrahmen auftreten, ausgewählt werden
können
und als Teil des Fotos extrahiert werden können. Falls dies gewünscht ist,
kann ein Fußzeilentext,
der einem Fotobereich zugeordnet ist, identifiziert werden und unter
Verwendung einer Software zur optischen Zeichenerkennung weiter
verarbeitet werden. Der Fußzeilentext
kann dann als Markierung verwendet werden, um den Inhalt des Fotos zu
identifizieren, oder zum Zwecke einer späteren Suche. Das Verbindungskomponenten-Analyseverfahren
ist im Allgemeinen in dem US-Patent 5,892,843 mit dem Titel "Title, Caption And
Photo Extraction From Scanned Document Images" von Jiangying Zhou offenbart. Diese
Analyse kann auch dazu verwendet werden, um logische Bereiche innerhalb eines
Dokuments zu identifizieren.
-
Für das Beispieldokument
gemäß der 4 ist
ein erster Bereich 44 mit einem Foto-Datentyp und ein zweiter Bereich 46 mit
einem Text-Datentyp in dem Originaldokument 42 identifiziert
worden. Sobald jeder Bereich identifiziert worden ist, kann der erste
Bereich (die Fotografie) 44 aus dem zweiten Bereich (Text) 46 für eine weitere
Dokumentmodifikation extrahiert werden. Als Nächstes werden die Bereiche
modifiziert, um deren Speichergröße zu verringern.
Die Modifizierung kann eine Vielzahl von Speicherreduktionsmitteln
beinhalten, was von anwendbaren Speicher-Präferenzregeln
abhängt.
Die verschiedenen Speicher-Reduktionsmittel, die in dem Modifikationsschritt
eingesetzt werden können,
werden nachfolgend erörtert.
-
Die
Abtasttiefe betrifft die Anzahl von Bytes, die erforderlich ist,
um ein einzelnes Pixel darzustellen. Allgemeine Tiefen, die von
aktueller Scanner-Hardware/Software unterstützt werden, beinhalten 24 Bit
(Farbe), 8 Byte (Graustufe) und 1 Bit (Schwarz-Weiß).
Andere Eingabegeräte,
die in einem Dokumentbild-Datenbanksystem verwendet werden, beispielsweise
Faxgeräte
und Digitalkopierer, können
eine begrenztere Auswahl von möglichen Abtasttiefen
einsetzen. Das Abtasten von Dokumenten in Schwarz-Weiß anstelle
von Graustufe ergibt eine 8-fache Verringerung in der Größe des Platzes, der
zum Speichern eines Bildes erforderlich ist. Außerdem gibt es eine 3-fache Reduzierung
des Platzes, der zum Speichern eines Bildes als Graustufenbild anstelle
von 24-Bit-Farbbild benötigt
wird. Deshalb kann eine 24-fache Reduktion erzielt werden, wenn
ein 24-Bit-Farbbereich als Schwarz-Weiß-Bereich abgespeichert wird.
Der Fachmann auf diesem Gebiet wird erkennen, dass unter Verwendung
von Schwellenwertverfahren die Abtasttiefe eines Bildes reduziert
werden kann, ohne dass das Originaldokument erneut gescannt werden
muss. Obwohl eine Verringerung der Abtasttiefe den offensichtlichen Vorteil
hat, dass diese Maßnahme
die Speicheranforderungen für
das Dokument reduziert, muss dieses Speicher-Reduktionsmittel sorgfältig verwaltet
werden, um einen Verlust von wichtiger Information des Originaldokuments
zu verhindern. Für
den Fall von Fotografien können
wichtige Details unscharf werden, wenn von Farbe auf Schwarz-Weiß abgebildet wird,
eine Reduktion auf ein Graustufenniveau kann jedoch für angemessene
Details für
viele Anwendungen sorgen. Andererseits kann ein Text oftmals einfacher
eingelesen werden, wenn dieser in Form von klaren schwarzen Zeichen
auf einem weißen
Hintergrund dargeboten wird, und ist es somit zweckdienlich, diesen
als Schwarz-Weiß-Bild
zu speichern. Deshalb kann das Dokumentbild-Datenbanksystem eine
Speicher-Präferenzregel
verwenden, welche die Abtasttiefe eines Textbereichs auf ein bitonales
Niveau reduziert, während
gleichzeitig nur ein Fotobereich auf ein Graustufenniveau reduziert
wird.
-
Eine
Reduzierung der Abtastauflösung
stellt ein weiteres Speicher-Reduktionsmittel dar. Die Auflösung stellt
die Anzahl von Abtastwerten pro Einheit entlang einer Dimension
des Bildes dar. Die anfängliche
Auflösung
eines Bildes wird abgetastet und kann je nach der Eingabe-Hardware
variieren. Beispielsweise beträgt
die Standardauflösung,
die von vielen Flachbettscannern verwendet wird, 300 dpi, während die
Standard-CCITT-Gruppe-3-Fax-Auflösungen
204 × 196
(hoch) und 204 × 98
(niedrig) betragen. Eine Reduzierung der Abtastauflösung von 300
dpi auf 150 dpi verringert den Speicherplatz um einen Faktor von
4. Außerdem
kann eine Reduzierung der Auflösung
eines gespeicherten Bildes ohne erneutes Abtasten des Originaldokuments
erzielt werden. Wie auch für
die Tiefenreduktion, muss eine Reduktion der Abtastauflösung mit
Vorsicht angewendet werden, um den Verlust von wichtigen Einzelheiten
in dem gespeicherten Dokumentbild zu verhindern. Fotografien können "gröber" aussehen. Was Text
anbelangt, so hängt
der Grad der Verschlechterung von der Fontgröße ab. Ein größerer Font
kann mit einer geringeren Auflösung
abgetastet werden und dennoch lesbar bleiben; dies kann man in den 6A–6C sehen,
wo derselbe Text mit drei verschiedenen Auflösungen abgetastet wurde: 300 dpi,
200 dpi und 100 dpi. Um einen unleserlichen Text zu verhindern,
müssen
die Speicher-Präferenzregeln eine
minimale Fontgröße innerhalb
eines bestimmten Bereichs berücksichtigten.
Eine Dokumentanalyse kann vorgenommen werden, um die minimale Fontgröße eines
bestimmten Bereichs oder Dokuments zu bestimmen, dann kann dieser
bestimmte Bereich mit geeignet geringerer Auflösung abgetastet werden. Falls
ein Bereich einen Text mit 9-Punkt-Größe beinhaltet, wie man am besten
in der 6C erkennen kann, dann bleibt
dieser Text bei einer Auflösung von
100 dpi leserlich. Um andererseits die Lesbarkeit in einem Bereich
mit einem Text der Größe 7-Punkt aufrechtzuerhalten,
wie man am besten in der 6B erkennen
kann, sollte die Abtastung nur auf 200 dpi verringert werden. Folglich
sollte eine Speicher-Präferenzregel
so aufgebaut sein, um die Abtastauflösung basierend auf der minimalen
Fontgröße und der
gewünschten
Lesbarkeit für
den bestimmten Bereich und/oder das Dokument zu verringern. In vergleichbarer
Weise kann ein Dokument durch geringere Abtastung basierend auf
anderen minimalen Merkmalsgrößen, die
in einem Bereich enthalten sind, reduziert werden. Beispielsweise
kann eine Linienzeichnung eine minimale Linienbreite aufweisen, die
als die minimale Merkmalsgröße verwendet
werden kann.
-
Außerdem können geringere
Abtastauflösungen
die Genauigkeit einer Software zur optischen Zeichenerkennung (OCR)
erheblich verringern. Um eine anschließende Textsuche eines Dokuments
zu erleichtern, kann ein Dokument anfänglich in das System mit einer
hohen Auflösung
eingescannt werden, um OCR-Funktionen angemessen zu unterstützen. Man
beachte, dass eine OCR empfindlicher auf die Abtastauflösung ist
als ein lesender Mensch, und somit erzeugt ein Text, der relativ
einfach von einem Menschen gelesen werden kann, unzulässige OCR-Ergebnisse.
OCR-Ergebnisse, die durch Ablaufen von Caere OmniPage Professional
(Version 6.0) bei Auflösungen
von 300 dpi und 200 dpi (100-dpi-Ergebnisse stehen nicht zur Verfügung; OmniPage
hat eine minimale Eingabeauflösung
von 200 dpi) erzeugt wurden, sind in den 6D–6F gezeigt. Sobald
Schlüsselmerkmalsausdrücke aus
der gespeicherten Datei unter Verwendung einer OCR-Software extrahiert
worden sind, können
Speicher-Präferenzregeln
angewendet werden, um die Abtastauflösung der Datei weiter zu reduzieren.
Als Ergebnis hat die OCR Information erfasst, die zum Unterstützen von
Suchfunktionen benötigt
wird, und dennoch kann das Dokument nachfolgend reduziert werden,
um Speicheranforderungen in dem System zu minimieren.
-
Ein
zusätzliches
Speicher-Reduktionsmittel, das auf Dokumentbilder angewendet werden
kann, beinhaltet verschiedene Komprimierungstechniken. Ganz allgemein
kann es sich bei den Komprimierungstechniken entweder um eine verlustlose
Komprimierung oder eine verlustbehaftete Komprimierung handeln.
Eine verlustfreie Komprimierung bezieht sich auf diejenigen Techniken,
bei denen die Originaldaten aus der komprimierten Version perfekt wieder
hergestellt werden können.
Verlustfreie Algorithmen für
allgemeine Zwecke beinhalten eine Huffman- und Lempel-Ziv-Kodierung.
Eine Lauflängen-Kodierungstechnik
ist besonders geeignete für gescannte
Textbilder und kann Komprimerungsverhältnisse von 7:1 erzielen. Um
eine bessere als diese Komprimierung zu erzielen, ist es erforderlich,
die Beschränkung
aufzuweichen, dass die Originaldaten perfekt wieder hergestellt
werden können
sollen. Bei einer verlustbehafteten Komprimierung kann das Bild,
das aus der Dekomprimierung resultiert, eine gewisse Verschlechterung
beinhalten. Die JPEG-Norm stellt ein Beispiel für eine solche Technik dar.
JPEG ist ein Tiefpassfilter, der hochfrequente Information von dem
Bild entfernt, um die Anzahl von Bits zu verringern, die benötigt werden,
um das Bild wiederzugeben, und ist hauptsächlich zum Komprimieren von
Fotografien gedacht. JPEG kann Komprimierungsverhältnisse
von 20:1 oder besser erzielen.
-
Die
Wirkungen einer JPEG-Komprimierung sind in den 7A–7D dargestellt,
wobei ein Graustufenbild eines Fischerboots gezeigt ist, gemeinsam
mit drei Versionen desselben Bildes, die unter Verwendung von zunehmend
aggressiveren JPEG-Einstellungen
komprimiert worden sind. Die 7A ist
das originale Dokumentbild. In der 7C beträgt die Größe des Bildes
etwa 10 % der Größe des Originalbilds,
ohne wahrnehmbare Verschlechterung, während das Bild in der 7D eine
offensichtliche Verschlechterung aufzeigt. Unwesentliche Verschlechterungen
können
bei gewissen Anwendungen akzeptabel sein und somit können unterschiedliche
Speicher-Präferenzregeln
für unterschiedliche Anwendungen
geeignet sein. Wenn beispielsweise Fotografien wesentlich für ein Verständnis des
Dokuments sind, dann sollte eine moderate JPEG-Komprimierung angewendet
werden. Falls andererseits die Hauptinformation von Interesse der
Text eines Zeitungsartikels ist und jegliche zugehörige Fotografie nur
der Ergänzung
dient, dann kann eine aggressivere JPEG-Komprimierung auf den Fotobereich angewendet
werden. JPEG funktioniert für
Text nicht gut und somit kann eine geeignete Speicher-Präferenzregel
unter unterschiedlicher Behandlung einer JPEG-Komprimierung nur
auf die Fotobereiche des Dokuments angewendet werden.
-
Indem
wir zurückkehren
zu dem Beispiel gemäß der 4,
wurde die Speichergröße des zweiten
Bereichs (Text) 46 von 6.000 Kilobyte auf 336 Kilobyte
unter Verringerung der Abtasttiefe und anschließender Anwendung einer verlustfreien
Komprimierungstechnik reduziert. Wenn die 1.776 Kilobyte von dem
ersten Bereich (Foto) 44 mit den 336 Kilobyte des reduzierten
zweiten Bereichs (Text) 48 übersetzt werden, beträgt die resultierende
gespeicherte Datei 50 28 % (2.112 Kilobyte) des Originaldokuments 42.
Zu einem späteren
Zeitpunkt kann die gespeicherte Datei 50 weiter gemäß einer
von vorbestimmten Speicher-Präferenzregeln
modifiziert werden. Allgemein wird eine nachfolgende Modifizierung auftreten,
ohne dass eine erneute Dokumentanalyse ausgelöst werden muss. Eine anfängliche
Dokumentanalyse wird benötigte
Information für
eine spätere Modifizierung
des Dokuments erfassen. Das erneute Ablaufen einer Dokumentanalyse
kann angewendet werden, falls: (1) neue und bessere Dokument-Analyseroutinen
verfügbar
geworden sind oder (2) der Nutzer seine/ihre Präferenzen in einer Weise geändert hat,
die ein erneutes Ablaufen einer Dokumentanalyse erfordert.
-
Im
Hinblick darauf erfordert die Speicher-Präferenzregel, dass eine moderat
verlustbehaftete Komprimierungstechnik auf Fotobereiche des Dokuments
einen Monat nach der Eingabe des Dokuments in das System angewendet
wird. Durch Anwenden dieser Speicher-Präferenzregel auf die gespeicherte
Datei 50 wird der erste Bereich (Foto) 44 auf
464 Kilobyte reduziert und wird somit die gespeicherte Datei 50 weiter
auf eine erste reduzierte Datei 52 reduziert, die 10 %
(800 Kilobyte) des Originaldokuments 42 beträgt. Zu einem
noch späteren
Zeitpunkt wird eine aggressivere verlustbehaftete Komprimierungstechnik
auf den ersten Bereich (Foto) 44 der ersten reduzierten
Datei 52 angewendet, um eine zweite reduzierte Datei 54 von
528 Kilobyte oder 7 % Speichergröße des Originaldokuments 42 zu
erzielen. Deshalb sind durch Unterteilen des Dokuments in Bereiche
und durch Verringern der Speichergröße der Bereiche in Entsprechung
zu dem Datentyp des Bereichs die Speicheranforderungen für dieses
Beispieldokument signifikant reduziert worden. Obwohl eine Komprimierung
von Fotobereichen ohne Verlust an Qualität nicht beeindruckend zu sein
scheint, ist darüber
hinaus eine Anwendung von Speicher-Reduzierungstechniken auf Dokumente,
die Text und Fotos enthalten, ohne dass die Gesamtqualität der Seite
verschlechtert wird, kritisch.
-
Wie
man in dem vorstehend diskutierten Beispiel erkennt, wird die Anwendung
eines Dokumentreduzierungsmittels über die Lebensdauer eines Datenbanksystems
die Speicheranforderungen des Systems drastisch verringern. Das
Auftreten einer Bedingung innerhalb des Datenbanksystems kann diese
weitere Modifizierung von Dokumenten auslösen. Weil die Wichtigkeit eines
Dokuments normalerweise über
die Zeit abnimmt, kann die Wichtigkeit eines individuellen Dokuments
anhand der Zeitdauer bestimmt werden, vor der das Dokument in das
System eingegeben wurde, oder anhand des Zeitpunkts, seitdem irgendein
Benutzer zuletzt auf diese bestimmte Datei zugegriffen hat. Diese
Indikatoren dienen als Bedingungen, welche den Prozess einer erneuten
Analyse auslösen
werden. Das Feststellen eines Ereignisses, zu dem ein Schwellenwert
der Speicherkapazität
in der Dokumentbild-Datenbank erreicht worden ist, kann auch als
Bedingung dienen, um eine erneute Analyse auszulösen. Zu diesem Zeitpunkt können sämtliche
gespeicherten Dateien weiter in Entsprechung zu Speicher-Präferenzregeln modifiziert
werden.
-
Der
Effekt von drei anderen zeitbasierten Speicherverwaltungsstrategien
ist in der 8 dargestellt. Diese drei Strategien
werden nach wechselnden Zeitintervallen über einen Zeitraum von drei Jahren
eines Systems angewendet, für
das angenommen sei, dass ein Nutzer 10 neue Dokumente pro
Tag in das System eingeben wird, wobei jede Seite das Abspeichern
von 2.112 Kilobyte erfordert. Die erwartete Vergrößerung der Größe dieser
Dokumentbild-Datenbank ohne ein Speicherverwaltungsverfahren wird
in der 8 durch die mit "unbearbeitet" markierte Linie angedeutet. Eine zweite
Technik komprimiert jedes Dokument vier Wochen später, nachdem
dieses in das System eingegeben worden ist, und zwar unter Anwendung
einer moderat verlustbehafteten Komprimierungstechnik auf Fotobereiche.
Die resultierende Speichergröße pro Seite
beträgt
in diesem Fall 529 Kilobyte und ihre Wirkung auf das System ist
als die Linie "komprimiert" dargestellt. Zusätzlich zu
der bloßen
Komprimierung von Daten können
gespeicherte Dokumente, für
die eine geringere Wichtigkeit festgestellt wurde, einfach verworfen
werden. Verworfene Daten können
Teile eines Dokuments beinhalten, beispielsweise unwichtige Fotos,
oder das gesamte Dokument, was von der anwendbaren Speicher-Präferenzregel
abhängt.
Alternativ kann ein "Verwerfen" beinhalten, dass
weniger wichtige Dokumente Off-Line verschoben werden oder auf ein
langsameres Medium außerhalb
der Dokumentbild-Datenbank. Diese "Verwerfungs"-Techniken
können
auch systematisch auftreten, ohne dass dies eine Nutzer-Interaktion
(von Hand) erfordern würde.
Durch Verwerfen von 75 % der Daten von Dokumenten, die vor mehr
als sechs Monaten in dem System abgespeichert worden sind, erzielt
dieser dritte Lösungsansatz
(der mit "komprimiert
und verworfen" bezeichnet
ist) eine noch größere Speicherreduzierung.
Der Netto-Speicherbedarf nach drei Jahren beträgt nur 1.841 Megabyte für die Strategie "komprimiert und verworfen" im Vergleich zu
4.435 Megabyte für "komprimiert" und 16.474 Megabyte
für "unbearbeitet". Dieses Beispiel
verdeutlicht das Ausmaß des
Einsparens von Speicher, das durch Einsetzen von Speicherverwaltungsstrategien über die
Lebensdauer eines Dokumentbild-Datenbanksystems möglich ist.
Ein Fachmann auf diesem Gebiet wird erkennen, dass noch bessere
Ergebnisse durch Kombinieren von verschiedenen zeitbasierenden Dokumentmodifizierungen
mit Speicher-Präferenzregeln erzielt
werden können,
die maßgeschneidert
abgestimmt sind auf die charakteristischen Anforderungen des Datenbanksystems.
-
Das
Funktionsdiagramm, das in der 9 gezeigt
ist, beruht auf Anmerkungen, die von einem Systemnutzer gemacht
worden sind, um Bereiche innerhalb eines gespeicherten Dokuments
zu identifizieren und zu modifizieren. Als Erstes können Nutzer-Anmerkungen dazu
verwendet werden, um bestimmte Bereiche eines Dokuments zu identifizieren. Ein
Artikel in einer Zeitung kann von einem Nutzer "markiert" oder "hervorgehoben" werden, bevor das Dokument in das Datenbanksystem
eingegeben wird. Eine Nutzerschnittstelle mit einem elektronischen
Stift kann auch für
ein Mittel sorgen, um Dokumente mit Anmerkungen zu versehen, bevor
diese in das System eingegeben werden. Dokumentanalyse-Techniken
können
dazu verwendet werden, um die Markierungen des Nutzers zu identifizieren
und die zugeordneten Bereiche aus der gespeicherten Datei zu extrahieren.
In dem oberen identifizierten Bereich wird der identifizierte Textbereich
auf seiner ursprünglichen
Auflösung
gehalten, während
der Rest des Dokuments erneut niedriger mit 100 dpi oder weniger
abgetastet wird. In dem niedriger identifizierten Bereich wird der
identifizierte Text lediglich extrahiert und der Rest des Dokuments
verworfen. Somit dienen Nutzer-Anmerkungen als weitere Basis zum
Identifizieren von logischen Bereichen innerhalb eines gescannten
Dokuments.
-
Als
zweites können
Nutzer-Anmerkungen bestimmte Speicher-Präferenzregeln auslösen. Beispielsweise
kann ein Post-It-Notizzettel, der vorbedruckt mit "wichtig" oder mit einer Markierung "X" in der linken oberen Ecke eines Dokuments,
wie man in der 10A und 10B erkennen
kann, dazu verwendet werden, um anzuzeigen, dass dieses individuelle
Dokument von einem Stapel von Dokumenten identifiziert worden ist.
Das identifizierte Dokument kann dann mit einer höheren Tiefe
bzw. Auflösung
als die anderen Dokumente in dem Stapel abgetastet werden. Alternativ
kann das identifizierte Dokument anzeigen, dass dieses Dokument
weniger häufig
erneut analysiert und/oder zu einem späteren Zeitpunkt verworfen werden
soll, anders als andere Dokumente in dem Stapel. Ein Fachmann auf
diesem Gebiet wird erkennen, dass verschiedene Mittel, um ein Dokument
mit Anmerkungen zu versehen, eingesetzt werden können, was nur den Beschränkungen
der Bildverarbeitungstechniken unterliegt. Außerdem können eine Vielzahl von unterschiedlichen
Speicher-Präferenzregeln
durch unterschiedliche Anmerkungen ausgelöst werden.
-
Die
Speicher-Präferenzregeln
werden innerhalb der Dokumentbild-Datenbank abgespeichert und auf
diese kann zugegriffen werden, um festzulegen, welches Speicher-Reduktionsmittel
auf einen bestimmten Bereich eines Dokuments angewendet wird. Die
Speicher-Präferenzregeln
können
mit Hilfe einer System-Nutzerschnittstelle eingestellt werden, aus
den eingegebenen Dokumenten extrahiert werden oder mit Hilfe eines
Beeinflussungsmoduls innerhalb des Systems erzeugt werden. Als Erstes
stellt die Erzielung von Speicher-Präferenzen mittels einer Dialogbox
einer Nutzerschnittstelle einen üblichen Lösungsansatz
dar. Eine "Originalgröße" einer Dialogbox
für eine
Dokumentbild-Datenbank ist in der 11 gezeigt.
Der Nutzer kann den Umfang einer Kompression, die auf verschiedene
logische Bereiche des Dokuments angewendet werden soll, spezifizieren
und auch, ob Dokumente weiter komprimiert werden sollen, was von
ihrem Alter und dem in dem System zur Verfügung stehenden Speicherplatz
abhängt.
Präferenzen
könnten
jeweils für
einzelne Dokumente oder für
sämtliche
Dokumente, die in das System eingegeben werden, spezifiziert werden.
Ein Fachmann auf diesem Gebiet wird erkennen, dass ausgefeiltere
Nutzerschnittstellen entwickelt werden könnten, um fortschrittliche
Speicher-Präferenzregeln
zu erzeugen.
-
Als
zweites können
die Speicher-Präferenzregeln
unmittelbar von den eingegebenen Dokumenten extrahiert werden. Anstatt
nur die Anwendung einer vorbestimmten Speicher-Präferenzregel
auszulösen,
kann die Anmerkung eines Nutzers eine Speicher-Präferenzregel
einkapseln bzw. in sich beinhalten. Beispielsweise kann eine Anmerkung,
wie beispielsweise "sämtliche
Fotos komprimieren" oder "verwerfen, falls
nicht in 6 Monaten betrachtet",
auf das Dokument aufgeschrieben oder auf einen "Post-It"-Notizzettel aufgeschrieben sein, der
einen Bar-Kode enthält,
der an dem Dokument angebracht sein kann. Dokumente mit beispielhaften
Nutzer-Anmerkungen sind in der 12A und 12B dargestellt. Durch Übersetzen der Nutzer-Anmerkungen wird
das Dokumentbild-Datenbanksystem das geeignete Speicher-Reduktionsmittel
anwenden, um die Speicherstrategie zu realisieren. Anders als bei
bestehenden Lösungsansätzen kann
eine Nutzer-Anmerkung unmittelbar auf einen bestimmten Bereich innerhalb
des Dokuments abzielen. Der Fachmann auf dem Gebiet wird ohne weiteres
erkennen, dass unter Verwendung von Techniken zur optischen Zeichenerkennung
die System-Software so ausgelegt sein kann, dass Anmerkungen von
Nutzern in eine definierte Speicher-Präferenzregel übersetzt
werden.
-
Drittens
ist es wünschenswert,
dass das Dokumentbild-Datenbanksystem die Fähigkeit zum "Lernen" von Präferenzen über die
Zeit aufweist. Unter Verwendung von künstlicher Intelligenz oder
anderen beeinflussenden Rechentechniken können Speicher-Präferenzregeln
basierend auf vorherigen Nutzermustern erzeugt werden, wenn dieser
mit dem Dokumentbild-Datenbanksystem interagiert. Das System kann
eine Hierarchie einsetzen, um zu bestimmen, welche Speicher-Präferenzregel
angewendet werden soll, und zwar unter einander widersprechenden
Regeln, die von unterschiedlichen Mitteln aufgebaut wurden. Beispielsweise
können
Nutzer-Anmerkungen angewendet werden, bevor das System Regeln erzeugt,
während
durch den Nutzer eingegebene Regeln als Standard dienen werden. Ungeachtet
des Aufbaumittels wird eine Dokumentmodifikation auf ein Dokument
basierend auf der anwendbaren Speicher-Präferenzregel
angewendet werden.
-
Eine
bevorzugte Ausführungsform
der Vorrichtung 26 gemäß der vorliegenden
Erfindung ist in der 13 gezeigt. Die Dokumentbild-Datenbank 14 ist
weiter als eine Dokumentdatenstruktur 76 zum Speichern
von Dokumentbildern und als Speicherregel-Datenstruktur 78 zum
Speichern von Speicher-Präferenzregeln
definiert. Das Dokumentanalysemodul 27 ist mit der Dokumentdatenstruktur 76 gekoppelt.
Ein Planungsmodul 80 ist ebenfalls mit dem Dokumentanalysemodul 27 gekoppelt,
um den Dokumentanalyseprozess auszulösen. Um die Dokumentanalyse
zu erleichtern, umfasst das Dokumentanalysemodul 27 außerdem einen
Graustufen-Datenanalysator 82, einen Fontgrößen-Analysator 84,
eine Vorrichtung zum Erkennen von Anmerkungen 86 sowie
einen Verbindungskomponenten-Analysator 88. Ein Arbeitszwischenspeicher 90 wird
dazu verwendet, um während
des Dokumentanalyse-/-modifizierprozesses Dateien zu halten bzw.
zwischenzuspeichern, und ist zwischen das Dokumentanalysemodul 27 und
das Dokumentmodifikationsmodul 29 geschaltet. Das Dokumentmodifikationsmodul 28 umfasst
eine Schwellenwerteinrichtung 92, einen optischen Zeichenerkenner 94,
eine Abtastvorrichtung 96 und ein Komprimierungs-Untersystem 98,
wobei das Komprimierungs-Untersystem 98 eine verlustbehaftete
Komprimierungseinrichtung 100 und eine verlustfreie Komprimierungseinrichtung 102 zum
Modifizieren von Dateien in Entsprechung zu Speicher-Präferenzregeln,
auf die die Speicherregel-Datenstruktur 78 zugreift.
Ein Beeinflussungserzeugungsmodul 79 greift ebenfalls auf
die Speicherregel-Datenstruktur 78 zu. Diese Module stellen
die Kernkomponenten der Vorrichtung 26 dar.
-
Außerdem umfasst
die Nutzerschnittstelle 20 einen Browser 110,
einen Vorrichtungscontroller 108, eine Regel-Eingabevorrichtung 106 und
einen Planungscontroller 104. Die Nutzerschnittstelle 20 ist über den
Browser 110 mit der Dokumentdatenstruktur 76 verbunden,
um gespeicherte Dokumente zu betrachten, und ist über die
Regel-Eingabevorrichtung 106 mit
der Speicherregel-Datenstruktur 78 gekoppelt, um Speicher-Präferenzregeln
zu manipulieren. Ein Vorrichtungscontroller 108, der der
Nutzerschnittstelle 20 zugeordnet ist, wird zur Steuerung der
Eingabeparameter einer Eingabevorrichtung 16 verwendet.
Die Eingabevorrichtung 16 ist über einen Eingabe-Zwischenspeicher 112 mit
der Dokumentdatenstruktur 76 verbunden, um Dokumentbilder
vor dem Abspeichern zu manipulieren. Ein Regelextraktionsmodul 114 ist
mit dem Eingabe-Zwischenspeicher 112 verbunden, um Speicher-Präferenzregeln zu
extrahieren, die sich auf eingegebenen Dokumenten befinden können. Die
extrahierten Speicher-Präferenzregeln
werden dann in der Speicherregel-Datenstruktur 78 gespeichert.
Ein Beeinflussungserzeugungsmodul 79 ist ebenfalls mit
der Speicherregel- Datenstruktur 78 gekoppelt,
um erzeugte Speicher-Präferenzregeln
einzugeben. Schließlich
ist der Planungscontroller 104 der Nutzerschnittstelle 20 mit dem
Planungsmodul 80 für
eine vom Nutzer ausgelöste
Dokumentanalyse gekoppelt.
-
Das
Vorstehende offenbart und beschreibt lediglich beispielhafte Ausführungsformen
gemäß der vorliegenden
Erfindung.