DE19708265B4

DE19708265B4 - Verfahren zum Durchsuchen einer Dokument-Bilddatenbank und Dokumentbild-Durchstöberungssystem sowie Verfahren zum Extrahieren eines Merkmalsvektors aus einem elektronisch gespeicherten Bild

Info

Publication number: DE19708265B4
Application number: DE19708265A
Authority: DE
Inventors: John Menlo Park Cullen; Jonathan Menlo Park Hull; Peter Menlo Park Hart
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1996-03-01
Filing date: 1997-02-28
Publication date: 2006-05-11
Anticipated expiration: 2017-03-01
Also published as: CN1170168A; DE19708265A1; US5933823A; JPH09237282A; CN1146817C

Abstract

Verfahren zum Durchsuchen einer Dokument-Bilddatenbank, das die folgenden Schritte aufweist:
ein Basis-Dokumentbild, das die Grundlage für die Suche bildet, wird entwickelt;
eine Bildmerkmalsinformation über das Basis-Dokumentbild wird erhalten;
die Dokument-Bilddatenbank wird nach ähnlichen Dokumentbildern durchsucht, indem die Bildmerkmalsinformation verwendet wird;
als Suchergebnisse des Suchschrittes werden ein oder mehrere Dokumentbilder angezeigt, die dem Basis-Dokumentbild ähneln, und
durch eine Benutzereingabe wird ein Suchergebnis als Grundlage für eine weitere Suche ausgewählt, wobei die Bildmerkmalsinformation über das Basis-Dokumentbild erhalten wird, indem ein Merkmalsvektor aus einem elektronisch gespeicherten Bild extrahiert wird, das als Basis-Dokumentbild verwendet wird, wobei die folgenden Schritte durchgeführt werden:
die Größe von Verbindungskomponenten bzw. verbundenen Komponenten wird über das ganze Bild gemessen;
Interessenpegel von Pixeln werden über das ganze Bild identifiziert;
die verbundenen Komponenten bzw. Verbindungskomponenten und ihre Größen werden über das ganze Bild identifiziert;
ein Histogramm von verbundenen Komponentengrößen bzw. Verbindungskomponentengrößen wird...

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Durchsuchen einer Dokument-Bilddatenbank und ein Dokumentbild-Durchstöberungssystem, und zwar basierend auf einer bekannten Struktur bzw. bekannten Textur eines gewünschten Dokuments. Des Weiteren betrifft die Erfindung ein Speichermedium mit Software zum Durchführen des genannten Verfahrens mittels eines Computersystems. Weiter betrifft die Erfindung ein Verfahren zum Extrahieren eines Merkmalsvektors aus einem elektronisch gespeicherten Bild.
Mit der weiten Verbreitung preisgünstiger Permanent-Elektronikspeichervorrichtungen und von Scannern zum elektronischen Erfassen von Dokumentbildern bzw. Vorlagenbildern, wird die Erzeugung und Speicherung von großen Dokumentbild-Datenbanken möglich. Mögliche Verwendungen für derartige Bilddatenbanken stellen elektronische Bibliotheken, medizinische Dokumente, Verwaltungsaufzeichnungen, Nachrichtenclips, Pläne, Verwaltungsformulare, Handbücher, usw. dar. Im Allgemeinen ist es nun weniger teuer, ein Dokument abzutasten und es auf einem elektronischen Speichermedium zu speichern, als das Dokument physikalisch zu speichern.
Bei derartigen großen Dokument-Bilddatenbanken ergibt sich jedoch das Problem, gewünschte Dokumente aus der Datenbank zu identifizieren und wiederzugewinnen. Eine bekannte Technik zum Abfragen einer Vorlagendatenbank besteht darin, nach einem Textstring bzw. nach einer Textzeichenkette oder einer Kombination von Textstrings bzw. Textzeichenketten zu suchen, die wahrscheinlich in einem gewünschten Dokument gefunden werden. Was das abgetastete Dokumente angeht, beruht diese Technik auf einer genauen optischen Zeichenerkennung (OCR bzw. "optical character recognition"), die nicht immer machbar sein kann. Ebenso ist es häufig schwierig, einen Textstring oder Strings zu erzeugen, die sowohl in einem gewünschten Dokument gefunden werden als auch im ausreichenden Maße das gewünschte Dokument von anderen unterscheiden.

Die europäische Patentanmeldung Nr. EP 0 643 358 A2 offenbart ein Verfahren für eine Bildsuche und eine entsprechende Vorrichtung dazu. Durch einen Benutzer wird ein Suchbild erstellt, das als Schlüssel für die Bildsuche dient. Farbinformation des Suchbildes wird gewonnen, und aufgrund dieser Farbinformation wird eine Datenbasis nach Bildern durchsucht, die eine vergleichbare Farbinformation aufweisen. Anschließend wird das in der Datenbank gefundene Dokument bzw. werden die in der Datenbank gefundenen Dokumente als Ergebnis des Suchvorganges angezeigt. Bei dem Verfahren und der Vorrichtung gemäß EP 0 643 358 A2 wird also eine ganz bestimmte Art von Information, nämlich Farbinformation, zur Charakterisierung des Suchbildes benutzt.

In der Veröffentlichung „Fast Multiresolution Image Querying" von Charles E. Jacob et al. in „Proceedings of SIGGRAPH 95, in Computer Graphics Proceedings, Annual Conference Series, Seiten 277 bis 286, August 1995, wird ein Verfahren zum Durchstöbern einer Bilddatenbank offenbart. Dazu wird ein Suchalgorithmus benutzt, der eine hochauflösende Wavelet-Zerlegung von Bildern verwendet. Für jedes gemäß des Algorithmus verarbeitete Bild werden die Koeffizienten dieser Zerlegungen zur Charakterisierung des Bildes benutzt. Neben der genauen Darstellung des auf dem Algorithmus basierenden Verfahrens wird darauf hingewiesen, dass es im Prinzip denkbar ist, verschiedene Formen bzw. Methoden von Abfragen miteinander zu verbinden. Beispielhaft werden inhaltsbasierte Abfragen und schlüsselwortbasierte Abfragen genannt. Auf welche Art und Weise eine solche Kombination allerdings im Detail erfolgen soll, wird in dem Artikel „Fast Multiresolution Image Querying" offengelassen.

Die Offenlegungsschrift DE 34 46 593 A1 ist auf ein Verfahren und eine Vorrichtung zur Bilddatei-Registrierung und Wiedergewinnung gerichtet. Das Auffinden eines Dokumentes mittels eines sogenannten Bildindexes wird ermöglicht. Dieser Bildindex entspricht den aus der Fotographie bekannten sogenannten Indexprints, also einem verkleinerten Bild mit reduzierter Auflösung des Originalbildes. Der Bildindex ist eindeutig einem bestimmten Bild zugeordnet und stellt insofern eine optische Kennziffer für das Bild dar. Eine Suche nach einem ähnlichen Dokumentbild findet nicht statt, da bei dem in Rede stehenden Verfahren eine eindeutige Zuordnung zwischen dem Bildindex und dem Bild existiert.

Die deutsche Offenlegungsschrift DE 38 40 405 A1 ist auf eine Datenverarbeitungsvorrichtung mit einer Funktion zum Abrufen von abstrakten und Originalbilddaten gerichtet. Um eine gewünschte Bilddatei abzurufen, muss der Bediener der Vorrichtung einen Abrufcode kennen. Es ist dem Bediener nicht möglich, ein Bilddokument aufzufinden, wenn er den Abrufcode nicht kennt. Das Auffinden von ähnlichen Dokumenten ist mit der genannten Vorrichtung nicht möglich.

Es ist die Aufgabe der vorliegenden Erfindung, ein verbessertes Verfahren zum Durchsuchen einer Dokument-Bilddatenbank und ein verbessertes Dokumentbild-Durchstöberungssystem bereitzustellen, wobei das Auffinden eines ähnlichen Dokumentes ermöglicht wird.

Die erfindungsgemäße Aufgabe wird gelöst durch den Gegenstand der unabhängigen Ansprüche. Die abhängigen Ansprüche sind auf bevorzugte Ausführungsformen gerichtet.

Häufig weiß der Benutzer etwas darüber, wie ein gewünschtes Dokument aussieht. Es wäre von Vorteil, diese Information beim Abfragen einer Dokument-Bilddatenbank zu nutzen.

Die vorliegende Erfindung stellt ein Verfahren zum Durchsuchen einer Dokument-Bilddatenbank und ein Dokumentbild-Durchstöberungssystem zum Abfragen einer Dokument-Bilddatenbank dar, und zwar basierend auf einer Struktur bzw. einem inneren Aufbau und analytisch unterscheidbare Muster in den Dokument-Bildern der Datenbank. Es kann eine Dokument-Bilddatenbank nach Dokumenten mit einer bestimmten Struktur bzw. einem bestimmten inneren Aufbau auf eine Vielfalt von Weisen durchstöbert bzw. durchsucht werden. Zum Beispiel kann ein Benutzer ein Beispiel-Dokumentbild eingeben, das ein zu dem gewünschten Dokument ähnliches Erscheinungsbild aufweist. Alternativ kann der Benutzer eine einfache Schnittstelle verwenden, um ein synthetisches bzw. künstliches Dokument zu definieren, und zwar basierend auf der Auswahl weniger Kategorien. Das synthetische Dokument würde dann als ein Beispiel für eine Suche dienen. Oder der Bediener kann eine graphische Schnittstelle verwenden, um genauer ein Beispiel für eine Suche festzulegen. Somit stellt die Kenntnis des Benutzers über das allgemeine Erscheinungsbild des gewünschten Dokuments oder der Dokumente (und insbesondere deren Umwandlung in physikalische Werte bzw. elektrische Signale, die von der Datenbank bz.w einem Computer verarbeitbar sind,) die Grundlage für die Suche dar.

Wenn einmal der Benutzer die Suche gestartet hat, wird ein Dokumentbild oder werden mehrere Dokumentbilder ausgewählt, und zwar basierend auf der Ähn lichkeit ihrer Struktur oder ihres inneren Aufbaus mit dem Beispiel. Diese Bilder können in einer Piktogrammgestalt bzw. in einer Ikongestalt auf einem Papier dargestellt oder gedruckt werden. Der Benutzer kann ein weiteres Durchblättern bzw. Durchstöbern auslösen, indem ein dargestelltes Dokument als ein Suchschlüssel für eine neue Suche ausgewählt wird. Bei einer Ausführungsform werden Dokumentbilder in der Datenbank zusammen gruppiert bzw. geclustert und wenn eine Abfrage durchgeführt wird, werden Darstellungen für die Gruppen bzw. Cluster dargestellt, die Bilder beinhalten, die bezüglich ihrer Struktur dem Suchschlüssel ähneln.

Bei einer Ausführungsform werden Seiten mit einem ähnlichen Erscheinungsbild identifiziert, wenn der Benutzer die Anzeige mehrerer Seiten eines Dokuments verlangt. Bezüglich der Seiten, die dahingehend identifiziert wurden, daß sie ein ähnliches Erscheinungsbild aufweisen, werden Bilder der Seiten einander überlagert und leicht versetzt dargestellt.

Die Grundlage für Dokument-Bildsuchvorgänge liegt in einer Analyse der Struktur bzw. des inneren Aufbaus eines Bildes. Ein Merkmalsvektor wird für jedes Bild extrahiert. Eine Ähnlichkeit zwischen Bildern wird auf einer Abstandsmetrik gegründet, wie sie für die Merkmalsvektoren paßt bzw. gilt. Bei der bevorzugten Ausführungsform weist der Merkmalsvektor 80 Elemente auf. Der Merkmalsvektor gründet stets auf vier unterschiedlichen Arten und Weisen der Bildverarbeitung. Die ersten 20 Elemente basieren auf einem Histogramm von verbundenen Komponentengrößen bzw. Verbindungskomponenten-Größen ("connected component sizes"), und zwar durchgehend für das Bild. Verbundene Komponenten ("connected components") werden im folgenden auch Verbindungskomponenten genannt. Die zweiten 20 Elemente werden aus einer Übersicht bzw. Vermessung von Interessenpunkten bzw. Punkten von Interesse über das ganze Dokument bzw. durchgehend bezüglich des Dokuments erhalten. Die dritten 20 Elemente werden von einem vertikalen Projektionshistogramm ver bundener Bestandteile bzw. Komponenten erhalten. Der letzte Satz von 20 Elementen wird erhalten, indem das Dokument in 20 Zellen aufgeteilt wird und die verbundenen Bestandteile bzw. Komponenten in jeder Zelle aufsummiert werden.

Bei einer Ausführungsform werden Suchverfahren, basierend auf einer Kombination von Bildstruktur und Text verwendet, um eine Bilddatenbank abzufragen, und zwar dort, wo eine optische Zeichenerkennung (OCR) mit den Bildern der Datenbank durchgeführt wurde. Durch die Kombination der beiden Datentypen kann Text verwendet werden, um nach den OCR-Daten, die dem Bild zugeordnet sind, zu suchen, und die Strukturdaten können für eine Suche, basierend auf dem allgemeinen Erscheinungsbild des Bildes verwendet werden.

Die vorliegende Anmeldung basiert auf der prioritätsbegründenden US-Patentanmeldung S.N.08/609,641, angemeldet am 1. März 1996.

Ein weiteres Verständnis der Natur und der Vorteile der Erfindungen hierin kann realisiert werden, indem auf die verbleibenden Abschnitte der Beschreibung und der beigefügten Zeichnungen bezuggenommen wird. Dabei können Merkmale verschiedener Ausführungsformen untereinander kombiniert werden.
1 zeigt ein Computersystem, das zur Realisierung der vorliegenden Erfindung geeignet ist.
2 zeigt ein Flußdiagramm auf oberstem Niveau, das den Betrieb des Dokument-Bilddatenbank-Abfragesystems beschreibt.
3 zeigt einen Benutzer-Schnittstellen-Bildschirm zum Entwickeln eines synthetischen Dokumentenbildes, basierend auf Kategorieselektionen als ein Beispiel, um eine Suche zu starten.
4 zeigt einen Benutzer-Schnittstellen-Bildschirm, bei dem ein Be nutzer graphische Werkzeuge verwenden kann, um ein Basis-Dokumentenbild zu entwickeln, um eine Suche zu starten.
5 zeigt, wie Suchergebnisse für eine Bilddatenbank mit Clustern bzw. Gruppen gezeigt werden können.
6 zeigt, wie Bilder mehrerer Seiten eines Berichts gezeigt werden können.
7A zeigt die Elemente eines Merkmalvektors, der aus einem Dokumentbild extrahiert wird.
7B zeigt ein verbundenes Komponenten-Größen-Histogramm, wie es innerhalb eines Merkmalvektors eingebracht werden würde.
7C zeigt, wie Interessen-Operator-Information, wie sie innerhalb eines Merkmalvektors eingebaut bzw. eingebunden werden würde, arbeitet, um Unterscheidungen zwischen Dokumenten mit unterschiedlichen Font-Größen durchzuführen.
7D zeigt ein Vertikalprojektions-Verbindungskomponentenhistogramm, wie es innerhalb eines Merkmalvektors eingebracht bzw. eingebunden werden würde.
7E zeigt, wie die Verteilung von verbundenen Komponenten bzw. Verbindungskomponenten unter Gitterzellen, wie sie innerhalb eines Merkmalvektors inkorporiert werden würden, arbeitet, um unter Dokumenten mit unterschiedlichen Anordnungen von Komponenten zu unterscheiden.
8 zeigt ein repräsentatives Basis-Dokumentenbild, das zur Suche in Übereinstimmung mit der vorliegenden Erfindung verwendet wird, und Suchergebnisse.
System, das zur Implementation der vorliegenden Erfindung geeignet ist
1 zeigt ein Basis-Untersystem eines Computersystems, das zur Verwendung mit der vorliegenden Erfindung geeignet ist. In 1 beinhaltet das Computersystem einen Bus 12, der Haupt-Untersysteme, wie zum Beispiel eine zentrale Verarbeitungseinheit bzw. einen Hauptprozessor 14, einen Systemspeicher 16, eine Eingabe/Ausgabe- (I/O bzw. "input/output") Steuereinrichtung 18, eine externe Vorrichtung, wie zum Beispiel einen Drucker 20 über einen Parallelport 22, einen Anzeigebildschirm 24 über einen Anzeigeadapter 26, einen seriellen Port 28, eine Tastatur 30, ein Festplattenlaufwerk 32 und ein Diskettenlaufwerk 33, das arbeitet, um eine Diskette 33A aufzunehmen, verbindet. Viele andere Vorrichtungen können angeschlossen werden, wie zum Beispiel eine Abtastvorrichtung 34, das über eine externe Schnittstelle 36 angeschlossen ist, eine Maus 38, die über ein serielles Port 28 angeschlossen ist, und einen Berührungsbildschirm bzw. Touchscreen 40, der direkt angeschlossen ist. Viele andere Vorrichtungen und Untersysteme (nicht gezeigt) können auf eine ähnliche Art und Weise angeschlossen werden. Ebenso ist es nicht für alle in der 1 gezeigten Vorrichtungen erforderlich, daß sie vorhanden sind, um die vorliegende Erfindung in die Praxis umzusetzen, wie im folgenden diskutiert wird. Die Vorrichtungen und Untersysteme können miteinander auf eine Art und Weise verbunden werden, die von jener verschieden ist, die in 1 gezeigt ist. Der Betrieb eines Computersystems, wie zum Beispiel jener, der in 1 gezeigt ist, ist in der Fachwelt gut bekannt und wird in der vorliegenden Anmeldung nicht detailliert diskutiert. Ein Quellkode, um die vorliegende Erfindung zu realisieren, kann betriebsmäßig in einem Systemspeicher 16 abgelegt oder auf einem Speichermedium, wie zum Beispiel einer Festplatte oder einer Diskette 33A gespeichert werden. Eine Bilddatenbank kann ebenso auf einer Festplatte 32 gespeichert werden.
Ein Anzeigebildschirm 24 ähnelt jenem, der bei Standardcomputern, wie zum Beispiel Personalcomputern oder Workstations verwendet wird, die einen Kathodenstrahlröhren(CRT)-Bildschirm oder einen Monitor verwenden. Verschie dene Formen von Bediener-Eingabevorrichtungen können zusammen mit der vorliegenden Erfindung verwendet werden. Zum Beispiel eine Maus-Eingabevorrichtung, die es einem Benutzer erlaubt, einen Zeiger, der auf einem Anzeigebildschirm dargestellt wird, in Übereinstimmung mit den Handbewegungen eines Benutzers zu bewegen, stellt eine Standard-Benutzereingabevorrichtung dar. Eine Maus beinhaltet üblicherweise eine oder mehrere Tasten auf seiner Oberfläche, so daß der Benutzer auf ein Objekt auf dem Bildschirm zeigen kann, indem die Maus bewegt wird und das Objekt ausgewählt wird, oder indem auf andere Weise das Objekt aktiviert wird, indem eine oder mehrere Tasten auf der Maus gedrückt werden. Alternativ erlaubt ein Berührungsbildschirm bzw. ein Touchscreen einen Benutzer, auf Objekte auf dem Bildschirm zu zeigen, um ein Objekt auszuwählen, und um das ausgewählte Objekt zu bewegen, indem auf eine zweite Position auf dem Bildschirm gezeigt wird. Verschiedene Tasten und Steuerungen können auf dem Bildschirm gezeigt werden, um sie zu aktivieren, indem die Maus oder der Touchscreen verwendet wird. Bei einem Festplattenlaufwerk 32 kann es sich um ein Festplattenlaufwerk oder um ein optisches Laufwerk oder um irgendein Medium handeln, das zum Speichern einer Datenbank von Dokumentenbildern geeignet ist.
Überblick über das Suchverfahren
Es wird ein Dokument-Bilddatenbank-Suchsystem bereitgestellt, das auf der Verwendung von Basis-Dokumentbild bzw. als Basis dienenden Dokumentbild als Schlüssel für die Suche basiert. Durch Wechselwirkung mit dem System der vorliegenden Erfindung auf eine einer Anzahl von Weisen entwickelt der Benutzer ein Basis-Dokumentbild. Vorzugsweise findet das System, basierend auf einer Struktur des Beispielbildes eine oder mehrere Übereinstimmungen und zeigt sie als Suchergebnisse an. Der Benutzer kann dann ein übereinstimmendes Bild als einen Schlüssel für eine weitere Suche in der Datenbank auswählen.
2 zeigt ein Flußdiagramm auf oberstem Niveau, das dem Betrieb des Dokument-Bilddatenbank-Abfragesystems der vorliegenden Erfindung beschreibt. Im Schritt 202 wird ein Basis-Dokumentbild entwickelt. Zum Beispiel kann der Benutzer ein bekanntes Basis-Dokumentbild aus einem Diskettenlaufwerk 32 wiederfinden. Oder der Benutzer kann ein Bild einscannen, indem eine Abtastvorrichtung 34 verwendet wird. Andere Techniken zum Entwickeln eines Basis-Dokumentbilds werden unter Bezugnahme auf 3 und 4 beschrieben.
Das Basis-Dokumentbild, das im Schritt 202 entwickelt wird, dient als Grundlage für die Suche. Die Suche beruht auf einem Vergleich von Bildmerkmalen, wie sie über Bereiche des Dokuments gewonnen bzw. berechnet werden. Die Wirkung liegt darin, daß Dokumentbilder gefunden werden, die ein zu dem Basis-Dokumentbild ähnliches allgemeines Erscheinungsbild aufweisen. Dementsprechend wird dem Schritt 204 eine Bildmerkmalsinformation über das Basis-Dokumentbild erhalten. Diese Bildmerkmalsinformation nimmt die Gestalt eines Bildmerkmalvektors ein, dessen Zusammensetzung unter Bezugnahme auf die 7A - 7E diskutiert wird.
Die Datenbasis beinhaltet vorzugsweise auf ähnliche Weise erhaltene Bildmerkmalsinformationen für die Datenbankbilder. Im Schritt 206 wird die Bildmerkmalsinformation, die aus dem Basis-Dokumentenbild erhalten wird, als ein Schlüssel für eine Suche in der Datenbank verwendet. Die Bildmerkmalsinformation ist ein Merkmalsvektor, und es wird vorzugsweise eine euklidische Abstandsmetrik verwendet, um Dokumentenbilder zu finden, die dem Basis-Dokumentbild ähnlich sind. Alternativ kann ein Mahalanobis-Abstand, ein Hausdorff-Abstand oder ein gewichtetes Übereinstimmungsschema verwendet werden, um ähnliche Dokumentenbilder zu finden. Bei einer Ausführungform nutzt das Suchverfahren den Vorteil einer Gruppierung bzw. einer Clusterbildung in der Bilddatenbank, um Clusterknoten zu finden, die Punkte darstellen, die in der Nähe des Basis-Dokumentbildes in dem Bildmerkmal-Vektorraum liegen.
Im Schritt 208 werden ähnliche Dokumentbilder dargestellt. Bei einer Ausführungsform werden die drei Bilder in der Datenbank, die am ähnlichsten sind, dargestellt. Alternativ werden Piktogramme bzw. Ikons dargestellt, die Cluster bzw. Gruppen darstellen, die Bilder mit ähnlichen Charakteristiken enthalten.
Im Schritt 210 kann der Benutzer eines der dargestellten Dokumentbilder oder Clusterpiktogramme als einen Schlüssel für die weitere Suche wählen. Das System nutzt dann das ausgewählte Bild oder das Clusterpiktogramm als ein neues Beispiel-Dokumentenbild und kehrt zum Schritt 206 zurück.
Bei einer Ausführungsform beinhaltet die Bilddatenbank Dokumentenbilder in verschlüsselter Form. Die Merkmalsinformation, die verwendet wird, um zu suchen, ist jedoch unverschlüsselt. Wenn gewünschte Dokumentenbilder identifiziert sind, werden sie für die Anzeige entschlüsselt. Gemäß dem Stand der Technik werden verschlüsselte Dokumentendatenbanken durchsucht, indem unverschlüsselte Schlüsselwort-Information verwendet wird. Gemäß obigem Beispiel ist es vorteilhaft, dass die unverschlüsselte Bildmerkmalsinformation nicht leicht verständlich ist und immer noch eine Sicherheitsmaßnahme bereitstellt. Im Gegensatz dazu können die Schlüsselwörter, die gemäß dem Stand der Technik unverschlüsselt geblieben sind, leicht verstanden werden, wodurch die Sicherheit gefährdet ist.
Bei einer verwandten Ausführungsform beinhaltet die Bilddatenbank Dokumentenbilder in einer komprimierten Form, während die Merkmalsinformation, die für die Suche verwendet wird, nicht komprimiert ist. Wenn gewünschte Dokumentenbilder identifiziert werden, werden sie zur Anzeige dekomprimiert.
Benutzerschnittstellen zum Entwickeln eines Basis-Dokumentbildes
3 zeigt einen Benutzerschnittstellenbildschirm 300 zum Entwickeln eines synthetischen Basis-Dokumentbildes, basierend auf Kategorieselektionen als ein Beispiel, um eine Suche in Übereinstimmung miteiner Ausführungsform der vorliegenden Erfindung zu starten. Ein Benutzerschnittstellenbildschirm 300 kann auf einem Touchscreen 40 realisiert werden, wobei der Benutzer Selektionen vornimmt, indem die Auswahl von Kategorien spezifiziert wird, indem die vielfältigen angezeigten Tasten bzw. Schaltflächen berührt werden. Alternativ kann eine Maus oder eine andere vergleichbare Eingabevorrichtung verwendet werden, um die verschiedenen Kategorien auszuwählen.
Eine erste Spalte 302 von Schaltflächen, die den Titel "Struktur" bzw. "Textur" trägt, ermöglicht es dem Benutzer einen Dokumententyp auszuwählen. Es werden Schaltflächen bzw. Tasten für "Zeitung" 304, "Geschäftsbrief' 306, "Journal/Magazin" 308, "Katalog/Broschüre" 310 und "Handgeschriebenes" 312 bereitgestellt. Der Benutzer wählt den Dokumententyp bezüglich der Dokumente die er/sie sucht.
Eine zweite Spalte 314 von Schaltflächen bzw. Tasten, die den Titel "Layout" trägt, erlaubt es dem Bediener, die Anzahl von Spalten von Text auszuwählen, die in den Dokumenten gefunden werden, nach denen er/sie sucht. Schaltflächen werden für eine Spalte 316, für zwei Spalten 318 und für drei Spalten 320 bereitgestellt.
Eine dritte Spalte 322 von Schaltflächen bzw. Tasten, die den Titel "graphische Gestaltung" trägt, erlaubt es dem Benutzer die relative Anordnung eines Dokumententitels, von Text und eines graphischen Bildes auszuwählen, wie sie in einem gewünschten Suchergebnis gefunden werden würde. Jede Schaltfläche zeigt eine mögliche Anordnung. Eine Schaltfläche 324 zeigt einen Titel 326, der sich oberhalb eines graphischen Bildes 328 und eines Textes 330 befindet. Eine Schaltfläche 338 zeigt einen Titel 340 oberhalb eines graphischen Bildes 342. Eine Schaltfläche 344 zeigt ein graphisches Bild 346 in der Nähe des Textes 348.
Indem eine Auswahl aus jeder der drei Spalten getroffen wird, kann der Benutzer schnell das allgemeine Erscheinungsbild des gewünschten Dokuments oder der gewünschten Dokumente übermitteln. Nachdem der Benutzer seine bzw. ihre Selektionen gemacht hat, startet die Aktivierung einer "Finde"-Schaltfläche 350 eine Suche, die auf einer Bildmerkmalinformation basiert, die den Selektionen des Benutzers entspricht. Diese Selektionen des Benutzers können als derartige verstanden werden, die ein Basis-Dokumentenbild spezifizieren, das als ein Schlüssel für die Suche in derselben Art und Weise dient, wie dies ein abgetastetes Bild tuen würde. Natürlich sind die verschiedenen Kategorien und die Auswahl, die in 4 gezeigt ist, nur beispielhaft.
4 zeigt eine vereinfachte Darstellung eines Benutzerschnittstellenbildschirms 400, bei dem ein Benutzer graphische Werkzeuge verwenden kann, um ein Basis-Dokumentbild zu entwickeln, um eine Suche in Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung zu starten. Ein Benutzerschnittstellenbildschirm 400 bietet mehr Flexibilität bei der Spezifizierung eines Basis-Dokumentbildes, als das System, das unter Bezugnahme auf 3 beschrieben ist.
Der Benutzer folgt einer Prozedur entlang der Rute, die er bei typischen computerunterstützten Zeichenpaketen folgen würde. Der Benutzer wählt einen Dokumentkomponententyp, wie zum Beispiel eine Kopfzeile, Autor, Titel, Hauptkörper, Fußnote, Bild etc., indem eine Palette 402 verwendet wird. Eine Palette 404 wird verwendet, um eine Fontgröße bzw. eine Schriftzeichensatzgröße für Textkomponenten zu spezifizieren und um zwischen Strichzeichnungs- und Halbtonbildern für Bildkomponenten zu unterscheiden. Die Auswahl einer Dokumentkomponente kann die Verwendung einer Maus 38, um einen Zeiger über den relevanten Palettenabschnitt zu positionieren, das Niederdrücken einer Taste auf der Maus 38, das Positionieren des Zeigers bei einem gewünschten Punkt innerhalb eines Dokumentenbildes 406 und das erneute Niederdrücken der Taste beinhalten. Die Größe und Position der Dokumentenkomponente kann dann justiert werden, indem Techniken, die für computerunterstützte Zeichenpakete typisch sind, verwendet werden.
Zahlreiche Variationen sind möglich bei dieser Benutzerschnittstelle. Um dem Benutzer eine Rückwirkung bzw. eine Systemreaktion bereitzustellen, kann das System einen aktuellen Text oder Grafikbilder in den bezeichneten Positionen innerhalb des Dokumentenbildes 406 darstellen. Ebenso kann der Benutzer die Dokumentenstruktur mit größerer Genauigkeit spezifizieren, indem die Fontgröße oder der Typenstil der Textbereiche des Dokumentenbildes spezifiziert wird.
Nach einer Reihe von Interaktionen bzw. Wechselwirkungen mit dem Benutzerschnittstellenbildschirm 400, ergibt sich ein Bild, wie zum Beispiel ein Dokumentenbild 406 und dieses Bild ist für eine Verwendung als ein Basis-Dokumentbild für eine Suche verfügbar. Eine symbolische Darstellung 408 zeigt die Ergebnisse einer Suche, die auf einem Basis-Dokumentbild 406 basiert.
In Übereinstimmung mit einer Ausführungsform der vorliegenden Erfindung wird eine Textabfrage mit einer Struktursuche kombiniert. Eine Textabfrage würde durch die Entwicklung eines Basis-Dokumentbildes mittels irgendeiner Technik, die eine der oben beschriebenen beinhaltet, formuliert werden. Eine Textabfrage würde eine oder mehrere Text-Zeichenketten bzw. Text-Strings beinhalten, die bei einem gewünschten Dokument gefunden werden würden. Die Suchergebnisse würden auf Bilder beschränkt werden, die die Kriterien von sowohl der Textabfrage als auch der Textsuche erfüllen. Diese besondere Abfragetechnik ist natürlich auf Bilddatenbanken beschränkt, für die OCR-Ergebnisse verfügbar sind. Als erstes würden Dokumente mit Bilder wiedergefunden werden, die das gewünschte Muster an Text-Strings beinhalten. Die wiedergewonnenen Bilder werden dann nach Bildern durchsucht, die eine Struktur aufweisen, die der spezifizierten ähnlich ist.
Alternativ wird eine Bildstruktur verwendet, um die Ergebnisse zu organisieren, die durch eine Textabfrage wiedergegeben werden. Als erstes werden Dokumentenbilder, die das gewünschte Muster an Text-Strings beinhalten, wiedergewonnen. Cluster bzw. Gruppen von Dokumenten mit ähnlichen Strukturen werden dann zusammen gruppiert. Diese Gruppen von Dokumenten werden dem Benutzer angezeigt, indem zum Beispiel eine Overlay-Technik verwendet wird, die früher beschrieben wurde. Diese Technik stellt einen einfachen Weg bereit, um zwischen Dokumenten von unterschiedlichen Quellen Unterscheidungen zu treffen. Man betrachtet zum Beispiel eine Datenbank, die Bilder von Zeichnungen und Artikeln wissenschaftlicher Journale beinhaltet. Eine Textabfrage kann Dokumente von beiden Typen von Quellen wiedergeben. Jedoch kann der Benutzer nur in den Ergebnissen von einer von ihnen interessiert sein. Die Bildstruktur-Clusterbildung stellt ein Verfahren für einen Benutzer bereit, um schnell Zeitungsartikel von Artikeln wissenschaftlicher Journale zu unterscheiden.
Suchergebnisanzeige
5 zeigt, wie Suchergebnisse für eine geclusterte Bilddatenbank bzw. eine gruppierte Bilddatenbank dargestellt werden kann. Eine Bilddatenbank mit Clustern ist eine, wo Bilder in einer hierarchischen Struktur gemäß ihrer Position in dem Raum zusammen gruppiert werden, der durch den Bildmerkmalsvektor festgelegt ist. Die Datenbasis wird in eine oder mehrere Gruppen aufgeteilt. Je de Gruppe kann wiederum aus einer oder mehreren Untergruppen bestehen. Eine Beschreibung der Clusterbildung kann in Duda & Hart, "Pattern Classification & Scene Analysis" (John Wiley & Sons 1973), deren Inhalt hiermit durch Bezugnahme aufgenommen wird.
Falls es ein einziges Hierarchieniveau gibt, werden bei einer Abfrage alle Bilder in dem Cluster, die dem Basis-Bilddokument am nächsten sind, in dem Bildmerkmals-Vektorraum zurückgegeben. 5 zeigt die Ergebnisse einer Durchblätterungssuche, die in dem Kontext bzw. im Zusammenhang einer Vielfach-Niveau-Hierarchie von Clustern dargestellt sind. Das Niveau 500 zeigt Piktogramme, die Clusterknoten darstellen. Der Benutzer steigt in der Hierarchie weiter ab, indem eines der Piktogramme als ein Schlüssel für die weitere Suche ausgewählt wird. Schließlich kann der Benutzer ein Blatt-Cluster ("leaf cluster") erreichen, d.h. eine Gruppe von tatsächlichen Bildern im Gegensatz zu Cluster-Knoten. Diese Bilder werden dann dargestellt.
Ein Weg der Realisierung der auf Cluster basierenden Suche ist es, die Clusterstruktur jedesmal neu zu berechnen, wenn eine Abfrage vorgelegt bzw. gefordert wird. Eine andere Art und Weise der Realisierung der auf Cluster basierenden Suche ist es, die Clusterstruktur vor der Suche zu berechnen, indem vorzugsweise Strukturinformation verwendet wird. Der zuvor beschriebene Suchprozeß gleicht dann im wesentlichen der Navigation durch einen Baum.
6 zeigt eine verbesserte Anzeige für Dokumente mit mehreren Seiten. Häufig stellt ein gewünschtes Dokumentbild eine Seite einer Bilddatenbank dar. Zum Beispiel sind in der gutbekannten Berkeley-Bilddatenbank Reports bzw. Berichte von 50 Seiten üblich. Viele Seiten dieser Reports sind nur Text und neigen dazu, ähnliche Strukturmerkmale aufzuzeigen, was ein Wiederfinden schwierig macht. Die Seiten, die die interessantesten Merkmale für den Benutzer für das Durchblättern bzw. Durchstöbern bereitstellen, sind die Titelseite, die Seite mit der Inhaltsangabe, Diagramme, Figuren etc. Diese stellen ebenso die Seiten dar, die die besten Merkmale bereitstellen, von denen aus weitere Abfragen der Datenbank vorgenommen werden können.
Vorzugsweise erscheint ein Dokument mit mehreren Seiten zu Beginn als ein einziges Bild, wenn ein Suchergebnis dargestellt wird. Jedoch kann der Benutzer bewirken, daß das gesamte Dokument erscheint, indem dieses Bild ausgewählt wird. Eine Anzeige 602 zeigt die Suchergebnisse einschließlich der mehreren Seiten 606 desselben Reports, die ein ähnliches Erscheinungsbild aufweisen. Man kann erkennen, daß für Reports mit Hunderten von Seiten die Anzeige bald mit sich wiederholenden Bildern überhäuft ist. Eine verbesserte Darstellung 604 zeigt mehrere Seiten 606 desselben Reports, wobei dessen Bilder mit einem leichten Versatz von Seite zu Seite überlagert sind. Eine verbesserte Anzeige 604 zeigt eine erheblich geringere Überhäufung.
Um die verbesserte Darstellung zu erreichen, wenn ein Report mit mehreren Seiten dargestellt werden soll, werden Seiten mit einem im Wesentlichen gleichen Erscheinungsbild identifiziert, indem ihre Seitenmerkmalsinformation verglichen wird. Die Bilder dieser Seiten werden dann dargestellt, wobei ihre Bilder mit einem Offset von Seite zu Seite überlagert werden.
Merkmalsvektorextraktion
7A zeigt die Elemente eines Merkmalvektors 700, die von einem Dokumentbild extrahiert werden. Vorzugsweise beinhaltet ein Merkmalsvektor 700 80 Elemente, die stets vier Gruppen von bevorzugt 20 Elementen beinhalten. Eine erste Gruppe von 702 von 20 Elementen stellt ein Histogramm von verbundenen Komponentengrößen dar und wird weiter unter Bezugnahme auf 7B diskutiert. Eine zweite Gruppe 704 von 20 Elementen stellt eine Verteilung von Interessepunkten durchgehend über die Zellen des Dokumentbildes dar und wird weiter unter Bezugnahme auf 7C diskutiert. Eine dritte Gruppe 706 von 20 Elementen stellt ein Vertikalprojektions-Histogramm einer Verbindungskomponentendichte dar und wird weiter unter Bezugnahme auf 7D diskutiert. Eine vierte Gruppe 708 von 20 Elementen stellt eine Verteilung von Verbindungskomponenten bzw. verbundenen Komponenten durchgehend über Zellen des Dokuments dar und wird weiter unter Bezugnahme auf 7E diskutiert.
7B zeigt ein Verbindungskomponenten-Größenhistogramm 710, wie es in einem Merkmalsvektor 702 inkorporiert werden würde. Das Histogramm 710 basiert auf einer Verbindungskomponenten-Größeninformation, die von dem Bild erhalten wird. Eine einzige Verbindungskomponente stellt einen Satz von benachbarten schwarzen Pixeln in einem Bild dar. Um die Größe einer Verbindungskomponente zu bestimmen, findet die bevorzugte Ausführungsform das Gebiet der rechteckigen Box minimaler Größe, das sie umschließt. Alle anderen Arten der Bestimmung einer Verbindungskomponentengröße gehören ebenfalls zum Umfang der vorliegenden Erfindung. Zum Beispiel kann die diagonale Abmessung der umfassenden bzw. einschließenden rechteckigen Box die Verbindungskomponentengröße sein. Schließlich könnte noch, wenn dies zusätzlich erwünscht wird, mit dem Bild eine. Filterung durchgeführt werden, bevor eine Verbindungskomponentengröße bestimmt wird.
Horizontale und vertikale Achsen 712 und 714 des Histogramms werden vorzugsweise zu einer logarithmischen Skale normalisiert. Weiter könnte man zusätzlich noch eine Gewichtung mit dem Histogrammbins vornehmen. Ein Plot 716 zeigt das Histogramm für eine symbolische Seite bzw. repräsentative Seite eines Magazins. Ein Plot 718 zeigt das Histogramm für eine symbolische bzw. repräsentative Seite eines technischen Journals. Wie man sehen kann, ist die Information von diesem Histogramm nützlich, um zwischen verschiedenen Typen von Dokumenten zu unterscheiden.
Die zweite Gruppe 704 von 20 Merkmalvektorelementen basiert auf einer Interessenpunktinformation. Interessenpunkte sind Pixel innerhalb eines Bildes, die innerhalb von Gebieten liegen, die unterschiedliche bzw. zu unterscheidende Merkmale aufweisen. Jeder Interessenpunkt weist einen identifizierten bzw. erkannten Interessenpegel auf. In der Fachwelt ist ebenso bekannt, daß Interessenpunkte ("interest points") und ihre zugeordneten Interessenpegel ("interest levels") gefunden werden, indem sogenannte Interessenoperatoren auf die Pixel eines Bildes angewendet werden. Die bevorzugte Ausführungsform sieht einen Vorteil aus einem modifizierten Moravec-Operator, der dem ähnelt, der in der US-Patentanmeldung mit der Seriennummer 08/527826 "SIMULTANEOUS REGISTRATION OF MULTIPLE IMAGE FRAGMENTS" beschrieben ist, die auf den Anmelder dieser Anmeldung überschrieben ist.
Für jeden Pixel wird der modifizierte Moravec-Varianzoperator an jedem der sechs Radien von dem Pixel aus bestimmt. Für einen gegebenen Pixel und einen Radius stellt der Interessenpegelwert bzw. Interessenniveauwerte die Varianz der Pixelwerte der vier Pixel dar, die sich um einen gegebenen Radius weg, oberhalb, unterhalb, links und rechts von dem gegebenen Pixel befinden. Typischerweise sind Dokumentenbilder binär und die Pixelwerte sind entweder Null oder stellen einen Skalenendwert bzw. einen Höchstwert dar. Die Interessenpegelwerte werden in drei Bins sortiert, in einen Niedriginteressenwert, einen mittleren Interessenwert und in einen Hochinteressenwert. Andere Interessenoperatoren können ebenso verwendet werden. Einen Überblick über Interessenoperatoren wird in Yan "Interest Operators and Fast Implementation" International Archives of Photogrammetry and Remote Sensing, Band 27-II, Japan, Seiten 491-500, 1988, gefunden.
Jede Kombination aus Radius und Interessenpegelbin wird einem Element in einer zweiten Gruppe 704 zugewiesen. Der Wert des Elements stellt eine nor malisierte Darstellung der Anzahl von Pixel mit dem Interessenpegelwert und Radius, der dem Element zugeordnet ist, dar. Da es sechs Radien gibt und drei Interessenpegel-Wertebins, macht dies 18 von 20 Elementen in der zweiten Gruppe 704 aus.
Die zwei verbleibenden Elemente der zweiten Gruppe 704 stellen spezielle Werte dar. Ein Element beinhaltet einen Wert, der dem Verhältnis der Anzahl von schwarzen Pixel in dem Bild zu der gesamten Anzahl von Pixel entspricht. Ein anderes Element hält einen Wert, der einer gesamten Anzahl von Scharzzu-Weiß-Übergängen entspricht, die bei einer horizontalen Abtastung durch das Bild entdeckt werden.
7C stellt die Nützlichkeit einer Interessenpunktinformation für die Unterscheidung von Dokumentenbildern dar. 7C zeigt einen Buchstaben "t" 720, wobei die Interessenpegel bei verschiedenen Teilen des Buchstabens vorhanden sind. Ein Pixel 722 an einer Ecke weist einen hohen Interessenpegel auf. Ein Pixel 724 im Inneren weist einen niedrigen Interessenpegel auf. Ein Pixel 726 entlang einer Kante weist einen mittleren Interessenpegel auf.
7D zeigt ein Vertikalprojektion-Verbindungskomponentenhistogramm 728, wie es innerhalb eines Merkmalvektors inkorporiert werden würde. Um die dritte Gruppe 706 des Merkmalvektors zu erhalten, wird das Bild in 20 Vertikalstreifen aufgeteilt. Jedes Element der dritten Gruppe entspricht einer Population bzw. einer Gesamtheit von Verbindungskomponenten mit einer Größe oberhalb einer minimalen Schwelle in einem bestimmten Vertikalstreifen. Bei einer bevorzugten Ausführungsform stellt dieses Minimum eine Höhe und eine Breite dar, die beide größer als ein Pixel sind. Diese dritte Gruppe 706 ist besonders bei der Unterscheidung zwischen Dokumenten nützlich, die eine unterschiedliche Anzahl von Spalten im Text aufweisen. Ein erstes Dokument 730 mit einer einzigen Textspalte ergibt die Projektions-Histogrammdarstellung 732. Ein zweites Dokument 734 mit zwei Textspalten ergibt ein Projektionshistogramm 736. Wie man sehen kann, weist das Projektionshistogramm 732 einen Peak auf, der der einzigen Spalte entspricht, wohingegen das Projektionshistogramm 736 zwei Peaks aufweist, die den zwei Spalten entsprechen.
7E zeigt, wie die Verteilung von Verbindungskomponenten zwischen Gitterzellen, wie sie innerhalb eines Merkmalsvektors inkorporiert werden würden, arbeitet, um eine Unterscheidung zwischen Dokumenten mit unterschiedlichen Anordnungen von Komponenten zu treffen. Die vierte Gruppe 708 von Elementen wird erhalten, indem das Bild in ein 5x4-Feld 738 von Zellen aufgeteilt wird und indem die Population bzw. Gesamtheit von Verbindungskomponenten oberhalb einer Schwellengröße in jeder Zelle gefunden wird. Bei der bevorzugten Ausführungsform stellt diese Komponentengröße eine Höhe und eine Breite dar, die größer als ein Pixel ist. Die Population von Verbindungskomponenten bzw. verbundenen Komponenten einer jeden Zelle wird dann in Bezug auf eine Gesamtanzahl von Verbindungskomponenten für das Bild als Ganzes normalisiert. Diese vierte Gruppe 708 ist besonders bei der Unterscheidung zwischen Dokumenten, wie zum Beispiel Dokumente 740 und 742 nützlich, die unterschiedliche Anordnungen von Dokumentkomponenten bzw. Dokumenten-Komponenten aufweisen.
Die Extraktion von Bildmerkmals-Information aus Beispiel-Dokumentenbildern, die durch Kategorieselektion entwickelt wurden, wie unter Bezugnahme auf 3 beschrieben wurde, oder die durch eine graphische Benutzerschnittstelle entwickelt wurden, wie unter Bezugnahme auf 4 beschrieben wurde, folgt einem modifizierten Verfahren bzw. einer modifizierten Prozedur. Bei dem Kategorieselektionsschema von 3 gibt es eine beschränkte Anzahl von möglichen Beispiels-Dokumentenbildern. Ein Verfahren besteht darin, für jede Kombination von Kategorieselektionen ein entsprechendes aktuelles Dokumenten-Bild mit den gewählten Charakteristiken bereitzustellen. Dieses Bild kann dann als die Basis für eine Bildmerkmalsextraktion dienen, wie sie oben unter Bezugnahme auf die 7A - 7E beschrieben wurde.
Für Basis-Dokumentbilder, die entwickelt wurden, indem die Techniken verwendet werden, die unter Bezugnahme auf 4 diskutiert wurden, besteht ein Verfahren darin, ein aktuelles Basis-Dokumentbild zu konstruieren, indem Beispielbildmaterial bzw. Abtastbildmaterial kombiniert wird, das jeder ausgewählten Komponente entspricht. Bezüglich Textkomponenten wird tatsächlicher Text mit aufgenommen. Bezüglich Graphiken wird ein Abtastgraphikbild bzw. ein Beispielgraphikbild mit aufgenommen bzw. mit eingeschlossen. Das so konstruierte aktuelle Basis-Dokumentbild dient als Grundlage für eine Bildmerkmalsextraktion.
Suchergebnisse
8 zeigt ein repräsentatives Beispiel-Dokumentenbild 802, das als ein Beispiel für eine Suche verwendet wird, und Suchergebnisse. In dem ein Beispielbild 802 als der Schlüssel für eine Suche verwendet wird, werden Bilder 804 und 806 und 808 von einer Datenbank von 971 Bildern einschließlich Journalen, Briefen, Magazinen, Broschüren bzw. Katalogen, Zeitungen, Katalogen und handgeschriebenen Text. Das Basis-Dokumentbild 802 stellt einen Geschäftsbrief dar und alle Suchergebnisse sind ebenfalls Geschäftsbriefe. Wie man sehen kann, stellt das Suchsystem der Erfindung Bilder bereit, die vom Anblick her dem Basis-Dokumentbild ähneln.
Die Techniken der vorliegenden Erfindung können ebenso auf Grauskalenbilder angewendet werden, obwohl die obige Beschreibung auf binäre Bilder bezugnimmt. Interessenpunkt-Techniken sind in der Fachwelt für Grauskalenbilder gut bekannt. Verbindungskomponenten-Information kann von einem Grauskalenbild erhalten werden, indem zuerst eine Schwellenfunktion auf die Grauska lenwerte angewendet wird und dann benachbarte Gruppen von Pixeln mit Werten oberhalb der gewählten Schwelle gefunden werden.
Die Suchtechniken, die oben beschrieben wurden, können ebenso auf Farbbilder mit passenden Änderungen des Bildmerkmalsvektors angewendet werden. Zum Beispiel kann der Bildvektor derartig ausgedehnt werden, dass er Elemente enthält, die den Median-CMYK-Werten über verschiedene bzw. vielfältige Zellen des Bildes entsprechen.
Ebenso kann für eine verbesserte Genauigkeit beim Vergleich eines visuellen Erscheinungsbildes von Bildern ein Merkmalsvektor mit einer viel größeren Anzahl von Elementen verwendet werden. Zum Beispiel kann das Basis-Dokumentbild in 20 Zellen aufgeteilt werden. Ein 60-Elementvektor kann dann für jede Zelle berechnet werden. Die Ansammlung aller dieser 60-Elementvektoren würde einen 1.200-Element-Merkmalsvektor darstellen, der als Basis zum Durchsuchen und Durchblättern einer Bilddatenbank dienen kann.
Das offenbarte Verfahren kann auch über größere Entfernungen durchgeführt werden. So kann nach dem Schritt des Erhaltens der Bildmerkmalsinformation (siehe z.B. Anspruch 1), diese Information an die Datenbank übermittelt werden, die sich z.B. an eine entfernt gelegenen bzw. an einem anderen Ort, als den Beispielbilderzeugungsort bzw. Bildmerkmalsinformationerzeugungsort befindet. Die Datenbank sendet dann Suchergebnisse zur Weiterverarbeitung zurück. Aus diese Art und Weise müssen nicht sämtliche zu einem Thema gehörigen Dokumente von der Datenbank zur Durchsicht übermittelt werden, da eine gezielte Vorauswahl getroffen wurde. Dadurch wird die Datenübertragungszeit entscheidend verkürzt und der Speicherbedarf am Abfragegerät bzw. am Abfrageende des Geräts sinkt.
Weiter kann z.B. durch die Bereitstellung von den einzelnen Datenbank-Bilddokumenten zugeordneten Merkmalsvektoren, die Suche erheblich beschleunigt werden, wobei die einzelnen Merkmalsvektoren z.B. als eine Art komprimierte, wenn auch verlustbehaftete Darstellung der Bilddokumente aufgefaßt werden kann. So kann z.B. die Übermittlung von Merkmalsvektoren in Kombination mit Datenbanken an einem oder an beiden Enden des Übermittlungsweges als Kompressions-/Dekompressionsverfahren zur Übermittlung von Bildern aufgefaßt werden.

Claims

Verfahren zum Durchsuchen einer Dokument-Bilddatenbank, das die folgenden Schritte aufweist: ein Basis-Dokumentbild, das die Grundlage für die Suche bildet, wird entwickelt; eine Bildmerkmalsinformation über das Basis-Dokumentbild wird erhalten; die Dokument-Bilddatenbank wird nach ähnlichen Dokumentbildern durchsucht, indem die Bildmerkmalsinformation verwendet wird; als Suchergebnisse des Suchschrittes werden ein oder mehrere Dokumentbilder angezeigt, die dem Basis-Dokumentbild ähneln, und durch eine Benutzereingabe wird ein Suchergebnis als Grundlage für eine weitere Suche ausgewählt, wobei die Bildmerkmalsinformation über das Basis-Dokumentbild erhalten wird, indem ein Merkmalsvektor aus einem elektronisch gespeicherten Bild extrahiert wird, das als Basis-Dokumentbild verwendet wird, wobei die folgenden Schritte durchgeführt werden: die Größe von Verbindungskomponenten bzw. verbundenen Komponenten wird über das ganze Bild gemessen; Interessenpegel von Pixeln werden über das ganze Bild identifiziert; die verbundenen Komponenten bzw. Verbindungskomponenten und ihre Größen werden über das ganze Bild identifiziert; ein Histogramm von verbundenen Komponentengrößen bzw. Verbindungskomponentengrößen wird als eine erste Gruppe von Elementen des Merkmalvektors gespeichert; ein Histogramm von Interessenpegeln von Pixeln wird als eine zweite Gruppe von Elementen des Merkmalvektors gespeichert; ein Vertikalprojektion-Verbindungskomponentenhistogramm wird als eine dritte Gruppe von Elementen des Merkmalsvektors gespeichert; und eine Verteilung von Verbindungskomponenten bzw. verbundenen Komponenten über Zellen des gesamten Bildes wird als eine vierte Gruppe von Elementen des Merkmalsvektors gespeichert.
Verfahren nach Anspruch 1, bei welchem der Entwicklungsschritt ein Einscannen des Basis-Dokumentbildes umfasst.
Verfahren nach Anspruch 1, bei welchem der Entwicklungsschritt die Annahme einer Benutzereingabe umfasst, die Charakteristiken des Basis-Dokumentbildes spezifiziert.
Verfahren nach Anspruch 1, bei welchem der Entwicklungsschritt den Schritt umfasst, wonach ein graphisches System betrieben wird, bei dem ein Benutzer Komponenten des Basis-Dokumentbildes spezifiziert und anordnet.
Verfahren nach Anspruch 1, das weiter den Schritt aufweist, wonach eine Benutzereingabe angenommen wird, die einen Suchtextstring spezifiziert und wobei der Suchschritt weiter den Schritt aufweist, wonach der Suchtextstring mit OCR-Daten verglichen wird, die den Dokumentbildern in der Datenbank zugeordnet sind.
Verfahren nach Anspruch 1, bei welchem der Schritt des Anzeigens weiter das Anzeigen von Piktogrammen bzw. Ikons als ein Suchergebnis umfasst, die Cluster oder Gruppen von Bildern darstellen, die dem Basis-Dokumentbild ähneln.
Verfahren nach Anspruch 1, bei welchem die Dokument-Bilddatenbank Dokumentbilder in verschlüsselter Form und Bildmerkmalsinformation für die verschlüsselten Dokumentbilder aufweist.
Verfahren nach Anspruch 7, bei welchem das Suchen das Suchen der Bildmerkmalsinformation aufweist, die in der Dokument-Bilddatenbank gespeichert ist und bei welchem das Anzeigen ein Entschlüsseln von Suchergebnissen des Suchschrittes umfasst.
Verfahren nach Anspruch 1, bei welchem die Dokument-Bilddatenbank Dokumentbilder in komprimierter Form und Bildmerkmalsinformation für die komprimierten Dokumentbilder aufweist.
Verfahren nach Anspruch 9, bei welchem das Suchen das Suchen der Bildmerkmalinformation aufweist, die in der Dokument-Bilddatenbank gespeichert ist und bei welchem das Anzeigen ein Dekomprimieren von Suchergebnissen des Suchschrittes umfasst.
Verfahren nach Anspruch 1, wobei die Entwicklung des Basis-Dokumentbildes die folgenden Schritte aufweist: eine Benutzereingabe wird angenommen, die eine Kategorie des Basis-Dokumentbildes spezifiziert; eine Benutzereingabe wird angenommen, die eine Anzahl von Textspalten des Basis-Dokumentbildes spezifiziert; eine Benutzereingabe wird angenommen, die eine Organisation bzw. Aufbau des Basis-Dokumentbildes spezifiziert.
Verfahren nach Anspruch 1, bei welchem im Fall von Dokumenten mit mehreren Seiten, eine Anzeige der Bilder nach folgenden Schritten erfolgt: die Bildmerkmalinformation der Seiten eines mehrseitigen Dokuments werden miteinander verglichen; Seiten mit einem ähnlichen Erscheinungsbild werden basierend auf der Bildmerkmalinformation identifiziert; und Seiten mit einem ähnlichen Erscheinungsbild werden übereinander mit einem Versatz zwischen ihnen überlagert angezeigt.
Verfahren zum Extrahieren eines Merkmalsvektors aus einem elektronisch gespeicherten Bild, das die folgenden Schritte aufweist: die Größe von Verbindungskomponenten bzw. verbundenen Komponenten wird über das ganze Bild gemessen; Interessenpegel von Pixeln werden über das ganze Bild identifiziert; die verbundenen Komponenten bzw. Verbindungskomponenten und ihre Größen werden über das ganze Bild identifiziert; ein Histogramm von verbundenen Komponentengrößen bzw. Verbindungskomponentengrößen wird als eine erste Gruppe von Elementen des Merkmalvektors gespeichert; ein Histogramm von Interessenpegeln von Pixeln wird als eine zweite Gruppe von Elementen des Merkmalvektors gespeichert; ein Vertikalprojektion-Verbindungskomponentenhistogramm wird als eine dritte Gruppe von Elementen des Merkmalsvektors gespeichert; und eine Verteilung von Verbindungskomponenten bzw. verbundenen Komponenten über Zellen des gesamten Bildes wird als eine vierte Gruppe von Elementen des Merkmalsvektors gespeichert.
Dokumentenbild-Durchstöberungssystem, das folgendes aufweist: eine elektronische Speichereinheit, die eine Dokument-Bilddatenbank speichert; eine Anzeige, die Dokumentbilder anzeigt; eine Prozessoreinheit bzw. Verarbeitungseinheit, die mit der elektronischen Speichereinheit und der Anzeige gekoppelt ist bzw. verbunden ist, wobei die Verarbeitungseinheit funktionsfähig ist, um: ein Basis-Dokumentbild, das die Grundlage für die Suche bildet, zu entwickeln; eine Bildmerkmalsinformation über das Basis-Dokumentbild zu erhalten; die Dokument-Bilddatenbank nach ähnlichen Dokumentbildern zu durchsuchen, indem die Bildmerkmalsinformation verwendet wird; als Suchergebnisse des Suchschrittes ein oder mehrere Dokumentbilder anzuzeigen, die dem Basis-Dokumentbild ähneln, und durch eine Benutzereingabe ein Suchergebnis als Grundlage für eine weitere Suche auszuwählen, wobei die Bildmerkmalsinformation über das Basis-Dokumentbild erhalten wird, indem ein Merkmalsvektor aus einem elektronisch gespeicherten Bild extrahiert wird, das als Basis-Dokumentbild verwendet wird, wobei die folgenden Schritte durchgeführt werden: die Größe von Verbindungskomponenten bzw. verbundenen Komponenten wird über das ganze Bild gemessen; Interessenpegel von Pixeln werden über das ganze Bild identifiziert; die verbundenen Komponenten bzw. Verbindungskomponenten und ihre Größen werden über das ganze Bild identifiziert; ein Histogramm von verbundenen Komponentengrößen bzw. Verbindungskomponentengrößen wird als eine erste Gruppe von Elementen des Merkmalvektors gespeichert; ein Histogramm von Interessenpegeln von Pixeln wird als eine zweite Gruppe von Elementen des Merkmalvektors gespeichert; ein Vkalprojektion-Verbindungskomponentenhistogramm wird als eine dritte Gruppe von Elementen des Merkmalsvektors gespeichert; und eine Verteilung von Verbindungskomponenten bzw. verbundenen Komponenten über Zellen des gesamten Bildes wird als eine vierte Gruppe von Elementen des Merkmalsvektors gespeichert.
Speichermedium mit Software zum Durchführen des Verfahrens nach einem der Ansprüche 1, 3, 4 und 5 mittels eines Computersystems.