-
Die vorliegende Erfindung bezieht
sich allgemein auf Bildverarbeitungstechniken und insbesondere auf
ein System und ein Verfahren zum Verbinden und Klassifizieren von
Regionen innerhalb einer graphischen Abbildung.
-
Scanner werden üblicherweise verwendet, um
digitale Abbildungen von Objekten, wie z. B. von Dokumenten, zu
erfassen und zu reproduzieren. Beim Abtasten eines Objekts liest
ein Scanner bzw. eine Abtastvorrichtung elektronisch die Oberfläche des
Objekts und erzeugt digitale Daten, die eine Abbildung der abgetasteten
Oberfläche
definieren. Diese digitalen Daten können dann aufbereitet werden,
um eine Abbildung der abgetasteten Oberfläche zu erzeugen.
-
Eine Dokumentseite umfaßt häufig Regionen
unterschiedlicher Datentypen, und es kann wünschenswert sein, die Regionen
unterschiedlicher Datentypen unterschiedlich zu verarbeiten. Eine
abgetastete Dokumentseite kann z. B. eine Textregion und eine Zeichnungsregion
umfassen, und es kann wünschenswert
sein, optische Zeichenerkennungstechniken (OCR-Techniken; OCR = optical character recognition)
zu verwenden, um die Textregion zu reproduzieren, und andere Typen
von Techniken zu verwenden, um die Zeichnungsregion zu reproduzieren.
-
Somit sind bestimmte Abtastsysteme
entworfen, um die Daten zu analysieren, die ein abgetastetes Bild
definieren, und um verschiedene Regionen innerhalb des Bildes in
einem Prozeß zu
identifizieren und zu klassifizieren, der üblicherweise als "Zonenanalyse" bezeichnet wird.
Beim Durchführen
einer Zonenanalyse werden Regionen innerhalb einer Abbildung üblicherweise
in einen der nachfolgenden allge meinen Datentypen klassifiziert: "Photographie", "Zeichnung", "Tabelle" und "Text". Manchmal wird der
Datentyp "Zeichnung" weiter in unterschiedliche
Klassen unterteilt, wie z. B. Zeichnungen mit Einzelbittiefe, die
hierin als "Einzelbitzeichnungen" bezeichnet werden,
und Zeichnungen mit Mehrfachbittiefe, die hierin als "Mehrfachbitzeichnungen" bezeichnet werden.
-
Nachdem die unterschiedlichen Regionen
innerhalb der abgetasteten Abbildung klassifiziert sind, können die
Regionen gemäß ihrer
Klassifizierung verarbeitet werden. Die "Photographie"-Regionen z. B. können mit Techniken sehr hoher
Auflösung
und Bittiefe verarbeitet werden, und "Zeichnung"-Regionen
können
mit Techniken niedrigerer Auflösung
und Bittiefe verarbeitet werden. Ferner können "Text"-Regionen
mit OCR-Techniken verarbeitet werden und "Tabelle"-Regionen können mit einer Kombination
aus OCR-Techniken zum Reproduzieren der Textinformationen der einen
oder der mehreren Tabellen und Zeichnungstechniken zum Reproduzieren
der Nichttextinformationen der einen oder der mehreren Tabellen
verarbeitet werden.
-
Nach dem Identifizieren und Klassifizieren
unterschiedlicher Regionen einer abgetasteten Abbildung kann ein
Benutzer eine oder mehrere der Regionen über eine Zielanwendung (z.
B. Word, Adobe AcrobatTM etc.) manipulieren,
die in der Lage sind, graphische Abbildungen zu verarbeiten. Das
Verwenden einer Zielanwendung, um verschiedene Regionen anzuzeigen,
die durch typische Zonenanalyseprozesse identifiziert und klassifiziert
werden, kann problematisch sein. Beim schnittstellenmäßigen Verbinden
der Regionen einer abgetasteten Abbildung mit einer Zielabbildung,
wird z. B. jede Region, die durch einen Zonenanalyseprozeß identifiziert
und klassifiziert wird, häufig
durch einen unterschiedlichen Umgrenzungskasten eingeschlossen, der
zu der Zielanwendung bewegt und dann angezeigt wird. Abhängig von
den Positionen der verschiedenen Regionen im Hinblick aufeinander
ist es möglich,
daß die
Umgrenzungskästen verschiedener
Regionen überlappen,
sogar wenn die Regionen selbst dies nicht tun, wodurch verschiedene
Anzeigeprobleme oder Qualitätsfragen
für die
Zielanwendung verursacht werden.
-
Es bestehen verschiedene andere Probleme,
die auftreten können,
wenn herkömmliche
Zielanwendungen verwendet werden, um Regionen anzuzeigen, die durch
typische Zonenanalyseprozesse identifiziert und klassifiziert werden.
Diese Probleme können
die Abbildungen verschlechtern, die durch die Zielanwendungen erzeugt
werden und/oder können
den Prozeß des
Anzeigens der Bilder verkomplizieren.
-
Es ist die Aufgabe der vorliegenden
Erfindung, eine Vorrichtung und ein Verfahren zum Eingrenzen und
Klassifizieren einer Region mit verbesserten Charakteristika zu
schaffen.
-
Diese Aufgabe wird durch eine Vorrichtung
gemäß Anspruch
1 oder 7 und durch ein Verfahren gemäß Anspruch 12 oder 18 gelöst.
-
Allgemein ausgedrückt schafft die vorliegende
Erfindung ein System und ein Verfahren zum Umgrenzen und Klassifizieren
von Regionen innerhalb einer graphischen Abbildung.
-
Ein Region-Umgrenzungs- und -Klassifizierungs-System
gemäß einem
exemplarischen Ausführungsbeispiel
der vorliegenden Erfindung verwendet einen Speicher und eine Logik.
Der Speicher speichert einen Satz von Abbildungsdaten, die eine
graphische Abbildung definieren. Die Logik ist konfiguriert, um
eine Mehrzahl von Regionen von unterschiedlichen Datentypen innerhalb
der Abbildung zu identifizieren und um jede der Mehrzahl von identifizierten
Regionen über
eine Umgrenzungsregion zu umgrenzen. Die Logik ist konfiguriert,
um eine Priorisierung der Datentypen durchzuführen, die in der Umgrenzungsregion
umfaßt
sind, gemäß einer
vordefinierten Hierarchie der Datentypen. Die Logik ist ferner konfi guriert,
um die Umgrenzungsregion basierend auf der Priorisierung zu klassifizieren,
die durch die Logik durchgeführt
wird.
-
Die vorliegende Erfindung kann ferner
derart betrachtet werden, daß sie
ein Region-Umgrenzungs- und -Klassifizierungs-Verfahren bereitstellt.
Ein exemplarisches Ausführungsbeispiel
des Verfahrens kann umfassend durch Identifizieren einer Mehrzahl
von Regionen unterschiedlicher Datentypen innerhalb einer graphischen
Abbildung konzeptualisiert werden, die durch einen Satz von Abbildungsdaten
definiert ist, durch Umgrenzen von jeder der Mehrzahl von identifizierten
Regionen über
eine Umgrenzungsregion, Identifizieren, welche Datentypen in der
Umgrenzungsregion umfaßt
sind, Auswählen
von einem der identifizierten Datentypen basierend auf einer vordefinierten
Hierarchie der Datentypen und Zuordnen des einen Datentyps zu der Umgrenzungsregion
basierend auf dem Auswählen.
-
Die Erfindung ist Bezug nehmend auf
die nachfolgenden Zeichnungen besser verständlich. Die Elemente der Zeichnungen
sind nicht notwendigerweise maßstabsgetreu
zueinander, wobei die Betonung statt dessen auf das klare Darstellen
der Prinzipien der Erfindung gelegt ist. Ferner bezeichnen gleiche
Bezugszeichen entsprechende Teile in den unterschiedlichen Ansichten.
-
Bevorzugte Ausführungsbeispiele der vorliegenden
Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden
Zeichnungen näher
erläutert.
Es zeigen:
-
1 ein
Blockdiagramm, das ein Verarbeitungssystem gemäß einem exemplarischen Ausführungsbeispiel
der vorliegenden Erfindung darstellt;
-
2 ein
Diagramm, das eine Abbildung darstellt, die durch Abtastdaten definiert
ist, die in 1 gezeigt
sind;
-
3 ein
Diagramm, das die Abbildung aus 2 darstellt,
nachdem die Zonenanalyselogik innerhalb des Systems aus 1 die Abbildung in verschiedene
Regionen unterteilt hat;
-
4 ein
Diagramm, das die Abbildung aus 3 darstellt,
nachdem die Umgrenzungs- und Klassifizierungs-Logik innerhalb des
Systems aus 1 die Abbildung
in verschiedene Umgrenzungsregionen unterteilt hat;
-
5 ein
Flußdiagramm,
das einen exemplarischen Prozeß zum
Klassifizieren einer Umgrenzungsregion darstellt, die in 4 gezeigt ist;
-
6 ein
Flußdiagramm,
das eine exemplarische Architektur und Funktionalität einer
Abbildungsanalysevorrichtung darstellt, die in 1 gezeigt ist; und
-
7 ein
Flußdiagramm,
das einen exemplarischen Prozeß zum
Bilden der Umgrenzungsregionen darstellt, die in 4 gezeigt sind.
-
Die vorliegende Erfindung bezieht
sich allgemein auf ein System zum Durchführen verschiedener Verarbeitungsverfahren
an digitalen Daten, die eine graphische Abbildung definieren, um
ein Editieren oder ein Manipulieren der graphischen Abbildung zu
ermöglichen.
Bei einem bevorzugten Ausführungsbeispiel
führt eine
Abbildungsanalysevorrichtung eine Zonenanalyse mit den digitalen
Daten einer abgetasteten Abbildung durch, um verschiedene Regionen
unterschiedlicher Typen innerhalb der Abbildung zu identifizieren.
Falls erwünscht,
umgrenzt die Abbildungsanalysevorrichtung dann mehrere Regionen
in eine Umgrenzungsregion und klassifiziert die eine Umgrenzungsregion
(Bounding-Region) basierend auf den Datentypen der umgrenzten Regionen.
Um die Umgrenzungsregion besser zu klassifizieren, kann die Klassifizierung
der Umgrenzungsregion auf einem Prioritätsschema und/oder einer statistischen
Analyse gemäß Techniken
basieren, die hierin nachfolgend allgemein detaillierter beschrieben
werden. Ferner kann es das Umgrenzen mehrerer Regionen durch eine
Umgrenzungsregion für
einen Benutzer einfacher machen, Abschnitte der abgetasteten Abbildung
zu manipulieren und/oder die digitalen Daten der abgetasteten Abbildung
mit verschiedenen bekannten Zielanwendungen schnittstellenmäßig zu verbinden,
wie z. B. mit Abbildungseditoren, Webservern, Dokumentverwaltungsprogrammen
etc.
-
Ein Region-Umgrenzungs- und -Klassifizierungs-System 10 gemäß einem
bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung ist in 1 dargestellt.
Wie durch 1 gezeigt
ist, umfaßt
das System eine Abtastvorrichtung 18, die eine Abbildung
eines Objekts erfaßt,
wie z. B. ein Dokument, gemäß in der
Technik bekannten Techniken. Beim Erfassen einer solchen Abbildung
erzeugt die Abtastvorrichtung 18 Abbildungsdaten 21,
die die erfaßte
Abbildung definieren und die innerhalb eines Speichers 23 des
Systems 10 gespeichert sind. Es wird darauf hingewiesen,
daß es
möglich
ist, daß die
Abbildungsdaten 21 von anderen Quellen als der Abtastvorrichtung 18 hergeleitet
werden. Es ist z. B. möglich,
daß die
Abbildungsdaten 21 von einem externen System oder einer
Vorrichtung (nicht gezeigt) heruntergeladen werden.
-
Nachdem die Abbildungsdaten 21 in
dem Speicher 23 gespeichert sind, analysiert und verarbeitet
die Abbildungsanalysevorrichtung 25 die Abbildungsdaten 21 vorzugsweise
gemäß Techniken,
die hierin nachfolgend detaillierter beschrieben werden. Die Abbildungsanalysevorrichtung 25 kann
in Software, Hardware oder einer Kombination derselben implementiert
sein. Bei dem bevorzugten Ausführungsbeispiel,
wie in 1 beispielhaft
dargestellt ist, ist die Abbildungsanalysevorrichtung 25 zusammen
mit ihrer zugeordneten Methodik in Software implementiert und in
dem Speicher 23 des Systems 10 gespeichert.
-
Es wird darauf hingewiesen, daß die Abbildungsanalysevorrichtung 25,
wenn dieselbe in Software implementiert ist, auf einem computerlesbaren
Medium zur Verwendung durch oder in Verbindung mit einem Befehlsausführungssystem,
einer Einrichtung oder einer Vorrichtung, wie z. B. einem computerbasierten
System, einem prozessorenthaltenden System oder einem anderen System,
das die Befehle aus dem Befehlsausführungssystem, der Einrichtung
oder der Vorrichtung abrufen und die Befehle ausführen kann,
gespeichert und transportiert werden kann. In dem Kontext dieses
Dokuments kann ein "computerlesbares
Medium" eine Einrichtung
sein, die ein Programm zur Verwendung durch oder in Verbindung mit
dem Befehlsausführungssystem,
der Einrichtung oder der Vorrichtung enthalten, speichern, kommunizieren,
verbreiten oder transportieren kann. Das computerlesbare Medium
kann z. B., aber nicht ausschließlich, ein elektronisches,
magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleiter-System,
eine Einrichtung, eine Vorrichtung oder ein Verteilmedium sein.
Es wird darauf hingewiesen, daß das
computerlesbare Medium sogar Papier oder ein anderes geeignetes
Medium sein könnte,
auf das das Programm gedruckt wird, da das Programm elektronisch erfaßt werden
kann, z. B. über
ein optisches Abtasten des Papiers oder eines anderen Mediums, dann
kompiliert, interpretiert oder anderweitig auf geeignete Weise verarbeitet
werden kann, wenn nötig,
und dann in einen Computerspeicher gespeichert werden kann. Als
Beispiel kann die Abbildungsanalysevorrichtung 25 magnetisch
gespeichert und auf einer herkömmlichen
tragbaren Computerdiskette transportiert werden.
-
Das bevorzugte Ausführungsbeispiel
des Abtastsystems 10 aus 1 weist
eines oder mehrere herkömmliche
Verarbeitungselemente 32 auf, wie z. B. einen digitalen
Signalprozessor (DSP; DSP = digital signal processor) oder eine
zentrale Verarbeitungseinheit (CPU; CPU = central processing unit),
die mit den anderen Elementen kommunizieren und dieselben innerhalb
des Systems 10 über
eine lokale Schnittstelle 35 treiben, die einen oder mehrere
Busse umfassen kann. Ferner kann eine Eingabevorrichtung 37,
z. B. eine Tastatur oder eine Maus, verwendet werden, um Daten von
einem Benutzer des Systems 10 einzugeben, und eine Ausgabevorrichtung 39,
z. B. eine Bildschirmanzeige oder ein Drucker, kann verwendet werden,
um die Daten an den Benutzer auszugeben. Das System 10 kann
mit einer Netzwerkschnittstelle 42 verbunden sein, die
es dem System 10 ermöglicht,
Daten mit einem Netzwerk 44 auszutauschen.
-
Bei dem bevorzugten Ausführungsbeispiel
führt die
Zonenanalyselogik 46 innerhalb der Abbildungsanalysevorrichtung 25 eine
Zonenanalyse an den Abbildungsdaten 21 durch. Die Zonenanalyse
ist ein bekannter Prozeß,
durch den eine graphische Abbildung in verschiedene Regionen unterteilt
wird, die basierend auf dem Typ von Informationen klassifiziert
werden, die in den verschiedenen Regionen umfaßt sind. Eine Region aus Textinformationen
kann z. B. als eine "Text"-Region identifiziert
und klassifiziert werden, wohingegen eine Region aus Zeichnungsinformationen
als eine "Zeichnung"-Region identifiziert
und klassifiziert werden kann. Für
weitere Informationen, die Techniken beschreiben, die verwendet
werden können,
um eine Zonenanalyse durchzuführen,
siehe die U.S.-Patente Nrn. 6,263,122; 6,151,426; und 5,596,655,
die alle durch Bezugnahme hierin aufgenommen sind.
-
Die Zonenanalyse, die durch die Zonenanalyselogik 46 durchgeführt wird,
teilt die Abbildung, die durch Abbildungsdaten 21 definiert
ist, vorzugsweise in Regionen unterschiedlicher Typen. Zu Darstellungszwecken sei
angenommen, daß die
Zonenanalyselogik 46 konfiguriert ist, um jede Region als
einen der nachfolgenden Datentypen zu klassifizieren: "Photographie", "Mehrfachbitzeichnung", "Einzelbitzeichnung", "Tabelle" und "Text".
-
Um den Zonenanalyseprozeß besser
darzustellen, der durch die Zonenanalyselogik 46 durchgeführt wird,
sei angenommen, daß die
Abbildungsdaten 21 eine Abbildung 49 definieren,
die in 2 dargestellt
ist. Es wird darauf hingewiesen, daß die Abbildung 49 aus 2 z. B. durch Aufbereiten
der Abbildungsdaten 21 für die Ausgabevorrichtung 39 angezeigt
werden können.
-
Wie durch 2 gezeigt wird, umfaßt die Abbildung 49 verschiedene
Textinformationen 55, verschiedene Photographien 56 und
verschiedene Zeichnungsinformationen 57. Somit kann die
Zonenanalyselogik 46 die Abbildung 49 in verschiedene
Regionen 61-72 (3)
unterteilen, in denen die Regionen 61 und 62 als "Mehrfachbitzeichnung"-Regionen klassifiziert
sind, die Regionen 63 und 64 als "Einzelbitzeichnung"-Regionen klassifiziert
sind, die Regionen 65-70 als "Text"-Regionen
klassifiziert sind und die Regionen 71 und 72 als "Photographie"-Regionen klassifiziert
sind. Es wird darauf hingewiesen, wie durch 3 gezeigt ist, daß Grenzen um jede identifizierte
Region 61-72 innerhalb der Abbildung 49 angezeigt
sein können.
-
Es kann wünschenswert sein, eine oder
mehrere der Regionen 61-72 über eine einzelne Umgrenzungsregion
umgrenzt zu haben. Der Benutzer kann z. B. das Gesamtlayout der
Regionen 67-72 mögen
und wünschen,
solche Regionen zu einer Zielanwendung (nicht gezeigt) zu bewegen,
wie z. B. einem Abbildungseditor, um verschiedene Editierungen an
den bewegten Regionen 67-72 durchzuführen. Dies kann ermöglicht werden,
wenn eine oder mehrere solcher Regionen 67-72 durch eine
einzelne Umgrenzungsregion umgrenzt sind.
-
Diesbezüglich, wenn mehrere Regionen 67-72 über eine
einzelne Umgrenzungsregion umgrenzt sind, kann jede der umgrenzten
Regionen 67-72 durch eine einzelne Manipulierung der Umgrenzungsregion
beeinflußt
werden, wodurch die Anzahl von Gesamtregionen reduziert wird, die
individuell manipu liert werden. Daher hilft das Umgrenzen von Regionen 67-72 über eine
einzelne Umgrenzungsregion, das Gesamtaussehen der Regionen 67-72 beizubehalten,
wie in 2 gezeigt ist.
Ferner verarbeiten viele Zielanwendungen graphische Daten besser,
wenn die graphischen Daten durch Umgrenzungskästen definiert sind. Tatsächlich empfangen
bestimmte Zielanwendungen, insbesondere Abbildungseditoren, externe
Graphikdaten nur in der Form von mit Inhalt gefüllten Umgrenzungskästen. Es
kann somit wünschenswert
sein, die Abbildung 49 in rechteckige Umgrenzungskästen und
nicht unregelmäßig geformte
Regionen unterteilen zu lassen, wie z. B. die Regionen 61-72,
die durch 3 gezeigt
sind.
-
Ferner, nachdem die Zonenanalyse
an den Abbildungsdaten 21 durchgeführt ist, umgrenzt die Region-Umgrenzungs-
und -Klassifizierungs-Logik 66 innerhalb der Abbildungsanalysevorrichtung 25 vorzugsweise
eine oder mehrere der Regionen 61-72, die vorangehend durch
die Zonenanalyselogik 46 identifiziert wurden. Diesbezüglich analysiert
die Region-Umgrenzungs-
und -Klassifizierungs-Logik 66 die Abbildungsdaten 21,
um zu bestimmen, welche Kombinationen von Regionen 61-72 innerhalb
eine einzelne Umgrenzungsregion einpassen können. Die Region-Umgrenzungs-
und -Klassifizierungs-Logik 66 unterteilt
dann die Abbildung 49 in verschiedene Umgrenzungsregionen.
Die Umgrenzungsregionen sind vorzugsweise derart definiert, daß jede Umgrenzungsregion
nur die Regionen 61-72 umfaßt, die vollständig in
die Umgrenzungsregion einpassen. Ferner ist bei dem bevorzugten
Ausführungsbeispiel
jede Umgrenzungsregion, die durch die Region-Umgrenzungs- und -Klassifizierungs-Logik 66 gebildet
wird, ein Umgrenzungskasten, obwohl andere Formen von Umgrenzungsregionen,
falls erwünscht,
bei anderen Ausführungsbeispielen
verwendet werden können.
-
Als ein Beispiel kann die Region-Umgrenzungs-
und -Klassifizierungs-Logik 66 die Abbildung 49 in fünf Umgrenzungskästen 75-79 unterteilen,
wie durch 4 gezeigt
ist. Bezug nehmend auf die 3 und 4 umfaßt der Umgrenzungskasten
75 die
Region 61, die vollständig
in den Umgrenzungskasten 75 einpaßt, und der Umgrenzungskasten 76 umfaßt die Region 65,
die vollständig
in den Umgrenzungskasten 76 einpaßt. Ferner umfaßt der Umgrenzungskasten 77 die
Regionen 62-64, die vollständig in den Umgrenzungskasten 77 einpassen,
und der Umgrenzungskasten 78 umfaßt die Region 66,
die vollständig
in den Umgrenzungskasten 78 einpaßt. Ferner umfaßt der Umgrenzungskasten 79 die
Regionen 67-72, die vollständig in den Umgrenzungskasten 79 einpassen.
-
Jeder Umgrenzungskasten (Bounding
Box) 75-79 umfaßt
zwei horizontale Seiten, die sich in einer Richtung parallel zu
der x-Richtung erstrecken, und zwei vertikale Seiten, die sich in
einer Richtung parallel zu der y-Richtung erstrecken. Bei dem bevorzugten
Ausführungsbeispiel
werden die Umgrenzungskästen 75-79 iterativ
gebildet, obwohl einer oder mehrere Umgrenzungskästen 75-79 bei anderen
Ausführungsbeispielen gleichzeitig
gebildet werden können.
Bei dem Bilden der Umgrenzungskästen 75-79 wird
jeder Umgrenzungskasten 75-79 vorzugsweise auf eine Anfangsgröße in einer
Region eingestellt, die nicht durch einen vorangehenden Umgrenzungskasten 75-79 eingeschlossen
ist. Dann wird der Umgrenzungskasten 75-79 durch Bewegen
der Seiten des Umgrenzungskastens 75-79 erweitert, bis
jede Seite fehlschlägt,
eine der Regionen 61-72 zu schneiden, die vorangehend durch
die Zonenanalyselogik 46 identifiziert wurden.
-
Als ein Beispiel kann beim Bilden
des Umgrenzungskastens 79 eine kleinere Form des Umgrenzungskastens 79 anfänglich über eine
der Regionen 67-72 positioniert werden. In einem solchen
Fall wird jede Seite des Umgrenzungskastens 79 vorzugsweise
durch die Region-Umgrenzungs- und -Klassifizierungs-Logik 66 bewegt,
bis dieselbe keine der Regionen 67-72 mehr schneidet. Diesbezüglich wird
jede vertikale Seite in einer Richtung parallel zu der x-Richtung
bewegt, derart, daß der
Gesamtbereich des Umgrenzungskastens 79 zunimmt, und jede
horizontale Seite wird in einer Richtung parallel zu der y-Richtung
bewegt, derart, daß der
Gesamtbereich des Umgrenzungskastens 79 verringert wird.
Durch Verfolgen des vorangehenden Verfahrens erweitert sich der
Umgrenzungskasten 79, bis derselbe die Regionen 67-72 vollständig einschließt, wie
durch 4 gezeigt ist.
Jeder der anderen Umgrenzungskästen 75-78 kann
durch ähnliche
Techniken gebildet werden. Es wird darauf hingewiesen, daß die Region-Umgrenzungs-
und -Klassifizierungs-Logik 66 fortfährt, neue Umgrenzungskästen zu
bilden, bis alle der Regionen 61-72, die durch die Zonenanalyselogik 46 identifiziert sind,
innerhalb eines Umgrenzungskastens eingeschlossen sind.
-
Sobald ein Umgrenzungskasten 75-79 durch
die Region-Umgrenzungs-
und -Klassifizierungs-Logik 66 gebildet wird, klassifiziert
die Region-Umgrenzungs- und -Klassifizierungs-Logik 66 vorzugsweise
einen Datentyp für
den Umgrenzungskasten 75-79 oder, anders ausgedrückt, weist
demselben einen Datentyp zu, basierend auf den Typen der Regionen 61-72,
die durch denselben eingeschlossen sind. Eine zukünftige Verarbeitung
und ein Anzeigen der Abbildung, die durch einen bestimmten Umgrenzungskasten 75-79 definiert
ist, wird vorzugsweise unter Verwendung von Techniken durchgeführt, die
dem Datentyp zugeordnet sind, der dem bestimmten Umgrenzungskasten 75-79 zugeteilt
ist.
-
Beim Klassifizieren eines Umgrenzungskastens 75-79 hält sich
die Region-Umgrenzungs- und -Klassifizierungs-Logik 66 vorzugsweise
allgemein an ein vordefiniertes hierarchisches Klassifizierungsschema oder
eine "Hierarchie". Diesbezüglich werden
die Datentypen vorzugsweise durch eine vordefinierte Hierarchie in
einer derartigen Reihenfolge rangmäßig bewertet, daß eine Region,
die einem niedrigen Rang zugeordnet ist, gemäß Verarbeitungstechniken verarbeitet
werden kann, die einer Region eines höheren Rangs zugeordnet sind,
ohne das Anzeigen von Informationen innerhalb der niedrigeren Rangregion
nachteilig zu beeinflussen.
-
Beispielsweise ist es allgemein bekannt,
daß Techniken,
die üblicherweise
verwendet werden, um photographische Abbildungen zu verarbeiten
und anzuzeigen, verwendet werden können, um Textinformationen
zu verarbeiten und anzuzeigen, ohne das Anzeigen der Textinformationen
beträchtlich
und nachteilig zu beeinflussen. Obwohl derartige photographische
Verarbeitungstechniken üblicherweise
keine OCR verwenden, definieren die photographischen Verarbeitungstechniken
eine Abbildung, die das Aussehen der Textinformationen beibehält, wenn
dieselbe durch Bildverarbeitungsanwendungen angezeigt wird. Das
Verwenden derartiger photographischer Verarbeitungstechniken "über-verarbeitet" die Textinformationen.
Genauer gesagt verwenden solche Techniken mehr Speicherraum und/oder
Verarbeitungsleistung, um die Textinformationen zu verarbeiten,
als anderweitig erforderlich wäre,
wenn normale Textverarbeitungstechniken (z. B. OCR) verwendet werden
würden,
um die Textdaten zu verarbeiten. Nichts desto trotz ist es möglich, Textinformationen unter
Verwendung photographischer Verarbeitungstechniken erfolgreich zu
verarbeiten.
-
Verarbeitungstechniken (z. B. OCR)
werden jedoch üblicherweise
verwendet, um Textinformationen zu verarbeiten und anzuzeigen, können allgemein
nicht erfolgreich verwendet werden, um photographische Informationen
zu verarbeiten, ohne die Anzeige der photographischen Informationen
beträchtlich
und nachteilig zu beeinflussen. Diesbezüglich sind solche Textverarbeitungstechniken
entweder inkompatibel mit photographischen Daten oder von einer
solch niedrigen Auflösung
oder Qualität,
daß die
resultierende Abbildung beträchtlich
verzerrt oder verfärbt
wird. Als ein Beispiel wandeln OCR-Techniken photographische Informationen
allgemein in alphanumerische Zeichen um, die ein nicht angemessenes
Aufbereiten der photographischen Daten darstellen. Daher, gemäß dem Klassifizierungsschema,
das hierin ausgeführt
ist, weisen "Photographie"-Regionen bei dem
bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung vorzugsweise einen höheren Rang auf als "Text"- Regionen. In der Tat werden die Datentypen
bei dem bevorzugten Ausführungsbeispiel
vorzugsweise von dem höchsten
bis zum niedrigsten Rang gemäß der nachfolgenden
Reihenfolge eingestuft: "Photographie", "Mehrfachbitzeichnung", "Einzelbitzeichnung", "Tabelle" und "Text".
-
Ferner identifiziert die Region-Umgrenzungs-
und -Klassifizierungs-Logik 66 beim Klassifizieren eines Umgrenzungskastens 75-79 vorzugsweise
jeden Datentyp, der durch den Umgrenzungskasten 75-79 eingeschlossen
ist. Allgemein wird der Datentyp mit der höchsten rangmäßigen Bewertung
einer Region 61-72 innerhalb des Umgrenzungskastens 75-79 dem
Umgrenzungskasten 75-79 zugeordnet. Der Umgrenzungskasten 79 aus 4 umfaßt z. B. Regionen 71 und 72,
die als "Photographie" klassifiziert sind,
was den Datentyp mit der höchsten
rangmäßigen Bewertung
darstellt. Somit wird der Umgrenzungskasten 79 vorzugsweise
als "Photographie" klassifiziert, außer der
Datentyp "Photographie" wird für den Umgrenzungskasten 79 gemäß Techniken
disqualifiziert, die nachfolgend hierin detaillierter beschrieben
werden. Es wird darauf hingewiesen, daß der Umgrenzungskasten 79 vorzugsweise
als "Photographie" klassifiziert wird,
obwohl der Umgrenzungskasten 79 Datentypen eines niedrigeren
Rangs umfaßt.
-
Andererseits umfaßt der Umgrenzungskasten 77 keine
Regionen, die als "Photographie" klassifiziert sind.
In der Tat ist der Datentyp mit der höchsten rangmäßigen Bewertung
in dem Umgrenzungskasten 77 "Mehrfachbitzeichnung". Somit, vorausgesetzt, daß der Datentyp "Mehrfachbitzeichnung" für die Umgrenzungsregion 77 gemäß Techniken
nicht disqualifiziert wird, die hierin nachfolgend detaillierter
beschrieben werden, wird der Umgrenzungskasten 77 vorzugsweise
als eine "Mehrfachbitzeichnung" klassifiziert, obwohl
der Umgrenzungskasten 73 Datentypen eines niedrigeren Ranges
umfaßt.
-
In bestimmten Situationen kann der
Datentyp vom höchsten
Rang innerhalb eines Umgrenzungskastens 75-79 einen unbedeutenden
Abschnitt des Umgrenzungskastens 75-79 bilden. In einem
solchen Fall kann es wünschenswert
sein, den Datentyp der höchsten
Rangordnung aus der Klassifizierung des Umgrenzungskastens 75-79 derart
zu disqualifizieren, daß dem
Umgrenzungskasten 75-79 ein Datentyp mit niedrigerer Rangordnung
zugeordnet werden kann.
-
Es wird z. B. Bezug auf den Umgrenzungskasten 77 aus 4 genommen. Wie durch Vergleichen
der 3 und 4 ersichtlich ist, umfaßt der Umgrenzungskasten 77 die
Region 62, die einem Datentyp mit höherer Priorität zugeordnet
ist (d. h. "Mehrfachbitzeichnung") als die anderen
Regionen 63 und 64 innerhalb des Umgrenzungskastens 77.
Die Region 62 belegt jedoch nur einen kleinen Abschnitt
des Umgrenzungskastens 77, und die Regionen 63 und 64 belegen
einen viel größeren Abschnitt
des Umgrenzungskastens 77. Bei einem solchen Beispiel kann
es wünschenswert
sein, dem Umgrenzungskasten 77 einen Datentyp mit niedrigerer Rangordnung
(z. B. den Datentyp der Region 74) zuzuordnen.
-
Diesbezüglich, da die Region 62 ein
relativ unbedeutender Abschnitt der Gesamtabbildung zu sein scheint,
die durch den Umgrenzungskasten 77 definiert wird, können nachteilige
Auswirkungen auf die Region 62, die durch das Zuordnen
eines Datentyps niedrigerer Rangordnung zu dem Kasten 77 verursacht
werden, relativ gering sein. Da die Region 64 jedoch ein
relativ bedeutender Abschnitt der Gesamtabbildung zu sein scheint,
die durch den Umgrenzungskasten 77 definiert wird, können bedeutende
Effizienzvorteile durch Zuordnen des Datentyps niedrigerer Rangordnung
der Region 64 zu dem Umgrenzungskasten 77 realisiert
werden, anstelle des Datentyps höherer
Rangordnung der Region 62. Insbesondere kann das Verarbeiten
der Region 64 über
Verarbeitungstechniken, die dem Datentyp niedrigerer Rangordnung
zugeordnet sind, eine "Über-Verarbeitung" der Daten reduzieren,
die die Region 64 definieren. Ferner können die zuvor genannten Effizienzvorteile
die zuvor genannten nachteiligen Auswirkungen aufwiegen, die dem
Zuordnen des Datentyps niedrigerer Rangordnung der Region 64 zu
dem Umgrenzungskasten 77 zugeordnet sind.
-
Um zu bestimmen, ob einer oder mehrere
Datentypen für
einen bestimmten Umgrenzungskasten 75-79 disqualifiziert
werden sollten, bestimmt die Region-Umgrenzungs- und -Klassifizierungs-Logik 66 vorzugsweise
einen Prioritätswert
für jeden
Datentyp innerhalb des bestimmten Umgrenzungskastens 75-79.
Der Prioritätswert
für einen
Datentyp wird vorzugsweise basierend auf dem Energiebetrag gewichtet,
der dem Datentyp innerhalb des bestimmten Umgrenzungskastens 75-79 zugeschrieben
ist. Nach dem Berechnen der Prioritätswerte für jeden Datentyp innerhalb
des bestimmten Kastens 75-79 werden die Prioritätswerte
verglichen, und einer oder mehrere Datentypen können basierend auf den Vergleichen
disqualifiziert werden.
-
Es wird darauf hingewiesen, daß der Energiebetrag,
der einem bestimmten Datentyp für
eine bestimmte Region zugewiesen ist, sich allgemein auf eine Statistik
oder Wahrscheinlichkeit darüber
bezieht, wieviel der Informationen innerhalb der bestimmten Region
für die
Verarbeitungstechniken förderlich
ist, die dem bestimmten Datentyp zugeordnet sind. Allgemein, je
wahrscheinlicher die Informationen innerhalb der bestimmten Region
förderlich
für die
Verarbeitungstechniken sind, die dem bestimmten Datentyp zugeordnet sind,
anstelle der Verarbeitungstechniken, die anderen Datentypen zugeordnet
sind, desto höher
der Energiepegel für
den bestimmten Datentyp.
-
Es wird ferner darauf hingewiesen,
daß verschiedene
Methoden vorliegen, die zum Bestimmen der Prioritätswerte
der Datentypen innerhalb eines bestimmten Kastens 75-79 verwendet
werden können,
und zum Vergleichen der Prioritätswerte,
um zu bestimmen, ob einer oder mehrere solcher Datentypen disqualifiziert
werden sollten. Bei dem bevorzugten Ausfüh rungsbeispiel werden Prioritätswerte
berechnet und gemäß Techniken
verglichen, die nun detaillierter beschrieben werden.
-
Anfänglich werden die Energiepegel
für jeden
Datentyp für
jede Region 61-72 innerhalb des bestimmten Umgrenzungskastens 75-79 berechnet,
wie durch Block 81 aus 5 gezeigt
wird. Für
jede solche Region 61-72 werden die Energiepegel jedes
Datentyps derart normalisiert, daß ihre Summe gleich 1 ist.
Dann, wie durch die Blöcke 84-86 für jede Region 61-72 innerhalb
des bestimmten Kastens 75-79 gezeigt ist, werden der höchste Energiepegel
und der zweithöchste
Energiepegel subtrahiert, und die Differenz wird dann mit einem Wert
multipliziert, der den Bereich der Region anzeigt, um einen Wert
herzuleiten, der als eine "Vorspannung" hin zu dem Datentyp
des höchsten
Energiepegels bezeichnet wird. Diese Vorspannung kann allgemein
als eine normierte Schätzung,
wobei die Größe der Region
berücksichtigt
wird, des "Qualitätsverlusts" betrachtet werden,
der durch Neutypisieren der Region von dem Datentyp des höchsten Energiepegels
zu dem Datentyp des zweithöchsten
Energiepegels verursacht wird. Verschiedene andere Techniken können zum
Bestimmen der vorangehenden Vorspannung verwendet werden.
-
Nach dem Berechnen der Vorspannungen
für jede
der Regionen 61-72 innerhalb des bestimmten Kastens 75-79 werden
die Vorspannungen hin zu demselben Datentyp summiert, um eine Gesamtvorspannung oder
einen "Prioritätswert" für den Datentyp
zu bilden, wie durch Block 89 aus 5 gezeigt ist. Die Gesamtvorspannung
oder der Prioritätswert
für einen
Datentyp ist allgemein ein Maßstab
des Ausmaßes,
relativ zu den anderen Typen, in dem Informationen des Datentyps
in dem bestimmten Kasten 75-79 umfaßt sind. Anders ausgedrückt zeigt
der Prioritätswert
für einen
Datentyp die Gesamtbedeutung des Datentyps für den bestimmten Kasten 75-79 an.
Es wird darauf hingewiesen, daß andere
Methoden zum Bestimmen einer Gesamtbedeutung eines Daten typs für den bestimmten
Kasten 75-79 bei anderen Ausführungsbeispielen verwendet werden
können.
-
Nach dem Berechnen der Prioritätswerte
werden Prioritätswerte
für die
unterschiedlichen Datentypen verglichen, wie durch Block 92 gezeigt
ist. Diesbezüglich überschreitet
die vorangehende Prioritätswertsumme den
Prioritätswert
für den
Datentyp höchster
Rangordnung um einen vorbestimmten Faktor, dann wird der Datentyp
höchster
Rangordnung bei Block 94 aus 5 disqualifiziert.
Es wird darauf hingewiesen, daß der
vordefinierte Faktor derart ausgewählt werden sollte, daß, wenn
derselbe überschritten
wird, der Energiebetrag, der dem Datentyp höchster Rangordnung zugeschrieben
ist, im Vergleich zu dem Energiebetrag, der den Datentypen niedrigerer
Rangordnung zugeschrieben ist, so unbedeutend ist, daß es wünschenswert
wäre, dem bestimmten
Kasten 75-79 den Datentyp eines Datentyps niedrigerer Rangordnung
zuzuweisen.
-
Als ein Beispiel kann es wünschenswert
sein, den Datentyp höchster
Rangordnung zu disqualifizieren, wenn die Summe der Prioritätswerte
für alle
Datentypen niedrigerer Rangordnung 500 mal größer ist als der Prioritätswert des
Datentyps höchster
Rangordnung. Bei einem solchen Beispiel kann die Region-Umgrenzungs-
und -Klassifizierungs-Logik 66 eine Schwelle berechnen,
die als "Vorspannungsschwelle" bezeichnet wird,
die gleich 500 mal dem Prioritätswert
des Datentyps höchster
Rangordnung ist. Wenn die Summe der Prioritätswerte der Datentypen niedrigerer
Rangordnung größer ist
als die Vorspannungsschwelle, dann wird der Datentyp höchster Rangordnung
disqualifiziert. Wenn nicht, dann wird der Datentyp höchster Rangordnung
nicht disqualifiziert.
-
Es wird darauf hingewiesen, daß andere
Typen von Faktoren und/oder Schwellen bei anderen Ausführungsbeispielen
zum Bestimmen der Disqualifikation verwendet werden können. In
der Tat ist die Vorspannungsschwelle allgemein ein Kompro miß zwischen
der Darstellungsqualität
und der Darstellungseffizienz. Diesbezüglich wird eine höhere Darstellungsqualität allgemein über eine
höhere
Vorspannungsschwelle sichergestellt. Eine höhere Vorspannungsschwelle erhöht jedoch
allgemein den Betrag von Verarbeitung und Speicherung, der verwendet
wird, um die Umgrenzungsregionen 75-79 zu definieren und
aufzubereiten, die durch das System 10 manipuliert werden.
-
Ferner, wenn der Datentyp höchster Rangordnung
nicht disqualifiziert wird, dann weist die Umgrenzungs- und Klassifizierungslogik 66 den
Datentyp höchster
Rangordnung zu dem bestimmten Umgrenzungskasten 75-79 zu,
wie bei Block 97 aus 5 gezeigt
ist. Wenn der Datentyp höchster
Rangordnung disqualifiziert wird, dann bezeichnet die Region-Umgrenzungs- und
-Klassifizierungs-Logik 66 den Datentyp zweithöchster Rangordnung bei Block 99 als
den Datentyp höchster
Rangordnung, und der vorangehende Prozeß des Summierens der Prioritätswerte
der Datentypen niedrigerer Rangordnung und des Vergleichens dieser Summe
mit dem Prioritätswert
des Datentyps höchster
Rangordnung wird wiederholt, bis einer der Datentypen, wenn derselbe
als Datentyp höchster
Rangordnung behandelt wird, nicht disqualifiziert wird.
-
Als ein Beispiel sei angenommen,
daß die
normierten Energiepegel für
die Regionen 62-64 (3) innerhalb
des Umgrenzungskastens 77 gemäß der nachfolgenden Tabelle
A bestimmt werden.
-
-
Es wird ferner angenommen, daß die Region 63 80%
der Größe der Region 62 ist,
und daß die
Region 64 100 mal die Größe der Region 62 ist.
Bei diesem Beispiel kann der Region 62 ein Bereichswert
von 1 zugewiesen werden, und den Regionen 63 und 64 können Bereichswerte
von 0,8 bzw. 100 zugewiesen werden.
-
Bei dem vorliegenden Beispiel kann
der Datentyp höchster
Rangordnung "Photographie" sofort disqualifiziert
werden, da die Energiepegel für
diesen Datentyp alle 0 sind, wie oben in Tabelle A gezeigt ist.
Somit wird der Datentyp "Mehrfachbitzeichnung" zu Zwecken der vorliegenden
Analyse vorzugsweise zu dem Datentyp höchster Rangordnung.
-
Um zu bestimmen, welcher Datentyp
dem Kasten 77 zugewiesen werden soll, wird der zweithöchste Energiepegel
für jede
Region 62-64 innerhalb des Umgrenzungskastens 77 vorzugsweise
von dem höchsten Energiepegel
der Region abgezogen. Es wird darauf hingewiesen, daß der höchste Energiepegel
für jede
Region 62-64 in Tabelle A oben fettgedruckt und unterstrichen
ist.
-
Somit wird für die Region 62 der
zweithöchste
Energiepegel (0,31) von dem höchsten Energiepegel (0,39)
abgezogen, um eine Differenz von 0,08 zu ergeben. Diese Differenz
(0,08) wird dann mit dem Bereichswert (1) multipliziert,
der der Region 62 zugeordnet ist, um ein Produkt von 0,08
zu erge ben. Dieses Produkt (0,08) stellt die Vorspannung der Region 62 hin
zu dem Datentyp "Mehrfachbitzeichnung" dar.
-
Für
die Region 63 wird der zweithöchste Energiepegel (0,3) von
dem höchsten
Energiepegel (0,5) abgezogen, um eine Differenz von 0,2 zu ergeben.
Diese Differenz (0,2) wird dann mit dem Bereichswert (0,8) multipliziert,
der der Region 63 zugeordnet ist, um ein Produkt von 0,16
zu ergeben. Dieses Produkt (0,16) stellt die Vorspannung der Region 63 hin
zu dem Datentyp "Einzelbitzeichnung" dar.
-
Für
die Region 64 wird der zweithöchste Energiepegel (0,1) von
dem höchsten
Energiepegel (0,8) subtrahiert, um eine Differenz von 0,7 zu ergeben.
Diese Differenz (0,7) wird dann mit dem Bereichswert (100) multipliziert,
der der Region 64 zugeordnet ist, um ein Produkt von 70 zu
ergeben. Dieses Produkt (70) stellt die Vorspannung der
Region 64 hin zu dem Datentyp "Einzelbitzeichnung" dar.
-
Nach dem Berechnen der Vorspannungen
der Regionen 62-64 innerhalb des Umgrenzungskastens 77 werden
die Vorspannungen, die denselben Datentypen zugeordnet sind, summiert,
um die Gesamtvorspannungen oder "Prioritätswerte" für die Datentypen
zu bilden. Es wird darauf hingewiesen, daß bei dem vorliegenden Beispiel
nur drei Vorspannungen vorliegen. Die Region 62 ist die
einzige Region, die eine Vorspannung hin zu einer "Mehrfachbitzeichnung" aufweist. Somit
ist die Gesamtvorspannung oder der Prioritätswert für die "Mehrfachbitzeichnung" die Vorspannung, die für die Region 62 berechnet
wird, oder anders ausgedrückt
0,08. Ferner werden beide Regionen 63 und 64 hin
zu der "Einzelbitzeichnung" vorgespannt. Somit
ist die Gesamtvorspannung hin zu der "Einzelbitzeichnung" die Summe der Vorspannungen, die für die Regionen 63 und 64 berechnet
wurde, oder anders ausgedrückt
70,16. Es wird darauf hingewiesen, daß die verbleibenden Datentypen
(d. h. "Photographie", "Tabelle" und "Text") Null (0) als ihren
jeweiligen Prioritätswert
aufweisen.
-
Nach dem Berechnen der Prioritätswerte
für jeden
der Datentypen wird der Prioritätswert,
der für
den Datentyp höchster
Rangordnung berechnet wurde (d. h. "Mehrfachbitzeichnung"), von der Summe der Prioritätswerte
subtrahiert, die für
die Datentypen niedrigerer Rangordnung berechnet wurde. Da die Prioritätswerte für alle Datentypen,
die rangmäßig unter "Einzelbitzeichnung" eingestuft sind,
Null (0) sind, ist die vorangehende Summe, die hierin nachfolgend
als die "Gesamtvorspannungssumme" bezeichnet wird,
gleich dem Prioritätswert
der "Einzelbitzeichnung", oder anders ausgedrückt gleich
70,16.
-
Es wird angenommen, daß die Vorspannungsschwelle
bei dem vorliegenden Beispiel ausgewählt ist, um ein Faktor von
100 mal dem Prioritätswert
des Datentyps höchster
Rangordnung zu sein. Somit ist die Vorspannungsschwelle bei dem
vorliegenden Beispiel als 40 (d. h. 500 × 0,08) festgelegt. Da die
Gesamtvorspannungssumme (70,16) größer ist als die Vorspannungsschwelle
(40), wird der Datentyp höchster Rangordnung ("Mehrfachbitzeichnung") disqualifiziert.
Somit wird der Datentyp zweithöchster
Rangordnung ("Einzelbitzeichnung") als der Datentyp
höchster
Rangordnung bezeichnet, und der Prozeß des Vergleichens der Gesamtdatentypen
wird wiederholt. Es wird darauf hingewiesen, daß die Vorspannungsschwelle
verändert
wird, da ein neuer Datentyp als der Datentyp höchster Rangordnung festgelegt
ist. Bei dem vorliegenden Beispiel wird die Vorspannungsschwelle
auf 35080 (d. h. 500 × 70,16)
geändert.
-
Bei diesem Beispiel besteht keine
Gesamtvorspannung für
die Datentypen niedrigerer Rangordnung, sobald der Datentyp "Einzelbitzeichnung" als Regiontyp höchster Rangordnung
bezeichnet ist. Folglich ist die Gesamtvorspannungssumme für die Datentypen
niedrigerer Rangordnung Null (0) und überschreitet daher die aktuelle
Vorspannungsschwelle nicht. Folglich wird der Datentyp höchster Rangordnung
("Einzelbitzeichnung") nicht disqualifiziert
und die Um grenzungs- und Klassifizierungs-Logik 66 weist
den Umgrenzungskasten 77 zu dem Datentyp "Einzelbitzeichnung" zu.
-
Es wird darauf hingewiesen, daß die vorangehende
statistische Analyse zum Bestimmen, ob Datentypen disqualifiziert
werden sollten, hierin zu darstellenden Zwecken beschrieben wurde.
Es besteht eine Vielzahl von anderen Typen statistischer Analysen,
die an den Energiepegeln unterschiedlicher Datentypen durchgeführt werden
können,
um zu bestimmen, ob ein bestimmter Datentyp für einen bestimmten Kasten 75-79 disqualifiziert
werden sollte oder nicht.
-
Zusätzlich dazu wurde das bevorzugte
Ausführungsbeispiel
der vorliegenden Erfindung derart beschrieben, daß es an
nichtüberlappenden
Regionen 61-72 arbeitet. Es ist jedoch nicht notwendig,
daß die
Regionen, die durch die Abbildungsanalysevorrichtung 25 bearbeitet
werden, nichtüberlappend
sind. Es ist z. B. möglich,
daß eine
Abbildung einer Tabelle (nicht gezeigt), einem Typ zugewiesen wird
und daß die
Textregionen innerhalb der Tabelle einem unterschiedlichen Typ zugewiesen
werden. Die oben beschriebenen Techniken können verwendet werden, um die
Tabelle zu umgrenzen, einschließlich
möglicherweise
anderer Regionen außerhalb
der Tabelle, über
eine Umgrenzungsregion, und der Umgrenzungsregion einen Datentyp
zuzuweisen. Bei einem solchen Beispiel kann die Logik 66 die
zwei überlappenden
Regionen analysieren (z. B. die Tabelle und die Textregion innerhalb
der Tabelle, auf dieselbe Weise, wie die Logik zwei nichtüberlappende Regionen
analysiert, wie oben bei dem bevorzugten Ausführungsbeispiel beschrieben
wurde.
-
Es wird ferner darauf hingewiesen,
daß überlappende
Regionen durch Durchführen
unterschiedlicher Zonenanalyseprozesse an derselben Abbildung 49 erzeugt
werden können.
Ein erster Satz einer Zonenanalyselogik zum Durchführen eines
ersten Typs einer Zonenanalyse kann die Abbildung 49 unterschiedlich
partitionieren und klassifizieren als ein zweiter Satz einer Zonenanalyselogik
zum Durchführen
eines zweiten Typs einer Zonenanalyse. Die Ergebnisse von jedem
der Sätze
einer Zonenanalyselogik können übereinandergelagert
werden, was zu einer Abbildung führt,
die überlappende
Regionen aufweist. Insbesondere können verschiedene Regionen,
die durch einen der Sätze
einer Zonenanalyselogik klassifiziert und partitioniert wurden, verschiedene
Regionen überlappen,
die durch den anderen Satz der Zonenanalyselogik partitioniert und
klassifiziert wurden. Bestimmte der Regionen, die überlappen,
können
demselben Datentyp oder derselben Klassifizierung zugewiesen sein,
wohingegen andere Regionen, die überlappen,
unterschiedlichen Datentypen oder Klassifizierungen zugewiesen sein
können.
In jedem Fall kann die Logik 66 eine Mehrzahl der überlappenden
Regionen über
eine Umgrenzungsregion umgrenzen und die Umgrenzungsregion basierend
auf einer Analyse der überlappenden
Regionen gemäß den hierin
für das
bevorzugte Ausführungsbeispiel
beschriebenen Techniken klassifizieren.
-
Die bevorzugte Verwendung und Operation
eines exemplarischen Ausführungsbeispiels
der Abbildungsanalysevorrichtung 25 und die zugeordnete
Methodik werden hierin nachfolgend beschrieben.
-
Zu Darstellungszwecken sei angenommen,
daß Abbildungsdaten 21 (1), die innerhalb des Speichers 23 gespeichert
sind, die Abbildung 49 definieren, die durch 2 gezeigt ist. Es wird darauf
hingewiesen, daß die
Abbildungsdaten 21 möglicherweise über eine
Abtastung definiert wurden, die durch die Abtastvorrichtung 18 durchgeführt wurde,
oder daß dieselben
möglicherweise
aus einer anderen Quelle hergeleitet wurden (z. B. von einem externen
System heruntergeladen). In bestimmten Situationen kann es wünschenswert
sein, dem Benutzer zu ermöglichen,
unterschiedliche Abschnitte der Abbildung 49 als Umgrenzungskästen zu
manipulieren. In solchen Situationen kann der Benutzer eine Eingabe
zum Aufrufen der Abbildungsanalysevorrichtung 25 übermitteln,
die die Abbildung 49 automatisch in einen oder mehrere
Umgrenzungskästen 75-79 (4) unterteilt und jeden Umgrenzungskasten 75-79 basierend
auf einer statistischen Analyse des Datentyps klassifiziert, der
in dem Umgrenzungskasten 75-79 umfaßt ist.
-
Diesbezüglich führt die Abbildungsanalysevorrichtung 25 des
bevorzugten Ausführungsbeispiels
zuerst eine Zonenanalyse an der angezeigten Abbildung über eine
geeignete bekannte Technik durch, wie durch Block 105 aus 6 gezeigt ist. Beim Durchführen einer
Zonenanalyse unterteilt die Abbildungsanalysevorrichtung 25 die
Abbildung 49 in verschiedene Regionen 61-72 (3) und weist jeder Region 61-72 einen
Datentyp zu, basierend auf dem Datentyp, der in jeder Region umfaßt ist.
Es wird darauf hingewiesen, daß statistische
Analysetechniken, wie z. B. die Techniken, die hierin vorangehend
zum Analysieren der Werte von Tabelle A beschrieben wurden, durch
die Abbildungsanalysevorrichtung 25 beim Unterteilen und/oder
Klassifizieren der Abbildung 49 in verschiedene Regionen 61-72 verwendet
werden können.
Dann, wie durch Block 108 gezeigt ist, unterteilt die Abbildungsanalysevorrichtung 25 die
Abbildung automatisch in verschiedene Umgrenzungskästen 75-79,
in denen jeder Umgrenzungskasten 75-79 eine oder mehrere
der Regionen 61-72 72 vollständig einschließt, die
bei der Zonenanalyse identifiziert wurden, die bei Block 105 durchgeführt wurde.
-
Beim Durchführen von Block 108 wird
jeder Umgrenzungskasten 75-79 zuerst um eine Region 61-72 gebildet,
die noch nicht durch einen anderen Umgrenzungskasten 75-79 umgrenzt
ist, wie durch Block 115 aus 7 gezeigt
wird. Wenn eine der Kanten des Umgrenzungskastens 75-9 eine
Region 61-72 schneidet, wird die Schneidkante bewegt, bis
die Kante keine der Regionen 61-72 mehr schneidet, wie
durch die Blöcke 118 und 121 gezeigt
ist. Es wird darauf hingewiesen, daß eine Bewegung einer Umgrenzungskastenkante
bei Block 121 den Gesamtbereich des Umgrenzungskastens 71-75 erweitert.
Ferner werden die Blöcke 118 und 121 wiederholt,
bis keine der Umgrenzungskastenkanten mehr eine der Regionen 61-72 schneidet.
Sobald alle der Regionen 61-72 durch einen Umgrenzungskasten 75-79 eingeschlossen
wurden, ist der Prozeß des
Einschließens
der Regionen 61-72 mit Umgrenzungskästen 75-79 abgeschlossen,
wie durch Block 124 aus 7 gezeigt
ist.
-
Nach dem Fertigstellen des Einschlusses
der Regionen 61-72 mit den Umgrenzungskästen 75-79 wird einer
der Umgrenzungskästen 75-79 für eine Klassifizierung
ausgewählt,
wie durch Block 132 aus 6 gezeigt
ist. Zu darstellenden Zwecken sei angenommen, daß der Umgrenzungskasten 77 bei
Block 132 ausgewählt
wird. Bei Block 135, der in 5 detaillierter
gezeigt ist, wird der Datentyp höchster
Rangordnung (z. B. "Mehrfachbitzeichnung") innerhalb des Umgrenzungskastens 77 bezüglich einer
Disqualifizierung über
die Blöcke 92 und 94 aus 5 getestet. Wenn der Datentyp
höchster
Rangordnung disqualifiziert wird, dann wird der Datentyp zweithöchster Rangordnung
(z. B. "Einzelbitzeichnung") als der Datentyp
höchster
Rangordnung bezeichnet und bezüglich
einer Disqualifizierung über
die Blöcke 92 und 94 aus 5 getestet.
-
Der vorangehende Prozeß des Bezeichnens
des Datentyps zweithöchster
Rangordnung als den neuen Datentyp höchster Rangordnung und des
Testens desselben bezüglich
einer Disqualifizierung wird wiederholt, bis der bezeichnete Datentyp
höchster
Rangordnung nicht disqualifiziert wird. Der erste Datentyp, der
bei den Blöcken 92 und 94 getestet
und nicht disqualifiziert wird, wird dem Umgrenzungskasten 77 zugewiesen, wie
durch Block 99 gezeigt wird. Wie durch Block 149 aus 6 gezeigt wird, wird der
Prozeß des
Auswählens eines
Umgrenzungskastens 75-79 und des Zuweisens eines Datentyps
zu dem ausgewählten
Umgrenzungskasten 75-79 vorzugsweise wiederholt, bis allen
Umgrenzungskästen 75-79 ein
Datentyp durch die Abbildungsanalysevorrichtung 25 zugewiesen
wurde.
-
Nach der Bildung und Klassifizierung
der Umgrenzungskästen 75-79 kann
der Benutzer einen oder mehrere der Umgrenzungskästen 75-79 über einen
herkömmlichen
Bildeditierungsprozeß manipulieren.
Der Benutzer kann z. B. einen herkömmlichen Bildeditor verwenden,
um einen oder mehrere Parameter eines Umgrenzungskastens 75-79 zu
editieren oder um eine neue Abbildung zu erzeugen, die teilweise
durch einen oder mehrere der Umgrenzungskästen 75-79 definiert
ist. Es wird darauf hingewiesen, daß verschiedene andere Typen
von bekannten Techniken zum Manipulieren eines oder mehrerer Umgrenzungskästen 75-79 bei anderen
Ausführungsbeispielen
durchgeführt
werden können.