-
HINTERGRUND DER ERFINDUNG
-
1. Technisches Gebiet
-
Die
vorliegende Erfindung betrifft die Verarbeitung von Multimedia-Dateien
zur Bereitstellung von Informationen, die die Benutzernavigation
durch Multimedia-Dateiinhalte
unterstützen.
-
Die
Nachfrage nach Hypermedia-Anwendungen hat mit der wachsenden Beliebtheit
des World Wide Web zugenommen. Als Ergebnis ist ein effektives und
automatisches Verfahren zur Erzeugung von Hypermedien notwendig
geworden. Die Erzeugung von Hypermedien kann jedoch eine aufwendige
und manuell intensive Aufgabe sein. Die Erzeugung von Hypermedien
kann insbesondere bei der Bezugnahme auf Inhalte in Dokumenten,
wie zum Beispiel Bilder und/oder andere Medien, schwierig sein.
-
In
vielen Fällen
müssen
die Hypermedia-Autoren verankerbare Informationseinheiten (AIUs – Anchorable
Information Units) oder Hotspots finden, die Bereiche oder Schlüsselwörter mit
besonderer Bedeutung sind, und entsprechende Hyperlinks zu relevanten
Informationen erstellen. In einem elektronischen Dokument kann ein
Benutzer zugeordnete Informationen durch Auswählen dieser Hotspots abrufen,
während
das System die zugeordneten Hyperlinks interpretiert und die entsprechenden
relevanten Informationen abruft.
-
Bei
bisherigen Arbeiten auf diesem Gebiet wurden gescannte Bitmap-Bilder
als Eingabe für
ein Dokumentanalysesystem verwendet. Die Klassifizierung des Dokumentsystems
wird häufig
von a-priori-Kenntnis der Klasse des Dokuments bestimmt. Es wurde
bisher nur wenig an der Verwendung von Postscript-Dateien als Startpunkt
für die
Dokumentanalyse gearbeitet. Wenn eine Postscript-Datei für maximale
Raster-Effizienz ausgelegt ist, kann es sicherlich eine entmutigende
Aufgabe sein, auch nur die Lesereihenfolge für das Dokument zu rekonstruieren.
Bisherige Forscher haben vielleicht angenommen, daß immer
ein gut strukturierter Quellentext verfügbar ist, der mit der Postscript-Ausgabe übereinstimmt,
und ein Arbeiten von unten nach oben aus dem Postscript nur selten
notwendig sein würde.
PDF-Dokumente können
jedoch auf vielfältige
Weise erzeugt werden, darunter auch eine Route auf der Grundlage
der optischen Zeichenerkennung (OCR) direkt aus einer Bitmap-Seite.
Die zusätzliche
Struktur in PDF über
die in Postscript hinaus kann im Hinblick auf das Ziel des Verständnisses
des Dokuments ausgenutzt werden.
-
Bisherige
Arbeiten haben Verfahren vorgeschlagen, die mit dem Verstehen von
Rasterbildern zusammenhängen.
Da diese Aufgabe definitionsgemäß ein Umkehrungsproblem
ist, läßt sie sich
nicht ohne umfassende Annahmen durchführen. Eine direkte Anwendung
dieser Verfahren auf PDF-Dokumente wäre nur wenig sinnvoll, da sie
nicht dafür
ausgelegt sind, die zugrundeliegende Struktur von PDF-Dateien auszunutzen
und somit unerwünschte
Ergebnisse erzeugen.
-
Im
Gegensatz zu der Analyse des geometrischen Layouts wurde der Analyse
des logischen Layouts nur sehr wenig Aufmerksamkeit geschenkt. Bestimmte
Verfahren für
die Analyse des logischen Layouts führen eine Bereichsidentifikation
oder -klassifikation in einem abgeleiteten geometrischen Layout
durch. Diese Ansätze basieren
jedoch im wesentlichen auf Regeln und das Endergebnis hängt somit
von der Zuverlässigkeit der
vorgegebenen Informationen ab, und davon, wie gut die vorgegebenen
Informationen in den Regeln repräsentiert
sind.
-
Systeme
wie zum Beispiel Acrobat verfügen
nicht über
die Möglichkeit,
Bilder zu verarbeiten. Stattdessen lässt Acrobat das gesamte Dokument
durch ein OCR-System laufen. OCR ist natürlich nicht in der Lage, Objekte
zu extrahieren, aber auch im Fall des Verstehens von Text kann die
Ausgabe unzuverlässig
sein, da Vielzweck-OCR bei Verwendung zum direkten Verstehen eingescannter
Bilder fehleranfällig
ist.
-
Deshalb
wird ein Verfahren zum Analysieren und Extrahieren von Text aus
mit verschiedenen Mitteln erzeugten PDF-Dokumenten benötigt.
-
Die
Problematik der Analyse und des Extrahierens von Text wird beispielsweise
in
„ScanSoft's Paper Converter
Revolutionises Scan-To-Web-Content
Creation", Press
Release, Reading, UK, 20.03.2000, S. 1 bis 5,,
W. S. Lovegroove, "Documents Analysis
of PDF files: Methods, Results and Implications", Electronic Publishing, vol 8 (2 & 3), Juni & Sept. 1995, S.
207-220; V. Wu et al., "Textfinder:
An Automatic System to Detect and Recognise Text in Images", IEEE Trans. Pattern
Analysis and Machine Intelligence, vol. 21, no. 11, Nov. 1999; oder
Y. Zhong et al., "Automatic
Caption Localization in Compressed Video", IEEE Trans. Pattern Analysis and Machine
Intelligence, vol. 22, no. 4, April 2000, behandelt.
-
Der
vorliegenden Erfindung liegen nun die Probleme zugrunde ein einfaches
und zuverlässiges
System sowie ein einfaches und zuverlässiges Verfahren zur Identifikation,
Analyse und zum Extrahieren von Text aus Dokumenten zur Verfügung zustellen.
-
KURZE DARSTELLUNG
DER ERFINDUNG
-
Die
genannten Probleme werden gelöst
durch ein System mit den Merkmalen des Anspruchs 1 sowie ein Verfahren
mit den Merkmalen des Anspruchs 12.
-
Vorteilhafte
Weiterbildung sind Gegenstand abhängiger Untersprüche.
-
Gemäss einer
Ausführungsform
der vorliegenden Erfindung wird ein System zur Verarbeitung einer Multimedia-Datei
bereitgestellt, um Informationen zu liefern, die die Benutzernavigation
durch Inhalte von Multimedia-Dateien unterstützen. Das System enthält einen
Inhalts-Parser zum Identifizieren von Text- und Bildinhalten einer
Datei und einen Bildprozessor zum Verarbeiten der identifizierten
Bildinhalte zur Identifizierung eingebetteter Textinhalte. Das System
enthält
ferner einen Textsortierer zum Parsen des identifizierten Texts und
des identifizierten eingebetteten Texts, um gemäss vorbestimmter Sortierregeln
Textelemente zu finden, und Speicher zum Speichern einer die Textelemente
enthaltenden Navigationsdatei.
-
Die
Navigationsdatei weist zu mindestens einem internen Dokument-Objekt
Link auf. Die Navigationsdatei weist zu mindestens einem externen
Dokument-Objekt Link auf.
-
Der
Bildprozessor enthält
einen Schwarzweiss-Bildprozessor
mit einer Pixel-Verschmierkomponente, die, wenn die Anzahl in horizontaler
Richtung aneinander angrenzender weißer Pixel zwischen zwei schwarzen
Pixeln eines identifizierten Bildinhalts kleiner als eine vorbestimmte
Kostante ist, die weißen
Pixel durch schwarze Pixel ersetzt, wobei die Konstante so gewählt ist,
dass Lücken
zwischen verschiedenen Buchstaben eines Wortes geschlossen werden,
wobei genau die dadurch erzeugten rechteckigen Blöcke schwarzer
Pixel als eingebetteter Text identifiziert werden.
-
Der
Inhalts-Parser wendet Textextrahierungsregeln an, um Text und eine
Dokumentstruktur zu identifizieren, wobei die Dokumentstruktur einen
Kontext für
identifizierten Text definiert. Der Inhalts-Parser wendet vordefinierte
hierarchische Regeln zur Bestimmung einer Ebene von identifiziertem
Text an.
-
Der
Bildprozessor wendet Objektschablonen an, um eingebetteten Text
zu identifizieren.
-
Das
System verfeinert eine Suchauflösung
während
eines Textidentifizierungsprozesses, um eine Position des eingebetteten
Texts in einem Bild zu bestimmen.
-
Identifizierter
Text umfasst Hyperlinks.
-
Gemäss einer
anderen Ausführungsform
der vorliegenden Erfindung wird ein grafisches Benutzerschnittstellensystem
bereitgestellt, das die Verarbeitung einer Multimedia-Datei zur
Bereitstellung von Informationen zur Unterstützung der Benutzernavigation
durch Multimedia-Dateiinhalte
unterstützt.
Das grafische Benutzerschnittstellensystem enthält einen Menügenerator
zum Erzeugen eines oder mehrerer Menüs, die dem Benutzer die Auswahl
einer Eingangsdatei und eines Eingangsformats zur Verarbeitung ermöglichen,
und eines Symbols, das dem Benutzer die Einleitung der Erzeugung
einer Navigationsdatei ermöglicht,
die das Erstellen von Links für
Eingangsdateielemente zu externen Dokumenten durch Parsen und Sortieren
von Text- und Bildinhalten zur Identifizierung von Text zur Integration
in eine Navigationsdatei unterstützt.
-
Identifizierter
Text umfasst Hyperlinks.
-
Die
Navigationsdatei umfasst weiterhin Links zu mindestens einem internen
Dokument-Objekt.
-
Bei
dem grundlegenden Verfahren gemäß der Erfindung
zum Verarbeiten einer Multimedia-Datei zur Bereitstellung von Informationen
zur Unterstützung
der Benutzernavigation durch Multimedia-Dateiinhalte, identifiziert
ein Inhalts-Parser
Text- und Bildinhalte einer Datei. Ein Bildprozessor verarbeitet
die identifizierten Bildinhalte, um eingebettete Textinhalte zu
identifizieren, wobei der Bildprozessor einen Schweizweißbildprozessor
mit einer Pixelverschmierkomponente aufweist, die, wenn die Anzahl
in horizontaler Richtung aneinander angrenzender weißer Pixel
zwischen zwei schwarzen Pixeln eines identifizierten Bildinhalts
kleiner als eine vorbestimmte Konstante ist, die weißen Pixel
durch schwarze Pixel ersetzt, wobei die Konstante so gewählt ist,
dass Lücken
zwischen verschiedenen Buchstaben eines Wortes geschlossen werden,
wobei genau die dadurch erzeugten rechteckigen Blöcke schwarzer
Pixel als eingebetteter Text identifiziert werden. Ein Textsortierter
parst den identifizierten Text und den identifizierten eingebetteten
Text, um Textelemente gemäß vorbestimmter
Sortierregeln zu finden.
-
Gemäss einer
Ausführungsform
der vorliegenden Erfindung wird ein Verfahren zur Erzeugung einer verankerbaren
Informationseinheit in einem PDF-Dokument (portable document format)
bereitgestellt. Das Verfahren umfasst das Extrahieren eines Textsegments
aus dem PDF- Dokument mit Hilfe des oben beschriebenen erfindungsgemäßen Verfahrens,
das Bestimmen eines Kontexts des Segments, wobei der Kontext aus einer
kontextabhängigen
hierarchischen Struktur ausgewählt
wird, und das Definieren des Textsegments als eine verankerbare
Informationseinheit gemäss
dem Kontext.
-
Das
PDF-Dokument enthält
eines oder mehrere Textobjekte und eines oder mehrere Nicht-Textobjekte,
wobei die Objekte Textsegmente enthalten.
-
Das
Bestimmen des Kontexts umfasst das Vergleichen des Textsegments
mit mehreren bekannten Mustern in dem PDF-Dokument und das Bestimmen des Kontexts
bei Bestimmung einer Übereinstimmung zwischen
dem Textsegment und einem bekannten Muster des PDF-Dokuments.
-
Das
Extrahieren von Text umfasst weiterhin das Extrahieren von Text
aus einem Bild des PDF-Dokuments, das Bestimmen eines Bildtyps,
wobei der Typ ein Schwarzweissbild, ein Graustufenbild oder ein
Farbbild ist, und das Verarbeiten des Bildes gemäss dem Typ.
-
Das
PDF-Dokument enthält
eine bekannte kontextabhängige
hierarchische Struktur. Die kontextabhängige hierarchische Struktur,
einschliesslich der verankerbaren Informationseinheit, ist durchsuchbar.
Der Kontext enthält
eine Position der extrahierten Textsegmente. Das Bestimmen des Kontexts
umfasst das Bestimmen einer Position und eines Stils des Textsegments.
-
Das
Verfahren umfasst weiterhin das Speichern des Textsegments in einer
SGML-Syntax (Standard Generalized Markup Language) unter Verwendung
einer vordefinierten Grammatik.
-
Die
verankerbare Informationseinheit wird automatisch mit Hyperlinks
versehen.
-
Gemäss einer
Ausführungsform
der vorliegenden Erfindung wird ein Verfahren zum Erzeugen einer Datei
verankerbarer Informationseinheiten aus einem PDF-Dokument bereitgestellt.
Das Verfahren umfasst das Bestimmen von Text in den Textteilen,
und Texten der Nicht-Textteile mittels des oben beschriebenen grundlegenden
erfindungsgemäßen Verfahrens.
Das Verfahren umfasst weiterhin das Extrahieren von Struktur aus
den Textteilen und den Nicht-Textteilen. Das Verfahren erstellt
Hyperlinks für
mehrere Schlüsselwörter in
den Textteilen und Nicht- Textteilen
zu mindestens einem verwandten Dokument.
-
Die
Identifikation von Text- und Bildinhalten mit dem Inhalts-Parser
umfasst weiterhin den Schritt des Unterscheidens zwischen Farbbildinhalt,
Schwarzweissinhalt und Graustufeninhalt.
-
Das
Extrahieren umfasst weiterhin das Bestimmen einer Ebene für extrahierte
Textteile, das Zuordnen des Kontexts zu dem Text und einen Mustervergleich
von extrahiertem Text mit dem PDF-Dokument zur Bestimmung eines
Kontexts. Die Ebene ist ein Absatz, eine Überschrift oder eine Unter-Überschrift.
Der Mustervergleich umfasst die Bestimmung einer Median-Fontgrösse für das PDF-Dokument,
das Vergleichen einer Fontgrösse
des extrahierten Texts mit der Median-Fontgrösse für das PDF-Dokument und das Bestimmen eines Kontexts
gemäss
der Fontgrösse.
-
Das
Erzeugen von Hyperlinks umfaßt
das Erzeugen der Datei verankerbarer Informationseinheiten, wobei
die mehreren Schlüsselwörter verankerbare
Informationseinheiten sind.
-
Gemäß einer
Ausführungsform
der vorliegenden Erfindung wird ein Programmspeichergerät bereitgestellt,
das maschinenlesbar ist und greifbar ein Programm von durch die
Maschine ausführbaren
Anweisungen zur Durchführung
von Verfahrensschritten zum Erzeugen einer Datei verankerbarer Informationseinheiten
aus einem PDF-Dokument
realisiert.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
Bevorzugte
Ausführungsformen
der vorliegenden Erfindung werden nachfolgend ausführlicher
mit Bezug auf die beigelegten Zeichnungen beschrieben. Es zeigen:
-
1 ein
Flußdiagramm
einer Übersicht
eines Verfahrens zum Erzeugen einer verankerbaren Informationseinheit
gemäß einer
Ausführungsform
der vorliegenden Erfindung;
-
2 ein
Flußdiagramm
eines Verfahrens zum Erzeugen einer verankerbaren Informationseinheit
gemäß einer
Ausführungsform
der vorliegenden Erfindung; und
-
3a-b
ein Flußdiagramm
eines Verfahrens zum Erzeugen einer verankerbaren Informationseinheit gemäß einer
Ausführungsform
der vorliegenden Erfindung.
-
4 eine
grafische Benutzerschnittstellenanzeige, die die Verarbeitung einer
Multimedia-Datei zur Bereitstellung von Informationen zur Verwendung
bei der Navigation durch Multimedia-Dateiinhalte gemäß einer
Ausführungsform
der vorliegenden Erfindung unterstützt.
-
AUSFÜHRLICHE
BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
-
Die
vorliegende Erfindung liefert ein automatisiertes Verfahren zum
Finden von Hotspots in einer PDF-Datei und zum Erzeugen von AIUs
mit Querverweisen in Hypermedia-Dokumenten. Zum Beispiel können Textzeichenketten
auf einen relevanten Maschinenteil in einem ein industrielles Instrument
beschreibenden Dokument zeigen.
-
Es
versteht sich, daß die
vorliegende Erfindung in verschiedenen Formen von Hardware, Software, Firmware,
Spezialprozessoren oder einer Kombination davon implementiert werden
kann. Bei einer Ausführungsform
kann die vorliegende Erfindung in Software als ein Anwendungsprogramm
implementiert werden, das greifbar auf einem Programmspeichergerät realisiert
wird. Das Anwendungsprogramm kann auf eine Maschine mit beliebiger
geeigneter Architektur heraufgeladen und von dieser ausgeführt werden.
Vorzugsweise wird die Maschine auf einer Computerplattform mit Hardware,
wie zum Beispiel einer oder mehreren zentralen Verarbeitungseinheiten
(CPUs), einem Direktzugriffsspeicher (RAM) und Eingangs-/Ausgangs
(E/A-) Schnittstelle(n) implementiert. Die Computerplattform enthält außerdem ein
Betriebssystem und Mikrobefehlscode. Die verschiedenen hier beschriebenen
Prozesse und Funktionen können
entweder Teil des Mikrobefehlscodes oder Teil des Anwendungsprogramms
(oder einer Kombination dieser) sein, der bzw. das über das
Betriebssystem ausgeführt
wird. Zusätzlich
können
verschiedene andere Peripheriegeräte mit der Computerplattform verbunden
werden, wie zum Beispiel ein zusätzliches
Datenspeichergerät
und ein Druckgerät.
-
Da
ein Teil der in den beigefügten
Figuren abgebildeten Systemkomponenten und Verfahrensschritte in
Software implementiert werden können,
versteht sich weiterhin, daß die
tatsächlichen
Verbindungen zwischen den Systemkomponenten (oder Prozeßschritten)
abhängig
von der Art und Weise der Programmierung der vorliegenden Erfindung
unterschiedlich sein können.
Mit den hier angegebenen Lehren der vorliegenden Erfindung werden
Durchschnittsfachleute auf dem betreffenden Gebiet in der Lage sein,
diese und ähnliche Implementierungen
oder Konfigurationen der vorliegenden Erfindung in Betracht zu ziehen.
-
Die
betrachteten PDF-Dateien können
einfachen Text oder allgemeiner eine Mischung von Text und vielfältigen verschiedenen
Bildtypen, wie zum Beispiel Schwarzweiß, Graustufen und Farbe enthalten.
Gemäß einer
Ausführungsform
der vorliegenden Erfindung findet das Verfahren die Text- und Nicht-Textbereiche
und wendet auf beides verschiedene Verarbeitungsverfahren an. Für die Nicht-Textbereiche
werden gemäß dem Typ
des darin enthaltenen Bildes verschiedene Bildverarbeitungsverfahren
verwendet.
-
Das
Extrahieren von AIUs ist für
die Erzeugung von Hypermedia-Dokumenten wichtig. Bei bestimmten PDF-Dateien, z.B. solche,
die in einen Computer eingescannt wurden, kann dies jedoch schwierig
werden. Gemäß einer
Ausführungsform
der vorliegenden Erfindung zerlegt das Verfahren das Dokument, um
ein Seitenlayout für
die zugrundeliegenden Seiten zu bestimmen. Somit können verschiedene
Verfahren auf die verschiedenen Teile einer Seite angewandt werden.
Ein geometrisches Seitenlayout eines Dokuments ist eine Spezifikation
der Geometrie der maximalen homogenen Bereiche und ihrer Klassifikation
(Text, Tabelle, Bild, Zeichnung usw.). Die Analyse des logischen
Seitenlayouts umfaßt
das Bestimmen eines Seitentyps, das Zuweisen von Funktionsetiketten,
wie zum Beispiel Titel, Anmerkung, Fußnote, Bildunterschrift usw.
auf jeden Block der Seite, das Bestimmen der Beziehungen der Blöcke und
das Anordnen der Textblöcke
gemäß einer Lesereihenfolge.
-
OCR
hat bei vorbekannten Systemen zur Bestimmung des Dokumentinhalts
eine wichtige Rolle gespielt. Dementsprechend wurde die meiste Forschungsaufmerksamkeit
OCR gewidmet. Da die Leistung des Dokumentverständnissystems als Ganzes von
der vor der OCR stattfindenden Vorverarbeitung abhängt, spielt in
diesem Bereich die Seitensegmentierung eine wichtige Rolle.
-
Die
vorliegende Erfindung analysiert das Dokument und extrahiert Informationen
aus dem Text und/oder den Figuren, die sich an einer beliebigen
Stelle in dem Dokument befinden können. Das Verfahren bestimmt
den Kontext, in dem diese Hotspots (z.B. interessierende Objekte
oder Textsegmente) erscheinen. Weiterhin sichert das Verfahren diese
Informationen auf eine strukturierte Weise, die einer vordefinierten
Syntax oder Grammatik folgt, durch die sich das Verfahren auf diese
Informationen beziehen kann, während
automatische Hyperlinks zwischen verschiedenen Dokumenten und Medientypen
erzeugt werden.
-
1 zeigt
ein Flußdiagramm
der Hauptphasen in dem Prozeß der
grafischen Erkennung. Die Eingabe für das System umfaßt eine
PDF-Datei 101. Das Verfahren parst die Datei zu Bereichen
von Text und Nicht-Text 102. Die Text- und Nicht-Textbereiche
werden analysiert, um Struktur- und andere relevante Informationen 103 zu
extrahieren. Das Verfahren bestimmt Text in normalen Textblöcken 104 sowie
Text in den (etwaigen) Bildern 105-108, wie zum
Beispiel Elementnummern in einer technischen Zeichnung. Das Verfahren unterscheidet
zwischen Farbbildern und Schwarzweißbildern 105 vor dem
Extrahieren von Text aus einem Bild. Diese Textsegmente werden zur
Erzeugung von Hyperlinks zu anderen Dokumenten 109-110,
zum Beispiel einer anderen PDF-Datei
oder beliebigen anderen Medientypen, wie zum Beispiel Audio, Video
usw. verwendet.
-
Um
Anwendungsprogrammierer dabei zu unterstützen, Wörter aus PDF-Dateien zu extrahieren,
liefert Adobe Systems ein Software-Development-Kit (SDK), das über die
Anwendungsprogrammiererschnittstelle (API) von Acrobat®-Viewer-Programmen
Zugang zu dem zugrundeliegenden portierbaren Dokumentmodell gibt,
das das Viewer-Programm im Speicher hält. Das SDK ist in der Lage,
eine Suche nach PDF-Dokumenten durchzuführen. Für die PDF-Dokumente, die direkt
aus einem Texteditor, wie zum Beispiel Word von Microsoft oder FrameMaker® von
Adobe, erzeugt werden, funktioniert dies recht gut, bei eingescannten
Dokumenten kann sich die Leistung jedoch wesentlich verschlechtern.
Außerdem
kann das SDK bei Dokumenten mit Doppelspalten fehleranfällig sein.
SDK wurde im wesentlichen für
Dokumente entworfen, die mit einem Texteditor erzeugt wurden. Deshalb
war die Leistung mit durch andere Mittel erzeugten Dokumenten keine
wichtige Frage. Die vorliegende Erfindung verwendet eine alternative
Strategie für
eingescannte Dokumente.
-
Gemäß einer
Ausführungsform
der vorliegenden Erfindung extrahiert das Verfahren Wörter zusammen
mit ihrer Position in dem Dokument und dem Stil, mit dem sie wiedergegeben
werden. Das Verfahren bestimmt nicht nur, ob eine Seite ein bestimmtes
Wort enthält
oder nicht, sondern bestimmt auch seine Position und seinen Kontext,
so daß automatisch
auf der Grundlage des Inhalts ein Link von der Position zu denselben Medien
oder einem anderen erzeugt werden kann.
-
Mit
Bezug auf 2 extrahiert 202 das
Verfahren Text, die Koordinaten des Texts und den Textstil aus einer
PDF-Datei 201. Das Verfahren analysiert Parameter der PDF-Datei,
um den Kontext des Texts zu bestimmen 203-205. Zu
den Parametern gehören
u.a. Absätze 203, Überschriften 204 und
Unterüberschriften 205.
Das Verfahren extrahiert weiterhin Text und zugeordnete Randboxen
und Seitennummern. Die Parameter einer Randbox werden aus den extrahierten
Koordinaten bestimmt. Das Verfahren ordnet Kontext Text 206 zu. Wenn
zum Beispiel die Randbox horizontal mit mehreren anderen Wörtern ausgerichtet
ist, z.B. wenn der Text auf ähnlichen
Höhen erscheint
und Teil einer größeren Gruppe
ist, dann bestimmt das Verfahren diesen Text als Teil des normalen
Texts (z.B. eines Absatzes) für
die Seite, im Gegensatz zum Beispiel zu einer Überschrift.
-
Das
Verfahren bestimmt die Median-Fontgröße für einen Teil des Textdokuments
und führt
einen kontextabhängigen
Mustervergleich 207 durch. Wenn die Fontgröße für einen
Teil des Texts größer als
der Median ist und wenn der Textteil klein ist, z.B. sich der Text
nicht um mehr als eine einzige Zeile erstreckt, bestimmt das Verfahren,
daß dies
Teil einer Überschrift
ist. Bei Bestimmung einer Überschrift
prüft das
Verfahren die Textebene, z.B. ob sie zu einer Kapitelüberschrift,
einer Abschnittsüberschrift,
einem Unterabschnitt usw. gehört. Die
Textebene kann auch aus den verwendeten relativen Fontgrößen und
Offsets von dem rechten und linken Rand, falls vorhanden, bestimmt
werden.
-
Nachdem
das Verfahren alle Textinformationen bezüglich der Organisation des
Dokuments bestimmt hat, verwendet das Verfahren Organisationsinformationen
zum wählbaren
Erzeugen von verankerbaren Informationseinheiten (AIUs) 208-209 oder
Hotspots. Das Verfahren erzeugt automatisch oder halbautomatisch diese
Hotspots auf eine kontextabhängige
nichtredundante Weise auf der Grundlage der Organisationsinformationen.
-
Die
vorliegende Erfindung liefert ein Verfahren zum Extrahieren von
Bildern. Dieses Problem wird dadurch schwierig, daß Text möglicherweise
nicht von Polylinien unterschieden werden kann, die die zugrundeliegenden
Linienzeichnungen bilden. Obwohl das Entwickeln eines allgemeinen
Verfahrens, das für
alle Arten von Linienzeichnungsbildern funktionieren würde, schwierig
ist, verwendet die vorliegende Erfindung zugrundeliegende Strukturen
der betreffenden Dokumente. Die vorliegende Erfindung findet Bilder
gemäß der Geometrie
und Länge
der Textzeichenketten. Diese lokalisierten Bereiche werden mit OCR-Software
analysiert, um den Textinhalt zu extrahieren.
-
Mit
Bezug auf 3a und 3b extrahiert
das Verfahren Bilder und ihre Position 302 aus einer PDF-Datei 301.
In PDF-Dateien können
verschiedene Arten von Bildern codiert werden, darunter Schwarzweiß-, Graustufen-
und Farbbilder. Interessierende Objekte können in beliebigen dieser Bilder
codiert werden. Zum Beispiel kann ein Schwarzweißbild dazu dienen, eine CAD-Zeichnung (computer
aided design) zu codieren. CAD-Bilder
können
zum Beispiel Diagramme vordefinierter Objekte oder Textsegmente
enthalten, die sich auf wichtige Informationen, wie zum Beispiel
Maschinenteile, beziehen können.
Andere Bilder sind zum Beispiel Beschreibungen von Maschinenteilen,
insbesondere, wenn die Dokumente von technischer Natur sind.
-
Bei
PDF wird ein Bild als Xobjekt bezeichnet, dessen Subtyp Image ist.
Bilder ermöglichen
einen Inhaltsstrom zur Spezifikation eines abgetasteten Bildes oder
einer Bildmaske. Das Verfahren bestimmt den Typ des Bildes 303.
PDF ermöglicht
Bildmasken, z.B. 1-Bit-, 2-Bit-, 4-Bit- und 8-Bit-Graustufenbilder und
Farbbilder mit 1, 2, 4 oder 8 Bit pro Komponente. Eine Bildmaske,
wie zum Beispiel ein externes Bild, kann in die PDF-Datei eingebettet
werden. Für
eingebettete Bilder bestimmt das Verfahren einen Bezug auf dieses
Bild und auf der Grundlage des Bildtyps und des Dateiformats kann
ein entsprechendes Decodierungsverfahren verwendet werden, um das
Bild zu extrahieren und es zu verarbeiten 304. Wenn es
sich um ein abgetastetes Bild handelt, dann werden die Bildpixelwerte
jedoch direkt in der PDF-Datei
auf bestimmte codierte Weise gespeichert. Die Bildpixelwerte können zunächst decodiert
und dann verarbeitet werden 305.
-
Das
Verfahren vereinfacht die Bilder, um Textzeichenketten zu extrahieren 306.
Die Graustufenbilder werden durch Schwellenverfahren in Schwarzweißbilder
umgesetzt 307. Das Verfahren sucht nach Textzeichenketten
entweder in Graustufen- oder Schwarzweißbildern. Wenn das Bild nicht
farbig ist, wird es somit auf Schwarzweiß reduziert.
-
Für die Schwarzweißbilder
verschmiert das Verfahren das Bild 308. In einer willkürlichen
Kette von Schwarzweiß-Pixeln ersetzt das
Verfahren weiße
Pixel durch schwarze Pixel, wenn die Anzahl angrenzender weißer Pixel
zwischen zwei schwarzen Pixeln kleiner als eine vorbestimmte Konstante
ist. Diese Konstante hängt
mit der Fontgröße zusammen
und kann vom Benutzer definiert werden. Diese Operation wird hauptsächlich in
der horizontalen Richtung eingesetzt. Die Operation schließt die Lücken, die
zwischen verschiedenen. Buchstaben in einem Wort bestehen, und ein
Wort auf einen rechteckigen Block schwarzer Pixel reduzieren können. Sie
wirkt sich jedoch auch auf Linienzeichnungen auf ähnliche
Weise aus. Der Unterschied besteht hier darin, daß durch
die Beschaffenheit ihrer Erscheinung Textwörter nach der Operation rechteckig
mit einer bestimmten Höhe
(für horizontalen
Text) und Breite ausschauen (unter der Annahme, daß die in
einer technischen Zeichnung erscheinenden Teilenummern wahrscheinlich
eine bestimmte Länge
aufweisen). Die Linienzeichnungen erzeugen jedoch unregelmäßige Muster,
durch die sie von dem zugeordneten Text unterscheidbar werden.
-
Das
Verfahren säubert
das resultierende Bild durch Verwendung einer Median-Filterung 309 zur
Entfernung kleiner Inseln oder Gruppen von schwarzen Pixeln. Das
Verfahren gruppiert die horizontalen Läufe schwarzer Pixel zu Gruppen,
die durch weiße
Zwischenräume
getrennt werden, und ordnet ihnen Etiketten zu 310. Das
Verfahren berechnet eine Randbox 311 für jede Gruppe und berechnet
Merkmale wie zum Beispiel Breite, Höhe, Seitenverhältnis und
Pixeldichte, z.B. das Verhältnis
der Anzahl schwarzer Pixel zu der Fläche der Randbox.
-
Das
Verfahren implementiert Regeln 312 zur Bestimmung, ob sich
in der Randbox Text befindet, und falls dies so ist, ob der Text
interessiert. Durch eine Schwellentechnik schließt das Verfahren Bereiche aus,
die entweder zu groß oder
zu klein sind. Das Verfahren sucht nach einem Wort oder zwei, die
eine Kennung bilden, wie zum Beispiel eine Teilenummer oder einen
Teilenamen. Das Verfahren schließt außerdem Bereiche aus, deren
Beschaffenheit, wie durch das Seitenverhältnis Breite/Höhe definiert,
nicht rechteckig sondern quadratisch ist, da Wörter normalerweise mehrere
Zeichen lang sind und eine Höhe
von einem Zeichen aufweisen. Das Verfahren schließt außerdem Bereiche
aus, die relativ leer sind, z.B. schwarze Pixel, die auf ziemlich
unregelmäßge nicht
rechteckige Weise verbunden sind. Dies ist eine Eigenschaft von
Limienzeichnungen und ist nur unwahrscheinlich Textzeichenketten
zugeordnet. Die Grenzen in dem obigen sind bereichsabhängig, und der
Benutzer ist in der Lage, diese auf der Grundlage der Eigenschaften
des verarbeiteten Dokuments zu wählen
und zu modifizieren.
-
Nach
der Identifizierung der plausiblen Textbereiche verwendet das Verfahren
ein OCR-Toolkit 313 zur Identifizierung des ASCII-Texts,
der die oben identifizierten plausiblen Bereiche charakterisiert.
Nachdem das Verfahren den Text bestimmt hat, dient ein Mustervergleichsverfahren 314 zur
Korrektur von Fehlern, die während
der Erkennung durch die OCR verursacht worden sein können. Zum
Beispiel könnte
die OCR falscherweise den Buchstaben „o" durch die Ziffer „0" ersetzt haben. Wenn dem Verfahren der
Kontext bewußt
ist, können
solche Fehler korrigiert werden.
-
Das
Verfahren behält
interessierende Wörter
und/oder Phrasen und sichert sie in einer AIU-Datei. Wenn das Verfahren
den interessierenden Text extrahiert und gesichert hat, werden in
den Bildern 316 etwaige Objektteile identifiziert.
-
Um
die Geschwindigkeit des Verfahrens zu vergrößern, werden die Nicht-Textbereiche
des Bildes zu Blöcken
geparst. Ein Histogramm der Pixel-Grauwert- oder Farbwerte in diesen
Blöcken 317-318 wird
dann analysiert. Bei einem Farbbild analysiert das Verfahren ein
Histogramm für
das gesamte Bild.
-
Das
Verfahren implementiert Schablonen von Objekten, nach denen in dem
Bild gesucht wird. Das Verfahren parst die Schablone zu Blöcken und
bestimmt ein Histogramm für
die Blöcke.
Das Verfahren bestimmt Positionen in dem ursprünglichen Bild von Blöcken, die
eine ähnliche
Histogramm-Signatur wie die der Schablone aufweisen. Wenn eine Übereinstimmung
bestimmt wird 319, führt
das Verfahren eine sorgfältigere Pixelkorrelation 320 durch,
um die genaue Position zu bestimmen.
-
Das
Verfahren kann mit einer niedrigen Auflösung beginnen, zum Beispiel
unter Verwendung von 32 × 32-Blöcken. Wenn
eine Übereinstimmung
gefunden wird, kann das Verfahren mit einer höheren Auflösung, z.B. 16 × 16, neu
iterieren. Nach der Neuiteration auf einen Maßstab von zum Beispiel 8 × 8, korreliert
das Verfahren die Schablone mit dem Original, um eine Position einer
wünschenswerten Übereinstimmung
zu finden. Vor der Durchführung
einer Korrelation binärisiert
das Verfahren jedoch das Bild 321, wenn es nicht bereits
in binärer
Form vorliegt, durch Berechnen von Rändern. Für das binärisierte Bild führt das
Verfahren eine Korrelation für
die Ränder
durch. Somit kann das Verfahren die für die Verarbeitung eines Bildes
benötigte
Verarbeitungsmenge reduzieren.
-
Übereinstimmungen
werden mit einer Schwelle 323 bestimmt, die auf 0,6 × Ne gesetzt werden kann, wobei Ne die
Anzahl von Randpunkten in der Schablone ist. Das Verfahren bestimmt
die Informationen, die sowohl für
die Text- als auch die Nicht-Textteile der PDF-Dateien benötigt werden,
und die zusammengestellten Informationen werden unter Verwendung
einer SGML-Sprache
(Standard Generalized Markup Language) in AIU-Dateien 324-325 gespeichert.
Mit SGML-Syntax kann man Hyperlinks zu anderen Teilen desselben
Dokuments oder zu anderen Dokumenten oder unähnlichen Medientypen erzeugen.
-
Gemäß einer
Ausführungsform
der vorliegenden Erfindung wird die Struktur von PDF-Dokumenten
in SGML definiert. Die Strukturinformationen können zur Erfassung der aus
einem PDF extrahierten Informationen verwendet werden. Die aus dem
PDF extrahierten Objekte werden als verankerbare Informationseinheiten (AIUs)
bezeichnet. Da aus einem PDF-Dokument extrahierte Informationen
als eine Instanz der PDF-AIU-Dokumenttypendefinition (DTD) dargestellt
werden und somit gut strukturiert sind, kann das Verfahren automatisch
Hyperlinks zwischen den PDF-Dokumenten und anderen Arten von Dokumenten
erzeugen. Wenn der Benutzer während
des Browsens das Objekt anklickt, kann deshalb das entsprechende
Link navigiert werden, um das gewünschte Ziel zu erreichen.
-
Nach
der Verarbeitung wird jede PDF-Datei einer AIU-Datei zugeordnet, die aus der PDF-Datei
extrahierte relevante Informationen enthält. Die AIU-Datei wird auf
hierarchische Weise folgendermaßen
definiert:
An der Wurzel umfaßt die AIUDoc-Definition die
Kopf-, Fuß-
und die extrahierten Informationen in dem Feld PdfDocX.
-
-
Die
Definition des DocHeader wird gegeben als:
und die
Felder in dem PdfDocX werden gegeben durch (diese Felder werden
später
definiert):
-
Das
Feld PdfSeg, das die Abschnitte charakterisiert, wird definiert
als:
während die
Felder PdfSeg2, die die Segmente in diesem Dokument sind, folgendermaßen definiert
werden:
die AIUs
werden mit den folgenden Feldern definiert:
-
Eine
AIU-Datei ist somit eine Folge von einem oder mehreren parsbaren
Zeichendatenelementen. In dem Beispiel umfassen die Zeichendaten
eine Kette von ASCII-Zeichen und -Nummern. Während die verschiedenen für PDF-AIUs
relevanten Attribute oben aufgelistet wurden, können zusätzliche Attribute für AIUs relevant
sein, die andere Medientypen betreffen. Wie bereits erwähnt, strukturiert
das Verfahren das PDF-Dokument auf hierarchische Weise. An der Wurzel
befindet sich das gesamte Dokument. Das Dokument wird in Teildokumente
zerlegt. Die AIU-Datei beginnt mit einer Beschreibung des Typs des
zugrundeliegenden Medientyps, in diesem Fall PDF. Der Dokumentkopf
enthält
vier verschiedene Felder, darunter den zugrundeliegenden PDF-Dateinamen,
eine eindeutige Kennung für
die gesamte PDF-Datei, eine Dokument-Typendefinition, die den Kontext
der PDF-Datei erläutert,
und eine spezifischere Dokumentbeschreibung, die den Inhalt der
PDF-Datei erläutert.
-
Die
aus der PDF-Datei extrahierten Informationen werden in der PDFDocX-Struktur
gespeichert. Die PDFDocX-Struktur
enthält
eine eindeutige Kennung, die aus der Kennung der PDF-Datei selbst
abgeleitet wird. Das PDF-Dokument
wird auf hierarchische Weise unter Verwendung von Teildokumenten
und Segmenten organisiert. Die Segmente weisen die folgenden Attribute
auf. Wiederum gibt es eine eindeutige Kennung für jedes Segment. Die Anfangs-
und Endpositionen dieser Segmente definieren das Ausmaß dieser
Abschnitte. Auf der Grundlage der Anforderungen und Größe des Dokuments
können
auch weitere Attribute verwendet werden.
-
Die
PDF-AIUs enthalten eine eindeutige Kennung. Die PDF-AIUs können die
folgenden Typen aufweisen: Rechteck, Ellipse und Polygon. Jede AIU
hat außerdem
einen eindeutigen Namen. Das Feld BoundaryCoords beschreibt die
Koordinaten des zugrundeliegenden interessierenden Objekts und definiert
die Randbox. Das Seitenfeld beschreibt die Seitenposition des zugrundeliegenden
Dokuments. Im Fall von Rechtecken und Ellipsen werden die obere
linke und untere rechte Ecke der Randbox definiert. Im Fall eines
Polygons werden alle Knoten definiert.
-
Es
folgt ein Beispiel für
eine PDFAIU-Datei. Die Link-Definition
wird in dem folgenden Teilabschnitt beschrieben.
-
-
-
Das
Erzeugen von Hyperlinks für
die PDF-AIUs kann manuell oder auf automatisierte Weise geschehen.
Manuelle Links können
während
der oben beschriebenen AIU-Umgrenzungsphase eingefügt werden.
Da die aus PDF extrahierten Informationen bei einer Ausführungsform
der vorliegenden Erfindung jedoch in wohlstrukturierten AIU-Dateien
gespeichert werden, enthält
das Verfahren einen automatischen Hyperlinker zum automatischen
Erstellen von Hyperlinks für
PDF-AIUs zu allen anderen Typen von Dokumenten auf der Grundlage
von Hyperlink-Spezifikationen.
Das heißt,
der Hyperlinker verarbeitet Link-Spezifikationen, führt an den Inhalten
und Strukturen der Dokumente einen Mustervergleich durch und richtet
Links zwischen Quellen und Zielen ein. Außerdem ist es wichtig, wie
die Link-Informationen in den AIU-Dateien codiert werden. Jedes
der codierten Objekte kann potentiell ein Link aufweisen. Da die
SGML-Struktur für
die AIU-Dateien verwendet wurde und Links Entitäten in dieser Datei sind, werden
Links auch unter Verwendung einer ähnlichen SGML-Struktur definiert.
Die Definition und die Felder werden nachfolgend angegeben:
-
Type
definiert den Typ des Ziels, z.B. wenn es sich um Text oder Bild
oder Video usw. handelt. Focus definiert den Text, der am Link-Ziel
hervorgehoben wird. Book stellt das Buch dar, von dem Ziel Teil
ist. Da die Hauptanwendung ein Handbuch mit Hyperlinks ist, werden
sie in dem Beispiel als ein hierarchischer Baum organisiert, wobei
jedes Handbuch als ein Buch dargestellt wird. Linkend, das wichtigste
Attribut, enthält
die Zielinformationen. LinkId ist ein Index zu der Datenbank, wenn
das Ziel darauf zeigt. LinkruleId hat angezeigt, welche Regel dieses
Link erzeugt hat. SubType ähnelt
der Type-Definition in der obigen AIU-Spezifikation. Labels gibt eine Beschreibung
des Link-Ziels.
Es kann auch weitere Attribute geben.
-
Im
folgenden wird eine Instanz einer AIU-Datei mit Hyperlinks bereitgestellt.
Das heißt,
Link-Elemente können
manuell oder automatisch PDF-AIUs hinzugefügt werden, die während des
Abspielens mit Hyperlinks zu ihren Zielen versehen werden sollen.
-
-
-
Die
SGML-Dokumente (einschließlich
der AIU-Dateien.). werden mit dem SGML-Indexer vorindiziert. Dies
umfaßt
eine Wörterbuchauflistung
von jedem SGML-Element in der Reihenfolge, in der sie in der Dokumentation
erscheinen, und einen Index in dieses Wörterbuch. Auf der Grundlage
der benutzerdefinierten Link-Spezifikationen
werden Links unter Verwendung eines Mustervergleichs an diesen Wörterbuchdateien
erzeugt. Für
die PDF-AIUs können
Links zu und von diesen auf diese Weise erzeugt werden. Der Hauptpunkt, der
bezüglich
des Hyperlinkers zu beachten ist, besteht darin, daß das Verfahren
in der Lage ist, diese Maschinerie in dem PDFAIU-Erstellungssystem
zu verwenden, indem es in der Lage ist, die PDF-Informationen mit Hilfe der AIU-Spezifikationssprache
wie bereits erläutert
zu strukturieren. Dadurch kann das Verfahren außerdem ein Hyperlink-Managementsystem
implementieren, das Link-Regeln inkrementell aktualisieren kann.
Die Link-Manager-Software, die diese Link-Datenbank zum Verfolgen
von Link-Regeländerungen
durch Verwendung von Zeitstempeln verwendet, tut dies. Das inkrementelle
Erstellen von Hyperlinks erfolgt entweder durch Verändern bestehender
Link-Spezifikationen oder durch Hinzufügen bestimmter zusätzlicher
Link-Spezifikationen. Beim Hinzufügen neuer Link-Spezifikationen
führt der
Hyperlinker die neue Link-Spezifikation an allen Dokumenten aus,
fügt neue
Links hinzu, ohne die alten zu zerstören. Wenn ein Link auf der
Grundlage der Id des alten Links überholt wird, werden die alten
Links entfernt. Eine ähnliche
Prozedur wird beim Hinzufügen neuer
Links verwendet.
-
Nach
der Erstellung der Hyperlinks ist es wichtig, in der Lage zu sein,
die gewünschten
Funktionen beim Betrachten zu erhalten. Die derzeitige Implementierung
modifiziert den Adope Acrobat® ReaderTM und verwendet
eine spezielle Software zur Erzielung der Kommunikation zwischen
Prozessen über
einen Link-Manager. Wenn dem Viewer-Programm dann ein Befehl gegeben
wird, eine bestimmte PDF-Datei zu laden, schaut es während des
Ladens außerdem
nach, ob eine AIU-Datei für
diese Datei verfügbar
ist. Wenn dies der Fall ist, wird diese ebenfalls zusammen mit der
ursprünglichen
Datei geladen. Für
jeden Eintrag wird in der AIU-Datei ein Rand um das interessierende
Objekt gezeichnet. Wenn der Benutzer ein beliebiges der Objekte anklickt,
kommuniziert das Viewer-Programm mit dem Link-Manager mit der entsprechenden
Link-Kennung. Der Link-Manager führt
dann das Link-Ziel aus. In einer Multimedia-Dokumentationsumgebung bedeutet dies häufig ein Springen
zu einem bestimmten Punkt des Texts oder das Zeigen eines detaillierten
Bildes des in Frage stehenden Objektes. In diesem Fall springt der
SGML-Browser zu
diesem Punkt in dem SGML-Dokument.
-
4 zeigt
eine grafische Benutzerschnittstellenanzeige, die die Verarbeitung
einer Multimedia-Datei zur Bereitstellung von Informationen zur
Verwendung bei der Navigation durch Multimedia-Dateiinhalte unterstützt. Die
Benutzerauswahl des Symbols 400 gestattet dem Benutzer
die Einleitung der Erzeugung einer Navigationsdatei, die das Erstellen
von Links von Eingangsdateielementen zu externen Dokumenten durch
Parsen und Sortieren von Text- und Bildinhalten zur Identifizierung
von Text zur Integration in eine Navigationsdatei unterstützt. Als
Reaktion auf die Benutzerauswahl des Symbols 400 werden
außerdem
Elemente in Menüs aktiviert,
die bei der Auswahl eines Elements der Toolbars 405 und 410 durch
den Benutzer erzeugt werden. Genauer gesagt wird als Reaktion auf
die Benutzerauswahl des Symbols 415 ein Menü erzeugt,
das dem Benutzer die Auswahl einer zu verarbeitenden Eingangsdatei
und eines zu verarbeitenden Formats ermöglicht.
-
Nach
der Beschreibung von Ausführungsformen
für ein
Verfahren zum Extrahieren verankerbarer Informationseinheiten aus
PDF-Dateien soll bemerkt werden, daß Fachleute im Hinblick auf
die obigen Lehren Modifikationen und Varianten herstellen können. Es
versteht sich deshalb, daß an
den offengelegten konkreten Ausführungsformen
der Erfindung Änderungen
vorgenommen werden können,
die in dem Schutzumfang und Gedanken der Erfindung liegen, der durch
die angefügten
Ansprüche
definiert wird. Nach dieser Beschreibung der Erfindung mit den von
den Patentgesetzen geforderten Einzelheiten und Genauigkeiten wird
der Schutzumfang des Patents nunmehr in den angefügten Ansprüchen definiert.
-
1
- 101
- Eingangs-PDF-Datei
- 102
- Textunterscheidung
-
- Textsegmente
-
- Bildsegmente
- 104
- Textverarbeitung
und Mustervergleich
- 105
- Farbe?
-
- Farbbilder
-
- Schwarzweiß- und Graustufenbilder
- 106
- Text
extrahieren
- 108
- Bildverarbeitung
und Objekterkennung
- 107
- Textverarbeitung
und Mustervergleich
- 109
- AIU-Datei
erzeugen
- 110
- AIU-Datei
-
2
- 201
- Eingangs-PDF-Datei
- 202
- gesamten
Text und ihre Position extrahieren
- 203
- Ist
dieser Text Teil eines normalen Absatzes?
-
- No
= Nein, Yes = Ja
- 204
- Ist
dieser Textteil Teil einer Überschrift?
- 205
- Ist
dieser Text Teil einer Unterüberschrift?
- 206
- Kontext
dem Text zuordnen
- 207
- kontextabhängiger Mustervergleich
- 208
- AIU-Datei
erzeugen
- 209
- teilweise
AIU-Datei
-
3a
- 301
- Eingangs-PDF-Datei
- 302
- alle
Bilder und ihre Position extrahieren
- 303
- Abgetastet/Maske?
-
- mask
= Maske
-
- sampled
= abgetastet
- 304
- externes
Bild laden
- 305
- Bildpixel
abrufen
- 306
- Schwarzweiß/Graustufe/Farbe?
-
- B&W S/W
-
- Grayscale
Graustufe
- 307
- Binärisieren
- 308
- Verschmieren
- 309
- Median-Filterung
- 310
- Etikettierung
-
- etikettiertes
Bild
-
- gefärbtes Bild
-
3b
-
- etikettiertes
Bild
-
- gefärbtes Bild
-
- Schablonen
- 311
- Randbox
berechnen
- 317
- in
Blöcke
aufteilen und Histogramm berechnen
- 318
- in
Blöcke
aufteilen und Histogramm berechnen
- 312
- Übereinstimmungsregeln
erfüllt?
- 319
- Histogramm
vergleichen
- 313
- OCR
durchführen
- 320
- Suche
verfeinern
- 314
- Musterkorrektur
- 321
- Binärisieren
- 315
- Mustervergleich
- 322
- Korrelation
- 316
- Nicht-Textbereich
berechnen
- 323
- beste Übereinstimmung
finden ursprüngliches
S/W/Graustufenbild
- 324
- AIU-Datei
erzeugen
- 325
- teilweise
AIU-Datei