-
Die
Erfindung betrifft ein Verfahren zur rechnergestützten Konvertierung von PDF-Dokumenten
in HTML-Dokumente und ein entsprechendes Computerprogrammprodukt.
-
Im
Internet werden heutzutage neben den bekannten Dokumenten im HTML-Format
(HTML = Hypertext Markup Language) auch immer mehr Dokumente in
PDF-Format (PDF = Portable Document Format) bereitgestellt. Diese
Formate sind den Fachleuten hinlänglich
bekannt und in entsprechenden Spezifikationen beschrieben.
-
Die
heutigen im Internet verwendeten Suchmaschinen beinhalten teilweise
schon Software-Werkzeuge, mit denen PDF-Dokumente in HTML-Dokumente
umgewandelt werden können.
Hierbei enthalten die HTML-Dokumente jedoch nicht mehr die ursprünglich im
PDF-Dokument eingebundenen Bilder. Es sind aus dem Stand der Technik
zwar Programme bekannt, die aus PDF-Dokumenten Bilder und Texte
extrahieren, jedoch werden die Bilder bei diesen bekannten Verfahren
entweder einzeln ohne Positionsinformationen oder alle gemeinsam
als ein Gesamthintergrundbild erzeugt. Solche Verfahren eignen sich
insbesondere nicht dazu, Bilder in PDF-Dokumenten zu indexieren.
-
Aufgabe
der Erfindung ist es deshalb, ein Verfahren zur rechnergestützten Konvertierung
von PDF-Dokumenten in HTML-Dokumente zu schaffen, bei dem die erzeugten
HTML-Dokumente eine Struktur aufweisen, mit der eine Indexierung
der Bilder im HTML-Dokument vorgenommen werden kann.
-
Diese
Aufgabe wird durch die unabhängigen
Patentansprüche
gelöst.
Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.
-
In
dem erfindungsgemäßen Verfahren
werden aus dem Code eines PDF-Dokuments die in dem PDF-Dokument
eingebundenen Bilder und die Größen und
Positionen der Bilder extrahiert. Die Erfinder haben hierbei erkannt,
dass der Code von PDF-Dokumenten auf einfache Weise analysiert werden
kann und insbesondere aus dem Code die einzelnen Bilder sowie die
Größen und
Positionen der Bilder hergeleitet werden können.
-
In
einem nächsten
Schritt wird dann eine Verzeichnisstruktur erzeugt, in der jedes
extrahierte Bild als separate Datei gespeichert ist. Schließlich werden
die textuellen Bestandteile des PDF-Dokuments in ein HTML-Dokument
konvertiert, wobei hierzu aus dem Stand der Technik bekannte Verfahren
verwendet werden können,
beispielsweise Open-Source-Programme, welche die "xpdf-Library" verwenden. Diese
herkömmlichen
Verfahren liefern aber nur ein HTML-Dokument mit dem ursprünglichen
Layout des PDF-Dokuments, jedoch ohne eingebundene Bilder. Deshalb
wird in dem erfindungsgemäßen Verfahren
das HTML-Dokument derart
modifiziert, dass für
ein jeweiliges Bild ein Link auf die Datei des jeweiligen Bildes
in der zuvor erzeugten Verzeichnisstruktur generiert wird, so dass
das Bild im Wesentlichen an der gleichen Position und mit der gleichen
Größe im HTML-Dokument
wie im PDF-Dokument positioniert ist.
-
Der
Erfindung liegt die Erkenntnis zugrunde, dass aus einem PDF-Dokument
die Informationen zu den eingebundenen Bildern derart extrahiert
werden können,
dass sie durch entsprechende Links in einem HTML-Dokument implementiert
werden können.
Es wird auf diese Weise ein HTML-Dokument erzeugt, dessen Bilder
mit Positions- und Größenangaben
als separate Links enthalten sind. Durch diese separate Speicherung
der einzelnen Bilder kann somit eine separate Indexierung jedes
Bildes vorgenommen werden. Auf diese Weise wird eine Möglichkeit
geschaffen, in PDF-Dokumenten eingebundene Bilder zu indexieren
und für eine
Bildsuche verfügbar
zu machen.
-
In
einer besonders bevorzugten Ausführungsform
des erfindungsgemäßen Verfahrens
werden die aus dem PDF-Dokument ex trahierten Bilder als JPEG-Dateien
gespeichert. Hierzu gibt es bekannte Konvertierungstools, welche
gegebenenfalls Bilder, die nicht im JPEG-Format im ursprünglichen
PDF-Dokument hinterlegt sind, in dieses Format umwandeln. Das JPEG-Format
bietet den Vorteil, dass die mit diesem Format gespeicherten Bilder
eine geringe Speichergröße aufweisen.
-
In
einer besonders bevorzugten Ausführungsform
des erfindungsgemäßen Verfahrens
werden schließlich
aus dem konvertierten HTML-Dokument Textblöcke extrahiert, und in einem
Analyseschritt wird gemäß vorgegebener
Kriterien bestimmt, welche Textblöcke Bildbeschriftungen von
Bildern in dem konvertierten HTML-Dokument darstellen. Zur Extraktion
von Textblöcken
aus dem HTML-Dokument werden hinlänglich aus dem Stand der Technik
bekannte Verfahren eingesetzt, welche beispielsweise in den Druckschriften
[1], [2] und [3] beschrieben sind. Da die Extraktion von Textblöcken somit
zum Stand der Technik gehört,
wird auf eine detaillierte Beschreibung einer derartigen Extraktion
verzichtet.
-
In
einer weiteren, besonders bevorzugten Variante der Erfindung werden
dann schließlich
die Bilder mit ihren Bildbeschriftungen indexiert, d.h. Bilder,
denen gemäß dem Analyseschritt
eine Bildbeschriftung zugeordnet werden kann, werden mit den Textinhalten
der Bildbeschriftung indexiert.
-
Der
Analyseschritt zur Ermittlung von Bildbeschriftungen umfasst in
einer besonders bevorzugten Variante des erfindungsgemäßen Verfahrens
für ein
jeweiliges Bild im HTML-Dokument mehrere Unterschritte. Zunächst werden
in einem Schritt i) die zu dem jeweiligen Bild benachbarten Textblöcke ermittelt.
Dann wird in einem Schritt ii) ein Überlappungsmaß für jeden
Textblock mit dem jeweiligen Bild bestimmt, wobei das Überlappungsmaß ein Maß dafür ist, wie
viel Anteil des Textes innerhalb des Textblocks sich bei Projektion
auf die an den Textblock angrenzende Kante des Bildes mit dem Bild überschneidet.
Es sei hierbei angemerkt, dass Textblöcke und Bilder vorzugsweise
rechteckig ausgestaltet sind, wobei in die sem Fall die angrenzende
Kante eines Bildes diejenige Kante ist, die am nächsten zu einer Kante des Textblocks
liegt und parallel zu der Kante des Textblocks ist. Schließlich werden
in einem Schritt iii) Textblöcke,
deren Überlappungsmaß keine
vorbestimmte ausreichende Überlappung
zwischen Textblock und jeweiligem Bild erfüllt, als Kandidaten für eine Bildbeschriftung
verworfen.
-
In
der soeben beschriebenen Ausführungsform
macht man sich die Erkenntnis zu Nutze, dass über die geometrische Anordnung
der Textblöcke
zu den Bildern, insbesondere über
die Überlappung
der Textblöcke
mit den Bildern, bestimmt werden kann, ob ein Textblock eine Bildbeschriftung
ist. Insbesondere wurde hierbei erkannt, dass eine Bildbeschriftung,
die einem Bild zugeordnet ist, vorzugsweise einen Text aufweist, der
nicht zu weit über
das Bild hinausgeht.
-
In
einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens werden für ein jeweiliges
Bild die Abstände
der Textblöcke
zu dem jeweiligen Bild ermittelt und anhand eines Abstandskriteriums
wird bestimmt, welcher Textblock als benachbarter Textblock einzustufen
ist. Vorzugsweise sind die Abstände
eines Textblocks zu einem Bild definiert als der kleinste orthogonale
Abstand zwischen zwei parallelen Kanten von Bild und Textblock.
Hierbei ist insbesondere zu berücksichtigen,
dass ein solcher Abstand nicht definiert werden kann, wenn keine Überlappung
der parallelen Kanten vorliegt. In einem solchen Fall können die
entsprechenden Textblöcke
auch nicht als benachbart eingestuft werden.
-
In
einer besonders bevorzugten Ausführungsform
des erfindungsgemäßen Verfahrens
macht man sich die Tatsache zu Nutzen, dass in den meisten Dokumenten
Bildbeschriftungen nur oberhalb oder unterhalb eines Bildes angebracht
sind. Deshalb wird vorzugsweise im Analyseschritt nur das Überlappungsmaß von oberen
und unteren, zu dem jeweiligen Bild benachbarten Textblöcken ermittelt.
-
In
einer besonders bevorzugten Variante der Erfindung umfasst das Überlappungsmaß ein erstes Maß, das abhängig ist
von dem prozentualen Anteil der Projektion des Textblocks auf die
bereits oben erwähnte
angrenzende Kante, der innerhalb der angrenzenden Kante des jeweiligen
Bildes liegt, und zwar in Bezug auf die Gesamtlänge der Projektion. Dies bedeutet,
je größer dieser
prozentuale Anteil ist, desto mehr überlappt der entsprechende
Textblock mit dem Bild. Insbesondere liegt immer eine Überlappung
von 100 % vor, wenn die Projektion des Textblocks auf die Kante
vollkommen innerhalb der Kante liegt. Vorzugsweise werden bei einer
derartigen Definition der Projektion diejenigen Textblöcke als
Kandidaten für
eine Bildbeschriftung verworfen, deren erstes Maß einen vorbestimmten Wert
unterschreitet, d.h. welche nicht ausreichend mit dem entsprechenden
Bild überlappen.
-
In
einer weiteren Variante des erfindungsgemäßen Verfahrens umfasst das Überlappungsmaß ein zweites
und ein drittes Maß.
Diese Variante ist auch unabhängig
davon realisierbar, ob ein erstes Maß als Überlappungsmaß vorliegt.
Hierbei ist das zweite Maß abhängig von
dem prozentualen Anteil der Projektion des Textblocks auf die angrenzende
Kante, der auf der linken Seite außerhalb der angrenzenden Kante
liegt, und zwar in Bezug auf die Länge der angrenzenden Kante.
Analog ist das dritte Maß abhängig von
dem prozentualen Anteil der Projektion des Textblocks auf die angrenzende
Kante, der auf der rechten Seite außerhalb der angrenzenden Kante
liegt, und zwar in Bezug auf die Länge der angrenzenden Kante.
Textblöcke
werden als Kandidaten für
eine Bildbeschriftung verworfen, deren zweites oder drittes Maß einen
vorbestimmten Wert, insbesondere 50 %, überschreitet. In diesem Fall
steht ein großer
Anteil des Textblocks in Bezug auf die Kantenlänge über, und es hat sich gezeigt,
dass solche Textblöcke üblicherweise
keine Bildbeschriftungen darstellen. Im Falle, dass im Schritt iii)
gemäß der im
vorangegangenen beschriebenen Ausführungsform des erfindungsgemäßen Verfahrens
ein einziger Textblock übrig
bleibt, wird dieser Textblock als Bildbeschriftung des jeweiligen
Bildes bestimmt.
-
Im
Falle, dass im Schritt iii) der obigen Ausführungsform des erfindungsgemäßen Verfahrens
mehr als ein Textblock übrig
bleibt, wird eine Textattributauswertung der übrig gebliebenen Textblöcke durchgeführt. Bei dieser
Textattributauswertung werden vorzugsweise die Fontgröße und/oder
der Fontstil und/oder der Fonttyp der übrig gebliebenen Textblöcke im ursprünglichen
PDF-Dokument berücksichtigt.
Vorzugsweise wird für
die Seite des ursprünglichen
PDF-Dokuments, auf der sich ein übrig
gebliebener Textblock befindet, ein Bemittelter Durchschnittsfont
berechnet und ein Übereinstimmungsmaß des Durchschnittsfonts
mit dem Font des übrig gebliebenen
Textblocks ermittelt. Dabei werden vorzugsweise diejenigen Textblöcke der übrig gebliebenen Textblöcke verworfen,
deren Übereinstimmung
gemäß dem Übereinstimmungsmaß eine vorbestimmte
Grenze überschreitet.
Man macht sich hierbei die Erkenntnis zu Nutze, dass die Textattribute
von Bildbeschriftungen häufig
von den restlichen Bildbeschriftungen in dem Dokument abweichen.
Sollte somit eine hohe Übereinstimmung
zwischen einem Durchschnittsfont in einer Dokumentenseite und dem
entsprechenden Textblock vorliegen, deutet dies darauf hin, dass
der Textblock keine Bildbeschriftung ist.
-
Sollten
nach Durchführung
des zuletzt genannten Verfahrensschritts immer noch mehrere Textblöcke übrig sein,
werden schließlich
noch die Höhen
bzw. Breiten der übrig
gebliebenen Textblöcke
jeweils mit der Höhe
bzw. Breite des jeweiligen Bildes verglichen, wobei diejenigen Textblöcke der übrig gebliebenen
Textblöcke
verworfen werden, deren Höhe
bzw. Breite um ein vorbestimmtes Maß, insbesondere um ein prozentuales Maß in Bezug
auf die Höhe
bzw. Breite des jeweiligen Bildes, größer als die Höhe bzw.
Breite des jeweiligen Bildes ist. Man macht sich hierbei die Tatsache
zu Nutze, dass Textbeschriftungen vorzugsweise eine Größe aufweisen,
die kleiner als das Bild selbst sind.
-
In
einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens wird ferner
nach der Ermittlung, welche Textblöcke Bild beschriftungen von
Bildern in dem konvertierten HTML-Dokument darstellt, überprüft, ob eine
Bildbeschriftung mehreren Bildern zugeordnet ist. Ist dies der Fall,
wird vorzugsweise eine Plausibilitätsüberprüfung mit Bildbeschriftungen
von benachbarten Bildern durchgeführt, um eine eindeutige Zuordnung der
Bildbeschriftung zu einem Bild zu ermitteln. Eine Variante einer
solchen Plausibilitätsüberprüfung ist
in der detaillierten Beschreibung in Bezug auf 7 gegeben.
-
Neben
dem oben beschriebenen Verfahren betrifft die Erfindung ferner ein
Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten
Programmcode zur Ausführung
des erfindungsgemäßen Verfahrens,
wenn das Programm auf einem Rechner abläuft.
-
Ausführungsbeispiele
der Erfindung werden nachfolgend anhand der beigefügten Figuren
detailliert beschrieben.
-
Es
zeigen:
-
1 ein
Flussdiagramm, welches die einzelnen Schritte einer Ausführungsform
des erfindungsgemäßen Verfahrens
wiedergibt;
-
2 eine
schematische Ansicht eines mit einem Konvertierungsverfahren nach
dem Stand der Technik erzeugten HTML-Dokuments;
-
3 eine
schematische Ansicht eines gemäß einer
Ausführungsform
des erfindungsgemäßen Verfahrens
erzeugten HTML-Dokuments;
-
4 bis 7 Ausschnitte
aus mit dem erfindungsgemäßen Verfahren
erzeugten HTML-Dokumenten zur Verdeutlichung der Bestimmung von
Bildbeschriftungen; und
-
8 ein
Computersystem zur Durchführung
des erfindungsgemäßen Verfahrens.
-
Anhand
des Ablaufdiagramms der 1 werden nunmehr die einzelnen
Schritte einer Ausführungsform
des erfindungsgemäßen Verfahrens
erläutert.
In dem Verfahren wird in einem ersten Schritt S1 ein beliebiges
PDF-Dokument verarbeitet und in ein HTML-Dokument umgewandelt, welches
im Wesentlichen das gleiche Layout wie das ursprüngliche PDF-Dokument hat. Zur
Durchführung
dieses Verfahrensschritts wird zunächst der Code des PDF-Dokuments
rechnergestützt
analysiert, wobei die in dem Dokument eingebundenen Bilder sowie
die Größen und
Positionen dieser Bilder extrahiert werden.
-
Nachfolgend
findet sich beispielhaft ein Ausschnitt aus dem Code eines PDF-Dokuments:
-
Die
Struktur solcher Codes ist dem Fachmann hinlänglich bekannt und in den entsprechenden
Dokumentationen zu dem PDF-Format
definiert und spezifiziert. Der Code beginnt mit der Zeile "3060 0 obj" und endet mit der
Zeile "endobj". Der Codeabschnitt
spezifiziert ein in dem PDF-Dokument eingebundenes Bild. Insbesondere
kann dem Codeabschnitt zum einen die Breite des Bildes gemäß der Zeile "/Width 30" sowie die Höhe des Bildes
gemäß der Zeile "/Height 18" entnommen werden.
-
In
dem Code findet sich ferner eine Zeile mit den codierten Filtern "/Filter [/LZWDecode
/DCTDecode]". Nach
Decodierung dieser Filter erhält
man hieraus auch die Daten über
die Position des Bildes in der Seite des PDF-Dokuments. Darüber hinaus
enthält
der Code einen Stream des Bildes, der durch die Zeile "stream... endstream" angedeutet ist.
Gemäß dem erfindungsgemäßen Verfahren
wird aus dem Stream das entsprechende Bild als separate Datei erzeugt.
Sofern das Bild in dem PDF-Dokument nicht im JPEG-Format hinterlegt
ist, wird vorzugsweise eine Konvertierung des Bildes in das JPEG-Format
vorgenommen.
-
In
der hier beschriebenen Ausführungsform
wird automatisiert ein geeigneter Verzeichnisbaum erzeugt, in dem
alle aus dem PDF-Dokument extrahierten Bilder hinterlegt werden.
Ferner wird auf das PDF-Dokument ein herkömmliches Konvertierungsverfahren
angewendet, welches die Layout-Struktur des PDF-Dokuments im HTML-Format liefert, jedoch
ohne die eingebundenen Bilder. Ein mit einem solchen herkömmlichen
Verfahren erzeugtes HTML-Dokument ist beispielhaft in 2 gezeigt.
Man erkennt, dass ein Textlayout erzeugt wird, wobei dieses Textlayout
im Wesentlichen mit dem Textlayout des PDF-Dokuments übereinstimmt,
aus dem das Dokument gemäß 2 erzeugt
wurde. Im Unterschied zum ursprünglichen
PDF-Dokument fehlen jedoch die einzelnen Bilder. Im erfindungsgemäßen Verfahren
werden nunmehr jedoch in dem HTML-Dokument der 2 die
entsprechenden Bilder dadurch eingebunden, dass in dem HTML-Dokument entsprechende
HTML-Links auf die Verzeichnisstruktur erzeugt wird, in der die
einzelnen Bilder als separate Dateien hinterlegt sind. Für jedes
Bild enthält
das HTML-Dokument somit einen Link auf die entsprechende Datei des
Bildes.
-
Da
mit dem erfindungsgemäßen Verfahren
neben dem Bild selbst auch die Größen und Positionen der Bilder
extrahiert werden, können
die Bilder exakt an der gleichen Stelle im HTML- Dokument wie im ursprünglichen
PDF-Dokument durch einen entsprechenden Link eingebunden werden.
-
Nachfolgend
findet sich ein Ausschnitt aus dem Quelltext einer mit dem erfindungsgemäßen Verfahren erzeugten
HTML-Datei, welche das gemäß dem obigen
Ausschnitt aus dem PDF-Dokument extrahierte Bild betrifft:
-
Man
erkennt, dass der HTML-Code, dessen Struktur dem Fachmann hinlänglich bekannt
ist, die Breite und Höhe,
nämlich
die Werte 30 und 18, gemäß dem ursprünglichen
PDF-Dokument für
das Bild enthält.
Ferner sind die Positionen durch den Code "left:89;top:71" angegeben. Man erkennt ferner, dass
der Link durch eine entsprechende Quellenangabe auf das Bild generiert
wird. Die Quellenangabe lautet:
-
Aus
dem ursprünglichen
Bild wurde somit eine JPEG-Datei mit dem Namen "image_name" im Verzeichnis "Verzeichnisname" generiert.
-
3 zeigt
die Ansicht einer Seite eines HTML-Dokuments, welche gemäß dem erfindungsgemäßen Verfahren
erzeugt wurde. Das HTML-Dokument entspricht hierbei in seiner Struktur
dem HTML-Dokument der 2, jedoch sind nunmehr durch
die oben beschriebene Verlinkung die Bilder des ursprünglichen
PDF-Dokuments I1,
I2, I3 und I4 in diesem Dokument enthalten.
-
Ein
wesentlicher Aspekt der hier beschriebenen Ausführungsform des erfindungsgemäßen Verfahrens besteht
darin, dass nicht nur ein mit dem Layout des ursprünglichen
PDF-Dokuments weitestgehend identisches HTML-Dokument erzeugt wird,
sondern dass ferner die einzelnen Bildbeschriftungen in dem HTML-Dokument ermittelt
werden, wobei anschließend
mit Hilfe der Bildbeschriftungen eine Indexierung der Bilder mit den
Bildbeschriftungen vorgenommen werden kann. Das Verfahren eignet
sich somit insbesondere zum Einsatz in Internet-Suchmaschinen, um
auf einfache Weise eine Suche nach Bildern in PDF-Dokumenten zu
ermöglichen.
Hierzu muss die erfindungsgemäße Konvertierung
mit anschließender
Indexierung auf die PDF-Dokumente angewendet werden und gemäß den über die
Bildbeschriftungen spezifizierten Indexierungen der Bilder kann
dann nach den Bildern gesucht werden.
-
Zur
Indexierung der Bilder anhand der Bildbeschriftung wird nach der
Durchführung
des soeben beschriebenen Schrittes S1, mit dem das HTML-Dokument
mit den entsprechenden Bildern erhalten wird, als nächstes ein
Analyseverfahren durchgeführt,
welches in einem Schritt S2 zunächst
die Layoutobjekte in dem HTML-Dokument ermittelt. Verfahren zur
Analyse des Layouts eines Dokuments sind hinlänglich aus dem Stand der Technik
bekannt und werden hier nicht näher
erläutert.
Es sei hier beispielhaft auf die Druckschrift [1], [2] und [3] verwiesen,
welche die Layoutsegmentierung von Dokumenten detailliert beschreiben.
-
In
der hier beschriebenen Ausführungsform
des erfindungsgemäßen Verfahrens
werden in dem Dokument zusammengehörende Textblöcke extrahiert.
Dies ist aus dem Ausschnitt eines erfindungsgemäß generierten HTML-Dokuments
in 4 ersichtlich. Man erkennt, dass dieser Dokumentausschnitt
aus den beiden Bildern I5 und I6 sowie einer Vielzahl von Textblöcken T1,
T2, T3, T4, T5, T6, T7 und T8 besteht. Es ist hierbei zu beachten,
dass die Größe der einzelnen
Textblöcke
spezifiziert ist durch die längste,
sich von links nach rechts erstreckende Zeile im Textblock des ursprünglichen
PDF-Dokuments. In dem HTML-Dokument weicht der generierte Font von
dem ursprünglichen
Font des PDF-Dokuments dahingehend ab, dass der generierte Font
etwas kleiner ist. Deshalb sind die Zeilen im HTML-Format kürzer und
es existiert keine Zeile, die sich von ganz links nach ganz rechts
erstreckt. Jedoch sind die ursprünglichen
Größen der
einzelnen Zeilen im PDF-Format durch entsprechende Rechtecke angedeutet.
Man erkennt hierbei, dass in dem Textblock T4 das längste Rechteck
R1 der Länge
des Textblocks entspricht. Die Schrift im PDF-Format erstreckt sich
in diesem Rechteck R1 von der linken Seite des Textblocks T4 bis
zur rechten Seite des Textblocks T4.
-
Nach
der Extraktion der Textblöcke
gemäß dem Schritt
S2 des erfindungsgemäßen Verfahrens
wird nunmehr in einem nächsten
Schritt S3 ermittelt, welche Textblöcke benachbart zu den einzelnen
Bildern liegen. Hierbei ist zu beachten, dass in der hier beschriebenen
Ausführungsform
des erfindungsgemäßen Verfahrens
Bilder immer als Rechtecke und Textblöcke ebenfalls immer als Rechtecke
vorliegen. Zur Ermittlung der zu dem Bild benachbarten Textblöcke wird
jede Kante des rechteckigen Bildes getrennt betrachtet. Für jede Kante
wird der orthogonale Abstand der zu dieser Kante parallelen Kante
von Textblöcken
bestimmt. Für
jede Kante wird hierbei der Textblock mit der Kante mit dem geringsten
orthogonalen Abstand zur jeweiligen Kante des Bildes bestimmt und
als benachbarter Textblock eingestuft. Sollten zwei Textblöcke den
gleichen orthogonalen Abstand zu der Kante aufweisen, werden beide
Textblöcke
als benachbart bestimmt. Es werden somit für jede Kante des Bildes, die
von Textblöcken
umgeben ist, zumindest ein benachbarter Textblock ermittelt. In dem
Beispiel der 4 weist das Bild I5 die benachbarten
Textblöcke
T1, T2, T3 und T4 auf. Demgegenüber umfasst
das Bild I6 die benachbarten Textblöcke T5, T6, T7 und T8.
-
Nach
dem Ermitteln der benachbarten Textblöcke wird im Schritt S4 des
erfindungsgemäßen Verfahrens
nunmehr die Überlappung
der Textblöcke
oberhalb und unterhalb eines Bildes mit dem entsprechenden Bild
analysiert. Es hat sich diesbezüglich
gezeigt, dass über
diese Überlappung
ein gutes Kriterium geschaffen wird, ob ein Textblock als eine Bildbeschriftung
für das
entsprechende Bild zu werten ist oder nicht. Ferner wurde erkannt,
dass üblicherweise
in den meisten Dokumenten Bildbeschriftungen nur oberhalb oder unterhalb der
Bilder vorhanden sind, so dass in der hier beschriebenen Va riante
der Erfindung nicht der Fall von Bildbeschriftungen links oder rechts
neben dem Bild betrachtet wird. Die Überlappung wird dadurch berechnet,
dass für
einen Bildblock oberhalb bzw. unterhalb des betrachteten Bildes
die Projektion des Bildblocks auf die angrenzende Kante des Bildes
berechnet wird. Im Beispiel der 4 ergibt
hierbei die Projektion des Blocks T4 auf die Kante E1 des Bildes
I5 eine Projektionsgerade, deren Länge der Länge des Rechtecks R1 entspricht. Die
Länge der
Projektion ist somit immer die längste
Zeile in dem entsprechenden Textblock in horizontaler Richtung.
-
Aus
dieser Projektion wird dann ein erstes Überlappungsmaß berechnet,
welches der prozentuale Anteil der Projektion ist, der innerhalb
der Kante des Bildes liegt. Im Beispiel der 4 ist dies
für die
Projektion des Textblocks T4 auf das Bild I5 der Abschnitt d. Dieser
Abschnitt d wird mit der Gesamtlänge
des Blocks T4 in horizontaler Richtung verglichen. Hieraus wird
der prozentuale Anteil von d an der Gesamtlänge des Blocks T4 bestimmt.
Im Beispiel der 4 ergibt sich, dass für den Textblock
T4 dieser prozentuale Anteil deutlich unter 50 % liegt.
-
Der
Erfindung liegt die Erkenntnis zugrunde, dass ein hoher prozentualer
Anteil der Überlappung
gemäß dem soeben
definierten ersten Maß darauf
hindeutet, dass es sich um eine Bildbeschriftung handelt, da Bildbeschriftungen üblicherweise
derart gewählt
werden, dass sie im Überlappungsbereich
mit dem Bild liegen. Es kann somit ein vorbestimmter Wert, beispielsweise
50 %, gewählt
werden, wobei bestimmt wird, dass nur Textblöcke, deren Überlappung größer als
50 % sind, Bildbeschriftungen darstellen können. Alle anderen Textblöcke werden
verworfen. Im Beispiel der 4 würde dies
dazu führen,
dass der Textblock T4 verworfen wird, wohingegen der Textblock T1,
der eine deutlich höhere Überlappung
mit dem Bild I5 aufweist, weiterhin als Beschriftung in Betracht
kommt. Hierbei ist zu beachten, dass im Beispiel der 4 die
beiden Blöcke
T2 und T3 nicht als Bildbeschriftungen zu berücksichtigen sind, da sie neben
dem Bild angeordnet sind.
-
Somit
ergibt sich mit dem obigen Überlappungskriterium
eindeutig der obere Textblock T1 als Bildbeschriftung. In dem Beispiel
der 4 wird in Bezug auf das untere Bild I6, analog
zu oberen Bild I5, der obere Textblock T5 aufgrund seiner großen Überlappung
als Bildbeschriftung bestimmt. Als weiteres Überlappungskriterium kann getrennt
für den
linken und rechten Rand eines Bildes der prozentuale Anteil des über den
linken bzw. rechten Rand überstehenden
Textblocks in Bezug auf die Länge
der zu Textblock benachbarten horizontalen Kante des Bildes berechnet
werden. Sollte einer dieser prozentualen Anteile größer als
50 % der Länge
der horizontalen Bildkante sein, wird der entsprechende Textblock
als Kandidat für
eine Bildbeschriftung verworfen.
-
5 zeigt
zur Verdeutlichung ein weiteres HTML-Dokument, bei dem das Überlappungskriterium analog
in Bezug auf das Bild I7 und die Textblöcke T9, T10 und T11 angewendet
wird. Im Unterschied zum Bild in 4 werden
hier nicht Textblöcke
oberhalb des Bildes als Bildbeschriftungen ermittelt, sondern der
Textblock T11 unterhalb des Bildes I7 wird als Bildbeschriftung
identifiziert. Allgemein führt
die Anwendung des Überlappungskriteriums
dazu, dass ein einzelnes Bild, d.h. N = 1, als Bildbeschriftung übrig bleibt
und schließlich
zum Schritt S7 der Indexierung übergegangen
wird. Dies ist in 1 verdeutlicht. Sollte N größer als
1 sein, wird zum Schritt S5 übergegangen,
gemäß dem eine
sog. Textattributauswertung in Bezug auf jedes Bild durchgeführt wird.
-
Bei
der Textattributauswertung im Schritt S5 werden die Fontgröße, der
Fontstil (d.h. normal, fett oder kursiv) und der Fonttyp (d.h. die
verwendete Schriftart) berücksichtigt.
Es wird hierbei für
die Seite, auf der sich das betrachtete Bild befindet, ein Durchschnittsfont
durch Ermittlung der genannten Fontparameter bestimmt. Anschließend wird
der Font jedes Textblocks mit dem Durchschnittsfont verglichen und
ein entsprechendes Übereinstimmungsmaß bestimmt,
welches angibt, wie stark die Fonts überstimmen bzw. voneinander
abweichen. Überschreitet
die Übereinstimmung
der Fonts eine vorbestimmte Grenze, werden die Textblöcke mit dem
entsprechenden Font verworfen. Man macht sich hierbei die Erkenntnis
zu Nutze, dass Bildbeschriftungen häufig vom üblicherweise im Dokument verwendeten
Font abweichen.
-
6 zeigt
einen Ausschnitt aus einem HTML-Dokument, bei dem eine Bildbeschriftung über die
globale Fontverteilung auf die entsprechenden HTML-Seite ermittelt
wurde. Insbesondere zeigt 6 ein Bild
I8 mit benachbarten Textblöcken
T12, T13 und T14. Aus der Überlappung
ist nicht entscheidbar, ob der Block T12 oder T14 eine Bildbeschriftung
darstellen. Jedoch ergibt sich aus der Fontverteilung, dass der
Font von Block T14 wesentlich kleiner als die restlichen Fonts auf
dieser Seite sind. Hieraus wird gefolgert, dass T14 die Bildunterschrift
ist.
-
Als
Ergebnis des Schrittes S5 können
dann wiederum weitere Textblöcke
verworfen werden. Sollte wiederum nur ein einziger Textblock übrig bleiben,
d.h. N = 1, wird auch wieder zum Schritt S7 der Indexierung übergegangen.
Ansonsten folgt der Schritt S6, bei dem die Höhen und Breiten der übrig gebliebenen
Textblöcke
jeweils mit der entsprechenden Höhe
und Breite des Bildes verglichen werden. Sollte die Höhe oder
die Breite des Textblockes ein prozentuales Maß in Bezug auf die Höhe bzw.
Breite des jeweiligen Bildes überschreiten,
wird der entsprechende Textblock ebenfalls verworfen. Man macht
sich hierbei die Erkenntnis zu Nutzen, dass Bildbeschriftungen üblicherweise
keinen größeren Bereich
als das Bild selbst einnehmen. Es ist davon auszugehen, dass nach
Durchführung
dieser Schritte immer eine einzige Bildbeschriftung übrig bleibt. Sollte
dies nicht der Fall sein, wird entweder festgestellt, dass das Bild überhaupt
keine Bildbeschriftung hat oder alle übrig gebliebenen Textblöcke werden
als Bildbeschriftungen bewertet.
-
An
den Schritt S6 schließt
sich somit die bereits erwähnte
Indexierung gemäß Schritt
S7 an. Hierbei werden die Inhalte der einzelnen Bildbeschriftungen
den entsprechenden Bildern zugeordnet, so dass über Suchalgorithmen bei Eingabe
von Begriffen aus der Bildbeschriftung das zugeordnete Bild aufgefunden
werden kann.
-
Vor
der eigentlichen Durchführung
der Indexierung wird ferner überprüft, ob eine
Bildbeschriftung mehreren Bildern zugeordnet ist. Ist dies der Fall,
wird eine lokale Plausibilitätsüberprüfung durchgeführt. Dabei
wird überprüft, ob einem
der Bilder, denen die gleiche Bildbeschriftung zugeordnet ist, eine
weitere Bildbeschriftung zugewiesen ist. Ist dies der Fall, kann
gegebenenfalls die mehrdeutige Bildbeschriftung eindeutig einem
Bild zugewiesen werden. Dies ist in 7 anhand
der übereinander
liegenden Bilder I9 und I10 in einem HTML-Dokument verdeutlicht.
Ursprünglich
ist der Textblock T15 als Bildbeschriftung sowohl dem Bild I9 als auch
dem Bild I10 zugewiesen. Eine Betrachtung der weiteren Bildbeschriftungen
von Bild I9 und I10 ergibt, dass nur das Bild I10 eine weitere Bildbeschriftung
T16 unterhalb des Bildes I10 aufweist. Demgegenüber ist im Bild I9 der Textblock
T15 die einzige Beschriftung. Auf diese Weise kann somit die Bildbeschriftung
T16 eindeutig dem Bild I10 und die Bildbeschriftung T15 eindeutig
dem Bild I9 zugeordnet werden.
-
Nach
der Durchführung
der soeben beschriebenen Plausibilitätsprüfung wird schließlich die
endgültige Indexierung
der Bilder vorgenommen, bei der für jedes Bild ein Index erstellt
wird, der die entsprechende Bildbeschriftung zu dem Bild enthält. Es kann
hierbei natürlich
auch der Fall auftreten, dass einem Bild keine Bildbeschriftung
zugeordnet ist. In einem solchen Fall wird auch kein Index für das Bild
erstellt.
-
8 zeigt
ein Computersystem mit Prozessormitteln PRZE, auf denen Programmmittel
ausführbar sind.
Die Prozessormittel PRZE umfassen einen Prozessor CPU, einen Speicher
MEM und eine Input-/Output-Schnittstelle IOS, die über ein
Interface IFC auf unterschiedliche Art und Weise genutzt wird. Über eine Graphikschnittstelle
wird eine Ausgabe auf einem Monitor MON sichtbar und/oder auf einem
Drucker PRT ausgegeben. Eine Eingabe erfolgt über die Maus MAS oder eine
Tastatur TAST. Auch verfügen
die Prozessormittel PRZE über
einen Datenbus BUS, der die Verbindung zu dem Speicher MEM, dem
Prozessor CPU und der Input-/Output-Schnittstelle IOS gewährleistet.
Weiterhin sind an den Datenbus BUS zusätzliche Komponenten anschließbar, z.B.
zusätzliche
Speicher, Datenspeicher in Form einer Festplatte oder ein Scanner.
In den Speicher MEM kann ein Computerprogrammprodukt zur Durchführung des
erfindungsgemäßen Verfahrens
geladen werden.
-
Literaturverzeichnis:
-
- [1] Maderlechner, G., Suda, P., Bruckner, T.:
Classification of documents by form and content. Pattern Recognition
Letters 18(11-13): 1225-1231 (1997)
- [2] Wong, K.Y., Casey, R.G., Wahl, F.M.: Document analysis system.
IBM Journal of Research and Development 26 (1982) 647-656
- [3] Mao, S., Rosenfeld, A., Kanungo, T.: Document structure
analysis algorithms: a literature survey. Proc. SPIE Electronic
Imaging 5010 (2003) 197-207