DE102006025928A1

DE102006025928A1 - Verfahren zur rechnergestützten Konvertierung von PDF-Dokumenten in HTML-Dokumente

Info

Publication number: DE102006025928A1
Application number: DE102006025928A
Authority: DE
Inventors: Gerd Maderlechner
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2006-06-02
Filing date: 2006-06-02
Publication date: 2007-12-06

Abstract

Die Erfindung betrifft ein Verfahren zur rechnergestützten Konvertierung von PDF-Dokumenten in HTML-Dokumente, bei dem: a) aus dem Code eines PDF-Dokuments die in dem PDF-Dokument eingebundenen Bilder (I1, ..., I10) und die Größen und Positionen der Bilder extrahiert werden; b) eine Verzeichnisstruktur erzeugt wird, in der jedes extrahierte Bild als separate Datei gespeichert ist; c) die textuellen Bestandteile des PDF-Dokuments in ein HTML-Dokument konvertiert werden, wobei für ein jeweiliges Bild (I1, ..., I10) im PDF-Dokument mit Hilfe der in Schritt a) extrahierten Position und Größe des jeweiligen Bildes (I1, ..., I10) ein Link auf die Datei des jeweiligen Bildes (I1, ..., I10) in der in Schritt b) erzeugten Verzeichnisstruktur derart generiert wird, dass das Bild (I1, ..., I10) im Wesentlichen an der gleichen Position und mit der gleichen Größe im HTML-Dokument wie im PDF-Dokument positioniert ist. In einer bevorzugten Ausführungsform wird in einem Analyseschritt gemäß vorgegebener Kriterien bestimmt, welche textuellen Bestandteile Bildbeschriftungen von Bildern sind.

Description

Die Erfindung betrifft ein Verfahren zur rechnergestützten Konvertierung von PDF-Dokumenten in HTML-Dokumente und ein entsprechendes Computerprogrammprodukt.
Im Internet werden heutzutage neben den bekannten Dokumenten im HTML-Format (HTML = Hypertext Markup Language) auch immer mehr Dokumente in PDF-Format (PDF = Portable Document Format) bereitgestellt. Diese Formate sind den Fachleuten hinlänglich bekannt und in entsprechenden Spezifikationen beschrieben.
Die heutigen im Internet verwendeten Suchmaschinen beinhalten teilweise schon Software-Werkzeuge, mit denen PDF-Dokumente in HTML-Dokumente umgewandelt werden können. Hierbei enthalten die HTML-Dokumente jedoch nicht mehr die ursprünglich im PDF-Dokument eingebundenen Bilder. Es sind aus dem Stand der Technik zwar Programme bekannt, die aus PDF-Dokumenten Bilder und Texte extrahieren, jedoch werden die Bilder bei diesen bekannten Verfahren entweder einzeln ohne Positionsinformationen oder alle gemeinsam als ein Gesamthintergrundbild erzeugt. Solche Verfahren eignen sich insbesondere nicht dazu, Bilder in PDF-Dokumenten zu indexieren.
Aufgabe der Erfindung ist es deshalb, ein Verfahren zur rechnergestützten Konvertierung von PDF-Dokumenten in HTML-Dokumente zu schaffen, bei dem die erzeugten HTML-Dokumente eine Struktur aufweisen, mit der eine Indexierung der Bilder im HTML-Dokument vorgenommen werden kann.
Diese Aufgabe wird durch die unabhängigen Patentansprüche gelöst. Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen definiert.
In dem erfindungsgemäßen Verfahren werden aus dem Code eines PDF-Dokuments die in dem PDF-Dokument eingebundenen Bilder und die Größen und Positionen der Bilder extrahiert. Die Erfinder haben hierbei erkannt, dass der Code von PDF-Dokumenten auf einfache Weise analysiert werden kann und insbesondere aus dem Code die einzelnen Bilder sowie die Größen und Positionen der Bilder hergeleitet werden können.
In einem nächsten Schritt wird dann eine Verzeichnisstruktur erzeugt, in der jedes extrahierte Bild als separate Datei gespeichert ist. Schließlich werden die textuellen Bestandteile des PDF-Dokuments in ein HTML-Dokument konvertiert, wobei hierzu aus dem Stand der Technik bekannte Verfahren verwendet werden können, beispielsweise Open-Source-Programme, welche die "xpdf-Library" verwenden. Diese herkömmlichen Verfahren liefern aber nur ein HTML-Dokument mit dem ursprünglichen Layout des PDF-Dokuments, jedoch ohne eingebundene Bilder. Deshalb wird in dem erfindungsgemäßen Verfahren das HTML-Dokument derart modifiziert, dass für ein jeweiliges Bild ein Link auf die Datei des jeweiligen Bildes in der zuvor erzeugten Verzeichnisstruktur generiert wird, so dass das Bild im Wesentlichen an der gleichen Position und mit der gleichen Größe im HTML-Dokument wie im PDF-Dokument positioniert ist.
Der Erfindung liegt die Erkenntnis zugrunde, dass aus einem PDF-Dokument die Informationen zu den eingebundenen Bildern derart extrahiert werden können, dass sie durch entsprechende Links in einem HTML-Dokument implementiert werden können. Es wird auf diese Weise ein HTML-Dokument erzeugt, dessen Bilder mit Positions- und Größenangaben als separate Links enthalten sind. Durch diese separate Speicherung der einzelnen Bilder kann somit eine separate Indexierung jedes Bildes vorgenommen werden. Auf diese Weise wird eine Möglichkeit geschaffen, in PDF-Dokumenten eingebundene Bilder zu indexieren und für eine Bildsuche verfügbar zu machen.
In einer besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens werden die aus dem PDF-Dokument ex trahierten Bilder als JPEG-Dateien gespeichert. Hierzu gibt es bekannte Konvertierungstools, welche gegebenenfalls Bilder, die nicht im JPEG-Format im ursprünglichen PDF-Dokument hinterlegt sind, in dieses Format umwandeln. Das JPEG-Format bietet den Vorteil, dass die mit diesem Format gespeicherten Bilder eine geringe Speichergröße aufweisen.
In einer besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens werden schließlich aus dem konvertierten HTML-Dokument Textblöcke extrahiert, und in einem Analyseschritt wird gemäß vorgegebener Kriterien bestimmt, welche Textblöcke Bildbeschriftungen von Bildern in dem konvertierten HTML-Dokument darstellen. Zur Extraktion von Textblöcken aus dem HTML-Dokument werden hinlänglich aus dem Stand der Technik bekannte Verfahren eingesetzt, welche beispielsweise in den Druckschriften [1], [2] und [3] beschrieben sind. Da die Extraktion von Textblöcken somit zum Stand der Technik gehört, wird auf eine detaillierte Beschreibung einer derartigen Extraktion verzichtet.
In einer weiteren, besonders bevorzugten Variante der Erfindung werden dann schließlich die Bilder mit ihren Bildbeschriftungen indexiert, d.h. Bilder, denen gemäß dem Analyseschritt eine Bildbeschriftung zugeordnet werden kann, werden mit den Textinhalten der Bildbeschriftung indexiert.
Der Analyseschritt zur Ermittlung von Bildbeschriftungen umfasst in einer besonders bevorzugten Variante des erfindungsgemäßen Verfahrens für ein jeweiliges Bild im HTML-Dokument mehrere Unterschritte. Zunächst werden in einem Schritt i) die zu dem jeweiligen Bild benachbarten Textblöcke ermittelt. Dann wird in einem Schritt ii) ein Überlappungsmaß für jeden Textblock mit dem jeweiligen Bild bestimmt, wobei das Überlappungsmaß ein Maß dafür ist, wie viel Anteil des Textes innerhalb des Textblocks sich bei Projektion auf die an den Textblock angrenzende Kante des Bildes mit dem Bild überschneidet. Es sei hierbei angemerkt, dass Textblöcke und Bilder vorzugsweise rechteckig ausgestaltet sind, wobei in die sem Fall die angrenzende Kante eines Bildes diejenige Kante ist, die am nächsten zu einer Kante des Textblocks liegt und parallel zu der Kante des Textblocks ist. Schließlich werden in einem Schritt iii) Textblöcke, deren Überlappungsmaß keine vorbestimmte ausreichende Überlappung zwischen Textblock und jeweiligem Bild erfüllt, als Kandidaten für eine Bildbeschriftung verworfen.
In der soeben beschriebenen Ausführungsform macht man sich die Erkenntnis zu Nutze, dass über die geometrische Anordnung der Textblöcke zu den Bildern, insbesondere über die Überlappung der Textblöcke mit den Bildern, bestimmt werden kann, ob ein Textblock eine Bildbeschriftung ist. Insbesondere wurde hierbei erkannt, dass eine Bildbeschriftung, die einem Bild zugeordnet ist, vorzugsweise einen Text aufweist, der nicht zu weit über das Bild hinausgeht.
In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens werden für ein jeweiliges Bild die Abstände der Textblöcke zu dem jeweiligen Bild ermittelt und anhand eines Abstandskriteriums wird bestimmt, welcher Textblock als benachbarter Textblock einzustufen ist. Vorzugsweise sind die Abstände eines Textblocks zu einem Bild definiert als der kleinste orthogonale Abstand zwischen zwei parallelen Kanten von Bild und Textblock. Hierbei ist insbesondere zu berücksichtigen, dass ein solcher Abstand nicht definiert werden kann, wenn keine Überlappung der parallelen Kanten vorliegt. In einem solchen Fall können die entsprechenden Textblöcke auch nicht als benachbart eingestuft werden.
In einer besonders bevorzugten Ausführungsform des erfindungsgemäßen Verfahrens macht man sich die Tatsache zu Nutzen, dass in den meisten Dokumenten Bildbeschriftungen nur oberhalb oder unterhalb eines Bildes angebracht sind. Deshalb wird vorzugsweise im Analyseschritt nur das Überlappungsmaß von oberen und unteren, zu dem jeweiligen Bild benachbarten Textblöcken ermittelt.
In einer besonders bevorzugten Variante der Erfindung umfasst das Überlappungsmaß ein erstes Maß, das abhängig ist von dem prozentualen Anteil der Projektion des Textblocks auf die bereits oben erwähnte angrenzende Kante, der innerhalb der angrenzenden Kante des jeweiligen Bildes liegt, und zwar in Bezug auf die Gesamtlänge der Projektion. Dies bedeutet, je größer dieser prozentuale Anteil ist, desto mehr überlappt der entsprechende Textblock mit dem Bild. Insbesondere liegt immer eine Überlappung von 100 % vor, wenn die Projektion des Textblocks auf die Kante vollkommen innerhalb der Kante liegt. Vorzugsweise werden bei einer derartigen Definition der Projektion diejenigen Textblöcke als Kandidaten für eine Bildbeschriftung verworfen, deren erstes Maß einen vorbestimmten Wert unterschreitet, d.h. welche nicht ausreichend mit dem entsprechenden Bild überlappen.
In einer weiteren Variante des erfindungsgemäßen Verfahrens umfasst das Überlappungsmaß ein zweites und ein drittes Maß. Diese Variante ist auch unabhängig davon realisierbar, ob ein erstes Maß als Überlappungsmaß vorliegt. Hierbei ist das zweite Maß abhängig von dem prozentualen Anteil der Projektion des Textblocks auf die angrenzende Kante, der auf der linken Seite außerhalb der angrenzenden Kante liegt, und zwar in Bezug auf die Länge der angrenzenden Kante. Analog ist das dritte Maß abhängig von dem prozentualen Anteil der Projektion des Textblocks auf die angrenzende Kante, der auf der rechten Seite außerhalb der angrenzenden Kante liegt, und zwar in Bezug auf die Länge der angrenzenden Kante. Textblöcke werden als Kandidaten für eine Bildbeschriftung verworfen, deren zweites oder drittes Maß einen vorbestimmten Wert, insbesondere 50 %, überschreitet. In diesem Fall steht ein großer Anteil des Textblocks in Bezug auf die Kantenlänge über, und es hat sich gezeigt, dass solche Textblöcke üblicherweise keine Bildbeschriftungen darstellen. Im Falle, dass im Schritt iii) gemäß der im vorangegangenen beschriebenen Ausführungsform des erfindungsgemäßen Verfahrens ein einziger Textblock übrig bleibt, wird dieser Textblock als Bildbeschriftung des jeweiligen Bildes bestimmt.
Im Falle, dass im Schritt iii) der obigen Ausführungsform des erfindungsgemäßen Verfahrens mehr als ein Textblock übrig bleibt, wird eine Textattributauswertung der übrig gebliebenen Textblöcke durchgeführt. Bei dieser Textattributauswertung werden vorzugsweise die Fontgröße und/oder der Fontstil und/oder der Fonttyp der übrig gebliebenen Textblöcke im ursprünglichen PDF-Dokument berücksichtigt. Vorzugsweise wird für die Seite des ursprünglichen PDF-Dokuments, auf der sich ein übrig gebliebener Textblock befindet, ein Bemittelter Durchschnittsfont berechnet und ein Übereinstimmungsmaß des Durchschnittsfonts mit dem Font des übrig gebliebenen Textblocks ermittelt. Dabei werden vorzugsweise diejenigen Textblöcke der übrig gebliebenen Textblöcke verworfen, deren Übereinstimmung gemäß dem Übereinstimmungsmaß eine vorbestimmte Grenze überschreitet. Man macht sich hierbei die Erkenntnis zu Nutze, dass die Textattribute von Bildbeschriftungen häufig von den restlichen Bildbeschriftungen in dem Dokument abweichen. Sollte somit eine hohe Übereinstimmung zwischen einem Durchschnittsfont in einer Dokumentenseite und dem entsprechenden Textblock vorliegen, deutet dies darauf hin, dass der Textblock keine Bildbeschriftung ist.
Sollten nach Durchführung des zuletzt genannten Verfahrensschritts immer noch mehrere Textblöcke übrig sein, werden schließlich noch die Höhen bzw. Breiten der übrig gebliebenen Textblöcke jeweils mit der Höhe bzw. Breite des jeweiligen Bildes verglichen, wobei diejenigen Textblöcke der übrig gebliebenen Textblöcke verworfen werden, deren Höhe bzw. Breite um ein vorbestimmtes Maß, insbesondere um ein prozentuales Maß in Bezug auf die Höhe bzw. Breite des jeweiligen Bildes, größer als die Höhe bzw. Breite des jeweiligen Bildes ist. Man macht sich hierbei die Tatsache zu Nutze, dass Textbeschriftungen vorzugsweise eine Größe aufweisen, die kleiner als das Bild selbst sind.
In einer weiteren Ausgestaltung des erfindungsgemäßen Verfahrens wird ferner nach der Ermittlung, welche Textblöcke Bild beschriftungen von Bildern in dem konvertierten HTML-Dokument darstellt, überprüft, ob eine Bildbeschriftung mehreren Bildern zugeordnet ist. Ist dies der Fall, wird vorzugsweise eine Plausibilitätsüberprüfung mit Bildbeschriftungen von benachbarten Bildern durchgeführt, um eine eindeutige Zuordnung der Bildbeschriftung zu einem Bild zu ermitteln. Eine Variante einer solchen Plausibilitätsüberprüfung ist in der detaillierten Beschreibung in Bezug auf 7 gegeben.
Neben dem oben beschriebenen Verfahren betrifft die Erfindung ferner ein Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Ausführung des erfindungsgemäßen Verfahrens, wenn das Programm auf einem Rechner abläuft.
Ausführungsbeispiele der Erfindung werden nachfolgend anhand der beigefügten Figuren detailliert beschrieben.
Es zeigen:
1 ein Flussdiagramm, welches die einzelnen Schritte einer Ausführungsform des erfindungsgemäßen Verfahrens wiedergibt;
2 eine schematische Ansicht eines mit einem Konvertierungsverfahren nach dem Stand der Technik erzeugten HTML-Dokuments;
3 eine schematische Ansicht eines gemäß einer Ausführungsform des erfindungsgemäßen Verfahrens erzeugten HTML-Dokuments;
4 bis 7 Ausschnitte aus mit dem erfindungsgemäßen Verfahren erzeugten HTML-Dokumenten zur Verdeutlichung der Bestimmung von Bildbeschriftungen; und
8 ein Computersystem zur Durchführung des erfindungsgemäßen Verfahrens.
Anhand des Ablaufdiagramms der 1 werden nunmehr die einzelnen Schritte einer Ausführungsform des erfindungsgemäßen Verfahrens erläutert. In dem Verfahren wird in einem ersten Schritt S1 ein beliebiges PDF-Dokument verarbeitet und in ein HTML-Dokument umgewandelt, welches im Wesentlichen das gleiche Layout wie das ursprüngliche PDF-Dokument hat. Zur Durchführung dieses Verfahrensschritts wird zunächst der Code des PDF-Dokuments rechnergestützt analysiert, wobei die in dem Dokument eingebundenen Bilder sowie die Größen und Positionen dieser Bilder extrahiert werden.
Nachfolgend findet sich beispielhaft ein Ausschnitt aus dem Code eines PDF-Dokuments:
Die Struktur solcher Codes ist dem Fachmann hinlänglich bekannt und in den entsprechenden Dokumentationen zu dem PDF-Format definiert und spezifiziert. Der Code beginnt mit der Zeile "3060 0 obj" und endet mit der Zeile "endobj". Der Codeabschnitt spezifiziert ein in dem PDF-Dokument eingebundenes Bild. Insbesondere kann dem Codeabschnitt zum einen die Breite des Bildes gemäß der Zeile "/Width 30" sowie die Höhe des Bildes gemäß der Zeile "/Height 18" entnommen werden.
In dem Code findet sich ferner eine Zeile mit den codierten Filtern "/Filter [/LZWDecode /DCTDecode]". Nach Decodierung dieser Filter erhält man hieraus auch die Daten über die Position des Bildes in der Seite des PDF-Dokuments. Darüber hinaus enthält der Code einen Stream des Bildes, der durch die Zeile "stream... endstream" angedeutet ist. Gemäß dem erfindungsgemäßen Verfahren wird aus dem Stream das entsprechende Bild als separate Datei erzeugt. Sofern das Bild in dem PDF-Dokument nicht im JPEG-Format hinterlegt ist, wird vorzugsweise eine Konvertierung des Bildes in das JPEG-Format vorgenommen.
In der hier beschriebenen Ausführungsform wird automatisiert ein geeigneter Verzeichnisbaum erzeugt, in dem alle aus dem PDF-Dokument extrahierten Bilder hinterlegt werden. Ferner wird auf das PDF-Dokument ein herkömmliches Konvertierungsverfahren angewendet, welches die Layout-Struktur des PDF-Dokuments im HTML-Format liefert, jedoch ohne die eingebundenen Bilder. Ein mit einem solchen herkömmlichen Verfahren erzeugtes HTML-Dokument ist beispielhaft in 2 gezeigt. Man erkennt, dass ein Textlayout erzeugt wird, wobei dieses Textlayout im Wesentlichen mit dem Textlayout des PDF-Dokuments übereinstimmt, aus dem das Dokument gemäß 2 erzeugt wurde. Im Unterschied zum ursprünglichen PDF-Dokument fehlen jedoch die einzelnen Bilder. Im erfindungsgemäßen Verfahren werden nunmehr jedoch in dem HTML-Dokument der 2 die entsprechenden Bilder dadurch eingebunden, dass in dem HTML-Dokument entsprechende HTML-Links auf die Verzeichnisstruktur erzeugt wird, in der die einzelnen Bilder als separate Dateien hinterlegt sind. Für jedes Bild enthält das HTML-Dokument somit einen Link auf die entsprechende Datei des Bildes.
Da mit dem erfindungsgemäßen Verfahren neben dem Bild selbst auch die Größen und Positionen der Bilder extrahiert werden, können die Bilder exakt an der gleichen Stelle im HTML- Dokument wie im ursprünglichen PDF-Dokument durch einen entsprechenden Link eingebunden werden.
Nachfolgend findet sich ein Ausschnitt aus dem Quelltext einer mit dem erfindungsgemäßen Verfahren erzeugten HTML-Datei, welche das gemäß dem obigen Ausschnitt aus dem PDF-Dokument extrahierte Bild betrifft:
Man erkennt, dass der HTML-Code, dessen Struktur dem Fachmann hinlänglich bekannt ist, die Breite und Höhe, nämlich die Werte 30 und 18, gemäß dem ursprünglichen PDF-Dokument für das Bild enthält. Ferner sind die Positionen durch den Code "left:89;top:71" angegeben. Man erkennt ferner, dass der Link durch eine entsprechende Quellenangabe auf das Bild generiert wird. Die Quellenangabe lautet:
Aus dem ursprünglichen Bild wurde somit eine JPEG-Datei mit dem Namen "image_name" im Verzeichnis "Verzeichnisname" generiert.
3 zeigt die Ansicht einer Seite eines HTML-Dokuments, welche gemäß dem erfindungsgemäßen Verfahren erzeugt wurde. Das HTML-Dokument entspricht hierbei in seiner Struktur dem HTML-Dokument der 2, jedoch sind nunmehr durch die oben beschriebene Verlinkung die Bilder des ursprünglichen PDF-Dokuments I1, I2, I3 und I4 in diesem Dokument enthalten.
Ein wesentlicher Aspekt der hier beschriebenen Ausführungsform des erfindungsgemäßen Verfahrens besteht darin, dass nicht nur ein mit dem Layout des ursprünglichen PDF-Dokuments weitestgehend identisches HTML-Dokument erzeugt wird, sondern dass ferner die einzelnen Bildbeschriftungen in dem HTML-Dokument ermittelt werden, wobei anschließend mit Hilfe der Bildbeschriftungen eine Indexierung der Bilder mit den Bildbeschriftungen vorgenommen werden kann. Das Verfahren eignet sich somit insbesondere zum Einsatz in Internet-Suchmaschinen, um auf einfache Weise eine Suche nach Bildern in PDF-Dokumenten zu ermöglichen. Hierzu muss die erfindungsgemäße Konvertierung mit anschließender Indexierung auf die PDF-Dokumente angewendet werden und gemäß den über die Bildbeschriftungen spezifizierten Indexierungen der Bilder kann dann nach den Bildern gesucht werden.
Zur Indexierung der Bilder anhand der Bildbeschriftung wird nach der Durchführung des soeben beschriebenen Schrittes S1, mit dem das HTML-Dokument mit den entsprechenden Bildern erhalten wird, als nächstes ein Analyseverfahren durchgeführt, welches in einem Schritt S2 zunächst die Layoutobjekte in dem HTML-Dokument ermittelt. Verfahren zur Analyse des Layouts eines Dokuments sind hinlänglich aus dem Stand der Technik bekannt und werden hier nicht näher erläutert. Es sei hier beispielhaft auf die Druckschrift [1], [2] und [3] verwiesen, welche die Layoutsegmentierung von Dokumenten detailliert beschreiben.
In der hier beschriebenen Ausführungsform des erfindungsgemäßen Verfahrens werden in dem Dokument zusammengehörende Textblöcke extrahiert. Dies ist aus dem Ausschnitt eines erfindungsgemäß generierten HTML-Dokuments in 4 ersichtlich. Man erkennt, dass dieser Dokumentausschnitt aus den beiden Bildern I5 und I6 sowie einer Vielzahl von Textblöcken T1, T2, T3, T4, T5, T6, T7 und T8 besteht. Es ist hierbei zu beachten, dass die Größe der einzelnen Textblöcke spezifiziert ist durch die längste, sich von links nach rechts erstreckende Zeile im Textblock des ursprünglichen PDF-Dokuments. In dem HTML-Dokument weicht der generierte Font von dem ursprünglichen Font des PDF-Dokuments dahingehend ab, dass der generierte Font etwas kleiner ist. Deshalb sind die Zeilen im HTML-Format kürzer und es existiert keine Zeile, die sich von ganz links nach ganz rechts erstreckt. Jedoch sind die ursprünglichen Größen der einzelnen Zeilen im PDF-Format durch entsprechende Rechtecke angedeutet. Man erkennt hierbei, dass in dem Textblock T4 das längste Rechteck R1 der Länge des Textblocks entspricht. Die Schrift im PDF-Format erstreckt sich in diesem Rechteck R1 von der linken Seite des Textblocks T4 bis zur rechten Seite des Textblocks T4.
Nach der Extraktion der Textblöcke gemäß dem Schritt S2 des erfindungsgemäßen Verfahrens wird nunmehr in einem nächsten Schritt S3 ermittelt, welche Textblöcke benachbart zu den einzelnen Bildern liegen. Hierbei ist zu beachten, dass in der hier beschriebenen Ausführungsform des erfindungsgemäßen Verfahrens Bilder immer als Rechtecke und Textblöcke ebenfalls immer als Rechtecke vorliegen. Zur Ermittlung der zu dem Bild benachbarten Textblöcke wird jede Kante des rechteckigen Bildes getrennt betrachtet. Für jede Kante wird der orthogonale Abstand der zu dieser Kante parallelen Kante von Textblöcken bestimmt. Für jede Kante wird hierbei der Textblock mit der Kante mit dem geringsten orthogonalen Abstand zur jeweiligen Kante des Bildes bestimmt und als benachbarter Textblock eingestuft. Sollten zwei Textblöcke den gleichen orthogonalen Abstand zu der Kante aufweisen, werden beide Textblöcke als benachbart bestimmt. Es werden somit für jede Kante des Bildes, die von Textblöcken umgeben ist, zumindest ein benachbarter Textblock ermittelt. In dem Beispiel der 4 weist das Bild I5 die benachbarten Textblöcke T1, T2, T3 und T4 auf. Demgegenüber umfasst das Bild I6 die benachbarten Textblöcke T5, T6, T7 und T8.
Nach dem Ermitteln der benachbarten Textblöcke wird im Schritt S4 des erfindungsgemäßen Verfahrens nunmehr die Überlappung der Textblöcke oberhalb und unterhalb eines Bildes mit dem entsprechenden Bild analysiert. Es hat sich diesbezüglich gezeigt, dass über diese Überlappung ein gutes Kriterium geschaffen wird, ob ein Textblock als eine Bildbeschriftung für das entsprechende Bild zu werten ist oder nicht. Ferner wurde erkannt, dass üblicherweise in den meisten Dokumenten Bildbeschriftungen nur oberhalb oder unterhalb der Bilder vorhanden sind, so dass in der hier beschriebenen Va riante der Erfindung nicht der Fall von Bildbeschriftungen links oder rechts neben dem Bild betrachtet wird. Die Überlappung wird dadurch berechnet, dass für einen Bildblock oberhalb bzw. unterhalb des betrachteten Bildes die Projektion des Bildblocks auf die angrenzende Kante des Bildes berechnet wird. Im Beispiel der 4 ergibt hierbei die Projektion des Blocks T4 auf die Kante E1 des Bildes I5 eine Projektionsgerade, deren Länge der Länge des Rechtecks R1 entspricht. Die Länge der Projektion ist somit immer die längste Zeile in dem entsprechenden Textblock in horizontaler Richtung.
Aus dieser Projektion wird dann ein erstes Überlappungsmaß berechnet, welches der prozentuale Anteil der Projektion ist, der innerhalb der Kante des Bildes liegt. Im Beispiel der 4 ist dies für die Projektion des Textblocks T4 auf das Bild I5 der Abschnitt d. Dieser Abschnitt d wird mit der Gesamtlänge des Blocks T4 in horizontaler Richtung verglichen. Hieraus wird der prozentuale Anteil von d an der Gesamtlänge des Blocks T4 bestimmt. Im Beispiel der 4 ergibt sich, dass für den Textblock T4 dieser prozentuale Anteil deutlich unter 50 % liegt.
Der Erfindung liegt die Erkenntnis zugrunde, dass ein hoher prozentualer Anteil der Überlappung gemäß dem soeben definierten ersten Maß darauf hindeutet, dass es sich um eine Bildbeschriftung handelt, da Bildbeschriftungen üblicherweise derart gewählt werden, dass sie im Überlappungsbereich mit dem Bild liegen. Es kann somit ein vorbestimmter Wert, beispielsweise 50 %, gewählt werden, wobei bestimmt wird, dass nur Textblöcke, deren Überlappung größer als 50 % sind, Bildbeschriftungen darstellen können. Alle anderen Textblöcke werden verworfen. Im Beispiel der 4 würde dies dazu führen, dass der Textblock T4 verworfen wird, wohingegen der Textblock T1, der eine deutlich höhere Überlappung mit dem Bild I5 aufweist, weiterhin als Beschriftung in Betracht kommt. Hierbei ist zu beachten, dass im Beispiel der 4 die beiden Blöcke T2 und T3 nicht als Bildbeschriftungen zu berücksichtigen sind, da sie neben dem Bild angeordnet sind.
Somit ergibt sich mit dem obigen Überlappungskriterium eindeutig der obere Textblock T1 als Bildbeschriftung. In dem Beispiel der 4 wird in Bezug auf das untere Bild I6, analog zu oberen Bild I5, der obere Textblock T5 aufgrund seiner großen Überlappung als Bildbeschriftung bestimmt. Als weiteres Überlappungskriterium kann getrennt für den linken und rechten Rand eines Bildes der prozentuale Anteil des über den linken bzw. rechten Rand überstehenden Textblocks in Bezug auf die Länge der zu Textblock benachbarten horizontalen Kante des Bildes berechnet werden. Sollte einer dieser prozentualen Anteile größer als 50 % der Länge der horizontalen Bildkante sein, wird der entsprechende Textblock als Kandidat für eine Bildbeschriftung verworfen.
5 zeigt zur Verdeutlichung ein weiteres HTML-Dokument, bei dem das Überlappungskriterium analog in Bezug auf das Bild I7 und die Textblöcke T9, T10 und T11 angewendet wird. Im Unterschied zum Bild in 4 werden hier nicht Textblöcke oberhalb des Bildes als Bildbeschriftungen ermittelt, sondern der Textblock T11 unterhalb des Bildes I7 wird als Bildbeschriftung identifiziert. Allgemein führt die Anwendung des Überlappungskriteriums dazu, dass ein einzelnes Bild, d.h. N = 1, als Bildbeschriftung übrig bleibt und schließlich zum Schritt S7 der Indexierung übergegangen wird. Dies ist in 1 verdeutlicht. Sollte N größer als 1 sein, wird zum Schritt S5 übergegangen, gemäß dem eine sog. Textattributauswertung in Bezug auf jedes Bild durchgeführt wird.
Bei der Textattributauswertung im Schritt S5 werden die Fontgröße, der Fontstil (d.h. normal, fett oder kursiv) und der Fonttyp (d.h. die verwendete Schriftart) berücksichtigt. Es wird hierbei für die Seite, auf der sich das betrachtete Bild befindet, ein Durchschnittsfont durch Ermittlung der genannten Fontparameter bestimmt. Anschließend wird der Font jedes Textblocks mit dem Durchschnittsfont verglichen und ein entsprechendes Übereinstimmungsmaß bestimmt, welches angibt, wie stark die Fonts überstimmen bzw. voneinander abweichen. Überschreitet die Übereinstimmung der Fonts eine vorbestimmte Grenze, werden die Textblöcke mit dem entsprechenden Font verworfen. Man macht sich hierbei die Erkenntnis zu Nutze, dass Bildbeschriftungen häufig vom üblicherweise im Dokument verwendeten Font abweichen.
6 zeigt einen Ausschnitt aus einem HTML-Dokument, bei dem eine Bildbeschriftung über die globale Fontverteilung auf die entsprechenden HTML-Seite ermittelt wurde. Insbesondere zeigt 6 ein Bild I8 mit benachbarten Textblöcken T12, T13 und T14. Aus der Überlappung ist nicht entscheidbar, ob der Block T12 oder T14 eine Bildbeschriftung darstellen. Jedoch ergibt sich aus der Fontverteilung, dass der Font von Block T14 wesentlich kleiner als die restlichen Fonts auf dieser Seite sind. Hieraus wird gefolgert, dass T14 die Bildunterschrift ist.
Als Ergebnis des Schrittes S5 können dann wiederum weitere Textblöcke verworfen werden. Sollte wiederum nur ein einziger Textblock übrig bleiben, d.h. N = 1, wird auch wieder zum Schritt S7 der Indexierung übergegangen. Ansonsten folgt der Schritt S6, bei dem die Höhen und Breiten der übrig gebliebenen Textblöcke jeweils mit der entsprechenden Höhe und Breite des Bildes verglichen werden. Sollte die Höhe oder die Breite des Textblockes ein prozentuales Maß in Bezug auf die Höhe bzw. Breite des jeweiligen Bildes überschreiten, wird der entsprechende Textblock ebenfalls verworfen. Man macht sich hierbei die Erkenntnis zu Nutzen, dass Bildbeschriftungen üblicherweise keinen größeren Bereich als das Bild selbst einnehmen. Es ist davon auszugehen, dass nach Durchführung dieser Schritte immer eine einzige Bildbeschriftung übrig bleibt. Sollte dies nicht der Fall sein, wird entweder festgestellt, dass das Bild überhaupt keine Bildbeschriftung hat oder alle übrig gebliebenen Textblöcke werden als Bildbeschriftungen bewertet.
An den Schritt S6 schließt sich somit die bereits erwähnte Indexierung gemäß Schritt S7 an. Hierbei werden die Inhalte der einzelnen Bildbeschriftungen den entsprechenden Bildern zugeordnet, so dass über Suchalgorithmen bei Eingabe von Begriffen aus der Bildbeschriftung das zugeordnete Bild aufgefunden werden kann.
Vor der eigentlichen Durchführung der Indexierung wird ferner überprüft, ob eine Bildbeschriftung mehreren Bildern zugeordnet ist. Ist dies der Fall, wird eine lokale Plausibilitätsüberprüfung durchgeführt. Dabei wird überprüft, ob einem der Bilder, denen die gleiche Bildbeschriftung zugeordnet ist, eine weitere Bildbeschriftung zugewiesen ist. Ist dies der Fall, kann gegebenenfalls die mehrdeutige Bildbeschriftung eindeutig einem Bild zugewiesen werden. Dies ist in 7 anhand der übereinander liegenden Bilder I9 und I10 in einem HTML-Dokument verdeutlicht. Ursprünglich ist der Textblock T15 als Bildbeschriftung sowohl dem Bild I9 als auch dem Bild I10 zugewiesen. Eine Betrachtung der weiteren Bildbeschriftungen von Bild I9 und I10 ergibt, dass nur das Bild I10 eine weitere Bildbeschriftung T16 unterhalb des Bildes I10 aufweist. Demgegenüber ist im Bild I9 der Textblock T15 die einzige Beschriftung. Auf diese Weise kann somit die Bildbeschriftung T16 eindeutig dem Bild I10 und die Bildbeschriftung T15 eindeutig dem Bild I9 zugeordnet werden.
Nach der Durchführung der soeben beschriebenen Plausibilitätsprüfung wird schließlich die endgültige Indexierung der Bilder vorgenommen, bei der für jedes Bild ein Index erstellt wird, der die entsprechende Bildbeschriftung zu dem Bild enthält. Es kann hierbei natürlich auch der Fall auftreten, dass einem Bild keine Bildbeschriftung zugeordnet ist. In einem solchen Fall wird auch kein Index für das Bild erstellt.
8 zeigt ein Computersystem mit Prozessormitteln PRZE, auf denen Programmmittel ausführbar sind. Die Prozessormittel PRZE umfassen einen Prozessor CPU, einen Speicher MEM und eine Input-/Output-Schnittstelle IOS, die über ein Interface IFC auf unterschiedliche Art und Weise genutzt wird. Über eine Graphikschnittstelle wird eine Ausgabe auf einem Monitor MON sichtbar und/oder auf einem Drucker PRT ausgegeben. Eine Eingabe erfolgt über die Maus MAS oder eine Tastatur TAST. Auch verfügen die Prozessormittel PRZE über einen Datenbus BUS, der die Verbindung zu dem Speicher MEM, dem Prozessor CPU und der Input-/Output-Schnittstelle IOS gewährleistet. Weiterhin sind an den Datenbus BUS zusätzliche Komponenten anschließbar, z.B. zusätzliche Speicher, Datenspeicher in Form einer Festplatte oder ein Scanner. In den Speicher MEM kann ein Computerprogrammprodukt zur Durchführung des erfindungsgemäßen Verfahrens geladen werden.
Literaturverzeichnis:

[1] Maderlechner, G., Suda, P., Bruckner, T.: Classification of documents by form and content. Pattern Recognition Letters 18(11-13): 1225-1231 (1997)
[2] Wong, K.Y., Casey, R.G., Wahl, F.M.: Document analysis system. IBM Journal of Research and Development 26 (1982) 647-656
[3] Mao, S., Rosenfeld, A., Kanungo, T.: Document structure analysis algorithms: a literature survey. Proc. SPIE Electronic Imaging 5010 (2003) 197-207

Claims

Verfahren zur rechnergestützten Konvertierung von PDF-Dokumenten in HTML-Dokumente, bei dem: a) aus dem Code eines PDF-Dokuments die in dem PDF-Dokument eingebundenen Bilder (I1, ..., I10) und die Größen und Positionen der Bilder extrahiert werden; b) eine Verzeichnisstruktur erzeugt wird, in der jedes extrahierte Bild als separate Datei gespeichert ist; c) die textuellen Bestandteile des PDF-Dokuments in ein HTML-Dokument konvertiert werden, wobei für ein jeweiliges Bild (I1, ..., I10) im PDF-Dokument mit Hilfe der in Schritt a) extrahierten Position und Größe des jeweiligen Bildes (I1, ..., I10) ein Link auf die Datei des jeweiligen Bildes (I1, ..., I10) in der in Schritt b) erzeugten Verzeichnisstruktur derart generiert wird, dass das Bild (I1, ..., I10) im Wesentlichen an der gleichen Position und mit der gleiche Größe im HTML-Dokument wie im PDF-Dokument positioniert ist.
Verfahren nach Anspruch 1, bei dem in Schritt a) die eingebundenen Bilder (I1, ..., I10) als JPEG-Dateien extrahiert werden.
Verfahren nach Anspruch 1 oder 2, bei dem aus dem konvertierten HTML-Dokument Textblöcke (T1, ..., T16) extrahiert werden und in einem Analyseschritt gemäß vorgegebener Kriterien bestimmt wird, welche Textblöcke (T1, ..., T16) Bildbeschriftungen von Bildern (I1, ..., I10) in dem konvertierten HTML-Dokument darstellen.
Verfahren nach Anspruch 3, bei dem die Bilder (I1, ..., I10) mit ihren Bildbeschriftungen indexiert werden.
Verfahren nach Anspruch 3 oder 4, bei dem der Analyseschritt folgende Unterschritte für ein jeweiliges Bild (I1, ..., I10) im HTML-Dokument umfasst: i) Ermitteln der zu dem jeweiligen Bild (I1, ..., I10) benachbarten Textblöcke (T1, ..., T16); ii) Ermitteln eines Überlappungsmaßes für jeden Textblock (T1, ..., T16) mit dem jeweiligen Bild (I1, ..., I10), wobei das Überlappungsmaß ein Maß dafür ist, wie viel Anteil des Textes innerhalb des Textblocks (T1, ..., T16) sich bei Projektion auf die an den Textblock (T1, ..., T16) angrenzende Kante des Bildes (I1, ..., I10) mit dem Bild (I1, ..., I10) überschneidet; iii) Textblöcke (T1, ..., T16), deren Überlappungsmaß keine vorbestimmte ausreichende Überlappung zwischen Textblock (T1, ..., T16) und jeweiligem Bild (I1, ..., I10) erfüllt, als Kandidaten für eine Bildbeschriftung verworfen werden.
Verfahren nach Anspruch 5, bei dem in Schritt i) für ein jeweiliges Bild (I1, ..., I10) die Abstände der Textblöcke (T1, T16) zu dem jeweiligen Bild (I1, ..., I10) ermittelt werden und anhand eines Abstandskriteriums bestimmt wird, welcher Textblock (T1, ..., T16) als benachbarter Textblock (T1, ..., T16) einzustufen ist.
Verfahren nach Anspruch 6, bei dem der Abstand eines Textblocks (T1, ..., T16) zu einem Bild (I1, ..., I10) der kleinste orthogonale Abstand zwischen zwei parallelen Kanten von Bild (I1, ..., I10) und Textblock (T1, ..., T16) ist.
Verfahren nach einem der Ansprüche 5 bis 7, bei dem im Analyseschritt nur das Überlappungsmaß von oberen und unteren, zu dem jeweiligen Bild (I1, ..., I10) benachbarten Textblöcken (T1, ..., T16) ermittelt wird.
Verfahren nach einem der Ansprüche 5 bis 8, bei dem das Überlappungsmaß ein erstes Maß umfasst, das abhängig ist von dem prozentualen Anteil der Projektion des Textblocks (T1, ..., T16) auf die angrenzende Kante, der innerhalb der angrenzenden Kante des jeweiligen Bildes (I1, ..., I10) liegt, in Bezug auf die Gesamtlänge der Projektion.
Verfahren nach Anspruch 9, bei dem diejenigen Textblöcke (T1, ..., T16) als Kandidaten für eine Bildbeschriftung verworfen werden, deren erstes Maß einen vorbestimmten Wert unterschreitet.
Verfahren nach einem der Ansprüche 5 bis 10, bei dem das Überlappungsmaß ein zweites Maß umfasst, das abhängig ist von dem prozentualen Anteil der Projektion des Textblocks (T1, ..., T16) auf die angrenzende Kante, der auf der linken Seite außerhalb der angrenzenden Kante liegt, in Bezug auf die Länge der angrenzenden Kante, sowie ein drittes Maß, das abhängig ist von dem prozentualen Anteil der Projektion des Textblocks (T1, ..., T16) auf die angrenzende Kante, der auf der rechten Seite außerhalb der angrenzenden Kante liegt, in Bezug auf die Länge der angrenzenden Kante.
Verfahren nach Anspruch 11, bei dem diejenigen Textblöcke als Kandidaten für eine Bildbeschriftung verworfen werden, deren zweites oder drittes Maß einen vorbestimmten Wert, insbesondere einen Anteil von 50 %, überschreitet.
Verfahren nach einem der Ansprüche 5 bis 12, bei dem im Falle, dass in Schritt iii) des Anspruchs 5 ein einziger Textblock (T1, ..., T16) übrig bleibt, dieser Textblock (T1, ..., T16) als Bildbeschriftung des jeweiligen Bildes (I1, ..., I10) bestimmt wird.
Verfahren nach einem der Ansprüche 5 bis 13, bei dem im Falle, dass in Schritt iii) des Anspruchs 5 mehr als ein Textblock (T1, ..., T16) übrig bleibt, eine Textattributauswertung der übrig gebliebenen Textblöcke (T1, ..., T16) durchgeführt wird.
Verfahren nach Anspruch 14, bei dem die Textattributauswertung die Fontgröße und/oder den Fontstil und/oder den Fonttyp der übrig gebliebenen Textblöcke (T1, ..., T16) im ursprünglichen PDF-Dokument berücksichtigt.
Verfahren nach Anspruch 15, bei dem für die Seite des ursprünglichen PDF-Dokuments, auf der sich ein übrig gebliebener Textblock (T1, ..., T16) befindet, ein Bemittelter Durchschnittsfont berechnet wird und ein Übereinstimmungsmaß des Durchschnittsfonts mit dem Font des übrig gebliebenen Textblocks (T1, ..., T16) ermittelt wird.
Verfahren nach Anspruch 16, bei dem in einem Vergleichsschritt diejenigen Textblöcke (T1, ..., T16) der übrig gebliebenen Textblöcke verworfen werden, deren Übereinstimmung gemäß dem Übereinstimmungsmaß eine vorbestimmte Grenze überschreitet.
Verfahren nach Anspruch 17, bei dem im Falle, dass in dem Vergleichsschritt mehrere Textblöcke (T1, ..., T16) übrig bleiben, die Höhen und Breiten der übrig gebliebenen Textblöcke (T1, ..., T16) jeweils separat mit der Höhe und Breite des jeweiligen Bildes (I1, ..., I10) verglichen werden, wobei diejenigen Textblöcke (T1, ..., T16) der übrig gebliebenen Textblöcke verworfen werden, deren Höhe oder Breite um ein vorbestimmtes Maß, insbesondere um ein prozentuales Maß in Bezug auf die Höhe oder Breite des jeweiligen Bildes (I1, ..., I10), größer als die Höhe oder Breite des jeweiligen Bildes (I1, ..., I10) ist.
Verfahren nach einem der vorhergehenden Ansprüche in Kombination mit Anspruch 3, bei dem nach der Ermittlung, welche Textblöcke (T1, ..., T16) Bildbeschriftungen von Bildern (I1, ..., I10) in dem konvertierten HTML-Dokument darstellen, überprüft wird, ob eine Bildbeschriftung mehreren Bildern (I1, ..., I10) zugeordnet ist.
Verfahren nach Anspruch 19, bei dem im Falle, dass eine Bildbeschriftung mehreren Bilder (I1, ..., I10) zugeordnet ist, eine Plausibilitätsüberprüfung mit Bildbeschriftungen von benachbarten Bildern (I1, ..., I10) durchgeführt wird, um eine eindeutige Zuordnung der Bildbeschriftung zu einem Bild zu ermitteln.
Computerprogrammprodukt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Ausführung des Verfahrens nach einem der vorhergehenden Ansprüche, wenn das Programm auf einem Rechner abläuft.