DE102009016588A1 - Verfahren zur Ermittlung von Textinformationen - Google Patents

Verfahren zur Ermittlung von Textinformationen Download PDF

Info

Publication number
DE102009016588A1
DE102009016588A1 DE102009016588A DE102009016588A DE102009016588A1 DE 102009016588 A1 DE102009016588 A1 DE 102009016588A1 DE 102009016588 A DE102009016588 A DE 102009016588A DE 102009016588 A DE102009016588 A DE 102009016588A DE 102009016588 A1 DE102009016588 A1 DE 102009016588A1
Authority
DE
Germany
Prior art keywords
document
text
sections
content type
pdf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102009016588A
Other languages
English (en)
Inventor
Stanislav Tkachev
Christoph Kober
Tobias Wildgruber
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aconex AG
Original Assignee
Conject AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Conject AG filed Critical Conject AG
Priority to DE102009016588A priority Critical patent/DE102009016588A1/de
Publication of DE102009016588A1 publication Critical patent/DE102009016588A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Ermittlung von Textinformationen aus PDF-Dokumenten. Zunächst wird ein PDF-Dokument eingelesen (25) und seine Struktur analysiert (26). Es werden Dokumentenabschnitte ermittelt. Das eingelesene PDF-Dokument wird in die Dokumentenabschnitte zerlegt (27) und die Dokumentenabschnitte hinsichtlich des Inhalttyps analysiert. Ein Texterkennungsalgorithmus wird für jeweils einen Dokumentenabschnitt in Abhängigkeit von dem ermittelten Inhalttyp des Dokumentenabschnitts ausgewählt (28). Anschließend wird der erkannte Text des Dokumentenabschnitts ausgegeben (35).

Description

  • Die Erfindung betrifft ein Verfahren sowie ein entsprechendes Programm zum Ermitteln von Textinformationen aus PDF-Dokumenten.
  • In der Dokumentenverwaltung wird heutzutage eine Vielzahl unterschiedlicher Dateiformate verwendet. Dies hat den Nachteil, dass zum Betrachten oder zum Ausdrucken der entsprechenden Dokumente oft unterschiedliche Programme erforderlich sind. Insbesondere bei großen Projekten, beispielsweise in der Bauindustrie, hat es sich daher als vorteilhaft erwiesen, ein einheitliches Dokumentenformat zu verwenden. In den letzten Jahren hat sich als ein solches geeignetes einheitliches Dokumentenformat das sogenannte PDF etabliert (Portable Document Format).
  • Bei großen Projekten gibt es zudem eine Vielzahl von unterschiedlichen Versionen des gleichen zu Grunde liegenden Dokuments. Um in jedem Zeitpunkt beispielsweise einer Bauphase sicher zu stellen, dass alle Beteiligten dieselbe Version eines Dokuments verwenden, muss die Verteilung der Dokumente an die beteiligten Personen einheitlich erfolgen. Dies erfordert, dass die Dokumente zum einen zentral verwaltet werden, zum anderen allerdings auch leicht auffindbar sind. Hierzu wird vorzugsweise eine Indexsuche verwendet. Da eine Vielzahl von Dokumenten auf verteilten Systemen erstellt wird, umfasst die Archivierung dabei auch eingescannte Dokumente, die insbesondere wieder in PDFs umgewandelt werden. Andererseits werden oft auch unmittelbar beispielsweise aus einem zur Erstellung eines Textdokuments verwendeten Textverarbeitungsprogramm PDFs generiert.
  • Problematisch ist es nun, aus diesen unterschiedlichen PDFs eine möglichst große Anzahl aussagekräftiger Schlagwörter oder allgemeiner der Textinformation zu erstellen, um ein bestimmtes Dokument mit geringem Aufwand auffinden zu können. Da ein einzelnes PDF-Dokument sowohl originäre Textabschnitte als auch grafische Buchstabenelemente oder andere Grafiken, wie z. B. mittels eines CAD-Systems erstellter Zeichnungen enthalten kann, ist die Erfassung der in dem gesamten PDF enthaltenen Textinformation problematisch.
  • Es ist daher die Aufgabe der Erfindung, ein Verfahren zum Erfassen von Textinformationen in PDFs zu schaffen, bei dem eine hohe Quote aufgefundener Textinformation unabhängig vom Aufbau und der Herkunft des PDFs erreicht werden kann.
  • Die Aufgabe wird durch das erfindungsgemäße Verfahren sowie die erfindungsgemäßen Computerprogramme gelöst.
  • Erfindungsgemäß wird zum Ermitteln von Textinformation aus PDF-Dokumenten zunächst ein zu analysierendes PDF-Dokument eingelesen. Die Struktur eines solchen PDF-Dokuments wird anschließend analysiert und es werden einzelne Dokumentabschnitte ermittelt. Das Dokument wird dann in die ermittelten Dokumentenabschnitte zerlegt. Für die einzelnen Dokumentenabschnitte werden dann Inhaltstypen ermittelt. Die Inhaltstypen der unterschiedlichen Dokumentenabschnitte können voneinander abweichen. Zur Ermittlung der in den Dokumentenabschnitten enthaltenen Textinformationen wird dann ein Texterkennungsalgorithmus verwendet, der für jeden Dokumentenabschnitt anhand seines ermittelten Inhaltstyps ausgewählt wird. Mit diesem Texterkennungsalgorithmus wird dann nur der jeweils zugeordnete Dokumentenabschnitt überprüft und die darin enthaltene Textinformation ermittelt. Anschließend wird der erkannte Text des Dokumentenabschnitts ausgegeben.
  • Bei dem erfindungsgemäßen Verfahren ist es vorteilhaft, dass zunächst eine Zergliederung des einheitlichen PDF-Dokuments in einzelne Dokumentenabschnitte erfolgt. Diesen Dokumentenabschnitten ist dann zum einen über ihren Inhaltstyp ein geeigneter Texterkennungsalgorithmus zugeordnet. Lässt sich in einem bestimmten Dokumentenabschnitt eine Ermittlung der darin enthaltenen Textinformationen nicht mit vertretbarem Aufwand durchführen, so ist aufgrund der Gliederung in die einzelnen Dokumentenabschnitte lediglich die in diesem Dokumentenabschnitt enthaltene Textinformation bezüglich einer weiteren Verarbeitung verloren. Auch bei komplexen Dokumenten kann somit ein Großteil der enthaltenen Textinformation in einfach und insbesondere ökonomisch kurzer Zeit erfasst werden. Da häufig die Information die in dem Text enthalten ist über verschiedene Abschnitte eines Dokuments verteilt ist lässt sich somit auf Basis des so ermittelten Texts des Gesamtdokuments auch dieses Dokument mit hoher Wahrscheinlichkeit auffinden. Der negative Effekt einer nicht ermittelten Textinformation in einem der Abschnitte fällt daher nicht gravierend auf.
  • In den Unteransprüchen sind vorteilhafte Weiterbildungen des erfindungsgemäßen Verfahrens ausgeführt.
  • Vorzugsweise werden bei der Analyse der Struktur des PDF-Dokuments Seitenumbrüche ermittelt. Die Dokumentenabschnitte entsprechen dann jeweils einer Seite des eingelesenen PDF Dokuments. Die Strukturen der verwendeten PDF Dokumente haben den Vorteil, dass sie unabhängig von der Erzeugung des PDFs zumindest einen gewissen Mindeststandard erfüllen. Dieser Mindeststandard erlaubt es in einfacher Weise, die einzelnen Seiten eines PDF-Dokuments zu ermitteln. Das Gleichsetzen einer solchen Seite mit einem Dokumentenabschnitt hat dann den Vorteil, dass durch den kurzen Dokumentenabschnitt im Zweifelsfall nur ein extrem geringer Teil der Textinformation nicht ermittelt werden kann. Zudem entspricht die Gliederung in Dokumentenabschnitte, die den Seiten entsprechen, häufig einer natürlichen Gliederung des Gesamtdokuments. So werden insbesondere Zeichnungen oft als ganzseitige Zeichnungen in ein Dokument eingefügt. Diese können dann wenn die Zergliederung des PDFs in einzelne Seiten erfolgt in einfacher Weise eine für Zeichnungen geeigneten Texterkennungsalgorithmus zugeführt werden.
  • Zur Ermittlung des Inhaltstyps wird vorzugsweise zwischen zwei Inhaltstypen unterschieden. Der erste Inhaltstyp ist ein solcher Teil des PDF-Dokuments, der zum Inhalt reinen Text Bestandteil hat. Dies könnten beispielsweise Seiten sein, die mit einem Textverarbeitungsprogramm erstellt werden, wobei das entstehende Dokument in ein PDF umgewandelt wird. Der zweite Inhaltstyp ist jeder Dokumentenabschnitt, der wenigstens einen weiteren Bestandteil enthält. Damit werden alle Dokumentenabschnitte, die nicht unmittelbar Text enthalten dem zweiten Inhaltstyp zugeordnet. Hierunter fallen auch eingescannte Textdokumente, da hier die Textinformation auch als grafische Information vorliegt.
  • Während für den ersten Inhaltstyp unmittelbar eine Textextraktion durchgeführt werden kann ist es für den zweiten Inhaltstyp schwieriger. Hier kann es zudem auftreten, dass beispielsweise DIN A0 oder größere Zeichnungen, die häufig für Grundrisse oder ähnliches verwendet werden, auftreten. Die Wahrscheinlichkeit, dass in einer solchen Grafik, die eine gewisse Größe überschreitet, zum Auffinden des Dokuments in einer Suche relevante Textinformation enthalten ist, ist dabei gering. Zudem steigt mit zunehmender Komplexität eines grafischen Bestandteils die Dauer zum Erfassen der Textinformationen erheblich an. Es wird daher bevorzugt ab einer vorzugsweise einstellbaren, festgelegten Seitengröße, mit der die ermittelte Seitengröße des Dokumentenabschnitts verglichen wird, der Texterkennungsvorgang abgebrochen und zum nächsten Dokumentenabschnitt übergegangen. Ein zweites, kumulativ wirkendes Abbruchkriterium ist, dass bei Dokumentenabschnitten des zweiten Inhaltstyps bei Überschreitung einer längsten Bearbeitungsdauer ebenfalls die Textermittlung abgebrochen wird und zum nächsten Dokumentenabschnitt übergegangen wird. Auf diese Weise ist sichergestellt, dass auch dann, wenn zunächst anzunehmen ist, dass die Textinformation aus dem Dokumentenabschnitt ermittelbar ist, aufgrund beispielsweise der Komplexität einer in DIN A4 vorliegenden Zeichnung die Überarbeitungszeit zu einem Blockieren des Systems führen würde. Für die Dokumentenabschnitte des zweiten Inhaltstyps wird zur Ermittlung der Textinformation vorzugsweise ein Mustervergleich mit Umwandlung der erkannten Textinformation in Text durchgeführt, wie er für OCR-Systeme bekannt ist. Dagegen wird vorzugsweise für die Dokumentenabschnitte des ersten Inhaltstyps eine Textextraktion der schon als Text im PDF enthaltenen Textinformation durchgeführt. Unter Textextraktion ist hierbei zu verstehen, dass mit Hilfe eines geeigneten Erkennungsalgorithmus die Struktur des PDF-Dokumentenabschnitts analysiert wird, um den darin als Text enthaltenen Anteil zu ermitteln. Hierzu werden Steuerinformationen des PDF-Dokuments interpretiert.
  • Ein bevorzugtes Ausführungsbeispiel des erfindungsgemäßen Verfahrens ist in der Zeichnung dargestellt und wird in der nachfolgenden Beschreibung näher erläutert. Es zeigen:
  • 1 ein Blockschaltbild eines Systems, indem die erfindungsgemäße Ermittlung von Textinformationen eingesetzt wird; und
  • 2 ein vereinfachtes Ablaufschema zur Durchführung des erfindungsgemäßen Verfahrens.
  • In der 1 ist vereinfacht die Struktur eines Systems 1 dargestellt, welches die erfindungsgemäße Ermittlung von Textinformationen verwendet. Zur Kommunikation mit einem nicht dargestellten Nutzer ist ein User Interface 2 vorgesehen. Das User Interface 2 kann beispielsweise ein Bildschirm eines Computersystems sein, der mit den übrigen in der 1 dargestellten Komponenten auch über ein Netzwerk verbunden sein kann. Zu dem bereits beschriebenen Auffinden von Dokumenten wird der User über das Interface 2 in einem Eingabefeld 21 eine Suchanfrage definieren. Er gibt hierzu beispielsweise Schlagwörter ein, die er in dem für ihn relevanten Dokument vermutet. Als Antwort erwartet er eine Liste 22, in der die Fundstellen, die zu seiner Suchanfrage passen, nach Relevanz sortiert ausgegeben werden.
  • Die Dokumente, zu denen die Suche durchgeführt werden soll sind in einem File Server 3 gespeichert. Zusätzlich existiert eine Datenbank 4, die weitere Informationen zu den einzelnen Dokumenten enthält. Sowohl die Textinformationen aus den Dateien des File Servers 3 als auch die zugeordneten Informationen der damit verknüpften Datenbank 4 werden einem Volltextindex 5 zur Verfügung gestellt. Der Volltextindex 5 enthält dann eine verknüpfte Information mit dem Auftreten von Wörtern in den Dokumenten sowie in der Datenbank abgelegter Zusatzinformationen. Die eingegebene Suchanfrage des Users wird dem Volltextindex 5 bzw. einem hierauf zugreifenden Algorithmus zugeführt. Auf Basis der Suchanfrage wird mit an sich bekannten Algorithmen in dem Volltextindex 5 eine Auswertung durchgeführt und die so ermittelten Dokumente nach Relevanz sortiert dem Interface 2 wieder zur Ausgabe zur Verfügung gestellt. Auf eine Darstellung des genauen Ablaufs dieses Analyseschritts kann vorliegend verzichtet werden, da hier an sich bekannte Algorithmen zum Einsatz kommen können.
  • Entscheidend für die Qualität einer solchen Suche ist, dass dem Volltextindex 5 möglichst umfassende Textinformationen aus den Dateien des File Servers 3 zur Verfügung gestellt werden. Zur weiteren Erläuterung des Beispiels wird davon ausgegangen, dass es sich um reine PDF Dateien handelt. Es ist jedoch erkennbar, dass auf dem File Server 3 auch anderen Dateien gespeichert sein können, die allerdings nicht mittels des vorliegenden Verfahrens zu analysieren sind, da sie beispielsweise ein auf andere Weise analysierbares Dokumentenformat aufweisen. Solche Dateien wären beispielsweise reine Textdateien, wie sie mit einfachen Texteditoren erstellt werden oder Dateien, die mit den weit verbreiteten Microsoft Office-Programmen erstellt wurden.
  • Wird zur Archivierung dem File Server 3 ein neues PDF hinzugefügt, so wird automatisch das nachfolgend im Detail erläuterte Verfahren angewandt. Zunächst wird das PDF-Dokument dem Textermittlungsabschnitt 6 zugeführt. Der Textermittlungsabschnitt 6 weist einen Strukturanalyseabschnitt 7 und einen damit verbundenen Algorithmuszuweisungsabschnitt 8 auf. In dem Strukturanalyseabschnitt 7 wird das eingelesene PDF Dokument hinsichtlich seiner Struktur zunächst analysiert. Als Ergebnis der Strukturanalyse wird das PDF-Dokument in einzelne Abschnitte gegliedert. Diese Dokumentenabschnitte werden beispielsweise durch jeden erkannten Seitenwechsel definiert. Zum Erkennen des Seitenwechsels können entsprechende Steuerbefehle, die in dem PDF-Dokument enthalten sind, gesucht werden.
  • Die einzelnen Dokumentenabschnitte werden dann von dem Strukturanalyseabschnitt 7 dem Algorithmuszuweisungsabschnitt 8 zugeführt. In dem Algorithmuszuweisungsabschnitt 8 wird zunächst für die einzelnen Dokumentenabschnitte deren Inhaltstyp ermittelt. Hierzu wird wiederum auf die bestimmten Inhalten zugeordneten, im PDF-Dokument enthaltenen Markierungen zurückgegriffen. Diese leiten beispielsweise einen reinen Textabschnitt des PDF Dokuments ein. Wird eine solche einleitende Markierung gefunden, so ergibt sich daraus zwingend, dass der nachfolgende Abschnitt ein reiner Textabschnitt ist. Ein solcher Textabschnitt wird mit einer Endmarke beendet. Wird innerhalb eines Dokumentenabschnitts lediglich eine Anfangs- und Endmarke für Text gefunden, so wird diesem Dokumentenabschnitt ein erste Inhaltstyp („Text”) zugeordnet. Werden dagegen innerhalb eines Dokumentenabschnitts auch andere Anfangs- und Endmarken, die beispielsweise eine eingefügte Grafik charakterisieren, gefunden, so wird einem solchen Dokumentenabschnitt, der wenigstens einen weiteren Bestandteil, also einem Nicht-Textbestandteil, enthält, ein zweiter Inhaltstyp zugeordnet. Dem zweiten Inhaltstyp sind beispielsweise auch solche Dokumentenabschnitte zuzuordnen, die einen eingescannten Text enthalten. Da hier die Textinformation nicht als Text, sondern als Grafik vorliegt, muss ein anderer Algorithmus zum Ermitteln der Textinformation als bei dem ersten Inhaltstyp zur Anwendung kommen.
  • Nachdem die Dokumentenabschnitte eindeutig dem ersten Inhaltstyp oder dem zweiten Inhaltstyp zugeordnet sind, werden sie einem für den Inhaltstyp geeigneten Texterkennungsalgorithmus zugeführt. In der 1 sind allgemein drei solcher Bearbeitungsabschnitte für unterschiedliche Texterkennungsalgorithmen 9', 9'' und 9''' dargestellt. Bei der zuvor beschriebenen Unterscheidung in lediglich zwei Inhaltstypen ist es leicht ersichtlich, dass der erste und der zweite Texterkennungsalgorithmus 9' und 9'' ausreichend sind. Es ist jedoch auch möglich, einen dritten Inhaltstyp zu definieren und hierfür einen besonders geeigneten Erkennungsalgorithmus zu verwenden. Mit Hilfe dieser Texterkennungsalgorithmen 9'9''' werden die Textinformationen aus den Dokumentenabschnitten ermittelt. Anschließend werden die aus allen Dokumentenabschnitten eines PDF-Dokuments ermittelten Textinformationen in reinen Text umgewandelt und die so erzeugte Textdatei dem Volltextindex 5 übermittelt.
  • Sowohl bei der Übermittlung der Suchanfrage an den Volltextindex 5 als auch bei der Übermittlung der Textdatei 10 an den Volltextindex 5 werden sogenannte Wortartenreduktion und Kompositazerlegung verwendet, um Wörter auf ihre Stammform und/oder Wortbestandteile zurückzuführen. Dieser als Indizierung bekannte Vorgang ist an sich wieder bekannt und wird daher nicht weiter erläutert.
  • Die 2 zeigt das Verfahren zur Ermittlung der Textinformation in PDF-Dokumenten und Erzeugung einer Textdatei mit diesen Textinformationen noch einmal in vereinfachter Form. Zunächst wird in Schritt 25 ein PDF-Dokument durch den Textermittlungsabschnitt 6 eingelesen. Es wird dann in Schritt 26 wie bereits beschrieben, eine Strukturermittlung des PDF-Dokuments in dem Strukturanalyseabschnitt 7 durchgeführt. Auf Basis dieser ermittelten Struktur wird ebenfalls in dem Strukturanalyseabschnitt 7 das PDF-Dokument in mehrere Dokumentenabschnitte zerteilt. Die Dokumentenabschnitte entsprechen dabei vorzugsweise den einzelnen Seiten eines PDF-Dokuments.
  • In Schritt 28 wird dann eine Zuordnung eines Inhaltstyps von wenigstens zwei Inhaltstypen zu den einzelnen Dokumentenabschnitten durchgeführt. Hierzu wird der Inhalt der einzelnen Dokumentenabschnitte analysiert, wozu Anfangs- und Endmarkierungen der einzelnen Abschnitte verwendet werden. Die Dokumentenabschnitte und die Abschnitte müssen dabei nicht übereinstimmen. So kann jeder Dokumentenabschnitt mehrere mit Anfangs- und Endmarkierungen begrenzte Abschnitte enthalten, die unterschiedliche Inhalte haben können. Wenn mindestens einer dieser Abschnitte kein Text ist und somit der Dokumentenabschnitt wenigstens einen Nicht-Text-Bestandteil aufweist, wird diesem Dokumentenabschnitt der zweite Inhaltstyp zugeordnet. Der erste Inhaltstyp wird dagegen zugeordnet, wenn es sich um einen reinen Text-Dokumentenabschnitt handelt.
  • Zur eigentlichen Ermittlung der in den Dokumentenabschnitten und damit dem gesamten Dokument enthaltenen Textinformation wird ein Dokumentenabschnitt in Schritt 29 dem eigentlichen Erkennungsalgorithmus übergeben. War festgestellt worden, dass der Dokumentenabschnitt den ersten Inhaltstyp aufweist, so wird eine Textextraktion in Schritt 30 durchgeführt. Eine solche Textextraktion kann den zwischen den Anfangs- und der Endmarkierung enthaltenen reinen Text herauslesen und in einer Textdatei speichern. Zunächst wird allerdings das Teilergebnis zwischengespeichert, bis sämtliche Dokumentenabschnitte des PDF-Dokuments fertig ausgewertet sind. Nach dem Abarbeiten des Dokumentenabschnitts wird also das jeweilige Teilergebnis ergänzt (Schritt 31) und anschließend der nächste Dokumentenabschnitt dem jeweils zugeordneten Erkennungsalgorithmus zugeführt.
  • Im Beispiel war davon ausgegangen worden, dass der gerade analysierte Dokumentenabschnitt vom ersten Inhaltstyp war. Wird anschließend z. B. ein Dokumentenabschnitt vom zweiten Inhaltstyp übergeben, so wird zunächst in Schritt 32 die Seitengröße des Dokumentenabschnitts ermittelt. Ist diese größer als DIN A3, wird eine weitere Ermittlung der darin enthaltenen Textinformation nicht durchgeführt. Dies dient der Reduzierung der Zeiten, die zur Ermittlung der Textinformation in ein PDF-Dokuments erforderlich sind. Es wird dann unmittelbar zurückgesprungen zu Schritt 29 und wiederum der nächste Dokumentenabschnitt an den jeweils zugeordneten Algorithmus übergeben.
  • Wird dagegen in Schritt 32 erkannt, dass die Seitengröße kleiner oder gleich DIN A3 ist, so wird eine Mustererkennung in Schritt 33 zur Ermittlung der Textinformation durchgeführt. Diese Mustererkennung erfolgt mit an sich bekannten OCR-Algorithmen. Sie beinhaltet auch eine Konvertierung der erkannten Textmuster im Text. Die Festlegung der Seitengröße zu DIN A3 ist lediglich für das dargestellte Ausführungsbeispiel gewählt und kann in Abhängigkeit von der Leistungsfähigkeit der zur Berechnung verwendeten Prozessoren angepasst werden.
  • Die in der Mustererkennung 33 erkannten Textinformationen werden in Text umgewandelt, wie es allgemein für OCR-Programme bekannt ist und auch hier wird ein Teilergebnis in Schritt 34 zwischengespeichert und bei weiteren Dokumentenabschnitten desselben Inhaltstyps ergänzt. Damit werden in Schritt 31 und Schritt 34 jeweils Textinformationen aus den Dokumentenabschnitten des ersten Inhaltstyps und den Dokumentenabschnitten des zweiten Inhaltstyps als Text ergänzt. Dabei fehlen lediglich diejenigen Textinformationen von Dokumentenabschnitten des zweiten Inhaltstyps, die aufgrund einer zu großen Seitengröße nicht ermittelt werden konnten. Ferner wird auch bei einer Seitengröße, die kleiner oder gleich DIN A3 ist, die Mustererkennung in Schritt 33 abgebrochen, wenn der Erkennungsprozess länger als eine definierte Zeitspanne dauert.
  • Die Teilergebnisse aus den Schritten 31 und 34 werden, wenn keine weiteren Dokumentenabschnitte mehr vorhanden sind und das PDF-Dokument somit vollständig erfasst ist, in ein gemeinsames Textdokument überführt. Nach Erstellen eines solchen Textdokuments 35, das den gesamten aus dem PDF-Dokument ermittelten Text enthält, wird dieses dann wie bereits beschrieben dem Volltextindex 5 zugeführt.
  • Die Erfindung ist nicht auf das dargestellte Ausführungsbeispiel beschränkt. Insbesondere sind auch Kombinationen einzelner Merkmale in vorteilhafterweise möglich. So dienen vor allem die beschriebenen Algorithmen zur Ermittlung der Textinformation (OCR, usw.) lediglich dem Verständnis. Eine Beschränkung hierauf kann jedoch für die Erfindung nicht erfolgen.

Claims (8)

  1. Verfahren zur Ermittlung von Textinformationen aus PDF-Dokumenten mit folgenden Verfahrensschritten: – Einlesen eines PDF-Dokuments (25) – Analysieren einer Struktur des PDF-Dokuments und Ermitteln von Dokumentenabschnitten (26) – Zerlegen des eingelesenen PDF-Dokuments in Dokumentenabschnitte (27) – Analysieren von Inhaltstypen der einzelnen Dokumentenabschnitte (28) – Auswählen eines Texterkennungsalgorithmus für jeden Dokumentenabschnitt in Abhängigkeit von dem ermittelten Inhaltstyp – Ermitteln der Textinformationen und Erzeugen von Text (30, 33) – Ausgabe des erkannten Texts des Dokumentenabschnitts (35).
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass bei der Analyse der Struktur Seitenumbrüche ermittelt werden und die Dokumentenabschnitte jeweils einer Seite des eingelesenen PDF-Dokuments entsprechen.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur Ermittlung des Inhaltstyps eine Suche nach Textbestandteilen durchgeführt wird und zwischen einem ersten Inhaltstyp für Dokumentenabschnitte mit Textbestandteilen und einem zweiten Inhaltstyp für Dokumentenabschnitte mit wenigstens einem weiteren Bestandteil unterschieden wird.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass für die Dokumentenabschnitte des zweiten Inhaltstyps eine Seitengröße ermittelt (32) wird und bei Überschreiten einer festgelegten Seitengröße der Texterkennungsvorgang abgebrochen wird.
  5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass für Dokumentenabschnitte des zweiten Inhaltstyps eine Texterkennung mittels Mustervergleichs (33) durchgeführt wird.
  6. Verfahren nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, dass für Dokumentenabschnitte des ersten Inhaltstyps eine Textextraktion (30) durchgeführt wird.
  7. Computerprogramm mit Programmcode-Mitteln, um alle Schritte gemäß einem der Ansprüche 1 bis 6 durchführen zu können, wenn das Programm auf einem Computer oder einem digitalen Signalprozessor ausgeführt wird.
  8. Computerprogramm-Produkt mit auf einem maschinenlesbaren Datenträger gespeicherten Programmcode-Mitteln, um alle Schritte gemäß einem der Ansprüche 1 bis 6 durchführen zu können, wenn das Programm auf einem Computer oder einem digitalen Signalprozessor ausgeführt wird.
DE102009016588A 2009-04-06 2009-04-06 Verfahren zur Ermittlung von Textinformationen Withdrawn DE102009016588A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102009016588A DE102009016588A1 (de) 2009-04-06 2009-04-06 Verfahren zur Ermittlung von Textinformationen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102009016588A DE102009016588A1 (de) 2009-04-06 2009-04-06 Verfahren zur Ermittlung von Textinformationen

Publications (1)

Publication Number Publication Date
DE102009016588A1 true DE102009016588A1 (de) 2010-10-14

Family

ID=42733169

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102009016588A Withdrawn DE102009016588A1 (de) 2009-04-06 2009-04-06 Verfahren zur Ermittlung von Textinformationen

Country Status (1)

Country Link
DE (1) DE102009016588A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10915671B2 (en) 2013-09-20 2021-02-09 Viewpoint, Inc. Methods and systems for processing building information modeling (BIM)-based data
US11200522B2 (en) 2012-06-18 2021-12-14 Viewpoint, Inc. System and method linking building information modeling and enterprise resource planning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HIRANO,T.,et.al.: Text and Layout Information Extraction from Document Files of Various Formats Based on the Analysis of Page Description Language. In: Proc.of the Ninth Int.Conference on Doc .Analysis and Recognition (ICDAR 2007),S.262-266 Abschnitt 3
HIRANO,T.,et.al.: Text and Layout Information Extraction from Document Files of Various Formats Based on the Analysis of Page Description Language. In: Proc.of the Ninth Int.Conference on Doc .Analysis and Recognition (ICDAR 2007),S.262-266 bschnitt 3$ *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11200522B2 (en) 2012-06-18 2021-12-14 Viewpoint, Inc. System and method linking building information modeling and enterprise resource planning
US11803791B2 (en) 2012-06-18 2023-10-31 Viewpoint, Inc. System and method linking building information modeling and enterprise resource planning
US10915671B2 (en) 2013-09-20 2021-02-09 Viewpoint, Inc. Methods and systems for processing building information modeling (BIM)-based data
US11263364B2 (en) 2013-09-20 2022-03-01 Viewpoint, Inc. Methods and systems for processing building information modeling (BIM)-based data

Similar Documents

Publication Publication Date Title
EP1665132B1 (de) Verfahren und system zum erfassen von daten aus mehreren maschinell lesbaren dokumenten
DE69727421T2 (de) Hypertext-Dokumentwiederauffindungssystem zum Wiederauffinden zusammengehöriger Hypertextdokumente
DE10300545B4 (de) Vorrichtung, Verfahren, Speichermedium und Datenstruktur zur Kennzeichnung und Speicherung von Daten
EP1975821A2 (de) Verfahren zur digitalen Speicherung von Daten auf einem Datenspeicher mit beschränktem verfügbarem Speicherplatz
DE112013000987T5 (de) Erzeugen von Visualisierungen einer Anzeigegruppe von Tags, die Inhaltsinstanzen in Suchkriterien erfüllenden Objekten darstellen
AT518805B1 (de) Verfahren zur Detektion von anomalen Zuständen in einem Computernetzwerk
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE102021209171A1 (de) System zum wählen eines lernenden modells
DE102009016588A1 (de) Verfahren zur Ermittlung von Textinformationen
DE102012025350A1 (de) Verarbeitungn eines elektronischen Dokuments
WO2012017056A1 (de) Verfahren und vorrichtung zur automatischen verarbeitung von daten in einem zellen-format
WO2011044865A1 (de) Verfahren zum bestimmen einer ähnlichkeit von objekten
DE102007018562A1 (de) Verfahren und Vorrichtung zur Ermittlung und Bereitstellung von Information zu einem Bild
DE4213533A1 (de) System zur automatisierten Analyse von zusammengesetzten Wörtern
DE10112587A1 (de) Verfahren und Vorrichtung zum rechnergestützten Ermitteln der Ähnlichkeit einer elektronischen ersten Zeichenkette mit einer elektronischen zweiten Zeichenkette, Computerlesbares Speichermedium und Computerprogramm-Element
DE19635351C2 (de) Verfahren zur Formatkonvertierung
DE102012109096A1 (de) Verfahren zur sequenziellen Bereitstellung von personalisierte Informationen repräsentierenden Daten, insbesondere in Form von Videos und dergleichen, insbesondere für ein personalisiertes Fernsehprogramm
EP1336922B1 (de) Verfahren und Vorrichtung zum automatischen Erstellen eines Datawarehouse
EP0563077B1 (de) Verfahren zum maschinellen ermitteln von in zwei datenfolgen enthaltenen gleichen datenelementen
WO2021043956A1 (de) Verfahren zum datenabgleich einer webseite
DE102004013132B4 (de) Datenstruktur und Verfahren zur Erstellung und Speicherung einer Datei
DE202022101133U1 (de) Ein konzeptionelles Suchsystem für den Abgleich von Patentähnlichkeiten
EP2797012B1 (de) Verfahren zur Markierung von vorgebbaren Mustern in einer strukturierten Datenmenge
DE112021007304T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungsprogramm
WO1997036250A1 (de) Verfahren zur datenkonvertierung

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
R012 Request for examination validly filed

Effective date: 20110412

R016 Response to examination communication
R002 Refusal decision in examination/registration proceedings
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20121101