DE102006011374A1

DE102006011374A1 - Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen

Info

Publication number: DE102006011374A1
Application number: DE102006011374A
Authority: DE
Inventors: Wolfgang Resele
Original assignee: Comyan Internet & Intranet Sol; Comyan Internet & Intranet Solutions GmbH
Current assignee: Comyan Internet & Intranet Sol; Comyan Internet & Intranet Solutions GmbH
Priority date: 2006-03-09
Filing date: 2006-03-09
Publication date: 2007-09-13

Abstract

Verfahren, welches Text- und Bild-Daten aus PDF-Seiten oder gescannten Seiten (allgemein: Seiten, die wenig inhaltliche Struktur aufweisen) auf spezielle Weise mit den dazugehörigen Daten aus den Redaktions/Layoutsystemen (Daten mit reicher Struktur) verbindet,
gekennzeichnet durch
1. Auslesen der unstrukturierten Text- und Layoutdaten aus den PDF-Seiten (Auslesen des PDF oder OCR, beispielsweise durch ein fertiges Werkzeug von Abbyy, Scansoft) und parallel Übernahme der dazugehörigen Daten aus dem/den Redaktions/Layoutsystem(en) (beispielsweise Adobe InDesign INX XML Daten) und intelligente Verknüpfung/Abgleich dieser Daten. Dabei werden doppelte Daten (aus beiden Systemen) eliminiert, beispielsweise durch einen Algorithmus wie unter Anspruch 3).
2. Die Herstellung der Textflüsse (Zusammenhang von Artikelfragmenten) erfolgt durch die Daten aus dem Redaktionssystem. Die Vollständigkeit der Texte auf einer Seite wird durch die Texte, die aus der PDF-Seite gewonnen wurden, sichergestellt. Die Position der Texte auf der Seite kann aus beiden Quellen gewonnen werden (es ist oft eine starke Erleichterung in der...

Description

Das Patent beschreibt ein Verfahren zur Konvertierung von Daten aus Print-Redaktions- und Layoutsystemen (beispielsweise Adobe InDesign, Quark XPress und datenbankbasierte Redaktionssysteme von Tageszeitungen) für die Nutzung in einem digitalen Archiv und in digitalen Ausgaben, beispielsweise für die Publikation am Internet (ePaper, Websites).

Hintergrund

Um die Daten aus Print-Redaktionssystemen von Zeitungen und Zeitschriften, sowie von Layout-Programmen wie beispielsweise Quark XPress oder Adobe InDesign in digitale Archive zu übernehmen und/oder diese als sog. „ePaper" am Internet zu publizieren (lesbar mit einem Web-Browser) wurden in der Vergangenheit verschiedene Verfahren entwickelt.

Die meisten der bekannten Verfahren lassen sich grob in zwei Gruppen einteilen (mit ihren Vor- und Nachteilen):

A) Die Daten der Print-Publikation werden ausschließlich als PDF (Adobe Portable Document Format) übernommen. Dieses PDF wird anschließend mit entsprechenden Algorithmen ausgelesen bzw. aufgebrochen, und daraus ein möglichst gutes und möglichst strukturiertes Bild von dem darin enthaltenen Inhalt (Artikel, Bilder, Tabellen, ...) zu erhalten. Aus diesen Daten wird das ePaper erzeugt bzw. diese Daten werden in das Archiv übernommen. Der Hauptvorteil des Verfahrens ist, dass es mit reinem PDF auskommt – ein Quasi-Standard der Branche, in dem nahezu allen als Print publizierten Daten heute erhältlich sind. Weiters sind in der PDF-Seite wirklich alle gedruckten Daten enthalten – auch Seiten oder Seitenteile, die nicht am eigenen Redaktions- oder Layoutsystem produziert wurden, sondern extern als fertig gestaltete Seitenteile geliefert wurden (Fernsehprogramm, Beilagen, aber auch Anzeigen). Selbst Daten, die nur als Bild vorhanden sind (gescannte Seiten, Altarchive) lassen sich verarbeiten, wenn OCR-(Optical Character Recognition) Algorithmen zum Einsatz kommen. Der Hauptnachteil dieses Verfahrens ist, dass PDF als ein sehr Print- und Seitenbelichterorientierter Standard im allgemeinen nur wenige Daten zur Dokumentenstruktur (vor allem der Zusammenhang von Textflüssen von Artikeln sowie Metadaten) enthält. Soll diese für die Archivierung vollständig wieder hergestellt werden, so erfordert das selbst bei Einsatz intelligenter Algorithmen meist aufwendige manuelle Nachbearbeitung der gewonnenen Daten (Korrektur/Verbinden von zusammengehörigen Textblöcken am Bildschirm, Eingabe von Metadaten). Da speziell bei Tageszeitungen diese Nachbearbeitung täglich und zeitnah erfolgen muss, ist das mit hohen Kosten verbunden. Ein bekannter Vertreter der ersten Gruppe von Verfahren ist die Firma Olive Software.
B) Die zweite Gruppe von Verfahren nutzt das PDF hauptsächlich als Bild der Seite, bezieht die Struktur und den Inhalt der (Text)Artikel jedoch ausschließlich aus dem Redaktionssystem. Da größere Redaktionssysteme meistens über gut strukturierte Datenbanken verfügen, stehen hier wesentlich mehr und qualitativ hochwertigere Informationen zur Verfügung. Der Hauptvorteil des zweiten Ansatzes ist daher die viel höhere Datenqualität, die vollkommen automatisch gewonnen werden kann. Der Hauptnachteil der zweiten Gruppe an Systemen ist erstens der einmalige Aufwand, der zur Anbindung der verschiedenen (stark herstellerspezifischen) Redaktionssysteme an das Archiv/ePaper erforderlich ist. Für diese Formate müssen jeweils eigene Übersetzer (Parser) entwickelt und gepflegt werden. (Ist der Parser einsatzbereit, so entstehen dafür täglich keine weiteren Kosten durch manuelle Nachbearbeitung.) Ein zweiter Nachteil des zweiten Ansatzes ist, dass Daten aus dem Redaktionssystem nur für die Teile verfügbar sind, die auch mit dem Redaktions/Layoutsystem produziert wurden. Dazu gehören meistens nicht fertig gelieferte Seitenteile, Beilagen und Anzeigen. Vertreter der zweiten Gruppe von Verfahren sind z.B. die Rheinzeitung, MSH DigiPaper und Comyan selbst (Comyan entwickelt seit 1993 Verfahren zur automatischen Konvertierung von Redaktionssystem-Inhalten von Tageszeitungen).

Erfindung

Um die Vorteile der beiden oben stehenden Verfahren zu verbinden, entwickelte Comyan ein erweitertes Verfahren, welches Daten aus den PDF-Seiten auf spezielle Weise mit Daten aus den Redaktions/Layoutsystemen verbindet.

Es ist gekennzeichnet durch die Patentansprüche (Seite 1).
Dieser eindeutige Textfluss ist es, der rein PDF-basierenden Systemen aus der Gruppe A) üblicherweise fehlt, bzw. sonst manuell hergestellt oder korrigiert werden muss. Gleichzeitig ist das Ergebnis des Verfahrens eine vollständige Seite (im Gegensatz zu Systemen aus der Gruppe B). Damit wurden die Vorteile beider Verfahren kombiniert und das Ergebnis liegt deutlich näher am theoretischen Optimum einer automatisch generierten und vollständigen und vollkommen richtig strukturierten Seite.

Claims

Verfahren, welches Text- und Bild-Daten aus PDF-Seiten oder gescannten Seiten (allgemein: Seiten, die wenig inhaltliche Struktur aufweisen) auf spezielle Weise mit den dazugehörigen Daten aus den Redaktions/Layoutsystemen (Daten mit reicher Struktur) verbindet, gekennzeichnet durch 1. Auslesen der unstrukturierten Text- und Layoutdaten aus den PDF-Seiten (Auslesen des PDF oder OCR, beispielsweise durch ein fertiges Werkzeug von Abbyy, Scansoft) und parallel Übernahme der dazugehörigen Daten aus dem/den Redaktions/Layoutsystem(en) (beispielsweise Adobe InDesign INX XML Daten) und intelligente Verknüpfung/Abgleich dieser Daten. Dabei werden doppelte Daten (aus beiden Systemen) eliminiert, beispielsweise durch einen Algorithmus wie unter Anspruch 3). 2. Die Herstellung der Textflüsse (Zusammenhang von Artikelfragmenten) erfolgt durch die Daten aus dem Redaktionssystem. Die Vollständigkeit der Texte auf einer Seite wird durch die Texte, die aus der PDF-Seite gewonnen wurden, sichergestellt. Die Position der Texte auf der Seite kann aus beiden Quellen gewonnen werden (es ist oft eine starke Erleichterung in der Entwicklung, wenn sie aus der OCR-Quelle gewonnen wird). 3. Der Abgleich der Textteile (Teile, die aus der PDF Seite kommen, Teile, die aus dem Redaktions/Layoutsystem kommen) erfolgt durch einen Algorithmus, der die Textteile aus der PDF-Seite aufgrund der Häufigkeit von darin vorkommenden Wörtern mit den Textteilen aus dem Redaktionssystem vergleicht. Wird eine hinreichende Übereinstimmung gefunden, so wird der Textteil aus der PDF-Seite dem Textfluss aus dem Redaktionssystem zugeordnet. Nach Abschluss der Vergleiche und Zuordnungen ergibt sich für alle Texte, die in beiden Systemen vorkommen, ein eindeutiger Fluss. Alternativ kann diese Zuordnung auch geometrisch (aufgrund der Lage auf der Seite) erfolgen; dies ist jedoch aufwendiger, da die Geometrie der Artikelteile aus dem Redaktionssystem bekannt sein muss (ist sie nicht immer).