DE102006011374A1 - Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen - Google Patents

Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen Download PDF

Info

Publication number
DE102006011374A1
DE102006011374A1 DE102006011374A DE102006011374A DE102006011374A1 DE 102006011374 A1 DE102006011374 A1 DE 102006011374A1 DE 102006011374 A DE102006011374 A DE 102006011374A DE 102006011374 A DE102006011374 A DE 102006011374A DE 102006011374 A1 DE102006011374 A1 DE 102006011374A1
Authority
DE
Germany
Prior art keywords
data
editorial
text
pdf
layout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102006011374A
Other languages
English (en)
Inventor
Wolfgang Resele
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Comyan Internet & Intranet Sol
Comyan Internet & Intranet Solutions GmbH
Original Assignee
Comyan Internet & Intranet Sol
Comyan Internet & Intranet Solutions GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Comyan Internet & Intranet Sol, Comyan Internet & Intranet Solutions GmbH filed Critical Comyan Internet & Intranet Sol
Priority to DE102006011374A priority Critical patent/DE102006011374A1/de
Publication of DE102006011374A1 publication Critical patent/DE102006011374A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Verfahren, welches Text- und Bild-Daten aus PDF-Seiten oder gescannten Seiten (allgemein: Seiten, die wenig inhaltliche Struktur aufweisen) auf spezielle Weise mit den dazugehörigen Daten aus den Redaktions/Layoutsystemen (Daten mit reicher Struktur) verbindet,
gekennzeichnet durch
1. Auslesen der unstrukturierten Text- und Layoutdaten aus den PDF-Seiten (Auslesen des PDF oder OCR, beispielsweise durch ein fertiges Werkzeug von Abbyy, Scansoft) und parallel Übernahme der dazugehörigen Daten aus dem/den Redaktions/Layoutsystem(en) (beispielsweise Adobe InDesign INX XML Daten) und intelligente Verknüpfung/Abgleich dieser Daten. Dabei werden doppelte Daten (aus beiden Systemen) eliminiert, beispielsweise durch einen Algorithmus wie unter Anspruch 3).
2. Die Herstellung der Textflüsse (Zusammenhang von Artikelfragmenten) erfolgt durch die Daten aus dem Redaktionssystem. Die Vollständigkeit der Texte auf einer Seite wird durch die Texte, die aus der PDF-Seite gewonnen wurden, sichergestellt. Die Position der Texte auf der Seite kann aus beiden Quellen gewonnen werden (es ist oft eine starke Erleichterung in der...

Description

  • Das Patent beschreibt ein Verfahren zur Konvertierung von Daten aus Print-Redaktions- und Layoutsystemen (beispielsweise Adobe InDesign, Quark XPress und datenbankbasierte Redaktionssysteme von Tageszeitungen) für die Nutzung in einem digitalen Archiv und in digitalen Ausgaben, beispielsweise für die Publikation am Internet (ePaper, Websites).
  • Hintergrund
  • Um die Daten aus Print-Redaktionssystemen von Zeitungen und Zeitschriften, sowie von Layout-Programmen wie beispielsweise Quark XPress oder Adobe InDesign in digitale Archive zu übernehmen und/oder diese als sog. „ePaper" am Internet zu publizieren (lesbar mit einem Web-Browser) wurden in der Vergangenheit verschiedene Verfahren entwickelt.
  • Die meisten der bekannten Verfahren lassen sich grob in zwei Gruppen einteilen (mit ihren Vor- und Nachteilen):
    • A) Die Daten der Print-Publikation werden ausschließlich als PDF (Adobe Portable Document Format) übernommen. Dieses PDF wird anschließend mit entsprechenden Algorithmen ausgelesen bzw. aufgebrochen, und daraus ein möglichst gutes und möglichst strukturiertes Bild von dem darin enthaltenen Inhalt (Artikel, Bilder, Tabellen, ...) zu erhalten. Aus diesen Daten wird das ePaper erzeugt bzw. diese Daten werden in das Archiv übernommen. Der Hauptvorteil des Verfahrens ist, dass es mit reinem PDF auskommt – ein Quasi-Standard der Branche, in dem nahezu allen als Print publizierten Daten heute erhältlich sind. Weiters sind in der PDF-Seite wirklich alle gedruckten Daten enthalten – auch Seiten oder Seitenteile, die nicht am eigenen Redaktions- oder Layoutsystem produziert wurden, sondern extern als fertig gestaltete Seitenteile geliefert wurden (Fernsehprogramm, Beilagen, aber auch Anzeigen). Selbst Daten, die nur als Bild vorhanden sind (gescannte Seiten, Altarchive) lassen sich verarbeiten, wenn OCR-(Optical Character Recognition) Algorithmen zum Einsatz kommen. Der Hauptnachteil dieses Verfahrens ist, dass PDF als ein sehr Print- und Seitenbelichterorientierter Standard im allgemeinen nur wenige Daten zur Dokumentenstruktur (vor allem der Zusammenhang von Textflüssen von Artikeln sowie Metadaten) enthält. Soll diese für die Archivierung vollständig wieder hergestellt werden, so erfordert das selbst bei Einsatz intelligenter Algorithmen meist aufwendige manuelle Nachbearbeitung der gewonnenen Daten (Korrektur/Verbinden von zusammengehörigen Textblöcken am Bildschirm, Eingabe von Metadaten). Da speziell bei Tageszeitungen diese Nachbearbeitung täglich und zeitnah erfolgen muss, ist das mit hohen Kosten verbunden. Ein bekannter Vertreter der ersten Gruppe von Verfahren ist die Firma Olive Software.
    • B) Die zweite Gruppe von Verfahren nutzt das PDF hauptsächlich als Bild der Seite, bezieht die Struktur und den Inhalt der (Text)Artikel jedoch ausschließlich aus dem Redaktionssystem. Da größere Redaktionssysteme meistens über gut strukturierte Datenbanken verfügen, stehen hier wesentlich mehr und qualitativ hochwertigere Informationen zur Verfügung. Der Hauptvorteil des zweiten Ansatzes ist daher die viel höhere Datenqualität, die vollkommen automatisch gewonnen werden kann. Der Hauptnachteil der zweiten Gruppe an Systemen ist erstens der einmalige Aufwand, der zur Anbindung der verschiedenen (stark herstellerspezifischen) Redaktionssysteme an das Archiv/ePaper erforderlich ist. Für diese Formate müssen jeweils eigene Übersetzer (Parser) entwickelt und gepflegt werden. (Ist der Parser einsatzbereit, so entstehen dafür täglich keine weiteren Kosten durch manuelle Nachbearbeitung.) Ein zweiter Nachteil des zweiten Ansatzes ist, dass Daten aus dem Redaktionssystem nur für die Teile verfügbar sind, die auch mit dem Redaktions/Layoutsystem produziert wurden. Dazu gehören meistens nicht fertig gelieferte Seitenteile, Beilagen und Anzeigen. Vertreter der zweiten Gruppe von Verfahren sind z.B. die Rheinzeitung, MSH DigiPaper und Comyan selbst (Comyan entwickelt seit 1993 Verfahren zur automatischen Konvertierung von Redaktionssystem-Inhalten von Tageszeitungen).
  • Erfindung
  • Um die Vorteile der beiden oben stehenden Verfahren zu verbinden, entwickelte Comyan ein erweitertes Verfahren, welches Daten aus den PDF-Seiten auf spezielle Weise mit Daten aus den Redaktions/Layoutsystemen verbindet.
  • Es ist gekennzeichnet durch die Patentansprüche (Seite 1).
  • Dieser eindeutige Textfluss ist es, der rein PDF-basierenden Systemen aus der Gruppe A) üblicherweise fehlt, bzw. sonst manuell hergestellt oder korrigiert werden muss. Gleichzeitig ist das Ergebnis des Verfahrens eine vollständige Seite (im Gegensatz zu Systemen aus der Gruppe B). Damit wurden die Vorteile beider Verfahren kombiniert und das Ergebnis liegt deutlich näher am theoretischen Optimum einer automatisch generierten und vollständigen und vollkommen richtig strukturierten Seite.

Claims (1)

  1. Verfahren, welches Text- und Bild-Daten aus PDF-Seiten oder gescannten Seiten (allgemein: Seiten, die wenig inhaltliche Struktur aufweisen) auf spezielle Weise mit den dazugehörigen Daten aus den Redaktions/Layoutsystemen (Daten mit reicher Struktur) verbindet, gekennzeichnet durch 1. Auslesen der unstrukturierten Text- und Layoutdaten aus den PDF-Seiten (Auslesen des PDF oder OCR, beispielsweise durch ein fertiges Werkzeug von Abbyy, Scansoft) und parallel Übernahme der dazugehörigen Daten aus dem/den Redaktions/Layoutsystem(en) (beispielsweise Adobe InDesign INX XML Daten) und intelligente Verknüpfung/Abgleich dieser Daten. Dabei werden doppelte Daten (aus beiden Systemen) eliminiert, beispielsweise durch einen Algorithmus wie unter Anspruch 3). 2. Die Herstellung der Textflüsse (Zusammenhang von Artikelfragmenten) erfolgt durch die Daten aus dem Redaktionssystem. Die Vollständigkeit der Texte auf einer Seite wird durch die Texte, die aus der PDF-Seite gewonnen wurden, sichergestellt. Die Position der Texte auf der Seite kann aus beiden Quellen gewonnen werden (es ist oft eine starke Erleichterung in der Entwicklung, wenn sie aus der OCR-Quelle gewonnen wird). 3. Der Abgleich der Textteile (Teile, die aus der PDF Seite kommen, Teile, die aus dem Redaktions/Layoutsystem kommen) erfolgt durch einen Algorithmus, der die Textteile aus der PDF-Seite aufgrund der Häufigkeit von darin vorkommenden Wörtern mit den Textteilen aus dem Redaktionssystem vergleicht. Wird eine hinreichende Übereinstimmung gefunden, so wird der Textteil aus der PDF-Seite dem Textfluss aus dem Redaktionssystem zugeordnet. Nach Abschluss der Vergleiche und Zuordnungen ergibt sich für alle Texte, die in beiden Systemen vorkommen, ein eindeutiger Fluss. Alternativ kann diese Zuordnung auch geometrisch (aufgrund der Lage auf der Seite) erfolgen; dies ist jedoch aufwendiger, da die Geometrie der Artikelteile aus dem Redaktionssystem bekannt sein muss (ist sie nicht immer).
DE102006011374A 2006-03-09 2006-03-09 Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen Withdrawn DE102006011374A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102006011374A DE102006011374A1 (de) 2006-03-09 2006-03-09 Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102006011374A DE102006011374A1 (de) 2006-03-09 2006-03-09 Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen

Publications (1)

Publication Number Publication Date
DE102006011374A1 true DE102006011374A1 (de) 2007-09-13

Family

ID=38336096

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102006011374A Withdrawn DE102006011374A1 (de) 2006-03-09 2006-03-09 Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen

Country Status (1)

Country Link
DE (1) DE102006011374A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100555275C (zh) * 2007-09-25 2009-10-28 北大方正集团有限公司 一种拼版的方法及装置
US9753620B2 (en) 2014-08-01 2017-09-05 Axure Software Solutions, Inc. Method, system and computer program product for facilitating the prototyping and previewing of dynamic interactive graphical design widget state transitions in an interactive documentation environment

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB809507A (en) * 1954-09-16 1959-02-25 Electronique & Automatisme Sa Improvements in or relating to electric digital computers
DE10106031A1 (de) * 2000-02-15 2001-08-16 Vhsoft Technologies Company Lt Computer-automatisiertes Verfahren und System zur Verwaltung von technischen Zeichnungen
DE10204751B4 (de) * 2002-02-06 2005-03-03 Heidelberger Druckmaschinen Ag Verfahren zur Konvertierung eines Linework Datenformats in das Format einer Seitenbeschreibungssprache

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB809507A (en) * 1954-09-16 1959-02-25 Electronique & Automatisme Sa Improvements in or relating to electric digital computers
DE10106031A1 (de) * 2000-02-15 2001-08-16 Vhsoft Technologies Company Lt Computer-automatisiertes Verfahren und System zur Verwaltung von technischen Zeichnungen
DE10204751B4 (de) * 2002-02-06 2005-03-03 Heidelberger Druckmaschinen Ag Verfahren zur Konvertierung eines Linework Datenformats in das Format einer Seitenbeschreibungssprache

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100555275C (zh) * 2007-09-25 2009-10-28 北大方正集团有限公司 一种拼版的方法及装置
US9753620B2 (en) 2014-08-01 2017-09-05 Axure Software Solutions, Inc. Method, system and computer program product for facilitating the prototyping and previewing of dynamic interactive graphical design widget state transitions in an interactive documentation environment
US10275131B2 (en) 2014-08-01 2019-04-30 Axure Software Solutions, Inc. Facilitating the prototyping and previewing of design element state transitions in a graphical design environment
US10983678B2 (en) 2014-08-01 2021-04-20 Axure Software Solutions, Inc. Facilitating the prototyping and previewing of design element state transitions in a graphical design environment

Similar Documents

Publication Publication Date Title
DE10250842B4 (de) Verfahren, Computerprogrammprodukt und Vorrichtung zum Verarbeiten eines Dokumentendatenstroms eines Eingangsformates zu einem Ausgangsformat
EP1215589A2 (de) Bereitstellung von Projektdaten in einem durch eine standardisierte Meta-Sprache definiertem Format
DE102006011374A1 (de) Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen
WO2005106641A2 (de) Verfahren, vorrichtung und computerprogrammprodukt zum erzeugen eines seiten- und/oder bereichsstrukturierten datenstroms aus einem zeilendatenstrom
CN101388002B (zh) 一种自动生成折手专色标记的方法及系统
WO2002008951A1 (de) System und verfahren zur generierung eines xml-basierten fehlermodells
EP3163430A1 (de) Verfahren zur erstellung von vorstufendaten für druckaufträge durch ein layout-programm
DE102016218656A1 (de) Verfahren zur Generierung eines User-Interfaces in Form einer Mindmap
DE60026325T2 (de) Programmbasierte methode zur simultanen assoziierung von mehreren geordneten seiten mit mehreren seitenumbrüchen
DE102015115797B4 (de) Verfahren zum Erzeugen von elektronischen Dokumenten
Ralle Maschinenlesbar-menschenlesbar.
DE102004056001A1 (de) Vorrichtung zum Handling von Montage- und Prüfanweisungen
DE102009016588A1 (de) Verfahren zur Ermittlung von Textinformationen
EP3266734B1 (de) Automatisiertes falzverfahren
DE10314548B4 (de) Verfahren, Computer und Computerprogrammmodule zur Übertragung von Daten in einem Computernetzwerk
Azzano CAT und MÜ–Getrennte Welten?
Marzouk Sprachkontrolle im Spiegel der Maschinellen Übersetzung: Untersuchung zur Wechselwirkung ausgewählter Regeln der Kontrollierten Sprache mit verschiedenen Ansätzen der Maschinellen Übersetzung
DE3129560A1 (de) Steuerschaltung fuer einen drucker
DE10049144A1 (de) Integriertes Medienverwaltungs- und aufbereitungssystem
EP2810191A1 (de) Zuordnung von bezeichnungen für messsignale und geräte aus einem ersten kennzeichensystem zu einem zweiten kennzeichensystem innerhalb einer projektierung einer technischen anlage
EP3742278A1 (de) Seitenbezogene steuerungsdaten
WO2011026505A1 (de) Verfahren zur informationsgewinnung, -aufbereitung und -bereitstellung
DE102018213288A1 (de) System zum Erstellen und Verwalten eines kommentierbaren elektronischen Buches, entsprechendes Computerprogramm, sowie Verfahren zum Erstellen
EP3098708A1 (de) Verfahren zum verarbeiten eines druckauftrags in einer computergestützten druckvorstufe
DE102004052003A1 (de) Verfahren zum automatischen Übersetzen eines Dokuments

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
R005 Application deemed withdrawn due to failure to request examination

Effective date: 20130312