DE102006011374A1 - Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen - Google Patents
Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen Download PDFInfo
- Publication number
- DE102006011374A1 DE102006011374A1 DE102006011374A DE102006011374A DE102006011374A1 DE 102006011374 A1 DE102006011374 A1 DE 102006011374A1 DE 102006011374 A DE102006011374 A DE 102006011374A DE 102006011374 A DE102006011374 A DE 102006011374A DE 102006011374 A1 DE102006011374 A1 DE 102006011374A1
- Authority
- DE
- Germany
- Prior art keywords
- data
- editorial
- text
- layout
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
Verfahren,
welches Text- und Bild-Daten aus PDF-Seiten oder gescannten Seiten
(allgemein: Seiten, die wenig inhaltliche Struktur aufweisen) auf
spezielle Weise mit den dazugehörigen
Daten aus den Redaktions/Layoutsystemen (Daten mit reicher Struktur)
verbindet,
gekennzeichnet durch
1. Auslesen der unstrukturierten Text- und Layoutdaten aus den PDF-Seiten (Auslesen des PDF oder OCR, beispielsweise durch ein fertiges Werkzeug von Abbyy, Scansoft) und parallel Übernahme der dazugehörigen Daten aus dem/den Redaktions/Layoutsystem(en) (beispielsweise Adobe InDesign INX XML Daten) und intelligente Verknüpfung/Abgleich dieser Daten. Dabei werden doppelte Daten (aus beiden Systemen) eliminiert, beispielsweise durch einen Algorithmus wie unter Anspruch 3).
2. Die Herstellung der Textflüsse (Zusammenhang von Artikelfragmenten) erfolgt durch die Daten aus dem Redaktionssystem. Die Vollständigkeit der Texte auf einer Seite wird durch die Texte, die aus der PDF-Seite gewonnen wurden, sichergestellt. Die Position der Texte auf der Seite kann aus beiden Quellen gewonnen werden (es ist oft eine starke Erleichterung in der...
gekennzeichnet durch
1. Auslesen der unstrukturierten Text- und Layoutdaten aus den PDF-Seiten (Auslesen des PDF oder OCR, beispielsweise durch ein fertiges Werkzeug von Abbyy, Scansoft) und parallel Übernahme der dazugehörigen Daten aus dem/den Redaktions/Layoutsystem(en) (beispielsweise Adobe InDesign INX XML Daten) und intelligente Verknüpfung/Abgleich dieser Daten. Dabei werden doppelte Daten (aus beiden Systemen) eliminiert, beispielsweise durch einen Algorithmus wie unter Anspruch 3).
2. Die Herstellung der Textflüsse (Zusammenhang von Artikelfragmenten) erfolgt durch die Daten aus dem Redaktionssystem. Die Vollständigkeit der Texte auf einer Seite wird durch die Texte, die aus der PDF-Seite gewonnen wurden, sichergestellt. Die Position der Texte auf der Seite kann aus beiden Quellen gewonnen werden (es ist oft eine starke Erleichterung in der...
Description
- Das Patent beschreibt ein Verfahren zur Konvertierung von Daten aus Print-Redaktions- und Layoutsystemen (beispielsweise Adobe InDesign, Quark XPress und datenbankbasierte Redaktionssysteme von Tageszeitungen) für die Nutzung in einem digitalen Archiv und in digitalen Ausgaben, beispielsweise für die Publikation am Internet (ePaper, Websites).
- Hintergrund
- Um die Daten aus Print-Redaktionssystemen von Zeitungen und Zeitschriften, sowie von Layout-Programmen wie beispielsweise Quark XPress oder Adobe InDesign in digitale Archive zu übernehmen und/oder diese als sog. „ePaper" am Internet zu publizieren (lesbar mit einem Web-Browser) wurden in der Vergangenheit verschiedene Verfahren entwickelt.
- Die meisten der bekannten Verfahren lassen sich grob in zwei Gruppen einteilen (mit ihren Vor- und Nachteilen):
- A) Die Daten der Print-Publikation werden ausschließlich als PDF (Adobe Portable Document Format) übernommen. Dieses PDF wird anschließend mit entsprechenden Algorithmen ausgelesen bzw. aufgebrochen, und daraus ein möglichst gutes und möglichst strukturiertes Bild von dem darin enthaltenen Inhalt (Artikel, Bilder, Tabellen, ...) zu erhalten. Aus diesen Daten wird das ePaper erzeugt bzw. diese Daten werden in das Archiv übernommen. Der Hauptvorteil des Verfahrens ist, dass es mit reinem PDF auskommt – ein Quasi-Standard der Branche, in dem nahezu allen als Print publizierten Daten heute erhältlich sind. Weiters sind in der PDF-Seite wirklich alle gedruckten Daten enthalten – auch Seiten oder Seitenteile, die nicht am eigenen Redaktions- oder Layoutsystem produziert wurden, sondern extern als fertig gestaltete Seitenteile geliefert wurden (Fernsehprogramm, Beilagen, aber auch Anzeigen). Selbst Daten, die nur als Bild vorhanden sind (gescannte Seiten, Altarchive) lassen sich verarbeiten, wenn OCR-(Optical Character Recognition) Algorithmen zum Einsatz kommen. Der Hauptnachteil dieses Verfahrens ist, dass PDF als ein sehr Print- und Seitenbelichterorientierter Standard im allgemeinen nur wenige Daten zur Dokumentenstruktur (vor allem der Zusammenhang von Textflüssen von Artikeln sowie Metadaten) enthält. Soll diese für die Archivierung vollständig wieder hergestellt werden, so erfordert das selbst bei Einsatz intelligenter Algorithmen meist aufwendige manuelle Nachbearbeitung der gewonnenen Daten (Korrektur/Verbinden von zusammengehörigen Textblöcken am Bildschirm, Eingabe von Metadaten). Da speziell bei Tageszeitungen diese Nachbearbeitung täglich und zeitnah erfolgen muss, ist das mit hohen Kosten verbunden. Ein bekannter Vertreter der ersten Gruppe von Verfahren ist die Firma Olive Software.
- B) Die zweite Gruppe von Verfahren nutzt das PDF hauptsächlich als Bild der Seite, bezieht die Struktur und den Inhalt der (Text)Artikel jedoch ausschließlich aus dem Redaktionssystem. Da größere Redaktionssysteme meistens über gut strukturierte Datenbanken verfügen, stehen hier wesentlich mehr und qualitativ hochwertigere Informationen zur Verfügung. Der Hauptvorteil des zweiten Ansatzes ist daher die viel höhere Datenqualität, die vollkommen automatisch gewonnen werden kann. Der Hauptnachteil der zweiten Gruppe an Systemen ist erstens der einmalige Aufwand, der zur Anbindung der verschiedenen (stark herstellerspezifischen) Redaktionssysteme an das Archiv/ePaper erforderlich ist. Für diese Formate müssen jeweils eigene Übersetzer (Parser) entwickelt und gepflegt werden. (Ist der Parser einsatzbereit, so entstehen dafür täglich keine weiteren Kosten durch manuelle Nachbearbeitung.) Ein zweiter Nachteil des zweiten Ansatzes ist, dass Daten aus dem Redaktionssystem nur für die Teile verfügbar sind, die auch mit dem Redaktions/Layoutsystem produziert wurden. Dazu gehören meistens nicht fertig gelieferte Seitenteile, Beilagen und Anzeigen. Vertreter der zweiten Gruppe von Verfahren sind z.B. die Rheinzeitung, MSH DigiPaper und Comyan selbst (Comyan entwickelt seit 1993 Verfahren zur automatischen Konvertierung von Redaktionssystem-Inhalten von Tageszeitungen).
- Erfindung
- Um die Vorteile der beiden oben stehenden Verfahren zu verbinden, entwickelte Comyan ein erweitertes Verfahren, welches Daten aus den PDF-Seiten auf spezielle Weise mit Daten aus den Redaktions/Layoutsystemen verbindet.
- Es ist gekennzeichnet durch die Patentansprüche (Seite 1).
- Dieser eindeutige Textfluss ist es, der rein PDF-basierenden Systemen aus der Gruppe A) üblicherweise fehlt, bzw. sonst manuell hergestellt oder korrigiert werden muss. Gleichzeitig ist das Ergebnis des Verfahrens eine vollständige Seite (im Gegensatz zu Systemen aus der Gruppe B). Damit wurden die Vorteile beider Verfahren kombiniert und das Ergebnis liegt deutlich näher am theoretischen Optimum einer automatisch generierten und vollständigen und vollkommen richtig strukturierten Seite.
Claims (1)
- Verfahren, welches Text- und Bild-Daten aus PDF-Seiten oder gescannten Seiten (allgemein: Seiten, die wenig inhaltliche Struktur aufweisen) auf spezielle Weise mit den dazugehörigen Daten aus den Redaktions/Layoutsystemen (Daten mit reicher Struktur) verbindet, gekennzeichnet durch 1. Auslesen der unstrukturierten Text- und Layoutdaten aus den PDF-Seiten (Auslesen des PDF oder OCR, beispielsweise durch ein fertiges Werkzeug von Abbyy, Scansoft) und parallel Übernahme der dazugehörigen Daten aus dem/den Redaktions/Layoutsystem(en) (beispielsweise Adobe InDesign INX XML Daten) und intelligente Verknüpfung/Abgleich dieser Daten. Dabei werden doppelte Daten (aus beiden Systemen) eliminiert, beispielsweise durch einen Algorithmus wie unter Anspruch 3). 2. Die Herstellung der Textflüsse (Zusammenhang von Artikelfragmenten) erfolgt durch die Daten aus dem Redaktionssystem. Die Vollständigkeit der Texte auf einer Seite wird durch die Texte, die aus der PDF-Seite gewonnen wurden, sichergestellt. Die Position der Texte auf der Seite kann aus beiden Quellen gewonnen werden (es ist oft eine starke Erleichterung in der Entwicklung, wenn sie aus der OCR-Quelle gewonnen wird). 3. Der Abgleich der Textteile (Teile, die aus der PDF Seite kommen, Teile, die aus dem Redaktions/Layoutsystem kommen) erfolgt durch einen Algorithmus, der die Textteile aus der PDF-Seite aufgrund der Häufigkeit von darin vorkommenden Wörtern mit den Textteilen aus dem Redaktionssystem vergleicht. Wird eine hinreichende Übereinstimmung gefunden, so wird der Textteil aus der PDF-Seite dem Textfluss aus dem Redaktionssystem zugeordnet. Nach Abschluss der Vergleiche und Zuordnungen ergibt sich für alle Texte, die in beiden Systemen vorkommen, ein eindeutiger Fluss. Alternativ kann diese Zuordnung auch geometrisch (aufgrund der Lage auf der Seite) erfolgen; dies ist jedoch aufwendiger, da die Geometrie der Artikelteile aus dem Redaktionssystem bekannt sein muss (ist sie nicht immer).
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102006011374A DE102006011374A1 (de) | 2006-03-09 | 2006-03-09 | Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102006011374A DE102006011374A1 (de) | 2006-03-09 | 2006-03-09 | Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE102006011374A1 true DE102006011374A1 (de) | 2007-09-13 |
Family
ID=38336096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE102006011374A Withdrawn DE102006011374A1 (de) | 2006-03-09 | 2006-03-09 | Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE102006011374A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100555275C (zh) * | 2007-09-25 | 2009-10-28 | 北大方正集团有限公司 | 一种拼版的方法及装置 |
US9753620B2 (en) | 2014-08-01 | 2017-09-05 | Axure Software Solutions, Inc. | Method, system and computer program product for facilitating the prototyping and previewing of dynamic interactive graphical design widget state transitions in an interactive documentation environment |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB809507A (en) * | 1954-09-16 | 1959-02-25 | Electronique & Automatisme Sa | Improvements in or relating to electric digital computers |
DE10106031A1 (de) * | 2000-02-15 | 2001-08-16 | Vhsoft Technologies Company Lt | Computer-automatisiertes Verfahren und System zur Verwaltung von technischen Zeichnungen |
DE10204751B4 (de) * | 2002-02-06 | 2005-03-03 | Heidelberger Druckmaschinen Ag | Verfahren zur Konvertierung eines Linework Datenformats in das Format einer Seitenbeschreibungssprache |
-
2006
- 2006-03-09 DE DE102006011374A patent/DE102006011374A1/de not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB809507A (en) * | 1954-09-16 | 1959-02-25 | Electronique & Automatisme Sa | Improvements in or relating to electric digital computers |
DE10106031A1 (de) * | 2000-02-15 | 2001-08-16 | Vhsoft Technologies Company Lt | Computer-automatisiertes Verfahren und System zur Verwaltung von technischen Zeichnungen |
DE10204751B4 (de) * | 2002-02-06 | 2005-03-03 | Heidelberger Druckmaschinen Ag | Verfahren zur Konvertierung eines Linework Datenformats in das Format einer Seitenbeschreibungssprache |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100555275C (zh) * | 2007-09-25 | 2009-10-28 | 北大方正集团有限公司 | 一种拼版的方法及装置 |
US9753620B2 (en) | 2014-08-01 | 2017-09-05 | Axure Software Solutions, Inc. | Method, system and computer program product for facilitating the prototyping and previewing of dynamic interactive graphical design widget state transitions in an interactive documentation environment |
US10275131B2 (en) | 2014-08-01 | 2019-04-30 | Axure Software Solutions, Inc. | Facilitating the prototyping and previewing of design element state transitions in a graphical design environment |
US10983678B2 (en) | 2014-08-01 | 2021-04-20 | Axure Software Solutions, Inc. | Facilitating the prototyping and previewing of design element state transitions in a graphical design environment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10250842B4 (de) | Verfahren, Computerprogrammprodukt und Vorrichtung zum Verarbeiten eines Dokumentendatenstroms eines Eingangsformates zu einem Ausgangsformat | |
EP1215589A2 (de) | Bereitstellung von Projektdaten in einem durch eine standardisierte Meta-Sprache definiertem Format | |
DE102006011374A1 (de) | Verfahren zur automatisierten Umwandlung von Daten aus Redaktions- und Layoutsystemen | |
WO2005106641A2 (de) | Verfahren, vorrichtung und computerprogrammprodukt zum erzeugen eines seiten- und/oder bereichsstrukturierten datenstroms aus einem zeilendatenstrom | |
CN101388002B (zh) | 一种自动生成折手专色标记的方法及系统 | |
WO2002008951A1 (de) | System und verfahren zur generierung eines xml-basierten fehlermodells | |
EP3163430A1 (de) | Verfahren zur erstellung von vorstufendaten für druckaufträge durch ein layout-programm | |
DE102016218656A1 (de) | Verfahren zur Generierung eines User-Interfaces in Form einer Mindmap | |
DE60026325T2 (de) | Programmbasierte methode zur simultanen assoziierung von mehreren geordneten seiten mit mehreren seitenumbrüchen | |
DE102015115797B4 (de) | Verfahren zum Erzeugen von elektronischen Dokumenten | |
Ralle | Maschinenlesbar-menschenlesbar. | |
DE102004056001A1 (de) | Vorrichtung zum Handling von Montage- und Prüfanweisungen | |
DE102009016588A1 (de) | Verfahren zur Ermittlung von Textinformationen | |
EP3266734B1 (de) | Automatisiertes falzverfahren | |
DE10314548B4 (de) | Verfahren, Computer und Computerprogrammmodule zur Übertragung von Daten in einem Computernetzwerk | |
Azzano | CAT und MÜ–Getrennte Welten? | |
Marzouk | Sprachkontrolle im Spiegel der Maschinellen Übersetzung: Untersuchung zur Wechselwirkung ausgewählter Regeln der Kontrollierten Sprache mit verschiedenen Ansätzen der Maschinellen Übersetzung | |
DE3129560A1 (de) | Steuerschaltung fuer einen drucker | |
DE10049144A1 (de) | Integriertes Medienverwaltungs- und aufbereitungssystem | |
EP2810191A1 (de) | Zuordnung von bezeichnungen für messsignale und geräte aus einem ersten kennzeichensystem zu einem zweiten kennzeichensystem innerhalb einer projektierung einer technischen anlage | |
EP3742278A1 (de) | Seitenbezogene steuerungsdaten | |
WO2011026505A1 (de) | Verfahren zur informationsgewinnung, -aufbereitung und -bereitstellung | |
DE102018213288A1 (de) | System zum Erstellen und Verwalten eines kommentierbaren elektronischen Buches, entsprechendes Computerprogramm, sowie Verfahren zum Erstellen | |
EP3098708A1 (de) | Verfahren zum verarbeiten eines druckauftrags in einer computergestützten druckvorstufe | |
DE102004052003A1 (de) | Verfahren zum automatischen Übersetzen eines Dokuments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
R005 | Application deemed withdrawn due to failure to request examination |
Effective date: 20130312 |